-ocr page 1-

ISSN 0166-591 X

TIJDSCHRIFT
VOOR

ONDERWIJS
RESEARCH

Redactie:

Ben P.M. Creemers (sccrcinri.s)
Christiaan Hamaker
Hcmadeltc van Mout Wolters
Leo J.Th. van der Kamp
Gellof Kanselaar
G. Wim Meijnen
Johan M.M. van der Sanden
Lieven Verschaffel
Marinus J.M. Voeten
Wynand H.F.W. Wijnen

VERENIGING VOOR ONDERWIJSRESEARCH

-ocr page 2-

Artikelen

Een foutencategorieën-systeem en zijn toepassing in een computer-gestuurde remediële

rekentraining. M.WJ. Baltussen en E.C.D.M. van Lieshout 279

Mentale rekenprocedures in het getallengebied 20-100 onderzocht met reactietijdmeting

en tempotoetsen.M. Beishuizen, G. Wolters en G. Broers 19

De consistentie van schooleffecten in het basisonderwijs. R.J. Bosker 206

De contextgebondenheid van effectiviteitsbevorderende schoolkenmerken. H. Brandsma

en A. Knuver 219

Item-specifieke verschillen in de prestaties van jongens en meisjes bij tekstbegripexamens

moderne vreemde talen. K. Bügel en C. Glas 337

Onderwijseffectiviteit: overwegingen voor een programma van onderzoek. B.P.M.

Creemers en J. Scheerens 193

Educatieve instrumentatietechnologie: het einde van de onderwijskunde. A. Dirkzwager 39
Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs.
W. van de Grift

en W. Akker mans 244

Weighting two- and four-choice items. D.N.M. de Gruijter 65

Latente budget analyse en onderzoek naar schoolloopbanen. P.G.M. van der Heijden en

LJ.Th. van der Kamp 297

Idiographic correlation: modeling judgments of agreement between school grades. W.K.B.

Hofstee and F.E. Zegers 331

Gaan psychologen, (ortho-) pedagogen en onderwijskundigen in de leerlingbegeleiding

verschillend te werk? M.G.H. Jansen en W. Meijer 160

De diagnose van foute oplossingen van moeilijk lerende kinderen bij eenvoudige

redactieopgaven. M.W.M. Jaspers en E.C.D.M. van Lieshout 129

Hoe beïnvloedt praktijkervaring diagnostisch probleemoplossen in het onderwijs? T.H.

Kruizenga en A.G. Bus 321

De correlationele structuur van taalvaardigheid: een exploratie. H. Kuhlemeier en H. van

den Bergh 143

De invloed van docenten op de sekseverschillen met betrekking tot wiskunde. H. Kuyper cn

M.P.C. van der Werf 3

Leren begrijpen van anaforische relaties in teksten: effecten van instructie in jaargroep vijf

van het basisonderwijs. E.C. Roelofs, CAJ. Aarnoutse cn MJ.M. Voeten 93

De constructie en interne validering van een meerkeuzetoets voor het meten van schrijf-
vaardigheid .
E. van Schooten en K. de Glopper 72
Leren en transfer: het gebruik van een leerkiem. //.
Vos 261
Effectief onderwijs voor allochtone leerlingen.
M.P.C. van der Werf en M.G. Weide 231
Een kunstmatige, maar intelligente oplo.ssing voor de werkwoordsspelling.
J. Zuide-
man en J. Weber
107

Notities en Commentaren

Een foutencategorieënsysteem en zijn toepassing in een computergestuurde remediële

rekentraining: kritiek op conclusies en uitgangspunten. M. Beishuizen 359

Introductie bij de commentaren van L. Verschaffel en M. Beishuizen. 352

Visies op het gebruik van de computer in het onderwijs: een discussie bij hci

af.scheidscolloquium van Prof.Dr. A. Dirkzwager. Gellof Kan.selaar 49

Beschikbaarheid van tijdschriftartikelen op het gebied van het onderwijs. H.M.

Knippenberg en R.E.C. Versiraaten 116

Diagnose van foute oplossingen bij eenvoudige redactie-opgaven: ccn reactie L.

Verschaffel 352

-ocr page 3-

Boekbesprekingen

Theo Boland: Lezen op termijn: een onderzoek naar de ontwikkeling van de lees-
vaardigheid en de invloed daarvan op de schoolloopbaan in het voortgezet onder-
wijs.
(Huub van den Bergh) 366
H.P.A. Boshuizen:
De ontwikkeling van medische expertise; een cognitief-psychologi-
sche benadering.
(Ton de Jong) 121
J. van den Brink:
Realistisch rekenonderwijs aan jonge kinderen. (L. Verschaffel) 124
L. Eldering & J. Kloprogge (Eds.):
Different cultures same school. Ethnic minority children
in Europe,
en

A. van Langen & P. Jungbluth: Onderwijskansen van migranten. De rol van sociaal-
economische en culturele factoren.
(L. Verschaffel) 52
Dr. C.A.W. Glas:
Contributions to estimating and testing Rasch-models. (Edw. E. Ros-
kam) 315
A.A. van der Hoeven-van Doornum:
Effecten van leerlingbeelden en streefniveaus op

schoolloopbanen. (Ban Bakker) 365

A. A.M. Houtveen: Begeleiden van vernieuwingen. (Rudolf van den Berg). 169

S. Kemme: Uitleggen van wiskunde. (J. Terwel) 370

Jan J.F. van Leeuwe: Probabilistic conjunctive models. Contributions to multidimensional

analysis of binary test data. (Kees Glas) 176

C. van Liere: Lastige leerlingen. Een empirisch onderzoek naar sociale oorzaken van

probleemgedrag op basisscholen. 258

K. Meerum Terwogt-Kouwenhoven: Niet gewogen, toch te licht bevonden: analyse van

de rendementsproblematiek aan de universiteit. (C. van der Vleuten) 54

L.H.C. Tan Hsi Ch'un: Tekorten in de opleiding van huisartsen. Ziektebeelden cn me-

disch-technische vaardigheden. (Dr. J.C.M. Metz) 318

Th.J.M. Tromp: The acquisition of expertise in computer programming. (Jeroen J.G. van

Merriönbocr) 171

K.J. Westerhof: Effectiviteit van Icerkrachtgedrag: een empirische studie naar

leerkrachtgedrag en de .samenhang met leen^inst. (Peter van der Sijde) 126

-ocr page 4-

Redactionele medewerkers

In 1991 werd redacdonele medewerking verleend door.

E.J.M. van Aarle

C.A.J. Aamoutse
E.M.H. Assink
P.H. Been

J.J. Beishuizen
M. Beishuizen

G. van den Berg
M.P.F. Berger
J.H. Boonman
R.J. Bosker
A.G. Bus

H. Dekkers
J. Dronkers
K. de Glopper
W. van de Grift
H.K. Groen

D.N.M. de Gmijter

E.G. Harskamp
W.J.E. van Uzendoom
M.J. de Jong

K.B. Koster
J.B. Kuhlemeier
C.J.W. Meijer

G.J. Mellenbergh
A.F.M. Nieuwenhuis
J.P. van Oudenhoven
S.J. Pijl

P. Reitsma
J. Rispens

H.G. Schmidt
W.G.R. Stoel
R.K.W. van der Velden
N.H. Veldhuijzen

C. van Vilsteren
M.P.C. van der Werf
P. Westers
J.M. Wijnsü-a
Th. Wubbels
M. Zwans

KU Nijmegen
KU Nijmegen
RU Utrecht
RU Groningen
VU Amsterdam
RU Leiden
RION Groningen
UT Enschede
RU Utrecht
UT Enschede
RU Uiden
ITS Nijmegen
SCO Amsterdam
SCO Amsterdam

Inspeaie van het Onderwijs Zoetermeer

CITO Arnhem

RU Leiden

RION Groningen

RION Groningen

EU Rotterdam

RU Groningen

CITO Arnhem

RION Groningen

Uv Amsterdam

RISBO Rotterdam

RU Groningen

RION Groningen

Paedologisch Instituut Duivendrecht

RU Utrecht

RU Limburg

OCTO Enschede

ROA Maastricht

CITO Arnhem

UT Enschede

RION Groningen

UT Enschede

CITO Arnhem

RU Utrecht

Inspectie van het Onderwijs Zoetermeer


-ocr page 5-

BULLETIN

ORGAAN VAN DE VERENIGING
VOOR ONDERWIJSRESEARCH

Redactie-adres
Dr. P.J.J. Strijnen, Open Universiteit,
Postbus 2960, 6401 DL Heerlen
tel. 045-762293

Jaargang 15

1991

-ocr page 6-

VOR:

Verslag VOR-ledenvergadering 18 december 1990 58

VOR-begroting 1991 60

Toelichting begroting 1991 61

Resuhaten enquête divisiestructuur 62

VOR prijs voor de beste dissenatie 64

Onderwijsonderzoek in verandering 180

Verslag VOR-ledenvergadering 16 mei 1991 183

De financiën van de VOR in 1989 en 1990 185

Overzicht inkomsten en uitgaven per 31-12-1989 186

Overzicht inkomsten en uitgaven per 31-12-1990 188

Verslag van de kascommissie over 1989 en 1990 190

Toelichting bij agendapunt over de divisies 191

Juryrapport VOR prijs 1991 376

Congressen. Symposia. Cursussen, Trainingen 377
Ontvangen publikaties 63. 382

-ocr page 7-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 1-38

Van de redactie

Tevreden en toch ook een beetje bezorgd. Zo zou een redactionele terugblik op het jaar 1990
misschien het beste getypeerd kunnen worden. Tevreden omdat het gelukt is een alleszins
verantwoorde 15e jaargang tot een goed einde te brengen. Toch ook een beetje bezorgd, omdat
de redactie in een aantal opzichten graag over meer keuze-mogelijkheden had willen beschik-
ken.

De 15e jaargang van het Tijdschrift voor Onderwijsresearch kent een tweetal themanummers.
Het is bekend, dat de redactie lange tijd heeft geaarzeld alvorens tot het samenstellen van
themanummers werd overgegaan. Deze aarzelingen waren onder meer gebaseerd op de veron-
derstelling, dat themanummers heel gemakkelijk te specialistisch zouden kunnen worden met
als mogelijk gevolg dat slechts een beperkt gedeelte van het lezerspubliek daardoor zou worden
aangesproken. Begin 1988 werd voor het eerst kenbaar gemaakt, dat de redactie er naar zou
streven één keer per jaar een themanummer samen te stellen. Dat er in 1990 verder werd gegaan
dan dit voornemen is veeleer een planningsprobleem dan een gevolg van geïntensiveerd redac-
tioneel beleid. De redactie is overigens van mening, dat de onderwerpen uit de 15e jaargang -
"Longitudinaal onderzoek van schoolloopbanen" en "Multi-niveau onderzoek: uitgangspunten
en toepassingen" - geschikt zijn voor relatief veel onderwijsonderzoekers en mede daardoor de
kwalificatie "te specialistisch" zeker niet verdienen.

Vanaf begin 1987 maakt het VOR-bulletin - het orgaan van de Vereniging voor Onderwijs-
research - deel uit van het Tijdschrift voor Onderwijsresearch. Van meet af aan was voorzien,
dat ook het VOR-bulletin redactionele bijdragen zou kunnen bevatten onder een eigen redactionele
verantwoordelijkheid van het VOR-bulletin. Degenen, die veronderstelden dat een samenvoeging
van het tijdschrift en het bulletin tot een minder wenselijke interferentie tussen beide zou leiden,
kunnen voor die veronderstelling in de 15e jaargang geen aanknopingspunt vinden. Men krijgt
de indruk, dat tijdschrift en bulletin zich steeds duidelijker van elkaar gaan onderscheiden.
Feitelijk had dit in 1990 tot gevolg, dat de redactie van het Tijdschrift voor Onderwijsresearch
- in vergelijking met 1989 - 25 pagina's meer ter beschikking had.

Toch ook een beetje bezorgd. Iedere redactie zal zich van tijd tot tijd geroepen voelen de
lezers uit te nodigen tot het schrijven van bijdragen. Het Tijdschrift voor Onderwijsresearch wil
in dit opzicht geen uitzondering zijn. Hoewel cr inmiddels een geregelde stroom van bijdragen
op gang is gekomen moet toch van tijd tot tijd worden geconstateerd, dat de evenwichtigheid
van de afzonderiijke nummers van het tijdschrift voor verbetering vatbaar is. Met name de
Notities en Commentaren evenals de Boekbesprekingen zijn niet gelijkelijk over de verschillende
nummers verdeeld. Dat er altijd wel sprake zal blijven van passen en meten spreekt eigenlijk
vanzelf Toch zou de redactie bij een iets breder aanbod beter in staat zijn om ook de evenwichtigheid
van de afzonderlijke nummers beter te bewaken.

Enige bezorgdheid is er bij de redactie ook over een gelijkelijke spreiding van het aanbod.
Hoewel naar de mening van de redactie definitief aanvaarde manuscripten op relatief korte
termijn worden gepubliceerd, is er in dit opzicht toch ook sprake van weinig voorspelbare
verschillen. De portefeuille van de redactie is sterk wisselend gevuld en dat leidt nu eens tot een
uitnodiging tot spoed dan weer tot een niet bedoelde lange wachttijd. Waar mogelijk probeert de
redactie deze verschillen zoveel mogelijk weg te werken. Duidelijk is wel dat er nog merkbare
verbeteringen bereikt kunnen worden leidend tot nog evenwichtiger samengestelde nummers.

Met betrekking tot de 15e jaargang van het Tijdschrift voor Onderwijsresearch wil de redactie
zich verontschuldigen voor het feit, dat het verschijnen van de latere nummers uit deze jaargang
enige haperingen vertoonde. In algemene zin is de samenwerking tussen de Vereniging voor
Onderwijsresearch, de uitgever van het tijdschrift en dc redactie voortreffelijk. Een onvoorzien
communicatieprobleem in de onderlinge afstemming lag aan de genoemde haperingen ten
grondslag. Een en ander kon gelukkig tijdig op een bevredigende wijze worden opgelost.

-ocr page 8-

2 Van de redactie

In de samenstelling van de redactie is met ingang van 1 januari 1991 één verandering opge-
treden. P. Robert Jan Simons is terug getreden als lid van de redactie. Zijn plaats zal worden
ingenomen door Johan M.M. van der Sanden.

Ongewijzigd bleef het redactie-adres:

Bert P.M. Creemers
RION

Postbus 1286

9701 BG GRONINGEN

tel. 050-636635

-ocr page 9-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 3-38

De invloed van docenten op de sekseverschillen met
betrekking tot w^iskunde^

H. Kuyper en M.P.C. van der Werf

RION, Instituut voor Onderwijsonderzoek, Rijksuniversiteit Groningen.'

ABSTRACT

The influence of math tcachcrs' behaviour on gender differences in achievement, attitudes and
participation (choice) was investigated in Dutch schools for secondary education (MAVO, HAVO,
VWO). Subjects were about 58(X) students - age 14 to 19 - and their math tcachcrs (about 100). In
general, the tcachcrs appeared to have slightly lower expectations of girls compared with boys.
Observations of math lessons revealed small differences in the way girls and boys were treated by
iheir teachers. The general tendency is that the teachers did not actively aggrieve the giris; the
conuary is more plausible. However, most differences seem to be causcd by differences in the girls'
and boys' own behaviours.

In the students' perception the teachers do not behave gcndcr-specificly; girls even less think so
than boys. There were small to moderate gender differences in math achievement and attitudes
towards math, but a large difference in participation. Multi-level analyses, however, revealed that
these differences cannot bc attributed to the math tcachcrs.

INLEIDING

Evenals in sommige andere landen wordt in Nederland het vak wiskunde in het voortgezet
onderwijs minder vaak gekozen door mei.sjes dan door jongens. Meisjes die het vak wel kiezen
behalen lagere eindexamenresultaten dan jongens (zie voor recente cijfers van vakkenpakketkeuzes
en eindexamencijfers dc CBS onderwijsstatistieken). Al heel lang wordt deze situatie als ongewenst
beschouwd door zowel vertegenwoordigers van het onderwijsbeleid als door 'het onderwijsveld'.
Diverse maatregelen en projecten zijn reeds uitgevoerd om de keuze van wiskunde door meisjes
in positieve zin te beïnvloeden. Eén van deze maatregelen was de campagne 'Kies Exact'. Over
de effecten van deze campagne is nog maar weinig bekend (zie Kuyper, 1990). De indruk
bestaat dat mei.sjes in het VWO sedert de start van de campagne vaker wiskunde kiezen. Of dit
is toe te schrijven aan de campagne of aan de recente invoering van een nieuw wiskundeprogramma
in dit schooltype is niet duidelijk. Het feit dat meisjes in het VWO overwegend het voornamelijk
'toegepaste' wiskunde A kiezen (zie Van der Werf, 1988), doet vermoeden dat de tweede
verklaring van toepassing is. Dit vermoeden wordt versterkt door het feit dat in het MAVO en
HAVO, vormen van voortgezet onderwijs waarop de genoemde campagne eveneens gericht
was, de verschillen tu.ssen meisjes en jongens in de keuze van wiskunde in het eindexamenpakket
nog steeds zeer groot zijn.

Voor het bestaan van verschillen in keuze van wiskunde tussen meisjes en jongens worden
uiteenlopende verklaringen aangevoerd. Vaak wordt beweerd dat de verschillen verklaard kunnen
worden door verschillen in aanleg voor wiskunde. Uit een recent overzicht van onderzoek naar
sekseverschillen in cognitieve vaardigheden blijkt echter dat deze verschillen - die in 1974 met
name bleken te bestaan ten aanzien van ruimtelijk inzicht en de vaardigheid in het omgaan met
getallen (vgl. Maccoby & Jacklin, 1974) - anno 1989 niet of nauwelijks meer bestaan. Het
sekseverschil in de keuze van wiskunde is veel groter dan welk gevonden verschil in cognhieve
vaardigheden dan ook (Linn & Hyde, 1989).

• RION. Postbus 1286, 9701 BG Groningen.

-ocr page 10-

4 H. Kuyper en M.P.C. van der Werf

In de hedendaagse literatuur over 'meisjes en wiskunde' wordt als algemene verklaring van
het verschijnsel veelal aangevoerd dat wiskunde wordt beschouwd als een 'mannelijk vak', en
dat meisjes (daarom) minder zelfvertrouwen hebben als het gaat om wiskunde, er minder be-
langstelling voor hebben en het minder nuttig vinden (Eccles, 1984; Dessey e.a., 1988; Linn,
1987). Kortom, er is sprake van een seksestereotype waardering van wiskunde die ertoe leidt dat
veel meisjes wiskunde gaan vermijden zodra dat mogelijk is. De verklaring voor het tot stand
komen van een seksestereotype waardering van wiskunde als een mannelijk vak wordt in belangrijke
mate gezocht in factoren die te maken hebben met opvoeding en onderwijs. Met name het
onderwijs wordt gezien als een institutie waar veranderingen in de geschetste situatie bij uitstek
kunnen worden gerealiseerd. In het sedert 1979 gevoerde onderwijsemancipatiebeleid en in de
maatregelen die in dat kader zijn genomen, is aan de school en met name aan de docenten een
cruciale socialiserende rol toebedacht. Veel emancipatiemaatregelen hebben betrekking op de
ontwikkeling en het leren gebruiken van roldoorbrekend lesmateriaal en op de ontwikkeling en
aanbieding van nascholingscursussen voor het geven van roldoorbrekend onderwijs. Aan deze
maatregelen liggen vrijwel zeker twee veronderstellingen ten grondslag: in de eerste plaats dat
docenten, impliciet of expliciet, bewust of onbewust, meisjes en jongens op verschillende manier
les geven of behandelen en in de tweede plaats dat het (les)gedrag van docenten van invloed is
op het ontstaan en/of instandhouden van sekseverschillen in de waardering van vakken en -
daarmee samenhangend - in onderwijskeuzen en leerprestaties.

De veronderstellingen die aan het onderwijsemancipatiebeleid ten grondslag liggen (zie de
nota 'Maatschappelijke positie van meisjes en jonge vrouwen'. Tweede Kamer, 1989), zijn
nauwelijks gebaseerd op resultaten van onderzoek. In de eerste plaats is slechts zelden door
middel van observaties onderzocht in hoeverre jongens en meisjes door hun docenten differentieel
worden behandeld. In het Handbook of Research on Teaching (Gage, 1963) wordt in geen van
de 76 observatiestudies gerept over de sekse van de leerling tot wie het gedrag van de docent
gericht was. In het Second en Third Handbook of Research on Teaching (Travers. 1973; res-
pectievelijk Wittrock, 1986) zien we dezelfde omissie. In de tweede plaats worden in studies
waarin wel is gekeken naar verschillen in gedrag van docenten ten opzichte van meisjes en
jongens (b.v. Aiken, 1972; Beam, 1976; Dweck & Repucci, 1973) deze verschillen nooit gere-
lateerd aan de verschillen in keuzen en prestaties van de leerlingen. Ditzelfde geldt voor studies
waarin niet zozeer het gedrag van de docenten is onderzocht als wel andere kenmerken van
docenten, zoals hun opvattingen over de capaciteiten van jongens en meisjes en daarmee gepaard
gaand, hun verwachtingen van verschillende prestaties. Zulke opvattingen en verwachtingen
kunnen meer indirect leiden tot sekseverschillen in keuzen en prestaties. Immers, uit de literatuur
over effectief instructiegedrag blijkt dat de verwachtingen die docenten hebben van hun leerlingen
de prestaties van die leerlingen kunnen beïnvloeden (Good, 1987). Indien docenten van meisjes
lagere verwachtingen met betrekking lot wiskunde hebben dan van jongens - hetgeen blijkens
onderzoek van Eccles en Wigwield (1985) en Harris, Rosenthal en Snodgrass (1986) en in
Nederland van Jungbluth (1982) inderdaad het geval is - ligt het voor de hand te veronderstellen
dat deze verwachtingen een differentieel effect hebben op dc prestaties van meisjes en jongens.
Een analoge redenering kan worden gevolgd voor de verschillen in attituden ten opzichte van
wiskunde en de keuze ervan, die beide samenhangen met de prestaties (Fennema & Sherman,
1977; Fox, 1977; Dekkers & Smeets, 1982). Behalve de verwachtingen van docenten blijken
hun gedragingen, zoals het geven van feedback, reinforcement en aanmoediging, en het stellen
van vragen van belang te zijn voor de prestaties van leerlingen - zie voor een recent overzicht
Creemers (1991). Indien docenten van invloed zijn op de sekseverschillen in prestaties, attituden
en keuze, is het waarschijnlijk dal deze invloed via genoemde gedragingen verioopl.

Op dit moment zijn ons, behalve ons eigen onderzoek, drie andere studies bekend waarin
verband is gelegd tussen enerzijds kenmerken van docenten, waaronder attituden en gedrag ten
opzichte van meisjes en jongens en anderzijds sekseverschillen in keuze van en prestaties in
wiskunde. In alle drie de studies zijn twee
zo select mogelijke groepen van scholen gezocht waar
door zeer veel respectievelijk zeer weinig meisjes wiskunde wordt gekozen. Op deze scholen
zijn bij docenten en andere betrokkenen metingen verricht. Vervolgens is vastgesteld welke

-ocr page 11-

Invloed van docenten op sekse verschillen bij wiskunde 5

kenmerken maximaal discrimineren tussen beide groepen scholen. In het onderzoek van Stallings
(1985) bleken docenten meisjes en jongens weliswaar verschillend te behandelen tijdens de
wiskundeles - jongens werden vaker toegesproken, kregen meer vragen gesteld en kregen vaker
individuele instructie, aanmoediging en feedback dan meisjes -, maar er bleek geen effect van
deze differentiële behandeling op de keuze van wiskunde door meisjes te bestaan. Het onderzoek
van Dekkers (1985) heeft geen kenmerken op docentniveau opgeleverd die een duidelijke sa-
menhang vertonen met het verschil in keuze. Het onderzoek van Kristensen en Jenneskens
(1990) is ten dele een replikatie van dat van Dekkers. Ten aanzien van de invloed van docenten
luidt de conclusie '...dat de mening of houding van docenten niet in duidelijk verband staat met
de vakkenkeuze en prestaties van meisjes'. De drie genoemde onderzoeken vertonen verwantschap
met een 'demonstratie-experiment'. In alle drie werd naast de genoemde docentkenmerken nog
een groot aantal andere factoren onderzocht. Sommige daarvan (o.a. het hanteren van keuze-
begeleidingsprogramma's) bleken samen te hangen met sekseverschillen in de keuze van wiskunde.

Het onderzoek dat in dit artikel wordt beschreven is verricht bij een zo a-select mogelijke
groep van scholen, docenten en leerlingen. In het onderzoek is vastgesteld hoe groot de verschillen
tussen jongens en meisjes zijn, en of en in welke mate deze verschillen samenhangen met de
attituden en het gedrag van de docenten jegens jongens en meisjes. Dit type onderzoek kan
worden getypeerd als 'stand van zaken onderzoek'. De voordelen van dit type onderzoek boven
het eerder beschreven type zijn het geringere gevaar van kanskapitalisatie en de grotere
generaliseerbaarheid naar de totale populatie van docenten (scholen). Een nadeel is de kleinere
kans op het vinden van factoren die 'er toe doen'.

PROBLEEMSTELLING

De primaire probleemstelling van het onderzoek luidde: "Wat is de invloed van het gedrag van
wiskundedocenten op de prestaties in, keuze van en attituden ten opzichte van wiskunde door
meisjes in het AVO/ VWO?"

Behalve om constateerbare lesgedragingen van docenten ging het ook om hun verwachtingen
ten aanzien van (de prestaties van) meisjes. Tevens was de waarneming van het lesgedrag van de
docenten door leeriingen van belang. Aangezien de achtergrond van dc probleemstelling werd
gevormd door de vraag in hoeverre de sek.severschillen met betrekking tot wiskunde verklaard
kunnen worden door gedrag van docenten, leek het het meest zinvol een vergelijking te maken
tussen meisjes en jongens. Hierbij wordt er impliciet van uitgegaan dat er verschillen tussen
wiskundedocenten zijn. In feite gaat het dan om het interactie-effect (in variantie-analytisch
opzicht) tussen de factor Docent en de factor Sekse van de leerlingen op de afhankelijke varia-
belen a) prestaties, b) anituden en c) keuze - alle met betrekking tot wiskunde. Alleen indien
deze interactie significant is, dat wil zeggen dat het sekseverschil niet bij alle docenten ongeveer
hetzelfde is, heeft het zin over de invloed van docenten op sekseverschillen met betrekking tot
wiskunde te spreken. Een gevolg van deze stellingname is dat het niet strikt nodig is dat het
hoofdeffect van Sekse (van de leeriingen) significant is. Indien immers op een bepaalde varia-
bele bij bijvoorbeeld de helft van de docenten de meisjes hoger scoren en bij de andere helft de
jongens in gelijke mate hoger scoren, is er geen hoofdeffect Sekse, terwijl er duidelijk sprake is
van een interactie. Bij de resultaten zal een geval worden besproken dat hiermee enige gelijke-
nis vertoont. Ondanks dat het voor de analyse van de probleemstelling niet noodzakelijk is,
zullen we nagaan of er een hoofdeffect van Sekse is. Ener/.ijds omdat dit in het kader van het
onderzoek voor de hand ligt en anderzijds omdat er weinig bekend is over de sekseverschillen in
prestaties en anituden op hel moment van de vakkenkeuze en in de periode hieraan voorafgaand.
Wat we erover weten, is vooral afkomstig uit Angelsaksisch onderzoek (bijvoorbeeld Chipman
& Thomas. 1985; Eccles, 1985).
De specifieke vraagstellingen luiden als volgt:

1. Hebben wiskundedocenten andere verwachtingen van meisjes dan van jongens?

2. Behandelen wiskundedocenten mei.sjes anders dan jongens?

-ocr page 12-

6 H. Kuyper en M.P.C. van der Werf

3a. Hebben meisjes een andere perceptie van (het lesgedrag van) hun wiskundedocent dan
jongens?

3b. Zijn er wiskundedocenten die door meisjes anders worden waargenomen dan door jongens?
4. Hoe groot zijn de verschillen tussen meisjes en jongens in a) de prestaties in wis^nde, b)

de attituden ten opzichte van wiskunde en c) de keuze van wiskunde?
5a. Hebben wiskundedocenten invloed op de verschillen tussen jongens en meisjes in de pres-
taties in wiskunde, de attituden ten opzichte van wiskunde en de keuze van wiskunde?
5b. Zo ja, aan welke gedragmgen van docenten valt deze invloed toe te schrijven?

Omdat dit nogal uiteenlopende vraagstellingen zijn, met geheel verschillende variabelen bespreken
we per vraagstelling de operationalisatie, direct gevolgd door de resultaten. Allereerst bespreken
we echter de methode in algemene zin.

METHODE

Het onderzoek is verricht op 21 scholengemeenschappen, verspreid over heel Nederland. In
totaal namen ca. 5800 leerlingen deel, alsmede hun circa 100 wiskundedocenten. Tevens namen
ca. 1800 ouders deel; de bij hen verkregen resultaten blijven hier buiten beschouwing.

Het onderzoek was geconcentreerd rond de vakkenpakketkeuze, aangezien het al dan niet
kiezen van wiskunde de meest cruciale variabele is, waarop het sekseverschil groot is.

Het onderzoek was in principe longitudinaal, met twee metingen. De eerste meting vond
plaats in voorjaar 1986 bij leerlingen die hetzij in het leerjaar
voor de keuze zaten (MAVO-2,
HAVO-2, VWO-3), hetzij in het leerjaar
van de keuze (MAVO-3, HAVO-3, VWO-4). De tweede
meting vond plaats in het voorjaar 1987 bij ten dele dezelfde leerlingen (plus een groot aantal
nieuwe), die nu respectievelijk in het leerjaar
van (MAVO-3, HAVO-3, VWO-4) en het leerjaar
na de keuze zaten (MAVO-4. HAVO-4, VWO-5). Het longitudinale aspekt blijft hier buiten
beschouwing.

De scholen zijn gelecteerd uit een groep van scholen - afkomstig uit een aselecte steekproef
van 160- die de bereidheid hadden uitgesproken aan het onderzoek mee te werken. Aangezien
de sekse van de docent eveneens van belang geacht werd, was de aanwezigheid van vrouwelijke
wiskundedocenten een van de selectiecriteria. Desondanks vormden deze slechts een kleine
minderheid (ca. 10%).

Alle leerlingen kregen vragenboekjes voorgelegd, waarin o.a. items voorkwamen om hun
attitude jegens'wiskunde te meten, en items met betrekking tot hun waarneming ten aanzien van
hun wiskundedocent. De docenten van de leeriingen in de leerjaren
voor en van de keuze werd
gevraagd van iedere leerling de cijfers op het kerst- en paasrapport te verstrekken, en per
leerling drie vragen te beantwoorden. In de betreffende klassen zijn doorgaans drie wiskundelessen
geobserveerd, zo mogelijk in één week. Bij de eerste meting werd ernaar gestreefd per docent
twee parallelklassen binnen dezelfde richting en hetzelfde leerjaar te laten deelnemen. In de
praktijk kwamen afwijkingen voor, bijvoorbeeld MAVO-2 en MAVO-3 of MAVO-2 en HAVO-
2. Bij de tweede meting was het streven zoveel mogelijk van de bij de eerste meting betrokken
leerlingen opnieuw te laten deelnemen. Bij meting 1 waren 60 docenten betrokken, bij meting 2
in het leerjaar van de keuze 72, van wie 41 niet bij meting 1 betrokken waren geweest.

RESULTATEN

In het hierna volgende worden de resultaten die betrekking hebben op de vijf specifieke vraag-
stellingen besproken.

Hebben wiskundedocenten van meisjes andere verwachtingen dan van jongens?
Ter beantwoording van deze vraag zijn aan de docenten per leerling drie schriftelijk te beant-
woorden vragen voorgelegd, namelijk:

-ocr page 13-

Invloed van docenten op sekse verschillen bij wiskunde
Tabel 1. Gemiddelden op de drie docentvragen, uitgesplitst naar sekse.

Voor-

Beter

komen

kunnen

Aanraden

M

J

M

J

M

J

MAVO 2-3

2.8

3.2

1.5

1.7

2.7

2.9

MAVO 2-3

2.9

3.4

1.6

1.8

2.6

3.0

MAVO 3-4

2.9

3.4

1.6

1.8

2.8

3.0

HAVO 2-3

2.6

3.0

1.5

1.8

2.5

2.9

HAVO 2-3

2.5

3.3

1.7

1.8

2.5

2.9

HAVO 3-4

2.3

3.1

1.5

1.8

2.2

2.7

VWO 3-4

2.4

2.9

1.3

1.4

2.1

2.3

VWO 3-4

2.2

2.9

1.3

1.5

1.9

2.3

VWO 4-5

2.2

2.6

1.3

1.5

2.0

2.2

Nool: Dc gemiddelden hebben bcü-ckking op het vetgedrukte leerjaar.

1. "Verwacht u dat het vak wiskunde in het eindexamenpakket van deze leerling zal voorko-
men?" (1 = zeker niet.....4 = zeker wel)

2. "Denkt u dat deze leerling eigenlijk beter zou kunnen wat betreft wiskunde dan uit zijn/haar
prestaties blijkt?" (1 = nee,.... 4 = veel beter)

3. "Bent u van plan om deze leerling aan te raden wiskunde te kiezen in het eindexamen-
pakket?" (1 = zeker niet.....4 = zeker wel)

Voor VWO-leerlingen waren de antwoordmogelijkheden op de eerste en derde vraag als volgt:
1 = nee, 2 = wiskunde A, 3 = wiskunde B, 4 = wiskunde A en B.

Tevens werd de docenten gevraagd per leerling het cijfer op het kerst- en paasrapport in te
vullen. De gemiddelden op de drie vragen staan in tabel 1.

Het patroon van de gemiddelden op deze drie vragen is eenduidig: in alle negen groepen is
het gemiddelde voor de jongens hoger dan voor de mei.sjes. Het verschil, getoetst met de
Students t-toets, is op twee uitzonderingen na significant (p < .01).

Op de eerste vraag is het verschil minimaal 0.4 (MAVO-2, HAVO-2, VWO-4) en maximaal
0.8 (2 x HAVO-3); gemiddeld is het 0.6. De verschillen op deze vraag weerspiegelen de werke-
lijkheid dat minder meisjes dan jongens wiskunde kiezen (N.B. de VWO- gemiddelden zijn wat
moeilijker te interpreteren). Het valt de docenten derhalve niet "aan te rekenen" dat ze deze
verwachtingen uiten.

Bij dc tweede vraag werd het feitelijke niveau van presteren als uitgangspunt genomen. Dat
ook op deze vraag dc gemiddelden voor de jongens hoger zijn dan voor de meisjes, zij het in
mindere mate (minimaal 0.1, maximaal 0.3, gemiddeld 0.2), is derhalve opvallend en geeft blijk
van generiek verschillende verwachtingen. In interviews is aan de docenten gevraagd van zes
leerlinggedragingen aan te geven of deze tijdens de wiskundeles 'meer bij jongens', 'meer bij
meisjes' of "bij beide seksen evenveel' voorkomen. Op 'ijverig zijn' gaf ruim de helft (52%) van
de docenten 'geen verschil' aan, maar 45% 'meer bij meisjes' en slechts 3% 'meer bij jongens'.
Op 'netheid' is het verschil nog groter: 74% 'meer bij meisjes', 26% 'geen venschil'; geen
enkele docent achtte de jongens netter. Een ons inziens plausibele redenering luidt dat een deel
van de docenten vindt dat meisjes zich meer inspannen om hetzelfde prestatieniveau te bereiken
en dat jongens "als ze zouden willen" zich dus meer zouden kunnen verbeteren.

Van de gemiddelden op de derde vraag - waarvoor zoals al is opgemerkt het jongensgemiddelde
in alle gevallen hoger is dan het meisjesgemiddelde - valt het in de eerste plaats op dat ze alle

-ocr page 14-

8 H. Kuyper en M.P.C. van der Werf

lager zijn dan de overeenkomstige gemiddelden op de eerste vraag. In principe zijn hier ver-
schillende verklaringen voor aan te voeren. Een voor de hand liggende interpretatie is dat de
docenten verwachten dat een aantal leerlingen tegen hun advies in wiskunde zal kiezen. Een
andere interpretatie is dat sommige docenten zich van advies onthouden. Opvallend is echter dat
het verschil bij de meisjes kleiner is dan bij de jongens - in acht van de negen gevallen
(gemiddeld 0.2 vs. 0.4). Op grond hiervan zou geconcludeerd kunnen worden dat meisjes
relatief (de verwachting in aanmerking genomen) vaker het advies krijgen wiskunde te kiezen -
of dat jongens (en/of hun ouders) "eigenwijzer" zijn dan meisjes.

Om meer zicht te krijgen op eventuele seksespecifieke advisering is per docent (per klas) de
partiële correlatie berekend tussen sekse en voorgenomen advies, met uitpartialisering van het
gemiddeld rapportcijfer op wiskunde. Bij het advies aan VWO-leerlingen zijn in dit geval
'wiskunde B' en 'wiskunde A en B' aan elkaar gelijkgesteld. Bij de gekozen codering betekent
een negatieve partiële correlatie een adviseringstendens ten nadele van de meisjes. In totaal zijn
181 partiële correlaties verkregen. Ze variëren van -.77 tot .46; het gemiddelde is -.14. Van de
181 zijn er 38 (21%) positief en 140 (77%) negadef (de overige drie zijn .00). Het gemiddelde
van de positieve correlaties is .16, dat van de negatieve -.23.. Er is dus sprake van een
adviseringstendens ten nadele van de meisjes bij 77% van de wiskundedocenten. Deze tendens
is iets sterker in het jaar van de keuze (80%) dan in het jaar
voor de keuze (75%). Tevens is de
tendens wat sterker ten aanzien van MAVO-leeriingen (83%) dan ten aanzien van HAVO- en
VWO-leerlingen (resp. 77% en 75%). Bij de meeste docenten is het echter een zeer zwakke
tendens, waarvan ze zich niet bewust hoeven te zijn.

Behandelen wiskundedocenten meisjes anders dan jongens?

Ter beantwoording van deze vraag hebben lesobservaties plaatsgevonden. Bij het ontwerpen
van het observatieschema hebben we ons laten leiden door de overweging die Siero (1987) -
onafhankelijk van ons - als stelling bij zijn proefschrift als volgt heeft geformuleerd: "Bestudering
van het Pygmalion-effect ... aan de hand van observatiemethoden, zoals die van Brophy en
Good, waarin alleen het leerkrachtgedrag object van observatie is, leidt tot onvolledige of zelfs
foutieve conclusies."

Deze overweging heeft ertoe geleid zowel gedragingen van de leeriingen als van de docenten
te observeren en bij de docentgedragingen een onderscheid aan te brengen tussen spontane
gedragingen en leerlinggeïnitieerde gedragingen. Evenzo hebben we bij de leeriinggedragingen
onderscheid gemaakt tussen spontane gedragingen en docentgeinitieerde gedragingen. De methode
van observeren (gebeurtenisgericht) en de gehanteerde categorieën zijn uitvoerig beschreven in
Kuyper & Van der Werf (1987), terwijl Kuyper & Meulenbeld (1989) de volledige resultaten
rapporteren, waaronder de betrouwbaarheid, die zij als 'aanvaardbaar' kwalificeren.

De gedragscategorieën, die in tabel 2 zijn gegeven, behoeven nadere toelichting. Allereerst
merken we op dat alleen die docentgedragingen zijn vastgelegd die tot individuele leeriingen
gericht waren. Een categorie 'frontale instmctie' ontbreekt derhalve. Een 'beurt' was per defi-
nitie gericht lot een individuele leerling, in tegenstelling lol een 'vraag', die lot de hele klas was
gericht. Indien meerdere leeriingen na zo'n vraag de vinger opstaken, impliceerde de daarop-
volgende docentgedraging 'beurt na vraag' een selectie uil de vingeropslekenden. Het 'negeren
bij vinger na vraag' heeft betrekking op de leerlingen die de beun niel kregen (maar was
moeilijk te observeren). Na een niet (geheel) bevredigend antwoord kon een 'herhalingsbeun'
aan een andere leerling worden gegeven of kon worden 'doorgegaan' met dezelfde leeriing.
Onafhankelijk daarvan kon 'feedback', 'reinforcemenl' of 'stimulering' worden gegeven, waarbij
'feedback' de zwakste vorm was (in termen van 'juist' of 'onjuist', maar neutrale, ambigue
feedback was mogelijk), reinforcemenl tevens een verbale kwalificatie inhield, en stimulering
levens een verwachting voorde toekomst inhield. Deze gedragingen konden ook voorkomen na
een opmerking/vraag van een leerling. Hel spontaan of op verzoek hulp of uitleg geven verwijst
naar een klassesituade waarin de leeriingen zelfstandig, hetzij alleen heizij in groepjes werk
uilvoerden. Hel al dan niel antwoord (respons) geven had betrekking op vragen of opmerkingen
van de leerlingen. Hel bieden van gelegenheid betrof leeriingen die de vinger opstaken anders

-ocr page 15-

Invloed van docenten op sekse verschillen bij wiskunde 9

dan na een vraag aan de klas, en ging vooraf aan de leerlinggedragingen 'plaatst opmerking/
vraag na vinger', 'vraagt hulp/uitleg na vinger' en 'vraagt feedback na vinger'. De docentgedraging
'maakt ordeopmerking' spreekt voor zich. De diverse leerlinggedragingen zijn duidelijk op
grond van bovenstaande toelichting van de docentgedragingen.

De voornaamste resultaten zijn samengevat in Tabel 2. De onderliggende structuur van de
data is bijzonder complex. De resultaten zijn gebaseerd op bijna 4300 leerlingen, waarvan er
echter bijna 700 zowel bij meting 1 (leeijaar
voor de keuze) als bij meting 2 (leerjaar van de keuze)
zijn geobserveerd. Deze leerlingen zijn derhalve tijdens 6 lessen geobserveerd - behoudens
incidentele absenties. Aangetekend moet worden dat de samenstelling van de klassen in deze
leerjaren doorgaans verschillend was, en dat in de meeste gevallen van een andere docent les
werd gekregen. De overige circa 3600 leerlingen zijn tijdens 3 lessen geobserveerd. Vanuit de
docenten geformuleerd; bij meting 1 zijn 60 docenten geobserveerd, bij meting 2 72, waarvan er
31 ook bij meting 1 voorkomen; bij beide metingen is elke docent in twee klassen tijdens drie
lessen geobserveerd.

Tal)cl 2. Resultaten van de Icsobscrvatics.

Gemiddelde

Aantal groepen

Docentgedragingen

M

J

M>J

M=J

M<J

Beurt individuele leerling

38

35

7

1

1

Beurt na klassikale vraag

5

5

4

1

4

Herhalingsbcurt

5

6

2

2

5

Beurt na hcrhalingsvraag

1

1

0

6

3

"Doorgaan" beurt

32

29

6

0

3

Negatieve feedback

15

16

2

I

6

Neutrale feedback

11

11

3

1

5

Positieve fccdback

65

68

3

0

6

Negatieve rcinforccmcnt

3

3

3

3

3

Posilicvc rcinforccmcnt

7

6

5

3

1

Negatieve stimulering

1

1

0

8

1

Posilicvc stimulering

1

1

3

5

1

Spontane hulp/uillcg

19

16

6

1

2

Hulp/uitlcg op verzoek

34

27

8

0

1

Antwoord op vraag

11

11

4

0

5

Geen antwoord op vraag

9

9

3

2

4

Negeert vinger na vraag

5

5

3

3

3

Biedt gelegenheid

27

23

8

0

1

Maakt ordc-opmcrking

20

23

1

1

7

Leerlinggedragingen

Steekt spontaan vinger op

31

27

7

1

1

Vinger na vraag doccnt

10

10

4

2

3

Antwoordt spontaan

15

19

2

0

7

Antwoordt op beurt

67

62

6

0

3

Aniwoordl op beurt na vraag

7

7

2

3

4

Geen response op bcurl

9

8

5

3

1

Maakt spontaan opmerking

11

14

1

0

8

Maakt opmerking na vinger

6

5

5

2

2

Vraagt spontaan hulp/uitlcg

22

18

7

0

2

Vraag hulp/uitlcg na vinger

17

13

8

0

1

Vraagt spontaan fccdback

5

6

2

2

5

Vraagt fccdback na vinger

3

3

2

6

1

-ocr page 16-

10 H. Kuyper en M.P.C. van der Werf

In de eerste twee kolonunen van tabel 2 staan de overall gemiddelden per sekse, geaggregeerd
over de negen onderscheiden gevallen (bij meting 1: MAVO-2 en 3, HAVO-2 en 3 en VWO-3
en 4; bij meting 2: MAVO-3, HAVO-3, VWO-4). Deze gemiddelden zijn te interpreteren als
'kanspercentages'. Het meest voorkomende docentgedrag was het geven van positieve feedback.
Het meisjesgemiddelde van 65 voor deze categorie betekent dat een willekeurig meisje in een
geobserveerde les een kans van 65% had positieve feedback te krijgen.

In de overige drie kolommen is een samenvatting gegeven van een uitsplitsing naar de negen
onderscheiden gevallen. Gegeven is het aantal gevallen, waarin het meisjesgemiddelde ten
opzichte van het jongensgemiddelde hoger, gelijk, dan wel lager was. Het komt voor geen
enkele categorie voor dat het sekseverschil in alle gevallen hetzelfde was. Dit betekent dat de
interpretatie van de verschillen tussen de gemiddelden, die toch al niet groot zijn, met
terughoudendheid dient te geschieden.

Vanwege de complexe structuur van de data zijn geen toetsingen verricht. Hieronder vatten
we de voornaamste verschillen samen, waarbij we tevens plausibele verklaringen vermelden. In
het algemeen kan worden gesteld dat de verschillen tussen meisjes en jongens overwegend klein
zijn.

la. Meisjes krijgen vaker een beurt dan jongens (38 vs 35); er wordt ook vaker met hen

doorgegaan met een beurt (32 vs 29).
Ib. Bijgevolg geven meisjes vaker antwoord op een beurt (67 vs 62).

2. Jongens antwoorden vaker spontaan (zonder de vinger eerst op te steken) op een vraag van
de docent aan de klas (19 vs 15).

3. Jongens krijgen vaker positieve feedback (68 vs 65).

4. Tot jongens worden vaker ordeopmerkingen gemaakt (23 vs 20).

5a. Meisjes steken vaker spontaan hun vinger op (31 vs 27) en krijgen vervolgens vaker 'gele-
genheid' (27 vs 23). Vervolgens vragen ze vaker hulp of uitleg (17 vs 13).
5b. Meisjes vragen ook vaker spontaan hulp of uitleg (22 vs 18).
5c. Bijgevolg krijgen meisjes vaker op hun verzoek hulp of uitleg (34 vs 27).
5d. Meisjes krijgen ook vaker ongevraagd hulp of uitleg (19 vs 16).
6. Jongens plaatsen vaker spontaan een opmerking of vraag (14 vs 11).

Uit deze samenvatting komt een nogal seksestereotype (rolbevestigend) beeld naar voren. Er
vah ons inziens niet uit af te leiden dat meisjes in het algemeen door hun wiskundedocent
ongunstig worden behandeld - eerder integendeel. De spontane docentgedragingen zijn zeker
niet vaker op-jongens gericht. Dat meisjes vaker een beun krijgen, kan zijn ter compensatie van
het feit dat jongens vaker spontaan antwoorden op een vraag aan de klas. Wellicht kan het vaker
ongevraagd hulp of uitleg aan meisjes geven als ongunstig voor hen worden geïnterpreteerd.
Ten slotte benadrukken we nogmaals dat het om kleine verschillen gaat.

Hebben meisjes een andere perceptie van (het lesgedrag van) hun wiskundedocent dan
jongens? Zijn er wiskundedocenten die door meisjes anders worden waargenomen dan
door Jongens?

Ter beantwoording van deze vragen zijn vier schalen geconstmeerd; drie daarvan hebben betrekking
op de waarneming van het lesgedrag van de docent, de vierde heeft betrekking op het toeschrijven
van seksestereotype rolopvattingen aan de docent.

De betrouwbaarheid van de schalen is in elk van de negen onderscheiden groepen bepaald;
hier vermelden we de gemiddelden. De eerste schaal betreft het op toegankelijke wijze lesgeven
('open lesgedrag') en bestaat uit zeven items. De gemiddelde betrouwbaarheid (Cronbach's a) is
.86. De tweede schaal betreft het op seksespecifieke wijze lesgeven en bestaat uit vijf items; de
betrouwbaarheid is .70. De derde schaal betreft het tijdens de les overdragen van dc relevantie
van wiskunde en bestaat uit vier items; de betrouwbaarheid is .76. De vierde schaal ('veronderstelde
stereotype sekserolopvattingen') bestaat uit tien items; de betrouwbaarheid is .89. Het schaalbereik
van de vier schalen loopt van 1.0 tot 4.0. Op 'open le.sgedrag' is het overall gemiddelde 2.4,
hetgeen practisch gelijk is aan het schaalmidden. Op 'seksespecifiek lesgedrag' is het overall

-ocr page 17-

Invloed van docenten op sekse verschillen bij wiskunde 11

gemiddelde 1.6, hetgeen betekent dat de leerlingen in het algemeen niet of nauwelijks van
mening zijn dat hun docent op seksespecifieke wijze lesgeeft. Op 'relevantie-overdracht' ligt
het overall gemiddelde weer dicht bij het schaalmidden (2.3), terwijl dat op 'veronderstelde
opvattingen' het laagst van de vier is (1.4); in het algemeen schrijven de leerlingen hun
wiskundedocent niet of nauwelijks stereotype rolopvattingen toe.

Op deze schalen zijn in elk van de negen groepen univariate variantie-analyses verricht,
volgens het design Docent x Sekse (leeriingen), waarbij Docent een random factor is. In tabel 3
zijn de resultaten samengevat. Telkens is voor elk van de drie bronnen (Docent, Sekse, Docent
X Sekse) het quotiënt gegeven van de eigen 'sum of squares' en de som van de 'sum of squares
within cells' plus de drie 'sum of squares' van deze drie bronnen, vermenigvuldigd met 100. De
resulterende waarden komen overeen met percentages verklaarde variantie. De significante
gevallen (p < .01) zijn aangegeven met een *.

De resultaten zijn duidelijk. Het hoofdeffect Docent is in alle gevallen significant. Het
gemiddelde percentage verklaarde variantie is het hoogst op 'open lesgedrag' (44%), gevolgd
door 'relevantie-overdracht' (30%), 'seksespecifiek lesgedrag' (26%) en 'veronderstelde op-
vattingen' (18%). Er bestaan dus aanzienlijke verschillen tussen docenten in de wijze waarop ze
worden waargenomen, en deze verschillen zijn voor een relatief groot deel systematisch, d.w.z.
aan de docenten zelf toe te schrijven. Het hoofdeffect Sekse is negen maal significant, en wel
vijf maal op 'seksespecifiek lesgedrag', drie maal op 'veronderstelde opvattingen', één maal op
'relevantie-overdracht' en geen enkele maal op 'open lesgedrag'. Het gemiddelde percentage
verklaarde variantie is 2% op 'seksespecifiek lesgedrag', 1% op 'veronderstelde opvattingen'
en 0% op beide andere schalen. Het is dus maar in zeer geringe mate het geval dat meisjes hun
wiskundedocent anders waarnemen dan jongens.

Op 'open lesgedrag' is het overall sekseverschil minder dan 0.1, terwijl het op de overige
drie schalen bij de meisjes 0.1 lager is dan bij de jongens. In de negen onderscheiden gevallen is
het meisjesgemiddelde hetzij gelijk aan, hetzij 0.1 of 0.2 lager dan het jongensgemiddelde. De
interpretatie van de
significante sekseverschillen is dus dat meisjes hun docent (nog) minder
seksespecifiek vinden lesgeven dan jongens, hun docent (nog) minder stereotype sekserol-

Tabcl 3. Samcnvauing van dc variantie-analyses op dc vier schalen met bcuckking tot dc waarneming van
dc wiskundcdoccnt: pcrccnlagcs verklaarde variantie.

open lesgedrag sckscspccinck relevantie ver. stcrco-

Icsgcdrag ovcrdracht type opvat.

D

S

DxS

D

S

DxS

D

S

DxS

D

S

DxS

MAVO 2-3

49*

1

1

23»

1

3

27»

0

3

15»

1

3

MAVO 2-3

41*

0

4

32»

3

24»

0

4

15»

5

MAVO 3-4

50*

0

2

22»

2

3

16»

2

4

16»

1

3

HAVO 2-3

51*

1

2

34»

1

32»

1

1

15»

1

3

HAVO 2-3

45*

0

36»

3

20»

1

19»

4

HAVO 3-4

19»

0

2

10»

1

3

30»

0

1

22»

3

VWO 3-4

49*

0

3

31»

0

44»

0

2

15»

0

2

VWO 3-4

40»

0

2

15»

2

40»

0

1

24*

0

2

VWO 4-5

15»

0

2

15»

2

40»

0

1

24»

0

2

Gem. %

44

0

3

26

2

3

30

0

2

18

1

3

Noot: Dc gegevens hebben betrekking op het vetgedrukte leerjaar.
*p<.01

-ocr page 18-

12 H. Kuyper en M.P.C. van der Werf

opvattingen toeschrijven dan jongens, maar tevens minder vinden dan jongens dat hun docent de
relevantie van het vak wiskunde duidelijk maakt.

De interactie Docent x Sekse is in twee gevallen significant, een maal op 'open lesgedrag',
een maal op 'seksespecifiek lesgedrag'. Het door de interactie verklaarde (of gebonden) percentage
variantie is op drie schalen gemiddeld 3% en op de vierde ('relevantie-overdracht'), gemiddeld
2%. Dit betekent dat het maar in zeer zwakke mate het geval is dat er docenten zijn die door hun
meisjesleerlingen anders worden waargenomen dan door hun jongensleeriingen.

Het antwoord op vraagstellingen 3a en 3b luidt dus overwegend ontkennend: meisjes en
jongens nemen gemiddeld hun wiskundedocent op dezelfde manier waar en het is niet zo dat er
individuele docenten zijn die door meisjes heel anders worden waargenomen dan door jongens.
Er zijn echter wel grote verschillen tussen docenten in de wijze waarop ze door hun leeriingen
worden waargenomen.

Hoe groot zijn de verschillen tussen meisjes en jongens in a) de prestaties in wiskunde, b)
de attituden ten opzichte van wiskunde en c) de keuze van wiskunde?
De wiskundedocenten van de leerlingen in MAVO-2 en 3 (2x), in HAVO-2 en 3 (2x) en in
VWO-3 en 4 (2x) hebben de cijfers op het kerst- en paasrapport verstrekt. Bij de MAVO-
leerlingen is nauwelijks sprake van een sekseverschil: het overall jongensgemiddelde is 6.4, het
overall meisjesgemiddelde 6.3. Bij de HAVO- en VWO-leerlingen is het verschil wat groter,
respectievelijk 6.4 versus 6.1 en 6.7 versus 6.3. Getoetst met Students t, is er in de zes MAVO-
gevallen één maal sprake van een significant verschil (p < .01), en in de zes HAVO- en VWO-
gevallen elk vijf maal.

De attituden ten opzichte van wiskunde zijn met vier schalen gemeten, namelijk 'jongensvak',
'nut', 'moeilijkheid' en 'plezier'. Deze schalen zijn behalve in de reeds genoemde negen groe-
pen ook afgenomen in het jaar na de keuze, dus in MAVO-4, HAVO-4 en VWO-5; 'jongensvak'
en 'nut' bij alle leerlingen, 'moeilijkheid' en 'plezier' alleen bij die leerlingen die wiskunde als
eindexamenvak hadden gekozen. In VWO-5 waren deze laatste twee schalen apart voor wis-
kunde A en wiskunde B gedefiniëerd. De betrouwbaarheidsanalyses zijn derhalve in twaalf of
dertien groepen verricht. We vermelden weer de gemiddelde betrouwbaarheid.

De schaal 'jongensvak' ('male domain') bestaat op MAVO en HAVO uit slechts drie items;
de gemiddelde betrouwbaarheid is .62. Op VWO bestaat deze schaal uit zes items; de betrouw-
baarheid is dan gemiddeld .75. De schaal 'nut' bestaat uit slechts twee items; de betrouwbaarheid
is .69. De schaal 'moeilijkheid' bestaat uit zeven items; de betrouwbaarheid is .86. De schaal
'plezier' bestaat uit vijf items; de betrouwbaarheid is eveneens .86.

Op deze schalen zijn in alle gevallen weer t-toetsen voor Sekse verricht. De gemiddelden en
significante gevallen (p < .01) zijn gegeven in tabel 4.

Het overall gemiddelde op 'jongensvak', met een schaalbereik van 1.0 tot 4.0, is 1.3. De
leerlingen beschouwen wiskunde dus niet of nauwelijks als een 'jongensvak' Het overall
meisjesgemiddelde is 1.2, het overall jongensgemiddelde 1.4. Meisjes zijn dus nog minder dan
jongens van mening dat wiskunde een jongensvak is. In de twaalf afzonderlijke groepen is het
verschil in alle gevallen in deze richting, en elf maal significant ( p < .01).

Het overall gemiddelde op 'nut', met een schaalbereik van 1.0 tot 9.0, is 5.6 - hetgeen aan de
"gunstige" kant van het schaalmidden ligt. Het overall mei.sjesgemiddelde is 5.3, dat van de
jongens 6.0. Beide seksen, maar jongens meer dan meisjes vinden wiskunde wel nuuig. Het valt
op dat het sekseverschil veel groter is in de MAVO- en HAVO-groepen (gemiddeld 0.8) dan in
de VWO-groepen (gemiddeld 0.3). In de MAVO- en HAVO-groepen is het verschil alle acht
maal significant, in de VWO-groepen slechts één maal.

Het overall gemiddelde op 'moeilijkheid', met een schaalbereik van .00 tot 1.00, is .42 -
hetgeen aan de "niet-moeilijke" kant van het schaalmidden ligt. Het overall meisjesgemiddelde
is .47, dat van de jongens .36. Meisjes vinden wiskunde moeilijker dan jongens. Het verschil is
in 12 van de 13 groepen significant. De uitzondering is HA VO-4, waar geen sprake is van een
verschil. De items van deze schaal moesten in MAVO-4, HAVO-4 en VWO-5 alleen door de
'kiezers' van wiskunde worden ingevuld. Aangezien in het algemeen de leerlingen die wiskunde

-ocr page 19-

Invloed van docenten op sekse verschillen bij wiskunde 13

Tabel 4. Samenvauing van de gemiddelde scores en dc toetsingen op de wiskundeauituden.

Jongensvak nut moeilijkheid plezier

(a) (b) (c) (c)

M

J

M

J

M

J

M

J

MAVO 2-3

1.2*

1.4

5.4*

6.2

.45*

.36

.40

.42

MAVO 2-3

1.1»

1.4

5.4*

5.8

.50*

.39

.41

.40

MAVO 3-4

1.2*

1.4

5.3*

6.1

.46*

.35

.42

.46

MAVO 3-4

1.3

1.5

4.9*

5.9

.49*

.37

.44

.42

HAVO 2-3

1.1*

1.3

5.5*

6.2

.46*

.35

.37

.42

HAVO 2-3

1.2*

1.5

5.1*

5.9

.52*

.39

.36*

.43

HAVO 3-4

1.3*

1.5

4.7*

5.9

.51*

.40

.37

.43

HAVO 3-4

1.2*

1.3

4.9*

5.8

.40

.40

.46

.42

VWO 3-4

1.1*

1.2

5.6

6.0

.45*

.34

.40

.44

VWO 3-4

1.1*

1.2

5.6

5.8

.50*

.37

.40

.42

VWO 4-5

1.1*

1.3

5.6*

6.1

.49*

.35

.49

.45

VWO 4-5 (A)

-

-

-

-

.41*

.25

.50

.49

VWO 4-5 (B)

-

-

-

-

.43*

.36

.49

.53

VWO 4-5

1.1*

1.3

5.6

5.8

-

-

-

-

Overall gem.

1.2

1.4

5.3

6.0

.47

.36

.42

.44

Noot: Dc gemiddelden hebben betrekking op hel vetgedrukte leerjaar.

(a) schaalbereik van 1.0 tot 4.0; (b) schaalbereik van 1.0 tot 9.0; (c) schaalbereik van .00 tol 1.00
* het met ccn * voorziene mcisjcsgcmiddcldc wijkt significant ar(p<.01) van het jongcnsgemiddclde.

het meest moeilijk vonden, zullen zijn afgevallen - waarbij meisjes oververtegenwoordigd zijn

- zou het sekseverschil op deze schaal in deze groepen kleiner kunnen zijn dan in de lagere
groepen (of wellicht afwezig). Dit treedt in HAVO-4 inderdaad op, maar niet in MAVO-4, waar
het verschil zelfs nog iets groter is dan in MAVO-2 en MAVO-3. In VWO-5 is het verschil op
'moeilijkheid wiskunde A' eveneens groter dan in VWO-3 en VWO-4, maar op 'moeilijkheid
wiskunde B' inderdaad kleiner.

Het overall gemiddelde op 'plezier' is .43, hetgeen aan de ongunstige kant van het schaalmidden
ligt. Het overall meisjesgemiddelde is iets lager dan dat van de jongens. (.42 vs .44). In MAVO-
4, HAVO-4 en in VWO-5 voor wiskunde A is het meisjesgemiddelde juist hoger dan het
jongensgemiddelde, hetgeen samen zal hangen met het feit dat deze schaal in deze groepen ook
alleen door de kiezers moest worden ingevuld. Het sekseverschil is slechts één maal significant

- in een van de twee HAVO-3 gevallen.

Ten aanzien van het sekseverschil in keuze kunnen we opmerken dat in MAVO-4 52% van
de meisjes wiskunde heeft gekozen en 83% van de jongens. In HAVO-4 is dit respectievelijk
48% en 76%. in VWO-5 voor wiskunde A 59% en 67%, voor wiskunde B 31% en 60%. Met
uitzondering van wiskunde A op het VWO wordt wiskunde ongeveer door 30% meer jongens
dan meisjes gekozen; wiskunde A wordt iets vaker door jongens gekozen.^

Hebben docenten Invloed op de verschillen tussen meisjes en jongens in de prestaties in
wiskunde, de attituden ten opzichte van wiskunde cn dc keuze van wiskunde? Zo Ja, aan
welke gedragingen van docenten valt deze invloed toe te schrijven?
Het eerste deel van deze vraagstelling kan weer worden beantwoord met behulp van
varianiieanalyses volgens het design Docent x Sekse (leerlingen). Indien de interactie signifi-

-ocr page 20-

14 H. Kuyper en M.P.C. van der Werf

cant is, kan worden geconcludeerd dat docenten van invloed zijn op het verschil tussen meisjes
en jongens op de betreffende variabele. Strikt genomen behoeft er geen hoofdeffect Sekse te
zijn. Ter beantwoording van het tweede deel van de vraagstelling moet de interactie - indien
deze significant is - verklaard worden uit de geobserveerde docentgedragingen. Beide analyses
samen vormen een zogenaamde multi-level analyse (Aitkin & Longford, 1986). De analyses
zijn verricht met VARCL (Longford, 1988). Om het onderscheidingsvermogen van de tweede
stap, waarin docenten en niet leerlingen de relevante analyse-eenheid zijn, te verhogen, zijn
MAVO, HAVO en VWO samengevoegd. Er resteren dan drie gevallen, namelijk bij de eerste
meting het jaar
voor de keuze en het jaar var\ de keuze, en bij de tweede meting alleen het jaar
van de keuze.

De feitelijke keuze van wiskunde was bij de dataverzameling alleen bekend van de leerlingen
die bij meting 1 in het jaar
van de keuze zaten, voorzover ze tevens bij meting 2 in het jaar na dc
keuze zaten. Aan alle leerlingen is tevens de
voorgenomen keuze van wiskunde gevraagd op een
vijfpuntsschaal, lopend van 'zeker niet' tot 'zeker wel'. Een complicatie van het samenvoegen
van MAVO, HAVO en VWO is dat de voorgenomen en feitelijke keuze in het VWO enerzijds
wiskunde A betrof en anderzijds wiskunde B. Daarom zijn de voorgenomen en feitelijke keuze
van wiskunde door de MAVO- en HAVO-leerlingen enerzijds gecombineerd met de voorgenomen
en feitelijke keuze van wiskunde A door de VWO-leerlingen en anderzijds met de voorgenomen
en feitelijke keuze van wiskunde B door dc VWO-leerlingen.

De analyses zijn behalve op het gemiddelde cijfer van kerst- en paasrapport, de vier leerling-
attituden en de hierboven gedefinieerde keuze-variabelen, ter vergelijking ook verricht op de
drie schalen met betrekking tot dc waarneming van het gedrag van de wiskundedocent. De
VARCL analyses bestaan in principe uit het fitten van verschillende modellen. Het gebrek aan
fit van een bepaald model wordt uitgedrukt in dc 'deviantie.' Door een model waarin een
bepaald effect niet voorkomt te vergelijken met een model waarin dat effect wel voorkomt en
voor het overige hetzelfde is, wordt een toets verkregen van de significantie van dat effect. Het
verschil tussen de twee devianties is a-symptotisch chi-kwadraat verdeeld. In tabel 5 zijn deze
verschilwaarden voor de toetsing van dc interactie-term Docent x Sekse (leerlingen) samenge-
vat. Indien het verschil significant is (p < .01). waarbij de X2-toets in dit geval twee vrijheids-
graden heeft, is dat met * aangegeven.

Tabel 5. Toetsing van dc Doccnt x Sekse interactie: vcrschillcn in deviantie.

meting 1 meting 2

jaar voor keuze

jaar van keuze

jaar van keuze

gemiddelde cijfer

2.2

2.0

10.9*

jongensvak

27.4*

14.6*

39.8*

nul

4.5

9.0

0.3

moeilijkheid

4.3

0.0

1.2

plezier

3.6

2.5

13.5*

open lesgedrag

12.2»

6.9

22.3*

seksespecifiek lesgedrag

11.5*

5.5

27.4*

relevantie overdracht

5.9

6.7

'2.8

voorgenomen keuze (A)

4.3

13.1*

10.2*

voorgenomen keuze (B)

9.6*

4.7

11.7*

feitelijke keuze (A)

-

1.9

-

feitelijke keuze (B)

-

0.0

-

p<.01

-ocr page 21-

Invloed van docenten op sekse verschillen bij wiskunde 15

Hoewel er in een aantal gevallen sprake is van significantie, zijn de verschillen in deviantie,
op vier uitzonderingen na, slechts klein en - gelet op de grote aantallen waarnemingen op
leerlingniveau - in feite niet relevant (zie hiervoor met name hetgeen Kreft (1987) over een
vergelijkbaar geval opmerkt). De vier uitzonderingen, waarbij het verschil in deviantie groter
dan 20.0 is, zijn 'jongensvak' (2x), 'open lesgedrag' en 'seksespecifiek lesgedrag'. In deze vier
gevallen is getracht de interactie te verklaren uit acht docentkenmerken. Zes van deze kenmer-
ken berusten op de observatiegegevens. Het zijn indices die de mate aangeven waarin een
docent de volgende gedragingen vaker tot meisjes dan wel tot jongens richtte:

1. beurt geven;

2. gelegenheid geven te antwoorden na het opsteken van de vinger;

3. negatieve feedback/reinforcement/stimulering geven;

4. positieve feedback/reinforcement/stimulering geven;

5. hulp of antwoord geven;

6. leerling tot de orde roepen.

Het zevende kenmerk is de sekse van de docent, en het achtste de in paragraaf 4.1 besproken
partiële correlatie-coëfficiënt die de richting en mate van seksespecifieke advisering aangeeft.

De helling van de regressielijnen op 'jongensvak' blijkt in geen van beide gevallen significant
gerelateerd te zijn met een van de acht docentkenmerken. In de twee overige gevallen blijkt de
enige docentfactor die met de hellingen samenhangt de sekse van de docenten te zijn. Op 'open
lesgedrag' is de relatie zodanig dat de meisjes de vrouwelijke docenten als het meest 'open'
waarnemen, terwijl de overige drie combinaties onderling nauwelijks verschillen. Van de potentiëel
te verklaren variantie in de hellingen - die de interactie Docent x Sekse (leerlingen) represente-
ren - wordt hierdoor 15% verklaard. Op 'seksespecifiek lesgedrag' is de relatie zodanig dat de
meisjes mannelijke docenten meer seksespecifiek vinden lesgeven dan de jongens dat vinden,
terwijl de jongens vrouwelijke docenten juist meer seksespecifiek vinden lesgeven dan de
meisjes dat vinden. Van de potentiëel te verklaren variantie in de hellingen wordt hierdoor 8%
verklaard. Dit laatste geval vertoont enige gelijkenis met het in de probleemstelling geschetste
geval. Overigens moet worden bedacht dat de genoemde 15% en 8% percentages zijn van het
percentage door de interactie verklaarde variantie, dat blijkens tabel 3 ongeveer 3% is. In feite
kan ook hier worden gesteld dat ze wel significant maar niet relevant zijn.

Er kan worden geconcludeerd dat wiskundedocenten geen noemenswaardige .seksespecifieke
invloed hebben op de prestaties in wiskunde, de attituden ten opzichte van wiskunde, en de
voorgenomen en feitelijke keuze van wiskunde - waarmee vraagstelling 5 beantwoord is.

DISCUSSIE

De antwoorden die op de vijf vraagstellingen zijn verkregen, vormen naar onze mening een
consistent patroon. Het antwoord op de eerste vraag luidt dat docenten inderdaad andere ver-
wachtingen hebben van meisjes dan van jongens, en wel minder 'gunstige'. Van jongens wordt
een wat grotere potentiële verbetering in prestaties verwacht dan van meisjes, en er is een
zwakke adviseringstendens - het cijfer in aanmerking genomen - ten nadele van de meisjes.

Deze resultaten repliceren de bevindingen van Jungbluth (1982). Het antwoord op de tweede
vraag luidt dat docenten meisjes enigszins anders behandelen dan jongens. Dit is echter voor het
grootste deel te herleiden tot het feit dat meisjes zelf zich in de klas anders gedragen dan
jongens. Voor het overige is het eerder zo dat de meisjes 'gunstiger' worden behandeld, dan dat
het omgekeerde het geval is. Desgewenst kan echter het vaker ongevraagd hulp of uhleg geven
aan meisjes worden geïnterpreteerd als 'ongunstig', omdat hierdoor de onzekerheid van meisjes
kan worden vergroot ('leamed helplessness'). Mogelijkerwijs vertonen docenten dit gedrag ter
compensatie van de minder 'gunstige' verwachtingen die zij van meisjes hebben - aangenomen
dat ze zich ervan bewust zijn.

Een punt van kritiek kan zijn de validiteit van de observaties. De docenten - cn ook dc

-ocr page 22-

16 H. Kuyper en M.P.C. van der Werf

leerlingen - waren zich uiteraard bewust van het feit dat ze geobserveerd werden, en de docen-
ten waren zich er min of meer van bewust dat het onderzoek om verschillen tussen meisjes en
jongens ging (de leerlingen wisten dat niet). Mogelijkerwijs zijn de docenten opzeuelijk
'meisjesvriendelijk' geweest. Deze kritiek valt moeilijk te weerleggen. We kunnen er echter het
volgende tegen inbrengen. In de eerste plaats waren de docenten zich bij het invullen van de
vragen per leerling in gelijke mate bewust van de bedoeling van het onderzoek. Het is ons
inziens aanzienlijk eenvoudiger om bij het privé invullen van een vragenlijst een bepaald beeld
te schetsen, dan tijdens het geven van een les. In de tweede plaats kan op grond van de 'social
facilitation' theorie (zie Pruyn, 1986) voorspeld worden dat de aanwezigheid van een observa-
tor 'arousal' veroorzaakt, hetgeen de kans op de 'dominante response' zou doen toenemen.
Indien de 'dominante response' 'jongensvriendelijk gedrag' is, zou het dus onwaarschijnlijk
zijn dat er juist meer 'meisjesvriendelijk' gedrag vertoont wordt. In zijn eigen experimenten
vond Pruyn echter weinig bevestiging voor het geschetste mechanisme. Overigens is uit ge-
sprekken met de observatoren naar voren gekomen dat deze de indruk hadden dat hun aanwezig-
heid in de meeste gevallen snel werd vergeten.

Tenslotte hebben de leerlingen zelf aangegeven dat hun docent niet of nauwelijks op sekse-
specifieke wijze lesgeeft. Het gemiddelde op de betreffende schaal ligt dicht bij het schaalminimum.
Opvallend is daarbij nog dat het meisjesgemiddelde nog lager is dan het jongensgemiddelde.
Een mogelijke, ietwat cynische interpretatie hiervan is dat de meisjes, die als het ware profiteren
van de bevoordeling door de docent - voorzover aanwezig - deze ontkennen. Uit onder andere
gesprekken met meisjes in het middelbaar technisch onderwijs komt echter naar voren dat ze het
liefst op dezelfde wijze als jongens worden behandeld (Udo, 1987). Overigens geldt ook op
'seksespecifiek lesgedrag' dat het verschil tussen de seksen slechts gering is - zo'n
2% ver-
klaarde variantie. Op de overige drie schalen met betrekking tot de waarneming van de
wiskundedocent is het sekseverschil nog kleiner en, enkele uitzonderingen daargelaten, niet
significant. Vraagstelling 3a is hiermee beantwoord: gemiddeld nemen meisjes en jongens hun
wiskundedocent op dezelfde wijze waar. Het antwoord op vraagstelling 3b is eveneens overwe-
gend negatief. Het komt niet of nauwelijks voor dat er wiskundedocenten zijn die door meisjes
heel anders worden waargenomen dan door jongens. De interactie Docent x Sekse (leerlingen)
verklaart zo'n
3% van de variantie, en is in slechts twee gevallen significant.

Ook op vraagstelling 4 worden duidelijk antwoorden verkregen. Wat betreft de prestaties in
wiskunde is er een vrij klein verschil ten gunste van de jongens gevonden in het gemiddelde
rapportcijfer (gemiddeld 0.2 punt). Wat betreft de attituden ten opzichte van wiskunde: meisjes
vinden wiskunde nog minder een jongensvak dan jongens dat vinden, ze vinden wiskunde
gemiddeld minder nuttig en moeilijker dan jongens, terwijl het verschil in (gebrek aan) plezier
te verwaariozen is. De gemiddelde effectgrootte op de eerstgenoemde drie schalen is ongeveer
van dezelfde grootte - circa .40 (standaarddeviatie).

Wat beü-eft de keuze van wiskunde: op MAVO en HAVO kozen ongeveer 30% meer jongens
dan meisjes wiskunde; op het VWO geldt voor wiskunde B hetzelfde percentage, terwijl voor
wiskunde A het verschil veel kleiner is (8%), maar wel'in dezelfde richting.

Het antwoord op de vijfde vraag, tenslotte, luidt dat docenten niet van invloed zijn op de
geconstateerde verschillen in prestaties, attituden en keuze. De invloed van docenten is relatief
nog het grootst op de verschillen tussen meisjes en jongens in waargenomen docentgedrag,
hetgeen overigens voor de hand ligt. Maar zelfs in dit geval gaat het om een gering effect. Dat de
betreffende interactie-term zo weinig variantie verklaart en doorgaans niet significant is, bete-
kent dat de aangetroffen verschillen tussen meisjes en jongens bij ieder^ docent ongeveer even
groot en in dezelfde richting zijn. Het is echter zeer wel mogelijk dat er lussen docenten (grote)
verschillen zijn in hel gemiddelde over meisjes en jongens Ie zamen - zoals duidelijk hel geval
was met de wijze waarop docenten worden waargenomen. Maar nogmaals: we hebben geen
aanwijzingen gevonden dal er docenten zijn die 'gunstig' zijn voor mei.sjes en (juist) niet voor
jongens, of omgekeerd.

De vraag die resteert, is of hel nou eigenlijk zo verwonderlijk is dal docenten geen invloed op
de sekseverschillen hebben. Ons inziens is hel antwoord ontkennend. Uil onderzoek naar

-ocr page 23-

Invloed van docenten op sekse verschillen bij wiskunde 17

'onderwijseffectiviteit' komt in feite ook geen duidelijk beeld naar voren. Leerkrachten blijken
maar een gering effect te hebben op het gemiddeld prestatieniveau van hun klas, instroomkenmerken
in aanmerking genomen. En bovendien is de stabiliteit van de aangetroffen verschillen in effectiviteit
kwestieus. Als het hoofdeffect van docenten al gering is - behalve in de wijze waarop ze worden
waargenomen -, en de sekseverschillen bij de leerlingen ook niet erg groot zijn - behalve in
keuze - is het niet waarschijnlijk dat de interactie dat wel is. Over de voorspelling van de keuze
hebben we elders gerapporteerd (Otten en Kuyper, 1988; Kuyper en Otten, 1990).

NOTEN

1. Dit artikel is gebaseerd op ccn door SVO gesubsidieerd project (projectnummers 4227 cn 7100).

2. Dc percenuigcs hebben betrekking op dc leerlingen die aan het eind van schooljaar 85/86 hun keuze
moesten maken. Ten gevolge van 'Kies Exact' en 'Slaag Exact' kunnen de huidige percentages anders
(hoger) zijn, en de verschillen kleiner.

LITERATUUR

Aikcn, L.R. (1972). Research on attitudes toward mathematics. Arithmetic Teacher, 19, 229-234.
Aitkin, M. & Longford, N.T. (1986). Statistical modeling issues in school effectiveness studies.
Journal of

the Royal Statistical Society (series A), 149,1-43.
Beam, J.P. (1976).
What's happening in mathematics and science classrooms? Student Teacher Interactions.

Paper presented at the meeting of the AERA, San Francisco.
Chipman, S.P. & Thomas, V.G. (1985). Women's participation in mathematics: oudining the problem. In
S.F. Chipman, L.R. Brush & D.M. Wilson (eds.).
Women and mathematics. Balancing the Equation.
Hillsdale, New Jersey: LEA Publishers.
Creemers, B.P.M. (1991).
Ejfectieve instructie. Een empirische bijdrage aan de verbetering van het onderwijs

in de klas. 's-Gravcnhagc: SVO balansrccks.
Dekkers, H. & Smccts, M. (1982).
Sekse-ongelijkheid op school. Nijmegen: ITS.
Dekkers, H. (1985).
Soms kiezen meisjes anders. Scholen, dckanen, vakkenpakketten. Nijmegen: ITS.
Dossey, J.A., Muilis, I.V.S., Lindquist, M.M. & Chambers, D.L. (1988).
The mathematics report card. Are
we measuring up?
Trends and achievement based on the 1986 National Assessment, Report nr. 17-
m-01). Princcton: Educational Testing Scrvicc.
Dwcck, C.S. & Rcpucci, N.D. (1973). Learned helplessness and rcinforccmcnt rc.sponsibility in children.

Journal of Personality and Social Psychology, 25, 109-116.
Ecclcs, J. (1984).
Sex differences in achievement patterns. Nebraska Symposium on motivation, 32,97-132.
Eccles, J., Adlcr, T.F.. Futterman, R.. Goff. S.B.. Kaczala, C.M., Mcccc, J.L. & Midglcy, C. (1985). Sclf-
pcrccptions, task perceptions, socializing influences and the decision to enroll in mathematics. In
S.F. Chipman, L.R. Brush & D.M. Wilson (eds.).
Women and mathematics. Balancing the Equation.
Hillsdale, New Jersey: LEA Publishers.
Ecclcs, J. & Wigfield, A. (1985). Tcachcr expectations and student motivation. In J.B. Ousck (cd.).
Teacher

expectancies. Hillsdale: LEA publishers.
Fennema, E. & Sherman, J. (1977). Scx-rcIatcd differences in mathematics achievement, spatial visualisation

and affccUvc factors. American Educational Research Journal, 14, 51-71.
Fox, L.H. (1977). The effccts of sex role socialization on mathematics participation and achievement. In J.

Shoemaker (cd.). Women and mathematics: research perspectives for change. Washington.
Gage, N.L. (cd.)(1963).
Handbook of research on teaching. Chicago: Rand McNally.
Good, Th.L. (1987). Research: two dccadcsof rc.scarchon tcachcr expectations: findings and future directions.

Journal of Teacher Education, 38 (4), 32-47.
Harris, M.J., Rosenthal, R. & Snodgrass, S.E. (1986). The effects of tcachcr expectations, gender and
behavior on pupil acadcmic performance and sclf-conccpt.
Journal of Educational Research, 79 (3),
173-179.

Jungbluth, P. (1982). Docenten over onderwijs aan meisjes: positieve discriminatie met een dubbele bodem.
Nijmegen: ITS.

Kreft, G.G. (1987). Heeft dc Mammoetwet succcs gehad? Een onderzoek naar het verschil in loopbanen van
leerlingen op categoriale scholen cn op scholcngcmccnschappcn in het Amsterdams voortgezet

-ocr page 24-

18 H. Kuyper en M.P.C. van der Werf

onderwijs. In G.W. Meijnen, A.F.M. Nieuwenhuis & J.L. Peschar (eds.). Selectie en kwalificatie in
hel onderwijs
(27-42). Lisse: Swets & Zeitlinger.
Kristensen, D. & Jenneskens, A. (1990).
Emancipatie op schoolniveau. Verslag van onderzoeksfase 2. Nijmegen:
ITS.

Kuyper, H. (1990). Probleemverkenning Emancipatie 1990. Den Haag: SVO. (Reeks programmerings-
studies).

Kuyper, H. & Meulenbeld, J. (1990). De invloed van hel gedrag van docenten op de prestaties in, keuze van
en attituden ten opzichte van wiskunde door meisjes in het AVO/VWO.
Verslag van fasen 1 en 2.
Groningen: RION.

Kuyper, H. & Otten, W. (1990). Keuze van wiskunde A en wiskunde B in het eindexamenpakket. Tijdschrift

voor Onderwijswetenschappen, 20, 137-152.
Kuyper, H. & Van der Werf, M.P.C. (1987).
De invloed van het gedrag van docenten op de prestaties in,
keuze van en attituden ten opzichte van wiskunde door meisjes in het AVOIVWO.
Verslag van fase
1. Groningen: RION.

Linn, M. (1987). Establishing a research base for science education: challenges, trends, and recommendations.

Journal of Research in Science Teaching, 24(5), 191-216.
Linn, M.C. & Hyde, J.S. (1989). Gender, Mathematics and Science.
Educational Researcher, 18(8), 17-19,
22-27.

Longford, N.T. (1988). VARCL Manual (VARCL 3 en VARCL 9). Princeton: ETS.
Maccoby, H.E. & Jacklin, C.N. (1974).
The psychology of sex differences. Stanford University Press.
Ottcn, W. & Kuyper, H. (1988). Gender and mathematics: the prediction of choice and achievement. In A.
Borbas (red.).
Proceedings of the twelfth annual conference of the international group for the
psychology of mathematics education
(519-527). Veszprdm (Hungary): OOK.
Pruyn, A.T.H. (1986).
Performance and activation under social evaluation. Delft: Eburon.
Siero, F.W. (1987).
Feedback en motivatie in de klas. Enschede: Tiso.

Stallings, J. 0985). School, classroom, and home influences on Women's Decisions to Enroll in Advanced
Mathematics Courses. In S.F. Chipman, L.R. Brush & D.M. Wilson (eds.).
Women and Mathe-
matics: Balancing the Equation.
Hillsdale, New Jersey: Lawrcnce Erlbaum Associates, Publishers.
Travers, R.M.W. (ed.) (1973).
Second Handbook of research on teaching. Chicago: Rand McNally.
Tweede Kamer (1989).
Maatschappelijke positie van meisjes en jonge vrouwen. Tweede Kamer der Smtcn

Generaal, 1988-1989, 20939, nrs. 1-3. SDU.
Udo.S.
{\9S1). De MTS voor meisjes. Deelrapport 1: gesprekken met meisjes op de MTS. MENT-projcct (MENT

87-02). Eindhoven: TU Eindhoven.
Werf, M.P.C. van der (1988).
Meisjes en wiskunde: het IIEWET-projeci. Eindrapport. Groningen: RION.
Wittrock, M.C. (ed.) (1986).
Handbook of research on teaching. Third edition. New York: MacMillan Publ.
Com p.

Manuscript ontvangen 21-11-1990
Definitieve versie ontvangen 4-2-1991

-ocr page 25-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 19-38

Mentale rekenprocedures in het getallengebied
20-100 onderzocht met reactietijdmeting en
tempotoetsen

M. Beishuizen^ G. Wolters^ en G. Broers^
' Vakgroep Onderwijsstudies, R.U. Leiden
^ Vakgroep Functieleer, R.U. Leiden

ABSTRACT

Measurement of response time was employed to study procedural differences between two widely
used mental strategics for addition and subtraction. These so-called NIO and 1010 strategies can bc
said to differ in length and complexity of procedural stcp.s. The prediction was that response limes
would reflect those differences. To exclude (other) intervening variables experimental Ss were
selected after extensive pretesting on consistent and proficicnt use of either the NIO or the 1010
su-ategy. Both experimental groups were also comparable on level of mathematics achievement
(CITO-test) and intelligence. Response times were collected on 8 problem types: small and large
number problems (<100), addition and subu-action, no-carrying and carrying. Experimental results
confirmed the predicted procedural differences. Data from the speeded pretests (same number problems)
suggested an extra explanation: not only differences in procedural but also in declarative knowledge.

INLEIDING

In de Hteratuur heeft reactietijdonderzoek naar rekenprocessen tot dusver vooral betrekking op
de basiscombinaties tot 20. Hier gaat de toepassing van rekenprocedures na verloop van tijd
over in de vorming van geheugenkennis, wanneer deze basisrekenfeiten worden geautomati-
seerd (Ashcraft & Fierman, 1982). Echter bij optellen en aftrekken met grotere getallen boven
de 20, blijven rekenprocedures een aparte rol spelen. Immers, deze procedures worden langer,
omdat zij een aantal deelstappen gaan omvatten. Zij worden ook gecompliceerder, omdat
tussenuitkomsten onthouden en gecombineerd moeten worden. Verder moet vaker van regels
gebruik worden gemaakt (splitsen in tientallen en eenheden, inwis.selen bij tientalpassering,
enz.).

Deze bijkomende procesaspecten doen niet alleen een groter beroep op procedurele kennis,
ook het werkgeheugen wordt daardoor in sterkere mate belast. Daarbij mag men verwachten, dat
het basisprincipe van een langere reactietijd naarmate een procedure langer en gecompliceerder
is, een duidelijke rol zal spelen. Zoals bekend is dit (eenvoudige) basisprincipe in het reactie-
tijdonderzoek met kleine getallen (tot 20) inmiddels uitgebreid tot meer 'pas.sende' modellen,
die genuanceerder rekening houden met getalgrootte en andere opgavekenmerken (Groene-
wegen & Gravemeijer, 1988).

Bij opgaven met grotere getallen is dergelijk onderzoek naar passende reactietijdmodellen
nog weinig verricht. Hier zal dit ook moeilijker zal zijn, omdat een groter aantal variantiebronnen
een rol gaat spelen, waaronder meer procedure-aspecten (vgl. Hamann & Ashcraft, 1985).
Onderzoek van Hitch (1978) illustreert bovengenoemd basisprincipe, nl. dat langere en meer
gecompliceerde rekenprocedures een duidelijke toename van werkgeheugenbelxsting beteke-
nen. Bij volwassen proefpersonen rapporteert Hitch een gemiddelde reactietijd van 10,8 sec. bij
opgaven als 123-H64 (zonder tientalpa.ssering). Deze reactietijd nam toe tot respectievelijk 14,5

' Vakgroep Onderwijsstudies. RU Leiden, Postbus 9555,2300 RB Leiden.

-ocr page 26-

20 M. Beishuizen, G. Wolters en G. Broers

en 16,1 sec. bij opgaven als 127+54 en 187+54 (met respectievelijk 1 en 2 maal inwisselen van
tientallen/honderdtallen). Ook onderzocht Hitch de invloed van werkgeheugenbelasting door
schriftelijke en mondelinge aanbieding van de opgaven te vergelijken. In het laatste geval
(waarbij dus ook de getallenopgaven korte tijd onthouden moesten worden) nam het aantal
fouten duidelijk toe, hetgeen als overbelasting van het werkgeheugen geïnterpreteerd kan wor-
den.

Ons onderzoek zal zich beperken tot reactietijdonderzoek, waarin bovengenoemd basisprincipe
wordt getoetst. Het gaat dus om een (beperkte) deelverklaring, als een van de aanzetten tot een
vollediger model van het mentaal optellen en aftrekken met grotere getallen tussen 20 en 100. In
dit domein doen wij reeds langer onderzoek (Beishuizen & Van Muiken, 1988), waar echter nog
veel stukjes aan de legpuzzle ontbreken. Bij het hoofdrekenen tot 100, worden volgens onze
onderzoeksgegevens met name twee procedures veel toegepast: de zgn. GlO- en 1010-proce-
dure (Tabel 1). Beide procedures beginnen bij de grootste getallen (kenmerkend voor hoofdrekenen)
nl. de
tientallen, maar doen dit op een verschillende manier: met 1 O-sprongen bij/van het eerste
getal (GlO) of via het afsplitsen van lO-tallen in beide getallen (1010). In de nieuwe "Proeve
van een nationaal programma voor het reken-wiskunde-onderwijs" worden deze twee
oplossingsmanieren eveneens als 'de twee kemmethoden' aangemerkt (Treffers & De Moor,
1990, p. 69), en vergelijkbaar beschreven als de 'rij- of sprongmethode' respectievelijk de
'kolom- of splitsmethode'. In de "Proeve" worden diverse suggesties gedaan voor het aanleren
van deze oplossingsmanieren. Uit het recente PPON evaluatie-onderzoek kan men afleiden, dat
hier inderdaad behoefte is aan verbetering van de onderwijspraktijk. Immers, medio groep 5
geeft slechts 55% van de Nederlandse kinderen blijk van een voldoende beheersing van opgaven
als 64-28 (Wijnstra, 1988, p. 47).

Wat betreft deze veelvoorkomende procedures GlO en 1010, willen wij in dit onderzoek
uitsluitend de hypothese toetsen, dat door verschillen in lengte (aantal deelstappen) en complexiteit
(tussenuitkomsten combineren, regels toepassen) - met als gevolg uiteenlopende werk-
geheugenbelasting - deze procedures óók zullen verschillen in gemiddelde reactietijd. Om een
valide schatting van deze verschillen te verkrijgen zullen wij alléén reactietijden meten van
geselecteerde proefpersonen (in groep 5), die deze procedures (GlO of 1010) in voldoende mate
beheersen en consistent toepassen. Voor ändere gevolgen van lengte en complexiteit van procedures
(gebrekkige uitvoering, opnieuw beginnen, fouten, enz.), die uiteraard óók de reactietijd kunnen
beïnvloeden, zullen wij zoveel mogelijk controleren. En dus komen laatstgenoemde
variantiebronnen in dit onderzoek slechts ter zijde aan de orde. Eerst geven wij nu een korte
typering van deze rekenprocedures GlO en 1010.

Tabel 1. Verschillende oplossingsproccdurcs in het gclallcngcbicd 20-100.

1010 = getallen splitsen. Tienlallen bij/van elkaar, daarna eenheden:
46+23 via 40+20=60 cn 6+3=9, samen 60+9=69
42-15 via 40-10=30 cn 2-5=?, dikwijls/o«/: 2-5=3. samen 30+3=33

goed is: 30->20, 12-5=7, samen 20+7=27
of
lOl-aanpassing, zie onder

lOt = gelijk aan 1010, maar eenheden mei tussenstap locvocgcn/afhalcn:
46+23 via 40+20=60, 60+6=66, 66+3=69
42-15 via 40-10=30, 30+2=32, 32-5=27

GlO = eerste Getal niet splitsen, tientallen crbij/craf springen:
46+23 via 46+20=66, 66+3=69
42-15 via 42-10=32,32-5=27

Noot: Ook oplossingsproccdurcs, die beginnen met dc eenheden, worden gescoord als (c)lOlO of (c)GlO.

-ocr page 27-

Mentale rekenprocedures in het getallengebied 20-100 21

In Nederlandse rekenmethodes ligt bij de instructie het accent op de G1 O-procedure, die men
kan typeren als een uitbreiding van het tel-algoritme, maar nu met 10-sprongen tot 100 vanaf elk
willekeurig getal (Fuson, Richards & Briars, 1982; Beishuizen & Van Mulken, 1988; Treffers &
De Moor, 1990). Uit onderzoek is bekend, dat deze uitbreiding van de telrij aanvankelijk veel
oefening en moeite kost, omdat een omvangrijk stuk nieuwe declaratieve kennis moet worden
opgebouwd (10-sprongen zoals 26, 36, 46, 56, 66, enz., ook achteruit, vgl. Fuson, Richards &
Briars, 1982; Beishuizen & Van Mulken, 1988).

Veel kinderen volgen daarom niet of onvolledig deze instructie in de G1 O-procedure, en
kiezen spontaan voor de 1010-procedure als 'informele' strategie. Bij de 1010-procedure wor-
den eerst de tientallen en eenheden in beide getallen afgesplitst (daarom als 'decomposition'
aangeduid in de Amerikaanse literatuur, vgl. Resnick, 1986). Kinderen doen dit, zo blijkt uit
protocollen, dikwijls met het argument van probleemvereenvoudiging: "van de grote som maak
ik twee kleine sommetjes". Bovendien kunnen ze dan gebruik maken van declaratieve basiskennis,
die ze reeds beheersen (40+20=60 naar analogie van 4+2=6). Veel kinderen vinden daarom in
de aanleerfase de 1010-procedure 'gemakkelijker' dan de GlO-procedure (met 10-sprongen, die
ze nog nie^ goed kennen).

Veel moeilijker echter wordt de (correcte) uitvoering van de 1010-procedure bij opgaven met
tientalpassering (Tabel 1). Vooral bij aftrekken ontstaan dan impasses (2-5=?), die heel vaak
leiden tot bekende 'bugs' (2-5=3). Correcte oplossingen van deze impasses vragen om aanvul-
lende uitvoering van deelstappen met 'lenen en inwisselen' als nieuwe regel (Tabel 1), of een
aanpassing van de 1010-procedure met een andere 'tussenstap' zoals de lOt-variant (Tabel 1).
Ook bij het aftrekken zónder tientalpassering doen zich bij de 1010-procedure problemen voor,
die betrekking hebben op de (noodzakelijke) 'richtingwisseling' in de rekenoperaties: 48-25 via
40-20=20en 8-5=3 (aftrekken), antwoord 20+3=23 (optellen). Kinderen gaan hier 'richtingfouten'
venonen, zoals 'alles aftrekken': 40-20=20 en 8-5=3, antwoord 20-3=17; of direct al fout bij 40-
20=20, dan 20-8-5=7.

Deze uitvoeringsproblemen van de rekenoperaties doen zich bij de GlO-procedure in veel
mindere mate voor. Want bij optellen en aftrekken, maar ook bij de moeilijke opgaventypen met
tientalpassering (42-15), kan de afwikkeling van de deelstappen steeds op dezelfde manier via
10-sprongen sequentieel en zonder aanpassingen blijven verlopen (42-10=32,32-5=27). Daarom
krijgt na een moeilijke aanleerfase de uitvoering van steeds dezelfde GlO oplossingsstappen
naar onze mening een sterker 'algoritmisch' karakter dan bij de 1010 oplossingsstappen het
geval is (waar 'inzichtelijke' aanpassingen nodig blijven). Bovendien maakt het meer 'sequentiële'
karakter van de GlO-procedure (het 'doorrekenen' op tussenuitkomsten, en deze niet tijdelijk
bewaren en dan combineren zoals bij de 1010-procedure) deze methode meer geschikt als
mentale hoofdrekenprocedure. Niet alleen Nederlandse, maar ook Duitse en Engelse reken-
methodes (Williams & Shuard, 1982, p. 138) benadmkken daarom de GlO-procedure bij in-
structie en oefening van optellen en aftrekken in het getallengebied 20-100.

Uit dit laatste curriculum-gegeven volgt nog een mogelijke extra verklaring voor het grotere
aantal fouten bij de 1010-procedure. Niet alleen vraagt de grotere, procedurele complexiteit van
deze methode meer (inzichtelijke) aanpassingen. Ook de geringere instmctie-aandacht voor
deze (informele) 1010-strategie in de rekenmethodes in groep 4, zal enoe bijdragen dat de
beheersing daarvan op een gebrekkiger niveau blijft steken (Beishuizen, 1986).

In Figuur 1 een illustratie van de hierboven beschreven aspecten van de GlO- en de 1010-
procedure tijdens de aanleerfase in groep 4. In een eerder longitudinaal onderzoek (Beishuizen
& Van Mulken, 1988) werden identieke opgaven in individuele interviews voorgelegd aan
kinderen, die met het 100-veId of met staven leerden rekenen, en (daardoor) overwegend dc
GlO- respectievelijk dc 1010-procedurc toepasten. Ofschoon de geregistreerde antwoordtijden
geen nauwkeurige metingen genoemd kunnen worden (protocollering van oplossingsmanieren,
nddat het antwoord was gegeven, stond centraal), geven de curves in Figuur 1 toch een indicatie
van een duidelijk verschillend verloop.

Bij de GlO-procedurc aanvankelijk zeer lange antwoordtijden, omdat dc 10-sprongen nog
niet geautomatiseerd beschikbaar zijn, en ten koste van veel 'denktijd' bewust mentaal gecon-

-ocr page 28-

22 M. Beishuizen, G. Wolters en G. Broers

Rekenmethode met staven:
overwegend 1010-procedure

Rekenmethode met 100-veId:
overwegend G10-procedure:


strueerd moésten worden. Daama zien we een zeer sterke verkorting optreden bij de volgende
toetsmomenten, t.g.v. van oefening en automatisering. Bij de 101 O-procedure zien we aanvan-
kelijk veel kortere antwoordtijden (minder moeizame mentale constructies) dan bij de GlO-
procedure. Echter, deze 1010-antwoordtijden laten weinig verkorting zien op de volgende
toetsmomenten. Daardoor zien we aan het eind van groep 4 een omgekeerd beeld ontstaan (Fig.
1): langere antwoordtijden bij 1010 dan bij GlO.

In het hiernavolgende onderzoek zal de meting van reactietijden centraal staan, en meer
betrouwbaar plaatsvinden. Daarom werd dit reactietijdonderzoek ook niet uitgevoerd in groep
4, maar in groep 5, waar een betere en meer geroutineerde beheersing van zowel de GlO- als de
1010-methode verwacht mag worden.

Uit bovenstaande beschrijving van beide procedures kan worden afgeleid, waarom wij verwachten
dat ook reeds bij gemakkelijker opgaventypen als optellen zonder tientalpassering (46+23), dc
1010-procedure een langere reactietijd zal geven dan de G1 O-procedure. Het aantal deelstappen
is bij de 1010-procedure 1 méér dan bij dc GlO-procedure (Tabel 1), nl. het combineren van de
(onthouden) tussenuitkomsten als laatste stap. Wij doelen hier op een verschil in het
aantal
procedurele 'rekenstappen\ Buiten beschouwing laten we de vraag of een 1010-rekenstap als
40+20 niet sneller verloopt dan een GlO-rekenstap als 46+20. We veronderstellen hier, dat
'goede* 1010-ers en GlO-ers in groep 5 deze getalsrelaties geautomatiseerd beschikbaar heb-
ben, en daarom in dit opzicht niet of nauwelijks zullen verschillen. Ook de eerste stap van het

-ocr page 29-

Mentale rekenprocedures in het getallengebied 20-100 23

splitsen van de getallen uit de opgave laten we om dezelfde reden buiten beschouwing (bij de
101 O-procedure beide getallen, bij de GlO-procedure alleen het tweede getal).

Wanneer de opgaven moeilijker worden (aftrekken, tientalpassering), zal naar onze verwach-
ting het verschil in reactietijd toenemen, vooral omdat de 101 O-procedure dan gecompliceerder
wordt door extra deelstappen als de genoemde 'richtingwisseling' en het 'inwisselen' (Tabel 1).
Het verschil met de GlO-procedure is hier gróter dan 1 rekenstap geworden (Tabel 1). De
aanpassing van de 101 O-procedure via de lOt-variant (Tabel 1) blijft als oplossingsstrategie
buiten beschouwing in dit onderzoek. Omdat tussen opgaventypen (vgl. Tabel 1 en Tabel 2
hierna) onderscheid kan worden gemaakt in het aantal deelstappen en de mate van complexiteit,
kan de algemene onderzoekshypothese nader worden uitgewerkt in de volgende specifieke
hypotheses.

1. Wanneer de lengte en de complexiteit van procedures toenemen (bij tientalpassering, bij
aftrekken) verwachten we als hoofdeffect een toenemende reactietijd bij deze meer gecompliceerde
opgaventypen - ongeacht de oplossingsprocedures GlO of 1010. Eenzelfde hoofdeffect als
gevolg van geheugenbelasting verwachten we door evenals bij Hitch (1978) in het reactietijd-
onderzoek de opgaven lang (schriftelijk) of kort (mondeling) te presenteren.

2. Effecten op reactietijden als gevolg van de procedurele verschillen tussen GlO en 1010
verwachten we enkel en vooral bij de zgn. 'grote sommen' (Tabel 2). Bovendien zal dit proce-
dure-effect interacteren met bovengenoemde kenmerken: tientalpassering, aftrekken en
presentatieduur. Bij de 101 O-procedure zullen deze opgaventypen door extra geheugenbeasting
tot relatief méér toename van reactietijden leiden, dan bij de GlO-procedure.

3. Bij de zgn. 'kleine sommen' (Tabel 2) verwachten we géén verschil in reactietijden als
procedure-effect. Omdat hier geen tientallen, maar slechts eenheden moeten worden opgeteld of
afgetrokken, zullen de procedures GlO of 1010 hier geen rol spelen. Wc verwachten dat alle
oplossingen in hoofdzaak op eenzelfde manier, nl. via 'eenheden optellen/aftrekken' cn via
'aanvullen/leegmaken tot het tiental', tot stand zullen komen. Bijvoorbeeld: 65+4=69; 37+8 via
37+3=40,40+5=45; 72-8 via 72-2=70,70-6=64. Een verwachting, die wij baseren op het domineren
van analoge oplossingen bij het rekenen rond 20: 17+8 via 17+3=20, 20+5=25; 22-8 via 22-
2=20, 20-6=14.

Het onderzoek is allereerst gericht op mondelinge rcaciictijdmeting. Omdat soortgelijke opga-
ven (Tabel 2) vooraf ook werden aangeboden als schriftelijke
tempotoetsen (om proefpersonen
te seiccterenX zijn deze data eveneens beschikbaar en zullen ook worden besproken. Aangezien
het om vergelijkbare afnamecondities gaat. verwachten we bij de tempotoetsen dezelfde effec-
ten van geheugenbelasting als gevolg van opgavekenmerken en procedureverschillcn, zoals in
bovenstaande hypotheses geformuleerd.

Tabel 2. Voorbeelden van dc 8 somtypen, afgenomen bij tempotoetsen cn rcactictijdmcting.

kleine sommen'.

grote sommen:

optellen -lp:

42+6, 65+4

43+24. 52+26

optellen +ip:

37+8, 78+5

47+35. 67+28

afuekkcn -tp:

46-5. 89-6

48-25. 75-21

afuckkcn +lp:

54-6. 72-8

57-39. 61-48

-ocr page 30-

24 M. Beishuizen, G. Wolters en G. Broers

METHODE

Instrumentatie

Voor het reactietijdonderzoek werd een opgavenset ontwikkeld, waarvan de somtypen zich
onderscheiden volgens de kenmerken 1) kleine/grote sommen, 2) optellen/aftrekken, 3) geen/
wel tientalpassering. Deze 8 somtypen in het getallengebied 20-100 zijn weergegeven in Tabel
2.

Vooraf werden deze opgaven in 8 tempotoetsen voorgelegd aan een grotere groep leerlingen,
om de proefpersonen voor het onderzoek te selecteren. De instmctie bij alle tempotoetsen luidde
om zoveel mogelijk sommen in korte tijd te maken. De afnametijd was 3 minuten per toets en de
score was het aantal goed gemaakte opgaven (8 scores). De leerlingen (eind groep 5) maakten
vrijwel geen fouten, behalve bij het moeilijkste somtype: aftrekken met tientalpassering (Tabel
2). Daarom werd alleen laatstgenoemde toetsscore gebruikt om proefpersonen met een vol-
doende/goede procedurebeheersing te selecteren. Als criterium werd gehanteerd dat 2/3 van de
gemaakte opgaven van dit type (af+tp) goed moest zijn beantwoord (dus > 66% goed). Deze
tempotoetsen werden tweemaal afgenomen met een tussentijd van ongeveer 8 weken. Teneinde
proefpersonen met een consistente voldoende/goede procedurele kennis te selecteren, moest op
beide afnames aan bovengenoemd criterium zijn voldaan.

Om proefpersonen met een GlO- of lOlO-procedurevoorkeur (en andere varianten) te kunnen
onderscheiden, werd bovendien een toets "Eigen oplossingsprocedures" afgenomen. Deze bevatte
alleen grote sommen, zönder en mét tientalpassering door elkaar, optellen en aftrekken apart in
twee toetsdelen. Bij elke opgave moesten de leeriingen hun oplossingsmanier in stapjes opschrijven.
Om dit te verduidelijken werd bij de eerste afname vooraf een kort klassegesprek gehouden
(eerst bij optellen, daarna bij aftrekken), waarbij aan de hand van enkele voorbeeldopgaven
leerlingen hun eigen oplossingsmanieren vertelden. Daarbij bleken altijd de procedures 1010 en
GlO voor te komen - meestal ook de variant lOt (Tabel 1) - en de proefleider schreef deze 3
oplossingsmanieren in stapjes op het bord.

Fouten werden niet expliciet gecorrigeerd (bijv. bij aftrekken met 1010), maar de proefleider
vroeg dan aan de klas om een "andere" oplossing, en benadmkte de "goede" oplossing (die op
het bord kwam). Overigens werd benadrukt dat "elke oplossingsmanier" mocht worden gebmikt,
maar dan wel "goed" uitgevoerd (ook wat betreft het volledig opschrijven van de stapjes). Dus
ook andere dan de 3 bovengenoemde varianten werden geaccepteerd, maar niet op het bord
geschreven. Alleen 'cijferend (hoofd)rekenen' werd niet geaccepteerd, en werd expliciet op het
bord gecorrigeerd: getallen niet "onder elkaar" cn de tientallen "helemaal" opschrijven. Vervolgens
werden deze deeltoetsen "Eigen oplossingsprocedures" (optellen en aftrekken) gemaakt zonder
tempodmk. Wanneer de meeste leeriingen in de klas 12 opgaven hadden gemaakt, inclusief het
opschrijven van de oplossingsstapjes, werd de deeltoets afgebroken (na ongeveer 20 minuten).

Ook deze toets "Eigen oplossingsprocedures" werd na 8 weken opnieuw afgenomen, en
alléén proefpersonen met een consistent gebruik van hetzij de GlO- of de 101 O-procedure (bij
90% van de eerste 12 opgaven) werden geselecteerd. Hier werd eveneens het beheersingscriterium
toegepast, dat meer dan 66% van de aftreksommen goed moest zijn gemaakt (beide afnames).
Het zelf opschrijven van de 'eigen' oplossingsstapjes stapjes gaf in het algemeen weinig problemen,
omdat, zoals ook uit ander onderzoek blijkt (Bloemkolk, 1988), leeriingen in groep 5 daarin
voldoende vaardig zijn (in groep 4 geeft dit meer problemen).

«

Tenslotte werden nog de volgende standaardtoetsen afgenomen om proefpersonen te kunnen
selecteren, die zoveel mogelijk vergelijkbaar waren. De CITO-toets "Medio Leerjaar 3" voor
algemeen rekenniveau, en de "Coloured Raven" voor intelligentieniveau. De klassikale afname
van alle genoemde toetsen werd over enkele ochtenden gespreid. Tevens werd het Paasrapportcijfer
voor rekenen als selectiecriterium gebruikt. Bij de geselecteerde proefpersonen werd nog de
(mondelinge) "WlSC-Digit Span" toets afgenomen om voor cijfergeheugencapaciteit te contro-
leren.

-ocr page 31-

Mentale rekenprocedures in het getallengebied 20-100 25

Selectie proefpersonen

Het vinden van proefpersonen, waarvan met zoveel mogelijk zekerheid mocht worden aangenomen,
dat zij de reactietijdopgaven via de GlO- of de 1010-procedure zouden oplossen, was een
belangrijke voorwaarde voor het onderzoek. Omdat uit de literatuur bekend is, dat het navragen
van oplossingsprocedures de reactietijden kan vertragen (Svenson, 1985), werd gekozen voor
selectie vooraf via de hierboven beschreven toetsen. Selectie vooraf gaf ook meer mogelijkhe-
den tot experimentele controle op voldoende procedurele beheersing, en op vergelijkbaarheid
van een aantal andere, mogelijk beïnvloedende variabelen (rekenniveau, intelligentie).

Tevens was uit de literatuur en uit eerder onderzoek bekend (Beentjes & Jonker, 1987), dat
consistente toepassing van telkens dezelfde oplossingsprocedure bij een reeks (verschillende)
opgaventypen niet bij alle leerlingen verwacht mag worden. Daarom moesten voor het beoogde
onderzoek ook op dit punt strenge selectiecriteria aangelegd worden (vgl. hierboven), zoals
herhaalde toetsafnames. Echter, daarmee werd tevens een nieuwe bron van 'inconsistentie'
binnengehaald: wisselingen qua beheersingsniveau en/of oplossingsprocedure 'tussen' beide
toetsafnames (vgl. Poorthuis & Kok, 1989).

Samenvattend was de inschatting, dat een groot aantal leeriingen zou moeten worden bena-
derd, om uiteindelijk het gewenste aantal van 20 "GlO-ers" en 20 "1010-ers" te kunnen selecteren.
Om deze kansen te vergroten werd op grond van eerder onderzoek naar materiaal-effecten
(Beishuizen, 1986), gekozen voor scholen met twee verschillende rekenmethodes. Enerzijds
scholen met de methode "Operatoir Rekenen" (OR), waar door het gebruik van het 100-veld
tijdens de aanleerfase (in groep 4), méér consistente GlO-ers konden worden verwacht. Ander-
zijds scholen met de methode "Niveaucursus Rekenen" (NCR), waar door het gebruik van
rekenstaven tijdens de aanleerfase (in groep 4), méér consistente 1010-ers aangetroffen zouden
kunnen worden.

Totaal werden ongeveer 150 leerlingen uit groep 5 op zes scholen onderzocht. In Figuur 2 een
overzicht van leerlingen met een consistente toepassing van dezelfde procedures op beide afnames
van de toets "Eigen oplossingsprocedures" (64% van alle leerlingen op scholen met de methode
OR, en 77% bij de methode NCR). Uit exploratieve overwegingen werden dezelfde toetsen óók
op 3 vergelijkbare (middenklasse) scholen met de methode Naar Zelfstandig Rekenen (NZR)
afgenomen, waar 63% van de leerlingen blijk gaf van consistente toepassing van oplossings-
procedures.

De leerlingen zijn in Figuur 2 gegroepeerd in kolommen naar voorkeurstrategie: GlO, lOt,
1010, of combinaties van deze strategieën. We zien hoe - zoals verwacht - bij de methode OR
de GlO-procedurc domineert bij 27 leeriingen, terwijl omgekeerd bij de methode NCR de 1010-
procedure domineert bij 44 leerlingen. Bij de methode NZR - zonder gebruik van 100-veld of
staven - liggen de procedures het meest gespreid over de verschillende typen. Tevens zijn in
Figuur 2 de beheersingsniveaus aangegeven, onderverdeeld volgens het 'strenge' criterium van
66% goed of lager is 'onvoldoende'. Tevens zijn dc leeriingen in Figuur 2 geordend volgens hun
ClTO-decielscore Medio Leerjaar 3 voor algemeen rekenniveau.

Zonder daar nu uitvoerig op in te gaan, wijzen wc toch op de trend in deze data. dat bij accent
op G10- of 101 O-instructie via 1 OO-veld (methode OR) of staven (methode NCR), beide procedures
op älle rekenniveaus (CITO) van hoog tot laag aangetroffen worden. Bij de methode NZR echter
- bij minder accent via leermiddelen op een bepaalde procedure - zien we een änder beeld: meer
(spontane) voorkeur voor G10 en combinatie-strategieén op hóger rekenniveau, en meer (spontane)
voorkeur voor lOt en 1010 op läger rekenniveau.

Als tweede trend zien we in Figuur 2 een bevestiging van het beschreven verschil in effectiviteit
tussen procedures. Bij de GIO-procedure (en combinatie-strategieën) is er overwegend 'voldoende'
beheersing van het moeilijkste somtype aftrekken + tientalpassering. Bij de 1010- en lOt-
procedures zien we veel meer 'onvoldoende' beheersing van dit moeilijkste somtype, variërend
van wisselende of 'inconsistente' voldoende/ onvoldoende beheersing tot overwegende/volle-
dige 'onvoldoende' beheersing. Deze tweede trend is aanwezig in Figuur 2 bij älle methodes,
dus veel meer als procedurekenmerk dan als methodekenmerk.

-ocr page 32-

26 M. Beishuizen, G. Wolters en G. Broers

Rekenmethode OR
(3 scholen, N=66)

Rekenmethode i
(3 scholen, N

NCR
=82)

Rekenmethode NZR
(3 scholen, N=83)

CITO
deciel-
score

GlO

lOt

1010

comb
•)

GlO

lOt

1010

comb

GlO

lOt

1010

comb
■)

10 -
9 -

oo
000
0000

oh

OO
0000

OOG
O

000^

O

oook^

^

000
0

- 10
- 9

8 -

000

OO

O

00

O

OO

0

- 8

7 -

OO

O

OO

O

ooo^

O

O

- 7

6 -
5 -
4 -

000»J

O

00

0

0
0

O*

OO

0

OO
o^
00

O
^

^

O

OO
OÏ!l

- 6

- 5

- 4

3 -
2 -

0000

O

O

OH)«

09

- 3

- 2

1 -

l!»

\J

••

••

- 1

Niveau

") 0=+
<R=±

24
3
0

1
0
2

2
1
2

3
3
1

12
1
0

0
2
1

21
12
11

3
0
0

11
4

0

4
4
4

4
4
4

9
3
1

Totaal
consis-
tent

•27

3

5

7

13

3

44

3

15

12

12

13

42/66=

64%

63/82=

77%

52/83=

63%

') Ccnb.: conbinaties van opl. procedures zoals lOlO/GlO, lOt/GlO, lOlO/lOt.

") Niveau: procedurele bdieersing onderverdeeld in 3 niveau's, volgens scores op 2 toetsen
(Eigöi Opl. Proc. Aftrekken en Terrotoets Af+tp) bij le/2e afname, dus 4 scores:
0 = 4 voldoende scores (+ +/+ +)

^ = 1 of 2 onvoldoende scores (+ +/+ - of + -/+ -)
• = 3 of 4 onvoldoende scores (+ -/- - of - -/- -)

criteriim 'onvoldoende' « < 67% goed gemaakte antwoorden

Fig. 2. Overzicht typen (consistente) oplossingsproccdurcs op Iccriingbasis, benevens proccdurcle
bchecrsingsnivcau's, bij drie rekenmethoden OR, NCR cn NZR.

-ocr page 33-

Mentale rekenprocedures in het getallengebied 20-100 27

Tabel 3.Scores van de geselecteerde GlO- en 1010-ppn op selectiecriteria.

G10(N=18)

1010 (N=18)

t-toets

select, crit.

X SD

X SD

(df=34)

afü-ekkcn +lp

17,3 5,8

16,8 8.0

.21=NS

CITO-toets

36,0 3.0

34.7 3.9

1.17=NS

rapportcijfer

7,4 1,0

7.2 0.9

.35=NS

Raventest

27.6 3,3

28.3 3.0

.56=NS

digitspan

10.3 3,2

10.1 2,0

.25=NS

leeftijd

9jr + 2mnd

9jr + 2mnd

Dezelfde trends van (a) methode/leermiddelen-gebonden spreiding van de procedures GlO
en 1010, en (b) verschil in effectiviteit tussen GlO en 1010, werden door ons in eerder onderzoek
in groep 4 gevonden (Beishuizen, 1986; Van der Heijden en Beishuizen, 1988). De huidige data
bevestigen dat deze trends ook in groep 5 doorwerken, waar bij hoofdrekenen dezelfde procedu-
res in grote (consistente) mate worden aangetroffen. Hierop baseren wij ook de veronderstelling,
dat de PPON-uitkomst die wijst op een zwakke beheersing van het somtype 64-28 in groep 5
(Wijnstra, o.c.), vooral op rekening van veel zwakke toepassingen van de 101 O-procedure
geschreven moet worden.

Achteraf zien we in de data van Figuur 2 ook een bevestiging van onze keuze voor
onderzoeksscholen met de methodes OR en NCR. Immers alléén bij laatstgenoemde methode
werd een flink aantal proefpersonen met een 'voldoende' beheersing van de 101 O-procedure
aangetroffen. De inschatting, dat dit aantal bij andere methodes veel moeilijker te vinden zou
zijn geweest, wordt ook bevestigd in Figuur 2. Bijvoorbeeld bij de methode NZR zouden we
minstens 10-12 scholen hebben moeten benaderen om 20 proefpersonen met een voldoende
101 O-beheersingsniveau te vinden. Voor wat betreft de GlO-procedure lag dit probleem veel
eenvoudiger, want voldoende beheersing komt hier in ruime mate cn bij elke methode voor.

Samenvattend waren voor de selectie van proefpersonen voor het reactietijdonderzoek op dc
scholen met de methodes OR en NCR, dus een kleine 40 GlO-crs en ruim 20 lOIO-ers met een
voldoende procedureel beheersingsniveau beschikbaar (vgl. Figuur 2). Volgens een aantal
eerdergenoemde criteria (vgl. ook Tabel 3 hierna) werden vervolgens 20 gematchte paren van
lOIO-cr/GIO-cr samengesteld. Daarbij moesten vooral een aantal 'goede' GlO-crs buiten het
reactietijdonderzoek worden gelaten (vgl. Figuur 2), om twee vergelijkbare experimentele groepen
van lOlO-ers cn GlO-ers tc verkrijgen. Na afloop van het reactietijdonderzoek werden nog
enkele proefpersonen met onvolledige resultaten verwijderd, waarna 2x18 proefpersonen re-
sulteerden voor de dataverwerking. Tabel 3 geeft een overzicht van de gemiddelde scores op de
selectiecriteria van beide groepen GIO en 1010, die blijkens Moetsen niet significant verschil-
den. Het aantal jongens cn meisjes was in beide groepen ongeveer hetzelfde.

Behalve uit de gemiddelde CITO-scores, die boven het 6e deciel lagen, blijkt ook uit dc
gemiddelde rapportcijfers (Tabel 3), dat de geselecteerde proefpersonen tot de leerlingen met
een beter tot goed (algemeen) rckcnnivcau behoren.

Procedure

Bij het reactietijdonderzoek werd per somtypc (zie Tabel 2) en per prcsentaticconditic (lang vs.
kort) een reeks van 12 opgaven aangeboden, in totaal dus 8x2x12 = 192 opgaven. Er was ccn
vaste volgorde, zoals in Tabel 2 aangegeven, verdeeld over 2 sessies van ongeveer 25 minuten
elk. Begonnen werd met ccn oefenserie om aan de procedure te wennen. Dc opgaven werden ccn
voor ccn op papier gepresenteerd, cn de proefpersoon las elke opgave hardop voor, waarna zo
snel mogelijk antwoord moest worden gegeven. Bij de conditie 'lange' presentatieduur bleef dc

-ocr page 34-

28 M. Beishuizen, G. Wolters en G. Broers

opgave tijdens het uitrekenen visueel op een kaart in beeld. Later volgde de conditie 'korte'
presentatieduur, waarbij elke opgave na het oplezen direct werd afgedekt.

De hele procedure werd op geluidsband opgenomen (oplezen opgave t/m antwoord geven).
Achteraf werden de reactietijden vanaf deze bandopnames gescoord. Deze wijze van data-
verzameling werd gezien de relatief lange reactietijden voldoende nauwkeurig geacht. De reactietijd
werd gemeten vanaf het beginmoment van het oplezen (waar het uitrekenen al kan beginnen) tot
aan het beginmoment van het uitspreken van het antwoord (het antwoord is dan mentaal be-
schikbaar). Per somtype werd het gemiddelde van de reeks reactietijden bepaald, en deze 16
scores per proefpersoon (8 somtypen x 2 presentatiecondities) werden ingevoerd voor de data-
analyse.

Bij vergissingen tijdens het oplezen werd opnieuw begonnen, maar de reactietijd werd geme-
ten vanaf de eerste poging (dit kwam weinig voor). Bij vergissingen tijdens het antwoord geven
liep de reactietijdmeting eveneens door tot aan het definitieve antwoord (dus inclusief herstel
van vergissingen of haperingen). Echte foute antwoorden kwamen weinig voor, en werden
tijdens het onderzoek gewoon geaccepteerd (zonder correctie), maar werden later bij de scoring
van de reactietijden niet meegeteld. Bij de korte presentatieconditie kwam het twee maal oplezen
van een opgave wel vaker voor (opgave vergeten), hetgeen de gemeten reactietijden (vanaf de
éérste keer oplezen) dus langer maakte.

Bij de tempotoetsen werden eveneens 8 scores voor dezelfde somtypen verkregen (aantal
goed per toets), zoals hierboven reeds eerder werd beschreven.

RESULTATEN

Reactietijdmeting

In Figuur 3 zijn alle gemiddelde reactietijden per somtype weergegeven. Uit de variantie-
analyse komen alle opgavekenmerken als significante hoofdeffecten naar voren: het verschil
tussen kleine/grote sommen (F( 1,34)= 190,60;/X.Ol), optellen/aftrekken (F(l,34)=43,91;p<.01),
zonder/met tientalpassering (F(l,34)=108,27; p<.01), evenals lange/korte presentatieduur
(F(l,34)=41,94; p<.01). Zoals in hypothese 1 verwacht, bleken al deze complicerende opgave-
en conditie-kenmerken tot langere reactietijden te leiden (vgl. Figuur 3).

Het verschiljussen de procedures GlO en 1010 is als hoofdeffect significant: F(1,34)=8,96; /7<.01,
met als gemiddelde reactietijden respectievelijk 5,46 en 7,16 sec. Bovendien zijn er - zoals
verwacht in hypothese 2 - significante interacties van procedure x tientalpassering:
F{\ ,34)=10,22;
p<.01, en van procedure x presentatieduur: F(1,34)=6,25; p<.{yi. Echter, de interactie procedure
x optellen/aftrekken is niet significant: F(1,34)=2,85;
p<.\\, en de interactie procedure x kleine/
grote sommen is bijna significant: F(l,34)=4,04;
p<.Q)6. In Figuur 4 zijn bovengenoemde inter-
acties afzonderiijk weergegeven. Deze laten alle de verwachte tendens zien van een bij de 1010-
procedure significant sterkere toename van reactietijden dan bij de Gl O-procedure, in samen-
hang met de kenmerken tientalpassering, grote sommen, cn kone presentatieduur.

Uit een aantal significante interacties tussen de opgavekenmerken klein/groot x tientalpasse-
ring: F(1,34)=10,46; p<.01, klein/groot x optellen/aftrekken: F(1.34)=29.86; /7<.01, en klein/groot
x lange/korte presentatie: F
(l,34)= 31,72; /j<.0I, blijkt dat het effect van toenemende com-
plexiteit en geheugenbelasting inderdaad sterker was bij grote sommen dan bij kleine sommen
als algemene trend (vgl. Figuur 3 en Figuur 5).

Echter, zoals vermeld was de interactie procedure x kleine/grote sommen dus als algemene
trend niet duidelijk significant(p<.06), terwij! dit in hypothese 3 wél werd verwacht. Belang-
rijke verklaring hiervoor is, dat bij de kleine sommen het procedure-effect weliswaar kleiner
was (Figuur 4), maar dat óók hier de reactietijden bij de 101 O-procedure (afzonderiijk getoetst)
toch significant länger waren dan bij de Gl O-procedure: F(l,34)=l 1,19
p<.Q\. Deze laatste be-

-ocr page 35-

Mentale rekenprocedures in het getallengebied 20-100 29

Lange presentatie

Korte presentatie

/ /

13
12
11
10
9
B
7
6
5
4
3
2
1

13
12
11
10
9
8
7
6
6
4
3
2
1

to

c
&

t)
S

1010
GlO

1010
-♦" G10

-tp +tp -tp +tp -tp +tp -tp +tp
op af op af

klein oroot

somtypen

-tp +tp -tp +tp -tp +tp -tp +tp
op af op af

klein oroot

somtypen


Fig. 3. Gemiddelde rcactlctijdcn 1010 cn GlO bij verschillende somtypen in dc lange cn korte prcscntatic-
conditic.

vinding is een belangrijk nieuw gegeven, en betekent dat het interpretatiekader uit hypothese 3
moet worden bijgesteld.

Tenslotte komen uit de variantie-analyse nog een tweetal hogere-orde interacties naar voren,
die echter bij nadere analyse geen aantasting van de hierboven getrokken conclusies betekenen.
Het betreft de zwak significante drievoudige interactie lange/korte presentatie x kleine/grote
sommen x zonder/met tientalpassering (F(l,34)=5,47;
p<.03), die bovendien met procedure
interacteert: G10/1010 x lang/kort x klein/groot x tientalpassering (F(l,34)=4,65; p<.04). Kort
gezegd betekent dit een licht afwijkend beeld bij de 101 O-reactietijden in de kone presentatie-
conditie. Bij de aftrekopgaven is hier de interactie kleine/grote sommen x tientalpassering niet
significant, tengevolge van de zeer lange reactietijden óók bij de grote aftreksommen zónder
tientalpassering (af-tp, vgl. Figuur 3). Blijkbaar betekent dc extra geheugenbelasting in de korte
presentatieconditie ook bij dit somtype (af-tp) reeds een grote, extra inspanning voor de 1010-
ers. We zien dit echter als een incidentele relativering van de algemene interactie-trend, dat
tientalpassering bij grote sommen een sterker effect heeft op de reactietijden dan bij kleine
sommen.

Tempotoetsen

Voor de tempotoetsen met dezelfde somtypen als in het reactietijdonderzoek (vgl. Tabel 2),
werden 8 gemiddelde opl. tijden verkregen door het aantal goed gemaakte opgaven te delen op
de totale afnametijd (3 minuten). Uit de variantie-analyse komen allereerst dezelfde hoofd-

-ocr page 36-

30 M. Beishuizen, G. Wolters en G. Broers

zonder met

tientalpassering
klein (^oot

1010

I

tj
s

Q10

scxnmen

^ 1010 ■

QIC

11
10
9
8
7
6
S
4
3
2

lono kort

presentatie


Fig. 4. Interacties met procedure-effect GlO/lOlO.

eoroot ■

-------

______ klein -

11
10
9
B

7

8
e

4

3
2

lang kort

presentatie

effecten van opgavekenmerken naar voren: significante verschillen tussen kleine/grote sommen
(F(l,34)=56,16; p<01), optellen/aftrekken (F(l,34)=9,19;
p<.0\), en zonder/met tientalpasse-
ring (F(l,34)= 128,23; p<.01). In Figuur 6 zijn deze gemiddelde oplossingstijden bij de tempo-
toetsen weergegeven naast de gemiddelde reactietijden bij de lange presentatieconditie, welke
scores (opgave blijft in beeld) het meeste vergelijkbaar zijn. Daarbij plaatsen we de kantteke-

-ocr page 37-

Mentale rekenprocedures in het getallengebied 20-100 31

,"2.

&

Gemiddelde oplossings- cn reactietijden voor GlO cn 1010 bij vcrschilicndc somtypen in dc tempo-
toetsen cn in dc lange prcscntaticconditic.

ning, dat de variantie zowel 'tussen' proefpersonen als 'binnen' proefpersonen bij de tempo-
toetstijden aanzienlijk groter was dan bij de reactietijden. Dat betekent in deze variantie-analyses
veel grotere errortermen, waardoor soortgelijke verschillen qua grootte als bij de reactietijden
(vgl. Figuur 6), bij de tempotoetsen tot lagere F-waarden en lagere significanties leiden.

Wat betreft het procedure-effect Gl 0/1010 zien we bij de tempotoetsen in Figuur 5 een opmerkelijk
beeld. Als hoofdeffect is het verschil GlO/lOlO niet significant: F(l,34)=l,79;
p<.20, maar wel
is er een significante interactie van procedure x kleine/grote sommen: /="(!,34)=5,87;
p<.Q2. De
richting van deze interactie vertoont echter een änder beeld dan bij de reactietijden (vgl. Figuur
6): apart getoetst bij de kleine sommen een duidelijk verschil tussen GlO en 1010 (F(l,34)=6,68;
p<.02), en bij de grote sommen helemaal géén verschil (F(l,34)=0,08;
p<M).

Aan deze laatste uitkomst kan echter geen betekenis worden toegekend, omdat deze aller-
eerst als een gevolg van de selectieprocedure moet worden gezien. Immers, de GlO- en 1010-
proefpersonen werden vooraf gematcht o.a. op een vergelijkbare score voor de tempotoets
aftrekken + tientalpassering (vgl. Tabel 3). Blijkbaar strekte na de matching deze vergelijkbaarheid
zich ook uit tot de ändere scores op de tempotoetsen voor de grote sommen (waarvoor niet werd
geconü-oleerd). Achteraf bevestigt deze uitkomst van de variantie-analyse dus, dat de geselecteerde
GlO- en 1010-procfpersonen qua procedurele beheersing op älle 4 grote somtypen zeer vergelijkbaar
waren.

Des te opmerkelijker is daarom het beeld bij de tempotoetsen voor de kleine sommen (Figuur
6), waartoe we de analyse nu verder beperken. Het volgens hypothese 3 bij dit somtype niet te

Fig. 6.

-ocr page 38-

32 M. Beishuizen, G. Wolters en G. Broers

verwachten procedure-effect, dat zich eerder reeds bij de reactietijden wél bleek voor te doen,
lijkt hier bij de tempotoetsen nog sterker aan het licht treden: duidelijk langere oplossingstijden
bij de 1010-procedure dan bij de GlO-procedure (respectievelijk gemiddeld 7,00 en 4,92 sec.)
Naast het significante procedure-effect bij de kleine sommen, is de interactie van procedure x
tientalpassering sterk significant: F(l,34)= 19,20; p<.01, maar niet de interactie van procedure
x optellen/aftrekken. Deze significante interactie betekent (vgl. Figuur 6), dat er (afzonderlijk
getoetst) bij de kleine sommen zönder tientalpassering géén significant effect is van het
procedureverschil G10 of 1010, maar wél bij de kleine sommen mét tientalpassering: f (1,34)= 10,28;
p<.01. Samenvattend geeft óók de analyse van de tempotoetsscores dus een duidelijke aanwij-
zing, dat de verwachting en het interpretatiekader uh hypothese 3 (geen verschil tussen de
procedures GlO en 1010 bij kleine sommen) moet worden herzien.

Afsluitend willen we er nog op wijzen, dat uit een vergelijking van de gemiddelde oplossing-
stijden en reactietijden in Figuur 6, de indruk naar voren komt dat bij de tempotoetsen over de
kleine sommen aanzienlijk länger is gedaan. Bij de grote sommen lijkt dit ook voor de GlO-ers
te gelden, en niet of in mindere mate voor de 1010-ers. Omdat de afnameprocecedures naast
overeenkomsten ook verschillen vertoonden, kunnen we hier vooralsnog geen duidelijke bete-
kenis aan toekennen. Bijvoorbeeld moesten de oplossingstijden bij de tempotoetsen inclusief
het opschrijven van de antwoorden berekend worden, terwijl de reactietijden tot aan het uitspre-
ken van de antwoorden werden gemeten. Dit zou de langere tempotoetstijden als een artefact
kunnen verklaren. Echter, daartegenover staat dat de reactietijden inclusief het hardop voorle-
zen van de opgaven werden gemeten, hetgeen ook extra seconden zal hebben gekost in vergelij-
king met het stil lezen van de opgaven bij de tempotoetsen. Belangrijk is misschien ook een
conditieverschil in taakgericht bezig zijn met elke som. Bij de reactietijdmeting was deze
taakgerichtheid (en concentratie), door de procedure en de korte pauzes tussen de opgaven
waarschijnlijk groter dan bij de tempotoetsen. In de laatste conditie kunnen (ongecontroleerde)
fluctuaties in taakgerichtheid/concentratie en tempo bij sommige proefpersonen vaker zijn op-
getreden. Bovengenoemde grotere varianties 'tussen' en 'binnen' proefpersonen in gemiddelde
tempotoetstijden zouden hierop kunnen wijzen. Zoals gezegd, kunnen we vooralsnog echter
geen conclusies verbinden aan de (systematische ?) verschillen tussen deze gegevens uit de
tempotoetsafnames en uit de reactietijdmetingen.

Basiscombinaties

In de onderzoeksopzet bleef (declaratieve) voorkennis van de basiscombinaties buiten beschou-
wing. Verortdersteld werd, dat deze variabele bij het oplossen van de onderzochte grotere
somtypen nauwelijks een rol zou spelen, in vergelijking met de meer noodzakelijke procedurele
kennis. Omdat echter ook bij de reactietijdmeting bij de kleinste somtypen een systematisch
verschil bleek op te treden tussen de 1010- en Gl O-oplossingsprocedures (Figuur 3), werd
achteraf besloten om aan deze variabele toch aandacht te geven. Daarom maakten de geselecteerde
36 proefpersonen na de reacdetijdmeting nog 2 korte tempotoetsen van elk 1 minuut, respectievelijk
met basiscombinades optellen tot 10 en aftrekken tot 10. Vergelijking van beide experimentele
groepen gaf als verrassende uitslag, dat de G1 O-proefpersonen een significant kórtere oplossingstijd
te zien gaven dan de 1010-proefpersonen: gemiddeld over optellen en aftrekken respectievelijk
1,5 versus 1,9 seconden, r(34)=2,44;
p<.05.

Het is daarom niet uit te sluiten, dat de verschillen in parate kennis c.q. oplossingstijden van
de basiscombinaties (tot 10) geheel of gedeeltelijk verantwoordelijk zijn voor de gevonden
verschillen tussen de procedures 1010 en GlO bij de grotere somtypen. In dat geval zouden
echter positieve correlaties verwacht moeten worden tussen de oplossingstijden voor basis-
combinaties en grotere somtypen. In Tabel 4 en 5 twee overzichten van correlaties tussen
gemiddelde reactietijden/ oplossingstijden. Daarbij zijn de correlaties over optel- en aftrekopgaven
gemiddeld, omdat deze tijden onderiing zeer duidelijk bleken samen te hangen (r=.60 tot .75).

In Tabel 4 een weergave van de correlaties tussen oplossingstijden bij de basiscombinaties en
reactietijden bij de belangrijkste somtypen, afzonderiijk voorde 18 Gl O-proefpersonen en de 18

-ocr page 39-

Mentale rekenprocedures in het getallengebied 20-100 33

Tabel 4. Correlaties tussen de basiscombinaties en de belangrijkste somtypen uit het reactietijdonderzoek.

experimentele

lange presentatie

korte presentatie

groepen

klein

groot

klein

groot

-tp

+tp

-tp

+tp

-tp

+tp

-tp

+tp

GlO

.58

.23

.57

.26

-.25

.19

.26

.24

1010

.29

-.22

.22

-.08

.15

.01

-.24

-.19

Noot: Significantiedrempcls bij df 16: .47 = p <.05

.59 = p <.01

lOlO-proefpersonen. Vrijwel èl deze correlaties blijken zeer laag en niet significant te zijn. De
conclusie lijkt dus gerechtvaardigd, dat de reactietijden bij de grotere somtypen niet samenhangen
met verschillen in parate kennis van de basiscombinaties. De oorspronkelijke aanname, dat bij
deze meer complexe somtypen de procedurele kennis een grotere rol zou spelen, blijft dus
gehandhaafd.

Correlaties

In Tabel 5 zijn nog een aantal correlaties weergegeven, die een indruk geven van de onderlinge
samenhang tussen de reactietijden bij een aantal belangrijke somtypen: a) tussen kleine en grote
sommen, b) tussen sommen zonder en met tientalpassering. Ter vergelijking zijn in Tabel 5
eveneens dezelfde correlaties binnen de tempotoetsen vermeld. Kortheidshalve zijn deze gege-
vens over optel- en aftrekopgaven gemiddeld, omdat deze zowel bij G1 O-proefpersonen als
101 O-proefpersonen onderling duidelijk tot sterk correleerden.

In Tabel 5 zien we als algemene trend een duidelijke tot sterke samenhang tussen de (gemid-
delde) oplossingstijden. Bij de tempotoetsen liggen alle correlaties op een zeer duidelijk niveau

Tabel 5. Correlaties binnen tempotoetsen cn binnen rcactic-tijdondcrzock, tussen a) kleine cn grote som-
men, cn b) sommen zonder cn met tientalpassering.

a) Correlaties tussen kleine cn grote sommen

experiment.

tcmpctocts

lange pres.

korte pres.

groepen

-tp +tp

-tp +tp

-tp +tp

GlO

.61 .70

.82 .77

.77 .66

1010

.60 .64

.58 .56

.15 .25

b) Correlaties tussen sommen -tp cn +tp

experiment.

tcmpotocts

lange pres.

korte pres.

groepen

klein groot

klein groot

klein groot

GlO

.76 .70

.84 .85

.67 .95

1010

.58 .70

.52 .88

.20 .48

Noot: Significanticdrcmpcls bij df=16: .47 = p <.05

.59 = p<.01

-ocr page 40-

34 M. Beishuizen, G. Wolters en G. Broers

(r= rond .65 tot .70). Echter, bij de reactietijden zien we een trendmatig verschil tussen de
procedures GlO en 1010, nl. lagere tot véél lagere correlades bij de 101 O-proefpersonen. Dit
geldt zowel voor de correlaties tussen a) kleine en grote sommen, als tussen b) opgaven zonder
en met dentalpassering.

In de lange presentatieconditie vinden we de hóógste correlaties, nl. op de grens van significande
bij de 101 O-reactietijden (rond r=.55), en sterk significant bij de Gl O-reactietijden (rond r=.82).
Bij de korte presentatie blijft deze samenhang bij proefpersonen met de GlO-procedure zeer
duidelijk bestaan, terwijl deze bij proefpersonen met de 1010-procedure sterk daalt tot overwe-
gend zeer läge en niet-significante correlaties (rond r=.20).

Aangezien deze correlaties herhaalde metingen betreffen binnen proefpersonen (over ver-
schillende somtypen), kunnen zij iets zeggen over de
stabiliteit van de reactietijden. Bij de GlO-
procedure duiden de hoge en constante correlaties op een zeer stabiel patroon (binnen proefper-
sonen). Dit gegeven lijkt de interpretatie van een sterk identiek of algoritmisch verloop van de
GlO-rekenstappen (over somtypen) te ondersteunen. Daarentegen wijzen de veel lagere correlades
bij de 1010-procedure op een grotere instabiliteit van reactietijden (binnen proefpersonen).
Misschien reageren deze proefpersonen met individueel verschillende aanpassingen/haperingen
bij de uitvoering van de 1010-rekenstappen onder moeilijker condities als een grotere complexi-
teit van de opgaven (bij tientalpassering) en een grotere dmk van werkgeheugenbelasting (bij
korte presentatie) ? In elk geval lijkt dit instabiele of onregelmatige patroon van 101 O-reactietijden
(binnen proefpersonen, over somtypen) een nieuw gegeven, dat een nadere studie waard is.
Want het onderscheid tussen de GlO- en de 1010-procedure krijgt hierdoor een extra dimensie.

DISCUSSIE

De duidelijke hoofdeffecten van de opgavekenmerken tientalpassering, aftrekken, grotere som-
men, bevestigen hypothese 1 over de toenemende rol van procedurele aspecten bij het mentaal
oplossen van grotere rekenopgaven in het getallengebied 20-100. Deze algemene effecten -
ongeacht het procedureverschil G10/1010 - en met name ook het hoofdeffect van (korte)
presentatieduur. zijn in overeenstemming met eerdere bevindingen van Hitch (1978). Want deze
effecten wijzen op de toenemende rol van werkgeheugenbela-sting bij de uitvoering van deze
langere en meer complexe rekenprocedures. Een aanwijzing, dat declaratieve (voor)kennis van
basisrekenfeiten hier een minder grote rol gaat spelen, vormen de gevonden lage correlaties
tussen deze reactietijden en de oplossingstijden van de basiscombinaties.

Meer specifiek stond de onderzoeksvraag centraal of procedurele verschillen tussen de twee
uiteenlopende mentale rekenstrategieën GlO en 1010, teruggevonden zouden worden in
reactietijdgegevens. De in hypothese 2 geformuleerde verwachtingen werden in hoofdzaak
bevestigd. Naast het hoofdeffect GlO/lOlO, met langere reactietijden voor de 101 O-procedure,
waren er significante interacties met opgave- en conditie-kenmerken. Deze interacties lieten
nog duidelijker dit procedure-effect zien: een relatief sterkere toename van 101 O-reactietijden
bij de complicerende opgavekenmerken tientalpassering en grotere sommen. Eveneens was dh
het geval in de korte presentadeconditie tengevolge van extra geheugenbelasting. Slechts bij het
opgavekenmerk aftrekken was een dergelijke interactie niet significant, maar de trend ging wel
in de verwachte richting. Een mogelijke verklaring hiervoor is. dat o(jk bij optellen de 1010-
reactietijden aanzienlijk langer waren dan de G1 O-reactietijden (vgl. Figuur 3 en het hoofdeffect
G10/1010).

Concluderend geven deze onderzoeksresultaten dus duidelijke aanwijzingen, dat de 1010-
procedure langer en ingewikkelder vedoopt dan de GlO-procedure. En let wel. verschillen in
procedureel beheersingsniveau of algemeen rekenniveau kunnen daarbij als verklarende varia-
bele worden uitgesloten, want de geselecteerde proefpersonen waren op deze punten vergelijk-
baar en allen van een voldoende tot goed niveau. En hoewel deze onderzoeksuitslag zeker niet
alle facetten van de rekenstrategieën GlO en 1010 belicht, lijkt het veronderstelde verschil in

-ocr page 41-

Mentale rekenprocedures in het getallengebied 20-100 35

procedurele efficiëntie van deze procedures - en daardoor tevens een verschil in belasting van
het werkgeheugen - onmiskenbaar evident (althans bij proefpersonen uit groep 5).

De betekenis van dit procedureverschil krijgt nog een extra dimensie door de onverwachte
uitslag, dat óók bij de kleine sommen de 101 O-reactietijden langer bleken te zijn. De schrifte-
lijke tempotoetsen lieten bij de kleine sommen een nog krachtiger effect van procedure zien
(Fig. 6), terwijl hier bij de grote sommen (door experimentele controle) geen verschil aan het
licht trad. Daarom willen we nog kort stilstaan bij een mogelijke verklaring voor dit verschijn-
sel. Immers, het zou kunnen zijn dat hier een nieuw (passend) stukje wordt gevonden in de
legpuzzle van het onderzoek naar de GlO- en de lOlO-procedure.

Hypothese 3 verwachtte géén procedure-effect bij de kleine sommen, omdat deze veronder-
steld werden niet via de GlO- of 101 O-procedure te worden opgelost. Hier zou eenzélfde methode
van 'aanvullen/leegmaken tot het tiental' (37+8 via 37+3=40,40+5=45) in beide experimentele
groepen worden toegepast. Echter, door de gevonden verschillen bij de kleine sommen in
reactietijden (en oplossingstijden bij de tempotoetsen), wordt deze hypothese duidelijk tegen-
gesproken. Als mogelijke verklaring willen we (achteraf) naar voren brengen, dat we bij het
formuleren van hypothese 3 onvoldoende rekening hebben gehouden met het geroutineerde
procedurele beheersingsniveau van de geselecteerde proefpersonen. De bedoelde aanvul- of
leegmaak-methode wordt weliswaar veel aangetroffen tijdens de aanleerfase in groep 4 bij
opgaven rond de 20 (17+8 via 17+3=20,20+5=25), maar waarschijnlijk veel minder bij geoefende
rekenaars in groep 5 (waaruit onze proefpersonen betrokken werden). Op dit mogelijke verschil
in oplossingsgedrag tussen novieten en experts willen we nader ingaan. Achteraf veronderstel-
len wij nu dat óók bij de kleine sommen een
verschil in oplossingsmethode een rol heeft ge-
speeld, analoog aan het verschil tussen de GlO- en de 101 O-procedure.

Bij veelvuldige toepassing van de GlO-procedure zullen zich waarschijnlijk niet alléén voor
de
tientallen, maar óók voor het optellen en aftrekken van de eenheden nieuwe regels of getal-
srelaties ontwikkelen. Baroody en Ginsburg (1986) benadrukken, dat uitbreiding van netwerken
van getalsrelaties een rol kan spelen bij de ontwikkeling van nieuwe en verkorte oplossings-
strategieën (vgl. ook Klep, 1984). Als voorbeeld beschrijven zij de zgn. "nine-nile": +9 is "een
eenheid minder in het volgende tiental", bijv. 25+9= via "4 (5-1) in de 30", dus 34; idem 45+9=
via "4 in het volgende tiental", dus 54, enz. Door veelvuldige toepassing kunnen zich soortgelijke
getalsrelaties hebben ontwikkeld als: 25+8= via "3 in het volgende tiental", dus 33, enz. Nader
onderzoek naar deze tweede stap (met de eenheden) in de GlO-procedure zou moeten uitwijzen
in hoeverre deze nieuw gevormde getalsrelaties werkelijk een rol spelen. Uit protocollen van
aftrekken is bekend, dat hier soortgelijke verkortingen gaan optreden: 65-9 via (-10+1)=56, en
65-19 via 65-20=45, 45+1=46, enz.

De gevonden hoge correlaties tussen Gl O-reactietijden bij kleine en grote sommen (in beide
presentatiecondities, en ook bij de tempotoet.sen, vgl. Tabel 5), kunnen eveneens als ondersteuning
voor deze (nieuwe) veronderstelling gezien worden. Immers, deze hoge correlaties lijken te
wijzen op een identiek d.w.z. sterk sequentieel-algoritmi.sch verloop van de G1 O-oplossingsstappen
bij èlle opgaventypen groot of klein. Bij voortdurende toepassing van de 101 O-procedure moet
de vorming van dergelijke nieuwe getalsrelaties en verkortingen veel minder waarschijnlijk
worden geacht. Immers, bij consistente splitsing van opgaven in tientallen en eenheden, zal de
routinematige toepassing van de 101 O-procedure (vgl. Tabel 1) wat betreft de eenheden nooit
uitkomen boven het niveau van de eenvoudige basiscombinaties (5+9=14,15-9=6, enz.). En wat
betreft de tientallen geldt naar analogie eigenlijk hetzelfde (20+10=30, 20+40=60. zoals 2+1=3.
2+4=6. enz.). Dat zou betekenen een
versterkte automatisering van de basiscombinatics - en
mogelijk een versterkte neiging om van deze 'gemakkelijke' 1010-splitsmethode met aparte
oplossingsstappen voor de tientallen en eenheden gebruik te blijven maken. Daarom veronder-
stellen wij nu achteraf, dat veel 1010-ers óók kleine sommen via een analoge (1010) procedure
zullen blijven oplossen, vooral bij tientalpassering: 37+8 via de splitsing van 37 in 30 en 7, dan
7+8=15, samen 30+15=45 (idem bij aftrekken). En dat zijn méér rekenstappen dan dc (veron-
derstelde) nieuwe getalsrclatics (37+8="5 in de 40"=45) bij de GlO-procedure.

-ocr page 42-

36 M. Beishuizen, G. Wolters en G. Broers

Echter, de gevonden lagere correlaties tussen 101 O-reactietijden bij kleine en grote sommen,
met name in de korte presentatieconditie (Tabel 5), wijzen op een niet al te grote stabiliteit in
oplossingsgedrag. Misschien dat 1010-ers nu en dan wél de aanvul- of leegmaak-methode
blijven toepassen bij bepaalde kleine sommen, en bij andere sommen de 1010-splitsmethode ?
Nader onderzoek zal hier meer duidelijkheid moeten brengen, waarbij de basiscombinaties
(controle op voorkennis) en de kleine sommen meer aandacht zullen moeten krijgen dan in dit
onderzoek het geval was, dat zich vooral op grote sommen richtte. Niet alleen de procedurele
kennis van rekenstappen, maar ook de uitbreiding van declaradeve kennis lijkt een rol te spelen
in het verschil tussen de 1010- en de GlO-procedure (in groep 5).

Samenvattend lijken de onderzoeksgegevens de superioriteit van de GlO-procedure als mentale
hoofdrekenstrategie
te bevestigen en te onderstrepen. Na een moeizame aanleerfase (vgl. Figuur
1), waarin de ondersteunende functie van het 100-veld (Beishuizen, 1986) of de getallenlijn
(Treffers & De Moor, 1990) een belangrijke rol kan spelen, blijken de voordelen van de GlO-
procedure pas op langere termijn. Niet alleen minder procedurele fouten bij meer complexe
opgaven met aftrekken en tientalpassering (Beishuizen, 1986, vgl. ook dit vooronderzoek in
Figuur 2), maar ook een grotere vlotheid en minder werkgeheugenbelasting bij de procedurele
uitvoering (dit onderzoek).

Zoals gezegd wordt in de onderwijspraktijk de GlO-procedure reeds langer als een 'veiliger'
manier van rekenen gezien dan de 1010-procedure (Boonstra, 1980). Nederlandse rekenmethoden
leggen hierop de nadmk, evenals het genoemde Engelse standaardwerk over rekendidaktiek
(Williams & Shuard, o.c.). Dit in tegenstelling tot het Amerikaanse rekenonderwijs en de
Amerikaanse onderzoekspublicaties (vgl. Resnick, 1986), waarin de GlO-procedure vrijwel
onbekend is. De nadruk valt hier op de 1010-strategie en aanpassingen zoals de lOt-variant
(Tabel 1).

Dit laatste is verklaarbaar vanuit de overeenkomst met het schriftelijke 'positie' rekenen, waarop
in de U.S.A. veel eerder de nadruk wordt gelegd (reeds in de 'second grade' met getallen tussen
20 en 100). Dit verschil in rekentraditie bemoeilijkt o.a. de communicatie over onderzoeks-
vragen, zoals wij bij een eerdere publicatie over een deel van dit onderzoek hebben ondervon-
den (Wolters, Beishuizen, Broers & Knoppert, 1990).

Echter, internationaal onderzoek roept ook de vraag op of wij de 1010-procedure niet teveel
onderwaarderen ? Met name als
informele strategie blijkt de 1010-procedure (in diverse va-
rianten) veel gehanteerd te worden door ongeschoolde maar wel geoefende rekenaars, zoals
Braziliaanse straatverkopers (Carraher, Carraher& Schliemann, 1987) of Afrikaanse handelaren
(Ginsburg & Allardice, 1984).

Ook Nederlandse kinderen blijken in grote getale aan de informele 1010-strategie de voorkeur
te geven, ondanks de instructie in de formele GlO-procedure (Beishuizen, 1986; dit vooronderzoek.
Figuur 2). Als 'gemakkelijker' alternatief tijdens de aanleerfa.se is deze voorkeur begrijpelijk
(vgl. Figuur 1), want de bezwaren van toenemende complexiteit en grotere geheugenbelasting
blijken pas later, als de moeilijker aftreksommen met tientalpassering aan bod komen. Nu lijken
de uitkomsten van dit onderzoek in sterke mate te bevestigen, dat 'ontwenning' van deze 1010-
gewoontevorming, en sterk voorgestmctrureerd aanleren van de GlO-procedure met het 100-
veld, de beste 'oplossing' voor alle leeriingen zou zijn. Dit gebeurt ook in diverse rekenmethodes,
zoals in "Operatoir Rekenen" en in het "Gouds Rekenpakket" voor remediale instmctie.

Echter, in de literatuur bepleiten diverse auteurs (De Corte & Verschaffel, 1983; Carpenter,
1986) aansluiting juist bij informele rekenstrategieën van kinderen, als een betere (conceptuele)
kennisbasis voor de ontwikkeling van inzichtelijk en flexibel rekenen dan vroegtijdige
proceduralisering. Uit de voorbeelden bij Carraher, Carraher en Schliemann (1987, p. 40) blijkt,
dat het hier om een zeer vaardige en flexibele (conceptuele) beheersing van het hoofdrekenen
via 1010-splitsingen gaat: 21-8 via de splitsing van 21=11 + 10, dan 10-2=8, antwoord 11+2=13.

Ook uit onze onderzoeksobservaties van kinderen krijgen wij reeds langer de indruk, dat er
met name bij 1010-ers een onderscheid moet worden gemaakt tussen
'zwakke' (procedurele) en

-ocr page 43-

Mentale rekenprocedures in het getallengebied 20-100 37

'sterke' (conceptuele) beheersing van de 101 O-strategie (en noodzakelijke aanpassingen). In het
lopende onderzoeksproject bij onze vakgroep, met stipsommen als probleemopgaven, wordt
deze indruk empirisch bevestigd (Van Muiken, in voorbereiding). De genoemde'
lOt-variant' (Tabel
1), als sequentiële aanpassing van de 101 O-strategie, is in dit verband ook nadere studie waard.
Binnen het bestek van dit artikel kunnen wij op deze aspecten van de 101 O-strategie thans niet
verder ingaan.

Slechts willen wij besluiten met op te opmerken, dat het voor definitieve conclusies m.b.t. de
lOlO-procedure - zoals blijkend uit dit reactietijdonderzoek - naar onze mening nog te vroeg is.
Veel stukjes ontbreken hier nog aan de legpuzzle. Bovendien speelt de omstandigheid, dat Ned.
rekenmethodes aan de 1010-strategie tot dusver weinig systematische instructie-aandacht besteden,
een verstorende rol, die de beoordeling van onderzoeksresultaten onzuiver maakt. Daarom
verwijzen we hier naar twee nieuwe leergangmodellen voor het aanleren van basisrekenstrategieën
in het getallengebied 20-100, die elk vanuit een verschillende invalshoek, aandacht bepleiten
voor instructie in
beide rekenstrategieën 1010 en GlO (Beishuizen, Beishuizen & Felix, 1989;
Treffers & De Moor, 1990). Naast deze overeenkomst, verschillen beide modellen in diverse
opzichten op grond van uiteenlopende, theoretische veronderstellingen m.b.t. de ontwikkeling
van getalbegrip en rekenstrategieën. Verder onderzoek zal dus verricht moeten worden, waarbij
wij aantekenen dat het internationale rekenonderzoek tot dusver aan dit rekendomein van 20-
100 weinig aandacht heeft geschonken (vgl. Greer & Verschaffel, 1990). Niet alleen om de
theorievorming verder uit te werken en te toetsen, maar ook om de onderwijspraktijk op dit punt
(in groep 4) verder te optimaliseren. Want onze (voor)onderzoeksgegevens bevestigen ook de
praktijkrelevantie van het
"Rekenen tot 100" (RIOO), dat als centraal thema in het komende
innovatieproject "Speerpunt Rekenen" (1991-1995) voor de basis.scholen meer aandacht zal
krijgen.

LITERATUUR

Ashcraft M.H. & Ficrman, B. (1982). Mental addition in third, fourth, and sixth graders. Journal of
Experimental Child Psychology, 33,
216-234.

Baroody, A. & Ginsburg, H.P. (1986). The relationship between initial meaningful and mechanica! knowledge
of arithmetic. In Hicbcrt, J. (Ed.).
Conceptual and procedural knowledge: the case of mathema-
tics,
pp. 75-112. Hillsdale, NJ: Lawrcncc Erlbaum Associates.

Beentjes, J.W.J. & Jonker, V.H. (1987). Inconsistency in addition and subuaciion suatcgics. The Journal of
Experimental Education, 56,
4-7.

Beishuizen, J.J., Beishuizen, M. & Felix, E.J.H.M. (1989). Lcrcn optellen cn aftrekken: ccn longitudinaal
onderzoek.
Tijdschrift voor Onderwijsresearch, 14, 91-102.

Beishuizen, M. (1986). Vervolgonderzoek: Invloeden van leermiddelen op dc uitvoering van rckcnhandclingcn.
In: Dijkstra, S. & Span, P. (Red.).
Leerprocessen en instructie, pp. 131-144. Lis.sc: Swets & Zeitlinger.

Beishuizen, M. & Van Mulkcn, F. (1988). Twee veelgebruikte oplossingsmanieren bij hoofdrekenen: dc 1010-
cn dc 010- procedure.
Panamapost - Tijdschrift voor nascholing en onderzoek van het rcken-
wiskunde-onderwijs, 6,
32-36.

Bloemkolk, M. (1988). Strategisch leren handelen bij het oplossen van rekenopgaven - Eindrapport SVO-
projekt 6615.
Groningen: Vakgroep IDOK.

Boonsua, H.H. (1980). De rekenfout nader beschouwd. Nijkcrk: Callcnbach.

Carpenter, T.P. (1986). Conceptual knowledge as a foundation for procedural knowledge. In Hicbcrt, J.
(Ed.).
Conceptual and procedural knowledge: the case of mathematics, pp. 113-132. Hillsdale, NJ:
Lawrcncc Erlbaum Associates.

Carrahcr, T.N., Carrahcr, D.W. & Schlicmann, A.D. (1987). Written and oral mathematics. Journal for
Research in Mathematics Education, 18,
83-97.

Dc Corte, E. & Vcrschaffcl, L. (1983). Onderzoek van ondcrwijslccrproccsscn cn onderwijspraktijk. Pe-
dagogische Studiën, 60,
153-164.

Fuson, K.C.. Richards, J. & Briars, D.J. (1982). The acquisition and elaboration of the number word
sequence. In Brainerd, C. (Ed.).
Children's logical and mathematical cognition, pp. 33-93. Hei-
delberg: Springer Verlag.

-ocr page 44-

38 M. Beishuizen, G. Wolters en G. Broers

Ginsburg, H.P. & Allardice, B.S. (1984). Children's difficulties with school mathematics. In Rogoff, B. &
Kave, J. (Ed.).
Everyday Cognition: Its development in social context, pp. 194-219. Cambridge, Mass.:
Harvard University Press.

Greer, B. & Verschaffel, L. (Eds.) (1990). Mathematics education as a proving-ground for information-
processing theories. Thematic issue,
International Journal of Educational Research, 14, nr. 1, 1-
100.

Groenewegen, J.K.A. & Gravemeijer, K. (1988). Het leren van de basisautomatismen voor optellen en af-
trekken.
Rotterdam: OSM-publicatie.

Hamann, M.S. & Ashcraft, M.H. (1985). Simple and complex mental addition across development. Journal
of experimental Child Psychology, 40,
49-72.

Heijden, M. van der & Beishuizen, M. (1986). Diagnostisering van individuele verschillen in het optellen en
aftrekken van basisschoolleerlingen. In Reints, A. & Span, P. (Red.).
Differentiatie in het onder-
wijs,
pp. 155-169. Lisse: Swets & Zeitlinger.

Hitch, G.J. 0978). The role of short-term working memory in mental arithmetic. Cognitive Psychology, 10,
302-323.

Klep, J. (1984). Voorwerk voor een computerprogramma - Tafels leren en computers. Willem Bartjens, 4,30-
40.

Poorthuis, G.M.T. & Kok, W.A.M. (1989). Probleemoplossen binnen het aanvankelijk rekenen onder invloed
van verschillende didactische werkvormen. In Span, P., Dc Corte, E. & Hout Wolters, B. van
(Red.).
Onderwijsleerprocessen:strategieën voorde verwerking van informatie, pp. 133-142. Lisse:
Swets & Zeitlinger.

Resnick, L.B. (1986). The development of Mathematical Intuition. In Pcrlmuttcr, M. (Ed.). Perspectives on
intellectual development,
pp. 159-200. Hillsdale, NJ: Lawrcncc Eribaum Associates.

Svenson, O. (1985). Memory Rcüncval of Answers of Simply Additions as Reflected in Response Latencies.
Acta Psychologica, 59, 285-304.

Treffers, A. & Dc Moor, E. (1990). Proeve van een Nationaal Programma voor het Reken-wiskunde-on-
derwijs op de basisschool - Deel 2: Basisvaardigheden en Cijferen.
Tilburg: Zwijsen.

Williams, E. & Shuard, H. (1982). Primary Mathematics Today. Harlow, Essex: Longman.

Wolters, G., Beishuizen, M., Broers, G. & Knoppcrt, W. (1990). Mental arithmetic: Effccts of calculation
procedure and problem difficulty on solution latency.
Journal of Experimental Child Psychology,
49,
20-30.

Wijnstra, J.M. (Red.) (1988). Balans van het rekenonderwijs in de basisschool. Arnhem: Instituut voor
Toetsontwikkeling, PPON-Rccks nr. 1.

Manuscript ontvangen 3-10-1990

Definitieve versie ontvangen 31-1-1991

-ocr page 45-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 39-48

Educatieve instrumentatietechnologie:
het einde van de onderwijskunde1

A.Dirkzwager
ABSTRACT

The last forty years showed the rise of educational science and informatics in the Netherlands.
Educational instrumentation technology is concerned with the design and implementation of learning
environments, among others with computers. History shows that there is a continuing collective
learning process in which "teachers" arc exploring and discovering new possibilities together with
their students. In this way students learn to learn together in unpredictable contexts. This trend is
typical for education in a fast changing cybernetic society where much "knowledge" is short lived
and obsolete shortly after it is delivered in regular education. Modem physics and meteorology Icam
that the horizon for prediction and so for planning is resuictcd (chaos theory). The view of education
as an applied technology tends to deny this orienting itself to an obsolete mechanistic worldvicw.
Educational insUumentation is primarily a cybcrnetic activity of steering and studying learning in a
realistic environment and as such it is the cream of educational science, at least to a learning
psychologist with pragmatic interests.

INLEIDING

Bij de afsluiting van mijn akademische loopbaan zie ik terug op een periode van veertig jaar
waarin zich ontwikkelingen hebben voorgedaan die voor onze visie op de maatschappij en het
onderwijs ingrijpend zijn. Ik ben dankbaar dat ik deze ontwikkelingen van zeer nabij, en soms in
de frontlinie, heb mogen meemaken. Er was veel te Ieren op gebieden waar ook de meest
deskundigen nog zoekende waren.

Het eind van dit leerproces is nog niet in zicht. Ook nu nog zitten we midden in de ontwikkeling,
die is te typeren als een uitermate boeiend collectief leerproces.

Onze omgeving verandert continu door ons handelen en onze uitvindingen (Arbib, 1977).
Daardoor is het moeilijk, zo niet onmogelijk, om nu reeds in het onderwijs de komende genera-
tie de kennis cn de vaardigheden aan te Ieren die een zekere garantie geven voor een goede
aanpassing aan toekomstige omstandigheden (Ackhof, 1974). Hel is zelfs de vraag of dc term
"aanpassing" nog wel de juiste is. Dikwijls krijgt men de indruk dat wie zich, op grond van
kennis over het verleden, "aanpast" aan het heden, slecht is toegemst voor de toekomst.

Het oude mensbeeld van dc mens als experimentator cn observator in een stabiele wereld is
achterhaald. Dc wereld wacht niet passief tot dc mens zijn verworven kennis toepast om be-
paalde doelstellingen tc vcrwezclijken. Ook als observator en experimentator treedt dc mens
handelend op en verandert hij de wereld en het risico is groot dat zijn "observaties" achterhaald
zijn wanneer hij gereed is om ze toe te passen. De modeme natuurkunde leert ons dat nauwkeurige
cn deterministische observatie, die onafliankelijk is van de observator, in de fysische wereld
niet mogelijk is. Het is zeer onwaarschijnlijk dat dit dan wel mogelijk zou zijn in dc sociale
wetenschappen, die gebieden bestuderen waar velen gelijktijdig cn relatief onafliankelijk van
elkaar op grond van hun locale observaties handelend dc wereld op globaal niveau veranderen.

Mensen zijn. individueel cn collectief, verantwoordelijke "actoren" (Klabbers. 1989), die dc
toekomst bepalen. Het resulterend effect van de gezamenlijke acties is moeilijk te voorspellen,
maar zodra ze aan het licht treden zijn ze bepalend voor de situatie die
dan actueel is en waarin
men
dan als verantwoordelijk mens zijn standpunt moet bepalen cn moet handelen. In de mctc-

1  Rede uitgesproken bij het afscheid als hoogleraar Toegepaste Onderwijskunde aan dc Universiteit Twente.

-ocr page 46-

40 A. Dirkzwager

orologie is men tot het inzicht gekomen van de principiële onvoorspelbaarheid-op-langere-
termijn (Tennekes, 1990). Het is dubieus of men in de menselijke maatschappij wel op grond
van voorspellende inzichten planmatig te werk kan gaan. Veel meer zullen, vanuit een visie op
de toekomst, telkens, afhankelijk van de situatie, ad hoe beslissingen genomen moeten worden.

Met name geldt dat voor het ontwerp van onderwijs dat leerlingen wil voorbereiden op een
leven in een cybernetische samenleving, waar de feedback op ons voorafgaande handelen bepalend
moet zijn voor ons huidige, toekomstgerichte handelen, dat op zijn beurt ook weer, vanuit zijn
effecten, correctie behoeft. We handelen weliswaar meestal vanuit een doel, maar ook onze
doelstellingen behoeven doorlopende correctie, waarbij soms blijkt dat, nog voordat het doel
bereikt is, onverwachte problemen of mogelijkheden tot geheel andere doelstellingen aanleiding
geven. Recente opkomst van de milieu-problematiek en recente ontwikkelingen in de wereldpolitiek
zijn daar in het oog springende voorbeelden van, maar ook op kleinere schaal, in het persoonlijk
leven, zal ieder die daar oog voor heeft dit kunnen waarnemen.

We veranderen de wereld waarin we leven en moeten dus ook zelf doorlopend mee veranderen.
Overdracht van kennis en vaardigheden is dan in het onderwijs wellicht minder belangrijk dan
het aanleren van een
attitude, die in staat stelt zich continu aan nieuwe (technologische en sociale)
ontwikkelingen goed en ad rem aan te passen. Men zal daarbij steeds weer
nieuwe, onverwachte
problemen tijdig moeten onderkennen en onder ogen zien.

Vanuit deze achtergrond zullen we nu aandacht moeten schenken aan het onderwijs, de
onderwijskunde en de problematiek van de educatieve instrumentatietechnologie. Het gaat om
een toekomstgerichte visie op onderwijs en onderwijskundige instrumentatie.

DE PERIODE 1950- 1990

Het is wellicht nuttig om eerst, zij het sterk gekleurd door persoonlijke ervaring, een terugblik te
werpen op de ontwikkelingen. We zullen daardoor enkele, poshief dan wel negatief te waarde-
ren, "trends" kunnen opsporen en sommige zaken vanuit historisch perspectief kunnen relativeren
en in hun juiste proporties zien.

Computers

In het begin-van de periode die ik wil overzien bestonden disciplines als informatica en onder-
wijskunde nog niet, laat staan dat er onderwijs in gegeven werd. Slechts enkelen hadden weet
van computers als apparaten om grote berekeningen uit te voeren. Andere mogelijkheden zijn
inmiddels ontdekt, of liever: door inventieve en creatieve geesten ontworpen. Met name is, en
dat is wat ons als onderwijskundigen het meest interesseert, in de afgelopen periode een begin
gemaakt met de exploratie van de mogelijkheden van de computer ter ondersteuning van het
leerproces.

Aanvankelijk werd de computer aangewend om traditionele, bekende taken te automatiseren,
maar op den duur werd de computer ook meer en meer gezien als een verlengstuk voor het
menselijk intellect, gereedschap waarmee nieuwe manieren van denken en bestuderen van de
complexe werkelijkheid pas mogelijk werden (Sass & Wilkinson, 1965). Nu begint de computer
al voor velen een gewoon instrument te worden, waarvan men gebruik maakt zonder zich te
hoeven bekommeren om de complexe technologie waarop ze berust en zpnder haar in moeizaam
te leren codes te hoeven aanspreken. Net zo onproblematisch als de modeme auto maakt dc
computer ons "mobieler", maar nu in het vlak van het
intellectueel functioneren. Ook de inter-
menselijke comiTiunicatiepatronen veranderen daarbij. Denk bijv. aan "bulletin boards" en
electronische post. Beide hebben al invloed op het onderwijs: scholen uit verschillende werelddelen
werken samen in projecten en leeriingen communiceren daarbij met elkaar via computers. Maar
we bevinden ons m.i. ook nu nog steeds in de beginperiode van ontwikkelingen, die we niet
kunnen voorspellen, maar waar we wel gezamenlijk verantwoordelijk voor zijn en die we
gezamenlijk moeten leren beheersen.

-ocr page 47-

Educatieve instrumentatietechnologie 41

Informatica

De ontwikkeling van de huidige computer verliep (en verloopt) niet rimpelloos en was zelfs
aanleiding tot het ontstaan van een nieuwe wetenschappelijke discipline: de informatica. Aan-
vankelijk lag in de "computerkunde" of "computer science" de nadruk op de ontwikkeling van
de apparatuur en haar toepassingen, waarbij voor de communicatie met die apparatuur ook
computertalen ontwikkeld werden (Dijkstra, 1959). Op een conferentie in 1968 (Naur & Dahl, 1972)
viel voor het eerst de term "software-crisis" om aan te duiden dat de programmatuurontwikkeling
voor complexe systemen zelden goed beheersbaar en foutloos verliep. De informatica werd uit
noodzaak geboren om de complexiteitsproblemen beheersbaar te maken en het denken dat aan
het programmeren voorafgaat te ordenen en te structureren. In 1972 verscheen de eerste publicatie
over gestructureerd programmeren (Dahl, Dijkstra & Hoare,1972), een inmiddels welhaast
modieuze en versleten term. Data en datastructuren werden streng gescheiden gehouden van de
programmatuur om op die data te opereren.

Met de opkomst van object-georiënteerde systemen (zie: Meyer, 1988) kwam daar verande-
ring in. Het basisconcept daarbij is dat een systeem bestaat uit objecten, elk met een eigen
datastmctuur en programmatuur die voorschrijft hoe dat object op binnenkomende boodschap-
pen reageert en interacteert met andere objecten. Deze benadering maakte het ontwerp mogelijk
van systemen die voor de gebruiker uitermate transparant waren (Goldberg, 1984 en Goldberg
& Robson, 1989). Het resuUaat was een computer als de Macintosh, die breed commercieel
beschikbaar kwam. Uiteraard waren ook de hardware ontwikkelingen, de microminiaturisering
en de daarmee gepaard gaande massaproductie en kostendaling daar debet aan, maar het be-
langrijkste was toch de intellectuele ontwikkeling en het feit dat complexe zaken intellectueel
beheersbaar werden en daardoor ook voor de naïeve gebruiker transparant en hanteerbaar gemaakt
konden worden.

Voor het onderwijs is deze ontwikkeling van belang omdat computers daar als leermiddel en
als intellectueel gereedschap een steeds belangrijker plaats zullen (moeten) krijgen. Wie zich
als onderwijskundig instmmentatietechnoloog bezig houdt met de computer in het onderwijs zal
op de hoogte moeten blijven van deze ontwikkelingen in de informatica om met een up-to-date
toekomstvisie toepassingen te kunnen ontwerpen, zonder enkele (tientallen?) jaren achter de
feiten aan te lopen.

Onderwijskunde

De onderwijskunde ontstond naast de reeds bestaande pedagogiek en de didactiek in de jaren
zestig vanuit de onderwijssociologie, de testpsychologie en de behavioristische leerpsychologie.
Zij was veelal gericht op het probleem hoe kennis kan worden overgedragen middels (al dan niet
geprogrammeerde)
instructie. Soms zag men in, dat veel van die over te dragen kennis snel
verouderde en soms al was achterhaald nog voordat het onderwijs gereed was om haar "over tc
dragen". Maar ook dan werd de oplossing dikwijls volgens ditzelfde paradigma gezocht in
"permanente educatie" en "volwassenenonderwijs".

Toch waren er ook andere geluiden te horen: men zou de leerlingen er toe moeten opvoeden
om zelfstandig kriti.sch tc leren denken cn studeren, om zo
zelf tot nieuwe kennis en inzichten tc
komen, vooral ook op gebieden die nog niet ontsloten waren voor het
onderwijs. Dat laatste zou
leiden tot een attitude van permanent
leren. In het onderwijs zou het er dan om gaan dat de
leerlingen
leren tc leren en leren te denken (voorzover zij dat al niet van nature kunnen, soms
krijgt men dc indmk dat het zelfstandig leren en denken in het onderwijs juist a/gcleerd wordt).

Zoals computcrbcstuurdc robots autonoom hun weg kunnen vinden op onbekend terrein op
verre planeten, zo zouden dc leeriingen toegerust moeten worden om zelfstandig hun weg tc
vinden in steeds wisselende omstandigheden. Deze metafoor kan er toe leiden dat sommigen
menen, dat men leerlingen als robots zou moeten programmeren, en dat de onderwijskunde dc
methoden daartoe zou moeten aanreiken. Dat is natuuriijk onjuist en bemst op ccn te beperkt
mensbeeld, als zou de computer model kunnen staan voor wat dc mens is. Het programmeren
van een computer of robot is geen juiste metafoor voor het leren van een mens. Mogelijk was
deze metafoor ooit van toepassing in een tijd dat veel menselijke arbeid het karakter had van

-ocr page 48-

42 A. Dirkzwager

routinewerk, dat momenteel door robots gedaan wordt, maar in deze tijd moeten we scherp
onderscheid maken tussen de creatief en verantwoordelijk handelende en scheppende mens en
de door hem geschapen artefacten zoals computers en robots en andere automaten (Weizenbaum,
1976; Winograd & Flores, 1987). Mensen zijn geen automaten en we mogen ook niet proberen
ze dat te maken.

Deze visie stelt hoge eisen aan het onderwijs, ook al is het onderwijs niet de enige leeromgeving
die aan de ontwikkeling van het kind tot een creatief, kritisch denkend en verantwoordelijk
handelend volwassene bijdraagt. Was voor de jaren zestig de opvoedkunde of pedagogiek (en in
mindere mate de didactiek) bij uitstek de wetenschap over hoe jongeren opgevoed en onderwezen
moesten worden, de onderwijskunde verdrong deze wetenschappen geleidelijk van hun plaats.
Dat schept verplichtingen. Stond bij de pedagogiek de
opvoeding, primair een taak van de ouders,
centraal, en was het onderwijs daar een afgeleide van, momenteel lijkt
onderwijs, zoals door de
overheid voor haar toekomstige burgers georganiseerd, de centrale plaats in te nemen en bestaat
binnen de onderwijskunde weinig belangstelling voor opvoedingsvraagstukken. Hooguit spreekt
men over motivatie en "meta-cognitieve vaardigheden". Toch is de
opvoeding, de ontwikkeling,
van de jongere generatie, zodat zij mentaal en emotioneel op haar toekomst is voorbereid, het
centrale probleem.
Daar mag de onderwijskunde niet aan voorbijgaan.

Onderwijs is een deel van het groter geheel, waarin de leeriing zich ontwikkelt. Opvoeders
gaan, bewust of onbewust, binnen en buiten het onderwijs van een bepaald mens- en wereldbeeld
uit, dat bepalend is voor de visie die de opvoeding richting geeft. Onderwijskunde moet dit
incalculeren en kan en mag niet gereduceerd worden tot een zogenaamd waardevrije, technologische
benadering van het probleem van kennisoverdracht op basis van leerpsychologische inzichten.

Ik wil hier geen pleidooi voeren voor continuering van fossiele verzuilingsstructuren, wel
voor een nieuw elan dat, voor ieder op eigen wijze, uiteindelijk gevoed wordt door een religieus
gefundeerde wereldbeschouwing, en door een visie op de mens en op de toekomst, waaraan
mensen zelf handelend gestalte geven.

TRENDS VOOR DE TOEKOMST

Ik had U beloofd enkele trends te signaleren die belangrijk zijn voor ons denken over onder-
wijskundige instrumentatietechnologie. Ik noemde reeds even trends zoals de voortdurende en
welhaast exponentiële daling van de kosten van computerapparatuur en de welhaast even spec-
taculaire toename in gebruiksmogelijkheden en gebruikersgemak; men zou kunnen zeggen: een
toename van de baten. Deze trends zijn U naar ik aanneem voldoende bekend. Waar ik nu
aandacht aan zou willen schenken zijn trends of ontwikkelingslijnen in onze
inhoudelijke en
intellectuele benadering van computers en computertoepassingen, met name in het onderwijs,
trends die zich niet buiten onze verantwoordelijkheid'realiseren en waaraan we ons dan slechts
aan moeten passen, maar ontwikkelingslijnen die zich ook door ons toedoen verder kunnen
ontplooien of zullen worden afgeremd.

De ontwikkelingslijnen die ik U wil noemen ontspringen aan twee visies, enerzijds die van
de statische industriële maatschappij, anderzijds die van een dynamische, cybernetische
informatiemaatschappij.

Computers in het Onderwijs

Vanuit de eerste visie is de computer primair een machine om bekende routinematige taken, die
voordien door mensen uitgevoerd werden, te
automatiseren. In het onderwijs wordt de compu-
ter dan gezien als een machine die
traditionele taken van de leerkracht overneemt. Voor som-
migen is dan zelfs het ideaal dat met de computer een ideale leerkracht volledig, maar zonder
zijn menselijke beperkingen en tekortkomingen, wordt gesimuleerd. Men spreekt dan over
"Intelligente C.A.I."' en zoekt technieken "for endowing machines with some common sense"
die de machine in staat stelt "to behave more like an experienced human tutor" (Gable & Page,

-ocr page 49-

Educatieve instrumentatietechnologie 43

1980). De leerkracht wordt dan operator van de machine en de "manager" van het onderwijs-
leerproces, voorzover ook dit management nog niet geautomatiseerd is.

Vanuit de tweede visie wordt de computer gezien als een machine die geheel nieuwe
interactiemogelijkheden met de leerling mogelijk maakt, die zonder computer ondenkbaar wa-
ren. De leerkracht blijft dan de leermeester, maar zijn arsenaal van hulpmiddelen om voor zijn
leerlingen een optimale leeromgeving te scheppen wordt uitgebreid evenals de mogelijkheden
om met zijn leerlingen met de leerstof bezig te zijn. De leerkracht krijgt meer armslag en de
leerling een betere gelegenheid om, in samenspraak met zijn docent, actief lerend bezig te zijn.
Intelligente drill- and-practice programma's om basisvaardigheden te oefenen, die door de
docent zijn geïntroduceerd en uitgelegd, zijn daar de eerste voorbeelden van (Dirkzwager &
Mol 1987). Geavanceerder voorbeelden zijn educatieve simulatieprogramma's (Min, 1982; Min,
1987; van Schaick Zillesen, 1990), systemen als Hypertext om informatie te ordenen en te
structureren (Kommers, 1991), interactieve video (Verhagen, 1989) en computerbestuurde multi-
media benaderingen (Tholen,1989). Ook het gebruik van een tekstverwerker bij het stelonderwijs
moet hier zeker genoemd worden (van der Geest, 1986). Wat deze laatste toepassing betreft: de
mogelijkheid in teksten verbeteringen aan te brengen zonder dat het een knoeiboel wordt, de
mogelijkheid om tekstgedeelten te selecteren door er met de muis overheen te slepen en vervolgens
de geselecteerde gedeelten te knippen en te plakken of in een ander lettertype te zetten, zijn
mogelijkheden die zonder computer ondenkbaar zijn. Onderzoek wijst uit dat een dergelijke
werkomgeving in het onderwijs motiverend werkt en samenwerking stimuleert, ook de informatie-
uitwisseling tussen docent en leerling neemt toe. Het onderwijs- en leerklimaat verbetert er door
(Hawisher, 1988).

Tot zover de eerste twee te signaleren trends: automatisering van bekende werkzaamheden
van de docent tegenover het ontwikkelen van automaten en gereedschappen voor geheel nieuwe
werkwijzen bij het leren en studeren. Deze polariteit loopt parallel met een polariteit bij het
onderzoek betreffende Kunstmatige Intelligentie: enerzijds poogt men daar het menselijk denken
te simuleren, anderzijds werkt men aan programma's om problemen, die voorheen menselijke
intelligentie vergden, efficiënt door machines op te laten lossen (Dirkzwager & Mol, 1987). Bij
deze laatste benadering wordt mogelijk volgens algoritmen te werk gegaan, die sterk afwijken
van de methoden die mensen bij hun denken volgen. Dat wil niet zeggen dat de problemen op
een on-menselijke manier worden opgelost, wel dat de mens, gewapend met de computer, deze
problemen
beter op kan lossen dan met zijn "ongewapend" intellect^.

Onderwijs en Ieren

Twee andere polaire trends zou ik willen typeren met de termen "kennisoverdracht" versus
"kennisverwerving". Ter inleiding citeer ik de omschrijving van "onderwijs" volgens de Winkler
Prins van 1958: "Een activiteit, waarin de leermeester systematisch en weloverwogen tracht de
leerling kennis en vaardigheid tc doen verwerven: het brengt dus niet iets bij of aan, maar poogt
dc leeriing tot leren tc activeren.".

Kennisoverdracht

Bovenstaande definitie lijkt achterhaald. Doel van het onderwijs is naar huidige inzichten in de
onderwijskunde wel degelijk kennis cn vaardigheden aan tc brengen, de leerling iets bij te
brengen.

De methodologie die daarbij volgens dc onderwijskunde gevolgd moet worden is bekend:
men definieert eerst de aan te brengen kennis en vaardigheden cn operationaliseert deze in een
toeLs waarmee nagegaan kan worden of het onderwijs tot het gewenste doel geleid heeft. Vervolgens
stelt men vast voor welke doelgroep men onderwijs wil geven, welke kennis en vaardigheden in
die doelgroep aanwezig zijn, dit eventueel ook geoperationaliseerd in toetsen waarmee de doelgroep
geselecteerd kan worden. Zijn zo begin- cn eindtoestand gedefinieerd, dan ontwerpt men het
onderwijs als een sequentie van "instructional events" (Gagne, 1977). Daardoor moet ccn brug
geslagen worden tussen begin- cn eindtoestand. Men kiest zorgvuldig dc te gebruiken media of
"delivery systems", waarmee men dc leerlingen aan het ontworpen onderwijs bloot stelt (Reiser

-ocr page 50-

44 A. Dirkzwager

& Gagne, 1983). Dan selecteert men de doelgroep, geeft het onderwijs en toetst met een post-
test of het ontworpen onderwijs succesvol was.

In deze visie is de leerling vergelijkbaar met onbewerkt materiaal dat door het onderwijs
bewerkt wordt tot een gewenst eindproduct.

Bovenstaande omschrijving geeft in zoverre een scheef beeld dat het de indruk wekt dat de
leerling een geheel passief object is. Dat is niet zo. Ook volgens aanhangers van deze visie zal
de leerling wel degelijk geactiveerd moeten worden: hij zal, na de geëigende instructie daarvoor,
leertaken en opdrachten moeten uitvoeren. Ook zal hij moeten responderen op vragen en opdrachten
waarmee tijdens het onderwijs getoetst wordt of de gepresenteerde informatie goed is overgekomen.
Zijn antwoorden kunnen aanleiding zijn om het onderwijs, volgens programma, aan te passen:
men geeft bij foute antwoorden remediërende feedback, men poogt systematische misvattingen
op te sporen, zodat de instructie daarop gericht kan worden. Dan kan het onderwijs in hoge mate
optimaal op de individuele leerling worden afgesteld.

Een ideaal delivery systeem voor onderwijs volgens deze visie is multimediale intelligente
CAI met omvangrijke, goed gestructureerde gegevensbestanden voor o.a. video- en audiopresentatie
en, in de toekomst, ook spraakherkenning om gesproken responses van de leeriing te kunnen
analyseren.

Dikwijls wordt dit type onderwijs interactief genoemd. De interactie is echter niet symme-
trisch. Het initiatief voor de interacties ligt bij de onderwijzende instantie; de leeriing moet
reageren en responderen, zodat de onderwijzende instantie nog beter
onderwijs kan geven. De
klemtoon ligt bij deze benadering op de activiteiten van de docent die direct of indirect kennis
en vaardigheden overdraagt op de leerling. Dit is de momenteel overheersende benadering in de
onderwijskunde.

Kennisverwerving

Mitchel (1988) heeft kritiek op deze vorm van onderwijskundige benadering: "Most definitions
of educational technology assert that it is concerned with improving human learning but (...) we
attempt to improve instmction instead. We need to reassess the A-V-movement and operant
conditioning from the perspective of the learner and within the framework of cybemetic control
theory. (...) One attempts to improve not leaming but teaching (...) we neglect the learners goals
and processes, treating learners as input- output systems (...) the learner is more than a receiver
of information, he must engage in an activity leaming to study, think, be creative, and develop a
love of the subject. (...) Educational technology has attempted to design systems that turn the
learner into a programmable machine. (...) The organism actually causes it's own behavior" en
we moeten ons richten op het ontwerp van "an environment to promote such leaming". Daarmee
zijn we terug bij de definitie van de Winkler Prins uit 1958. Leren is een activiteit van de
leerling; in interactie met zijn omgeving leert hij over die omgeving cn over de betekenis van
zijn eigen denkend handelen in die omgeving. Het initiatief voor deze interactie ligt bij de
leerling, de reacties van de omgeving op zijn handelen iijn de feedback die bepalend is voor zijn
toekomstig denken en handelen. Literatuur en onderwijs geven de leeriing informatie over hoe
anderen in zijn omgeving over bepaalde zaken gedacht hebben en denken, in interactie met die
anderen zal hij zelf zijn eigen denken en handelen moeten bepalen; gerichte instructie aan die
leerling is dan slechts één, en mogelijk niet eens de belangrijkste component van een leerzame
omgeving.

Het gaat niet primair om kennisoverdracht maar om kenmsverwerving. Dan is de leerling volgens
een cybernetische visie degene die "in control" is van zijn eigen deni:en, handelen en leren. Hij
ontlokt aan zijn omgeving feedback op zijn denken en handelen om zo tot kennisverwerving te
komen. De docent is in die omgeving een belangrijke partner met zijn eigen, soms eigenaardige,
mening en kennis. De leerling kan deze "kennis" in zich opnemen om door het "juist" beantwoorden
van vragen van die docent zijn diploma te halen. Dat is echter nauwelijks "leren", belangrijker is
dat de leerling in interactie met die docent tot een eigen mening en tot eigen kennis komt.

Ik citeer met instemming Eraut (1988): "The old debate about reception versus discovery
leaming was a red herring. (...) Receiving is an excellent practice if the information is actively

-ocr page 51-

Educatieve instrumentatietechnologie 45

processed and if the learner wants to use it for purposes which he personally values. From the
learners point of view ownership (of knowledge) is the desired outcome and any way of achieving
it involves personal discovery.". Kennisoverdracht zal niet gelukken als er bij de leerling geen
autonome actieve kennisverwerving plaats vindt, en dan is het nog zeer waarschijnlijk dat, als er
al kennis wordt overgedragen, de verworven kennis
meer is dan de kennis die bij de docent klaar
lag om overgedragen te worden. De leerling heeft er eigen kritische denk-activiteit in geïnves-
teerd, gebaseerd ook op informatie uit andere bronnen dan welke hem in het onderwijs-in-
engere-zin zijn aangereikt. Dat leerresultaat kan niet met een tevoren ontworpen post-test wor-
den gemeten, maar is wel essentieel voor de verdere kennis-ontwikkeling waar leermeesters en
studenten in onderlinge dialoog, elk vanuit hun eigen achtergrond en doelstelling, aan werken.
Beiden trachten hun kennis over een bepaald onderwerp uit te breiden, beter te leren structure-
ren en duidelijker te leren formuleren. Dat is, tussen haakjes, ook de zin van de symbiose van
onderzoek en onderwijs op universitair niveau. Dat blijkt o.a. uit het feit dat, vergeleken de
eerste decennia van deze eeuw, steeds meer studenten, nog voor zij hun studie afsluuen met een
dissertatie,
al respectabele artikelen in de vakpers kunnen publiceren, eventueel met hun docent
als co-auteur. Maar ook op lagere onderwijsniveaus zijn docenten en leerlingen veel meer
partners in een collectief leerproces. Dat geldt vooral nu de maatschappij door de snelle tech-
nologische ontwikkelingen zo aan verandering onderhevig is, dat docenten deze ontwikkelingen
dikwijls moeilijker kunnen bijbenen dan hun leerlingen die er mee opgroeien. Dat geldt met
name voor computers in het
onderwijs.

Voor deze trend, dat men zich in het onderwijs steeds meer richt op actieve kennisverwerving,
heeft Papert (1980), die zich orienteen aan Piaget's leertheorie, met zijn op LOGO gebaseerde
"microworlds" als inspirerende leeromgevingen voor zelfstandig leren, een belangrijke initiërende
impuls gegeven. Papert zelf zet zich daarbij sterk af tegen Computer Assisted Instruction: men
leert niet door passief instructie te volgen, men leert al doende. Met de computer kan men zijn
(abstracte) gedachten en ideeën snel omzetten in werkende programma's, zodat men dc juistheid
van zijn denken kan toetsen, fouten erin kan opsporen, zijn ideeën kan corrigeren en weer
uittesten en zo al doende kennis en cognitieve vaardigheid op een bepaald gebied verwerven.

Communicatie met anderen, medeleeriingen en docenten, over wat men denkt en doet, is
daarbij belangrijk, niet primair omdat anderen het "beter weten", maar om het denken te stimuleren
en verworven kennis te leren formuleren. Daarbij kan zich zelfs een eigen "taal" ontwikkelen
over wat men ontdekt heeft.

Samenvatting

Twee trends meen ik in beschouwingen over onderwijs en computergebmik in het onderwijs te
kunnen signaleren.

Enerzijds de trend om kennisoverdracht te automatiseren, anderzijds de trend om met com-
puters (nieuwe)
leeromgevingen te scheppen voor kennisverwerving. Daarmee hangt samen een
verschil in visie op de rol van de docent en zijn relatie tot dc leerling. In het eerste geval is dc
docent de deskundige die het weet en de leeriing de onwetende die het (van dc docent) moet
leren, in het tweede geval zijn doccnt cn leeriing. elk met hun eigen achtergrond, partners in een
gezamelijk leerproces dat tot optimale "understanding" (Pask, 1975) moet leiden.Karikaturaal
gesteld ontstaat bij kennisoverdracht geen nieuwe kennis: er wordt slechts gccopiëerd. bij onderwijs
dat gericht is op kennisverwerving is sprake van evolutie van nieuwe kennis, een proces dat zich
niet in aparte individuele breinen afspeelt, maar dat ccn sociaal gebeuren is (Maturana & Varela,
1980).

INSTRUMENTATIETECHNOLOGIE IN DE ONDERWIJSKUNDE

Genoemde trends zijn van belang voor de benadering van onderwijskundige instrumentatie.

De term "Instmmentatictechnologie" is door de grondleggers van dc Toegepaste Onderwijskunde
aan dc toenmalige Technische Hogeschool Twente bijzonder gelukkig gekozen. Enerzijds moet
zij het gebied bestrijken dat aan andere universiteiten gedoceerd werd als "mediakunde", ander-

-ocr page 52-

46 A. Dirkzwager

zijds duidde zij aan dat het om meer ging dan het gebruik van media in het onderwijs. Media zijn
volgens sommigen niet meer dan transportmiddelen voor informatieoverdracht (Clark, 1983).
Instrumenten zijn middelen waarmee men zijn omgeving kan observeren, bewerken, bestuderen
en veranderen, in het onderwijs niet alleen instrumenten voor de docent maar vooral ook voor
de leerling. Bij ondenvijskimdige instrumentatie gaat het er om hoe de
leeromgeving wordt in-
gericht, wat de leerlingen daarin doen en welk profijt leerlingen daarvan hebben.

Zoals de instrumentatie uiteindelijk bepaalt hoe een muziekstuk klinkt, zo is de instrumenta-
tie van onderwijs bepalend voor hoe het onderwijs gegeven wordt en dus voor het effect van dat
onderwijs op de leerlingen. Het inzicht wint veld dat het bij instrumentatie niet alleen gaat om
de keuze van apparaten, maar vooral ook om de vormgeving van de software en courseware, die
het "gedrag" van het medium ten aanzien van de leerling bepaalt (Dirkzwager & Jaspers, 1989).
In interactie met een medium leert de leeriing in de
taal, in het symboolsysteem van dat medium
over de leerstof te denken (Salomon, 1979). Dan is de
docent niet het onbelangrijkste "me-
dium". De instrumentatietechnoloog zal zich er ook rekenschap van moeten geven dat hij, met
zijn onderwijsinstrumentatie ook de infrastructuur ontwerpt waarbinnen docenten en leerlingen
volgens bepaalde rolpatronen en in een bepaalde "taal" met elkaar kunnen communiceren.

Onderwijskundige instrumentatie betreft de vormgeving van de leeromgeving in het onderwijs.
Die vormgeving bepaalt wat de leerling concreet zal ervaren en zal kunnen doen. Als zodanig is
zij het sluitstuk van het onderwijskundig ontwerp. Daarbij zijn vorm en inhoud nauw gerelateerd
en niet van elkaar te scheiden. Het is al te abstract als men het heeft over "Educatieve TV", over
"Een instructiefilm" of over "de computer" in het onderwijs. Het betreft altijd een
bepaald
educatief TV-programma, een bepaalde, concrete educatieve film en bepaalde educatieve
software waarmee gewerkt wordt in een bepaalde onderwijssituatie. Als men dat vergeet en
bijv. gaat onderzoeken of het ene medium effectiever is dan het andere, zonder oog te hebben
voor wat er concreet met die media gedaan wordt, krijgt men elkaar tegensprekende, weinig
consistente onderzoeks- resultaten die men niet kan verklaren. Educatieve instrumentatietechnologie
levert concrete producten, waarvan moet blijken hoe en of zij in het onderwijs gebruikt worden
en hoe zij het onderwijs veranderen. Daarop te anticiperen bij het ontwerp, en dat in de praktijk
van het onderwijs te onderzoeken, is een van de boeiendste aspecten van de onderwijskundige
insüiimentatietechnologie (Dirkzwager & Jaspers, 1989 hfdst. 6).

Voorafgaande theorie (instructietheorie, mediakunde, communicatieleer, ontwikkelings-
psychologie en leerpsychologie om maar enkele gebieden te noemen) die bij het ontwerp toegepast
kan worden Is belangrijk, maar elk ontwerp op zich is telkens weer een nieuwe hypothese die in
de praktijk getoetst wordt. Daarbij is het belangrijkste onderzoekresultaat de feedback uit de
praktijk waaruit blijkt waarin het ontwerp faalt en moet worden herzien. Ook al blijkt statistisch
significant dat beoogde doelen bereikt worden, dan nog kan onbevooroordeelde observatie leren
dat de instrumentatie andere, onverwachte effecten heeft en dat de leerling tot onvoorziene,
nieuwe, inzichten gekomen is. Die observaties brengen ook de theorievorming verder.

Instrumentatie is een cybernetisch proces waarbij de theoretisch geschoold onderwijskundig
instrumentatietechnoloog de praktijk van het onderwijs manipuleert om haar te optimaliseren
overeenkomstig zijn visie op het onderwijs. Maar ook de praktijk van het
onderwijs, de "teaching"
is niet het uiteindelijke criterium, maar wat de leeriing, gegeven een bepaalde instrumentatie,
doet, denkt, leert en beleeft,
hoe de leerling zich ontwikkelt, is het uiteindelijk criterium. Dat is
niet met een eenvoudig psychometrisch instrument te meten maar vereist voor zijn waardering
en beoordeling de inzet van alle zintuigen en faculteiten waarover een mens als beoordelaar cn
evaluator beschikt.

Dan is onderwijskwnAt wellicht een niet zo gelukkig gekozen benaming voorde bxsisdiscipline
van de instrumentatietechnoloog en zou ontwikkelingskunde mogelijk een betere term zijn. In
ieder geval heeft de term "ontwikkeling", boven de term "onderwijs" het voordeel dat zij ook
wederkerig gebruikt kan worden: wij
ontwikkelen educatieve instrumentatie opdat de leeriing
zich optimaal kan ontwikkelen. Het gaat om de ontwikkeling en het leren van de leerling, het
gaat er om hem daarvoor, met alle technische èn niet-technische middelen waarover we beschik-
ken, een optimale omgeving te bieden. Dat is educatieve instrumentatie.

-ocr page 53-

Educatieve instrumentatietechnologie 47

Is instrumentatietheorie het einde van de onderwijskunde? Na het voorgaande zal het U niet
verbazen dat voor iemand als mijzelf, die zich als psycholoog geïnteresseerd in menselijk leren-
in-een-natuurlijke-omgeving in de onderwijskunde begaf om in het onderwijs dit menselijk
leren te bestuderen en zo mogelijk te stimuleren, dat voor zo iemand educatieve instrumentatie
het einde is: daarmee kan men de natuurlijke leeromgeving manipuleren om te kunnen observeren
wat het effect op het menselijk leren is. Ik zal de vraag dan ook positief beantwoorden, en ik
hoop dat dit betoog er toe bijgedragen heeft dat U, geachte toehoorders, dit gevoelen met mij
enigzins kunt delen.

NOTEN

1. Voor een kritische bespreking zie Dirkzwager (1987).

2. Vgl. Samuel (1967) die van ccn door hem zelf ontworpen computerprogramma hel spel "Checkers"
verloor als hij zijn eigen zetten zonder computerhulp moest bedenken.

LITERATUUR

Ackhof, R.L.(1974). Redesigning the future, New York: J. Wilcy.
Arbib,M.A.(1977).
Computers and the Cybernetic Society, New York: Acadcmic Press.
Clark, R.E.(1983). Reconsidering Research on Learning from Media;
Revering Educational Research, 53,
445-459.

Dahl, O. -J, Dijkstra, E.W.; Hoare, C.A.R.(1972). Structured Programming. London: Acadcmic Press.
Dirkzwager, A.(1987). Intelligente C.A.I. in:
Cognitieve Psychologie in Theorie cn Praktijk, Liber Amicorum

prof. dr. S.D. Fokkema; Lisse: Swets & Zeitlinger.
Dirkzwager, A.& Jaspers, A.(1990).
Reader Instrumentatietheorie, Enschede: UT/TC.
Dirkzwager, A., Mol, M.(1987)
Onderwijskundig Computcrgebruit, Amsterdam: Addison Wesley.
Dijkstra, E.W.(1959).
Communication with an Automatic Computer-, Rijswijk: Excelsior.
Gagne, R.M.(1977)
The conditions of learning-, New York: Holt, Rinehart and Winston.
Eraut, M.(1988). What has happened to Learning Design? In: Mathias, H., Rashley, N. and Budget, R. eds.

Designing New Systems and Technologies for Learning-, London: Kogan Page.
Geest, Th. van der (1986)
Dc computer in het schrijfonderwijs, Enschede: Univ. Twente.
Gable, A., Page, C.V.(1980) The use of Artificial Intelligence Techniques in Computer-Assisted InsUuction;

Int. J. of Man-Machine Studies. 1980, 259-282.
Goldberg, A.(1984).
Smalltalk, The Interactive Programming Environnu;nt. Mcnlo Park: Addison Wesley.
Goldberg, A.& Robson, D.(1989).
Smalltalk-80. the language. Mcnlo Park: Addison Wesley.
Hawisher, G.E.(1988). Research Update: Writing and Word Processing.
Computers and Composition 5,2
pp.7-27

Klabbers, J.(1989) Methodologische aspecten van hci ontwerpen van "leeromgevingen", in: Klep, J.&
Kommcrs, P.;
Courseware cn leerplanontwikkeling Didactische systeemanalyse (p.40-63). En.schcde:
SLO.

Kommcrs, P.A.M.(I991) Hypertext and the Acquisition of Knowledge, Enschede: Proefschrift TU.
Maturana, H.R., Varcla, F.J.(1980).
Autopoiesis and Cognition, Dordrecht: Rcidcl.
Meyer, B.(1988).
Object-Orientcd Software Construction, London: Prentice Hall.
Min, F.B.M.(1982)
Computersimulatie en Wi.'ikundige Modellen in het Medisch Onderwijs, Maasuicht:
Proefschrift RUL.

Min, R.(1987). Computersimulatie als Leermiddel, Schoonhoven: Acadcmic Service.
Mitchcl, P.D.(1988). Educational Technology and the enhancement of human potential: from programmed
learning to knowledge engineering, in: Mathias, H., Rackly, N. and Budget, R.
c(is.\DcsigningNew
Systems and Technologies for Learning,
London: Kogan Page.
P. Naur & Randcll, B., eds.
Software Engineering. January 1969, NATO Scientific Affairs Division.
Papcrt, S.(1980).
Mindstorms, Brighton:Harvesler Press Ltd.
Pask, G.(1975).
Conversation, Cognition and Learning-, Amsterdam: Elsevier.
Reiser, R.A., Gagne, R.M.(1983).
Selecting Media for Instruction, New Jersey: Englewood Cliffs.
Salomon, G.(1979)
Interaction of Media, Cognition, and Learning, San Francisco: Josscy Bass.
Samuel, A.L.(1967). Some studies in Machine Learning using the game of Checkers II - Recent Progress.
IBM J. Res. Develop., 11.6. 601.

-ocr page 54-

48 A. Dirkzwager

Sass, M. A., Wilkinson, W.D. eds.(l%5) Computer Augmentation of Human Reasoning.,'^d&h\ng\an: Spartan
Books.

Schaick-Zillesen, P.G. van (1990). Methods and Technics for the Design of Educational Computer Simulation

Programs and their Validation by means of Empirical Research, Enschede: Proefschrift TU.
Tennekes, H.(1990).
De Vlinder van Lorenz, Bloemendaal: Aramith.

Tholen, P.(1989), Interactieve Media in Opleiding en Training, Kampen: La Riviere en Voorhoeve.
Verhagen, P.W.(1989)
Het BOSODISK-project: Evaluatie. Enschede: UT/OCTO.
Wcizenbaum, J.(1976).
Computer Power and Human Reason, San Francisco: Freeman.
Winograd, T.& Florcs, F.(1987)
Understanding Computers and Cognition, New York: Addison Wesley.

Manuscript ontvangen 6-12-1990
Defmitieve versie ontvangen 23-1-1991

-ocr page 55-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 49-48

Notities en Commentaren

VISIES OP HET GEBRUIK VAN DE COMPUTER IN HET ONDERWIJS:
EEN DISCUSSIE BIJ HET AFSCHEIDSCOLLOQUIUM VAN
PROF. DR. A. DIRKZWAGER

Gellof Kanselaar

Vakgroep Onderwijskunde, Rijksuniversiteit Utrecht

Op 30 november 1990 organiseerde de vakgroep Instrumentatietechnologie van de faculteit
Toegepaste Onderwijskunde van de Universiteit Twente een colloquium ter gelegenheid van het
afscheid van prof. dr. A. Dirkzwager. Dirkzwager wilde bij deze gelegenheid een aanzet geven
tot een discussie over de rol van media in het onderwijs. Hij deed dit onder de titel "Educatieve
instrumentatietechnologie, het einde van de onderwijskunde". De redactie van TOR wil in deze
rubriek op de uimodiging van Dirkzwager tot het voeren van een discussie ingaan.

In zijn rede komen een aantal aspecten aan de orde. In deze reactie gaan wij voornamelijk in
op de twee visies of trends die Dirkzwager onderscheidt.

Aan de ene kant onderscheidt hij de statische, industriële maatschappij, waarin de computer
de plaats van de docent probeert in te nemen, waar gestreefd wordt naar het automatiseren van
processen van kennisoverdracht en waarbij het Ieren van de leeriing meer benaderd wordt vanuit
geprogrammeerde instructie en (intelligente) CAI.

Aan de andere kant wordt de dynamische, cybernetische informatiemaatschappij genoemd,
waarin de computer een leeromgeving voor actieve kennisverwerving biedt, waar de computer
een intellectueel gereedschap is voor zowel docent als leerling, die beiden in een gemeenschappelijk
ontwikkelingsproces participeren. Het doe! van leren is hierbij leren tot zelfstandig, kritisch
denken en leren te leren.

In deze reactie stellen wij naar aanleiding van deze tegenstellingen twee vragen. De eerste
vraag is, is er bij deze tegenstellingen inderdaad sprake van een trend (ontwikkeling in opvattingen
of gebeurtenissen) en de tweede is. is het wel vruchtbaar om hier van tegenstellingen te spre-
ken?

Ten aanzien van het trendkarakter zijn er twee verschillende invalshoeken te onderscheiden.
De eerste heeft betrekking op de visie op onderwijs met onderliggende mensopvattingen en de
daarmee samenhangende opvattingen over leren en onderwijzen. In dit opzicht is de tegen.stel-
ling die Dirkzwager beschrijft niet nieuw. In de historie vinden wij al de Socratische dialoog als
onderwijsvorm tegenover het uit het hoofd leren reciteren van geloofswaarheden. In deze eeuw
zijn er vele voorbeelden van deze tegenstelling, bijv. Gal'perin (Vygotsky) tegenover Piaget;
conditionering tegenover ontplooiing; geprogrammeerde instructie tegenover ontdekkend leren;
sturend tegenover banend onderwijs. Zowel in opvoeding als in onderwijs is deze spanning
tussen dc opvoeding/onderwijs tot zelfstandigheid enerzijds en het nog afliankclijk zijn van de
opvoeder/docent anderzijds aanwezig. In deze tegenstellingen zit vaak ook een perspectief van
waaruit men het ontwikkelingsproces beschrijft: beziet men het proces vanuit dc leeriing en het
leren of vanuit het perspectief van de volwassene cn het onderwijzen. Tot zover is er dus niet
echt sprake van een nieuwe trend.

Dc tweede invalshoek heeft betrekking op dc invloed van informatietechnologie, computers
en aanverwante nieuwe media op de hierboven weergegeven tegenstelling. Is er bij dc invoering
van media in het onderwijs sprake van een technologisch determinisme? M.a.w. schrijft de
computer (met programma) voor welke rol de leerling en de doccnt moeten spelen in het
onderwijslccrproces?Voor dc bespreking van deze vraag gaan wc terug naar het werk van
Dirkzwager zelf.

Dirkzwager is ccn van dc eerste pioniers die zich bezig heeft gehouden met dc invoering van
computers in het onderwijs in Nederland. Tijdens een studiereis in dc Verenigde Staten in 1967
was hij enthousiast geworden voor computer-bestuurd onderwijs. In 1968 startte hij samen met

-ocr page 56-

50 Notities en commentaren

anderen het SVO-project 0113B aan de VU in Amsterdam. Dit project heeft tot 1983 gelopen,
het heeft 3,52 miljoen gulden gekost en heeft als output een hoeveelheid ervaring, een publika-
tie "Leren met computers in het onderwijs" (Dirkzwager e.a., 1984) opgeleverd en een aantal
computerprogramma's. De titel van dit project was: "Programmering van Responsive Environ-
ments voor zelfstandig leren". Dit is duidelijk een titel die in de huidige discussie zeker niet
verouderd is. De term responsive environment geeft aan dat het initiatief tot leren bij de gebruiker
van het programma gedacht is en dat het streven is een leersituatie te maken waarin zelfstandig
leren mogelijk is. Ook over de rol van de onderwijzer staan duidelijke opvattingen in Dirkzwager
e.a. (1984, 441): "Wie gelooft in de onvervangbaarheid van de docent, en in het belang van
diens unieke menselijke vaardigheid voor het inspelen op de diversiteit van onderwijsproblemen
bij grote individuele verschillen tussen leerlingen, blijkt in dit boek gelijk te krijgen. De computer
is niet meer dan een werktuig, met veel handige aspecten ... maar meer dan een gereedschap
wordt het nooit." In oudere publikaties van Dirkzwager zien we dus al de computer gedacht in
de rol van gereedschap en niet in de rol van de dirigent die het onderwijsleerproces domineert.
Uit deze uitspraken blijkt bepaald niet de opvauing van technologisch determinisme. Alhoewel
Dirkzwager op het ogenblik waarschijnlijk andere programma's zou willen maken dan in het
SVO-project 0113B ontwikkeld werden, zijn zijn opvattingen over de rol van de computer in het
onderwijs niet fundamenteel veranderd.

Het vormgeven aan onderwijsprogramma's met de computer waarin deze visie gerealiseerd
is, is echter niet eenvoudig. De uitwerking die Dirkzwager hieraan geeft in zijn bijdrage is erg
summier en niet overtuigend. M.i. bepaalt niet de geavanceerdheid van het medium aan welke
kant van het continuüm (geautomatiseerde docent tegenover een intelligente leeromgeving of
tooi) het computerprogramma zit. Hypermedia, multi-media, hypertext e.d. determineren op
zich niet de didactische vormgeving van het programma en het gebruik van de computer als
tekstverwerker is een nuttige toepassing maar geen fundamentele verandering in het onderwijs
in vergelijking met de bloknoot en pen.

Een van de principieel nieuwe aspecten in het gebruik van de computer in het onderwijs is
m.i. de mogelijkheid tot het realiseren van een meer interactieve leersituatie in vergelijking met
het boek. Kan de computer meer didactische functies realiseren dan het boek door de mogelijkheid
van interactiviteit? Het is hierbij m.i. niet vruchtbaar om de benadering waarbij de computer de
rol van docent krijgt toegewezen minder gewenst te vinden en de computer als gereedschap van
de leeriing als meer gewenst. De computer als gereedschap kan zowel voor de docent als voor de
leerling zeer nuttige functies vervullen. Het is m.i. echter geen óf-óf maar een én-én. De computer
inzetten als gereedschap daar waar nuttig en mogelijk is, maar ook de computer inzetten als
interactief medium voor onderwijsleerprocessen waarbij de computer lesstof kan presenteren en
het leerproces kan coachen. Dirl^wager stelt hierbij tegenover elkaar het proces van kenniso-
verdracht en van kennisverwerving. Dat leren een actief en constructief proces dient te zijn,
wordt door weinig onderwijspsychologen bestreden. Dii schept echter niet zozeer een tegenstelling
tussen overdracht versus verwerven maar een continue spanning in onderwijsleerprocessen. In
de benadering van Vygotsky wordt deze spanning uitgedmkt in het begrip zöne van de naaste
ontwikkeling en bij Piaget in het plus één niveau. Het onderwijsaanbod dient dusdanig te zijn
dat het van de leerling meer vraagt dan hij al weet of beheerst en het dient weer niet zover van
zijn aanwezige kennis en vaardigheden af te liggen dat hij zijn voorkennis niet als gereedschap
kan gebruiken om de nieuwe taak uit te voeren. Het gaat hier dus minder om een tegenstelling en
meer om een continuüm waarbij de waarheid niet in het midden ligt'maar steeds voorbij een
verschuivend midden.

Het ontwerpen van een programma dat de mogelijkheid tot initiatief bij de leeriing legt maar
aan de andere kant ook terugkoppeling kan geven op het gedrag van de leeriing, is een zeer
moeilijke activiteit. Het ontwerpen van een volledig computer- of programmagestuurd pakket is
veel eenvoudiger. Het geven van terugkoppeling is hierbij eenvoudig te baseren op een van te
voren in het programma aangebracht matchingsproces. Het ontwerpen van een volledig
leerlinggestuurd programma is ook niet zo moeilijk als het programma maar geen temgkoppeling
hoeft te geven. Een tekstverwerker of LOGO bieden de mogelijkheid om de eigen gedachten en

-ocr page 57-

51 Notities en commentaren

bedoelingen in de computer in te brengen. Terugkoppeling op inhoudelijk niveau is hierbij
echter afwezig.

De realisering van didactische functies in een programma zoals het geven van inhoudelijke
terugkoppeling aan de leerling, evalueren van de voortgang, adaptief zijn aan het niveau en de
bedoeling van de leerlingen en toch de mogelijkheid bieden van een exploratieve leeromgeving,
vraagt o.a. technieken van kennisrepresentatie in het programma en kennis van de voortgang in
leerprocessen van beginner naar expert in een bepaald domein waarover we vaak nog onvoldoende
beschikken. Goed onderwijs wordt hierbij m.i. niet bereikt door uit te gaan van tegenstellingen
maar door het zoeken naar het optimale niveau van interactiviteit in programma's.
Leren is hierbij zowel een proces van internaliseren als van extemaliseren.

Dit optimale niveau van interactiviteit is ook bepaald door persoonlijkheidsaspekten van de
leerling. Structureringstendentie en negatieve faalangst blijken gerelateerd te zijn aan de dimen-
sie vrijheid en initiatief aan de kant van de leerling versus sturing aan de kant van het onderwijs-
aanbod.

Het formuleren van tegenstellingen zoals Dirkzwager in zijn bijdrage doet kan gemakkelijk
leiden tot een weinig vruchtbare academische discussie. Het ontwerpen van onderwijs, en daar
is de opleiding van instrumentatietechnoloog op gericht, is m.i. meer het oplossen van problemen
waarin onderwijs- en leeractiviteit in een steeds verschuivend perspectief samengebracht moe-
ten worden. Het aardige van het aanscherpen van mogelijke keuzen in dit ontwerpproces is dat
wij ons afvragen in welke richting wij de oplossingen zoeken. Dirkzwager heeft aan dit proces
een bijdrage geleverd.

LITERATUUR

Dirkzwager, A. (1991). Educatieve insUumcntatietcchnologic: het einde van dc onderwijskunde. Tijdschrift
voor Onderwijsresearch, 16,
39-48.

Manuscript ontvangen 11-2-1991

-ocr page 58-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 52-48

Boekbesprekingen

L. Eldering & J. Kloprogge (Eds.), Different cultures same school. Ethnic minority children in
Europe.
Amsterdam/Lisse: Swets & Zeitlinger. 1989, 262 pp., ISBN 90 265 0989 8. 31.50 Hfl.

A. Van Langen & P. Jungbluth. Onderwijskansen van migranten. De rol van sociaal-economi-
sche en culturele factoren.
(Forum 6). Amsterdam/Lisse: Swets & Zeitlinger, 1990, 103 pp.
ISBN 90 265 1091 8, NUGI 724, 27.50 Hfl.

"Different cultures same school" bevat de bijdragen tot een in 1987 door de Nederlandse over-
heid georganiseerde workshop waaraan actief deelgenomen werd door een dozijn internationaal
erkende specialisten op het vlak van de migrantenproblematiek, afkomstig uit diverse
wetenschapsdisciplines (pedagogiek, psychologie, sociologie, culturele antropologie en linguïstiek.
De bundel bestaat uit drie delen.

Het eerste en veruit meest omvangrijke deel (hoofdstuk 2-7) bevat artikelen rond het thema
"de schoolloopbaan van migrantenkinderen en de etnisch-culturele en socio-economische factoren
die deze loopbaan beïnvloeden. In deze hoofdstukken wordt - achtereenvolgens door (een)
expert(en) uit Groot-Britannië (Tomlinson), Duitsland (Boos-Nünning en Hohmann), Frankrijk
(Costa-Lascoux), België (Roosens) en Nederland (Eldering) - een schets gegeven van de
migrantenstromen in het betreffende land, de schoolloopbanen van deze bevolkingsgroepen, de
overheidsmaatregelen en -initiatieven op het vlak van het onderwijs aan migrantenkinderen, het
verricht en lopend onderzoek op dit gebied. Het eerste deel wordt afgesloten met een bijdrage
van een Turks expert (Kagitcibasi), die handelt over stimuleringsprogramma's voor jonge kin-
deren in Turkije.

Het tweede deel bevat twee artikelen over het probleem van de tweede-taalverwerving. Extra
en Vallen (hoofdstuk 8) gaan in op de realisaties en onderzoekingen met betrekking tot de
tweede-taalverwerving bij migrantenkinderen in Nederland, België en West-Duitsland. Strömqvist
(hoofdstuk 9) doet hetzelfde voor de Scandinavische landen.

Het derde en laatste thema van deze bundel, nl. schoolorganisatie en -effectiviteit, komt aan
bod in de bijdrage van Sammons. Na een overzicht van het schooleffectiviteitsonderzoek in het
algemeen, bespreekt ze uitvoerig een recente Engelse studie waarin de rol van allerhande leer-
ling- en schoolkenmerken op schoolsucces werd nagegaan.

Op het einde van de bundel distilleren Kloprogge en Eldering een aantal gemeenschappelijke
kenmerken en accenten uit de diverse bijdragen en formuleren ze een aantal suggesties voor
verder onderzoek rond de drie behandelde thema's. Opvallend daarbij is hun vurig pleidooi voor
longitudinaal, multidisciplinair en internationaal opgezeue onderzoeksprojecten.

Niet enkel omwille van de rijke schat aan informatieve gegevens (statistisch materiaal,
overzichten van onderzoeksresultaten, literatuurverwijzingen...) maar tevens van de vele inte-
ressante persoonlijke gezichtspunten en commentaren, is deze bundel aanbevolen lectuur voor
al wie zich vanuit wetenschappelijk of beleidsmatig oogpunt breed wil informeren over de
problematiek van onderwijskansen van migrantenkinderen. Een probleem is wel dal de be-
schrijvingen van de toestand op het vlak van onderwijs aan en onderzoek over migrantenkinderen
in de diverse landen - mede als gevolg van de recent sterk toegenomen belangstelling voor deze
problematiek - reeds bij het ter perse gaan van deze publikatie achterhaald waren.

De tweede publikatie. Onderwijskansen van migranten, is specifieker en technischer van opzet.
Het betreft een verslag van een onderzoeksproject dat uitgevoerd werd door het Instituut voor
Toegepaste Sociale Wetenschappen van de K.U.Nijmegen.

In het eerste deel van dit onderzoeksproject, dat beschreven wordt in het eerste hoofdstuk
van het rapport, heeft men de precieze onderwijspositie van minderheden vastgesteld. Daamit is
o.a. gebleken hoe sterk etniciteit verband houdt met het schooladvies dat de leeriingen aan het

-ocr page 59-

Boekbesprekingen 53

einde van de basisschool meekrijgen en met hun reële onderwijsposhie in het voortgezet onder-
wijs.

Vervolgens is in het tweede en belangrijkste deel van het onderzoek de vraag beantwoord
welke binnen- en buitenschoolse factoren samenhangen met de positie van etnische minderhe-
den in het voortgezet onderwijs. Meer specifiek luidde de vraagstelling in welke mate verschillen
in schoolloopbanen tussen allochtone en autochtone leerlingen verklaard kunnen worden vanuit
de gebruikelijke onderwijssociologische inzichten dan wel een apart soort verklaring behoeven.
De data-verzameling - hoofdzakelijk leerling- en schoolleiders-enquêtes - vond plaats in het
derde jaar van het voortgezet onderwijs. Het belangrijkste resultaat van dit onderzoek is dat de
onderwijsachterstand van migrantenkinderen inderdaad voor een zeer groot stuk een uitvloeisel
is van hun sociaal-economische status; etniciteit - losgemaakt van de sociaal-economische
vertekening - blijkt nog slechts in zeer beperkte mate een verklaring te vormen voor kansen-
ongelijkheid in het onderwijs.

Onderwijskansen van migranten is een goed geschreven rapport overeen zorgvuldig uitgevoerd
onderzoek. Wel zouden er vragen gesteld kunnen worden bij een aantal beslissingen die de
onderzoekers in de loop van hun studie hebben genomen. Ik denk daarbij vooreerst aan de
definitie die gehanteerd is bij de bepaling van bepaalde herkomstgroepen: bijv. bij de Molukse
herkomstgroep werd een leerling al ingedeeld wanneer één van de grootouders daar geboren is.
Daarnaast is er de wijze waarop de variabele "onderwijspositie" - en met name dc samenstelling
van het vakkenpakket - van de leerlingen is geoperationaliseerd; voor bepaalde groepen diende
er te worden afgegaan op een inschatting door de leerlingen zélf van de waarschijnlijkheid dat
ze bepaalde vakken in het pakket zouden gaan kiezen. Maar ook wat de operationalisering van
andere variabelen betreft, kunnen er vragen gesteld worden bij het zo sterk afgaan op leerling-
antwoorden op vragenlijsten. In dit verband wijs ik bijv. op de bepaling van

- de variabele "sociaal-economische gezinsstatus" (waarbij allochtone leeriingen niet enkel
een goed idee moesten hebben van de opleiding van beide ouders, maar daarenboven vaak
zélf dienden in te schatten met welke Nederlandse opleiding een bepaalde buitenlandse
opleiding enigszins te vergelijken valt),

- de variabele "beheersing Nederlands door vader en moeder" (die afgeleid werd uit leerling-
antwoorden op vragen zoals "kan je vader/moeder een Nederlandse krant lezen" of "een
Ncderiandse brief schrijven"), en

- de variabele "godsdienstige gezindheid van de ouders" (die bepaald werd door naar de
kerkelijke gezindheid van de leerling te vragen).

Sommige van deze (erg) discutabele beslissingen worden door de auteurs erkend, andere echter
niet.

Hoewel de eindconclusie van deze studie belangrijke beleidsmatige implicaties heeft, is
onderhavig onderzoeksrapport als zodanig wellicht vooral geschikt voor onderzoekers.

L. Verschaffel

Centrum voor Instructiepsychologie

en -Technologie

K.U.Leuven

Vesaliusstraat 2

B-3000 Leuven

-ocr page 60-

54 Boekbesprekingen

K. Meerum Terwogt-Kouwenhoven, Niet gewogen, toch te licht bevonden: Analyse van de
rendementsproblematiek aan de Universiteit.
Academisch Proefschrift Universiteit van Am-
sterdam, 1990.

Het proefschrift van Meerum Terwogt-Kouwenhoven is geen doorsnee dissertatie. Na lezing
van de eerste paar pagina's lijkt het alsof je met een politiek manifest te doen hebt. Uithalen
zoals
'Wie zich bezighoudt met de zo kwetsbare peuterleeftijd moet het doen met een minimaal
inkomen. Een Universitair docent daarentegen kan zich nog altijd wel een tweede huisje permitteren.
Het is moeilijk in te zien waardoor deze eigenaardigheden gerechtvaardigd worden.'
(p. 7)
komen met enige regelmaat voor. De hoofdletter 'U' in de tweede zin van het citaat is niet
toegevoegd. Het woord 'universiteit' wordt consequent met een hoofdletter geschreven en is
tekenend voor de tamelijk spottende toon van de overigens in prachtige taal geschreven dissertatie.

De aanleiding van het proefschrift vormt het matige rendement van het universitaire onder-
wijs in het algemeen en dat van de Universiteit van Amsterdam in het bijzonder. In het empirische
deel worden enkele studies gerapporteerd naar factoren die het rendement beïnvloeden, gebaseerd
op enkele cohorten psychologiestudenten. Maar dit is eigenlijk het minst interessante deel. De
inleidende hoofdstukken en de beschouwing zijn veel meer de moeite waard. In hoofdstuk 2
wordt de centrale problematiek gesteld: het universitaire onderwijs moet worden veranderd
omdat het efficiënter en beter moet, maar het succes waarmee iemand een schoolloopbaan
doorloopt is eigenlijk een onbeheersbaar proces. Geen wonder dat de (ministeriële) maatregelen
die worden genomen voor verbetering van het onderwijs op niets uitlopen of zelfs averechts
werken. Vervolgens worden de droevige rendementscijfers van de propedeuse van de Universiteit
van Amsterdam als voorbeeld genomen: slechts grofweg een kwart van de studenten haalt de
propedeuse zonder studievertraging. Wel wordt de kanttekening gemaakt dat dc verwachting
van de overheid - een rendement van 80 procent - weinig reëel is ('wat bezielt de wetgever' in
de woorden van de schrijfster), omdat juist de propedeuse oriënterend en selecterend dient te
zijn en dus een deel van de propedeuse inherent inefficiënt behoort te zijn.

Meerum Terwogt-Kouwenhoven vervolgt met een hoofdstuk over wel en niet werkzame
factoren die het onderwijs kunnen beïnvloeden. Naar mijn opvatting is dit het beste hoofdstuk
van het boekje, omdat het precies de zere vinger op de juiste plek legt en aangeeft wat er mis is
met het universitaire onderwijs. De auteur vergelijkt kenmerken van het bestaande universitaire
onderwijs en contrasteert deze met kenmerken van goede opleidingen. De goede opleidingen
zijn student-gericht. Zij worden gekenmerkt door een coöperatief model van samenwerking
tussen docent en student en door een rationele onderwijsorganisatie. De nadruk ligt op het
behalen van studieprestaties, waarvoor niet alleen de student verantwoordelijk is, maar ook de
docent. Beloningssystemen voor prestaties zijn een inherent onderdeel van het onderwijs (onder
andere door middel van meer diagnostische toetsen). De ideale onderwijsorganisatie kent meer
centrale bevoegdheden met duidelijke regels, structuren, routines en hun consequenties. Het
vigerende Nederlandse universitaire onderwijs wijkt hiervan dramatisch af. Docenten doceren
omdat ze er voor betaald worden, maar omdat weinig waardering met onderwijs te halen valt
bestaat er nauwelijks enige prikkel om daar werk van te maken. In de organisatiestmctuur zijn
docenten niet verantwoordelijk voor studenten maar voor studieonderdelen. In de onderwijs-
organisatie hebben individuele vakgroepen of docenten grote bevoegdheden; van een centrale
coördinatie en controle is nauwelijks enige sprake. Opnieuw is het geen wonder dat maatregelen
ter verbetering van het onderwijs weinig effectief zijn. Deze hebben vooral betrekking op de
student en een beetje op de docent. De onderwijsorganisatie blijft buiten schot, omdat dat
nauwelijks aanknopingspunten biedt voor verandering. De auteur concludeert dan ook dat de
universiteit didacdsch gezien nog een volkomen onontgonnen gebied vormt en dat er in Nederland
geen traditie bestaat om te denken in werkzame factoren. Een openlijke discussie kan en zal dan
ook niet op gang komen.

Na zo veel vuurwerk te hebben afgeschoten meldt Meerum Terwogt-Kouwenhoven dat ze
"schoorvoetend" (p.29) terugkeert naar de onderwijspraktijk en naar het eigen onderzoek. Dc

-ocr page 61-

Boekbesprekingen 55

centrale vraag wordt gesteld of de studieresultaten van eerstejaars psychologiestudenten te
voorspellen zijn op grond van kenmerken waarmee zij de studie aanvangen, of elementen van
studiegedrag hierbij een rol spelen, en of onderwijsveranderingen hierop van invloed zijn.

Voor de predictievraagstelling wordt een drietal studies verricht. De eerste studie betreft een
common sense benadering, waarbij op grond van intuïtieve weging van een aantal
vooropleidingsgegevens de relatie met het propedeuseresultaat, voor en na de invoering van de
twee-fasen-structuur, werd nagegaan. In het tweede onderzoek wordt een statistische benadering
gevolgd en werd het propedeuseresultaat in verband gebracht met een groter aantal variabelen.
Naast onderwijservaring werden aspecten van kennis en vaardigheden, studiemotieven en
studiegedrag als predictoren opgenomen. Het derde onderzoek omvat een replicatie van het
tweede onderzoek op een tweetal nieuwe lichtingen eerstejaars en nadat een herprogrammering
van het onderwijs had plaatsgevonden.

Door middel van kruistabelanalyse bleek uit de intuïtieve benadering dat vooropleiding geen
goede voorspeller vormt voor het propedeuseresultaat. Van degenen met de slechtste vooropleiding
kon hooguit worden vastgesteld dal zij een wal geringere kans van slagen hadden. De invoering
van een nieuwe propedeuse was hierop niel van invloed. De rendemenisveranderingen waren
eerder het gevolg van wijzigingen in de examenregeling (met name een verslechtering na afschaffing
van compensatoire regels) en de vooropleiding was daarop niel van invloed. De statistische
benadering had wal meer succes. Wanneer van een groot aantal predictoren gebruik kon worden
gemaakt - in de kruisvalidatiesludie werden 34 onafhankelijke variabelen gebruikt - kon een
verklaringspercentage worden bereikt van maar liefst 86 procent. Na daia-reduciie door selectie
van de significante predictoren met behulp van multiple regressie-analyse werd echter consistent
een multiple R gevonden schommelend lussen 0.5 en 0.7. Hoewel de gewichten van de verschillende
onafhankelijke variabelen nogal verschilden over sludies heen, kwam consistent dezelfde mix
van predictoren terug: variabelen op hel gebied van kennis en vaardigheden op alpha- cn beta-
terrein, ervaring, voorbereiding en studiemoticven. En telkens kon daarmee ongeveer een derde
van de variantie worden verklaard. Veranderingen in hel onderwijsprogramma hadden hierop
opnieuw geen invloed. De auteur concludeen dat het na deze sludies nog steeds niet goed
mogelijk is te bepalen wie nu de beste kans van slagen heeft voor de propedeuse.

Veel interessanter wordt hel in het laatste empirische hoofdstuk, waarin een nadere analyse
van studiegedrag wordt verricht. Door analyse van extreme scoorders op studiegedragsschalen
blijkt dal vooral inzet een factor van belang is in hel behalen van hel propedeuseresullaat.
Degene die in staat is zijn tijd goed le plannen en de druk van de tentamens over langere lijd
weel te weerstaan heeft een goede kans le slagen. Onderwijskundig vaak gepropageerde
studiemethoden, zoals schematiseren cn het zoeken van een dieptestructuur, houden geen verband
met succes, evenmin als bepaalde persoonlijkheidskenmerken. Kortom, tijdsbesteding en inzet
is doorslaggevend en de wijze waarop deze lijd wordi besteed, diepgaand of oppervlakkig, is
minder van belang. Dc succesvolle .student is niel de academisch getalenteerde persoon die
informatie diep, complex en extensief verwerkt, maar iemand die in staal is een jaar lang in de
boeken te duiken cn dc icniamcnhordcnloop weel te ovcricven. De auteur concludeert dan ook
dat het moeilijk voorstelbaar is dat een academische opleiding zich met deze situatie tevreden
stelt. Het sluit niet aan bij wat menigeen als een academische opleiding beschouwt en ook voor
siudenlcn moet hel nogal frustrerend zijn om nobele studicaciiviteiicn te ondernemen die geen
grotere kans op succes bieden. "Velen geven de pijp aan Maarten en proberen het elders.
Jammer voor dc Faculteit, die zoveel 'goede studenten' ziet afhaken." (p. 92).

In hci laatste hoofdstuk worden de conclusies nog eens op ccn rij gezel en dat stemt tot
somberheid. Voor zover er sprake is van een gevonden voorwaarde voor studiesucces heeft dat
vooral te maken met inzet cn weinig met overige academische kwaliteiten. Maar vreemd is dal
eigenlijk niet als dalgcnc wal vcriangd wordi van de siudeni nogal 'schools' is. Het onderwijs is
vooral gericht op kennisoverdracht, door docenten beschikt, leerstofgcricht, met gesloten taken
en met toetsen als controlemiddel. Veranderingen in het onderwijs hebben vooral betrekking op
dc inhoud van het programma, maar zijn hierop niel van invloed geweest. Wil men de slaagkansen
voor sludcnlcn verbeteren en de rcndemenien verhogen zodat naast de ijverige student ook de

-ocr page 62-

56 Boekbesprekingen

'goede' student een kans krijgt, dan is een geheel andere, meer rationele onderwijsbenadering
noodzakelijk.

Voor deze andere benadering is een aantal randvoorwaarden noodzakelijk, aldus de schrijf-
ster, en zij geeft een aantal suggesties: 1) afschaffing van de tweejaarspropedeuse, 2) gelijkstelling
inschrijvingsduur aan de cursusduur, gekoppeld aan de studiefinanciering, 3) instelling van
centrale facultaire instanties met bevoegdheden, 4) vasthouden aan academische doelstellingen
en niet toegeven aan vraag en aanbod in de markt, 5) kwalitatieve verbetering van het onderwijs,
6) beperken van de heterogene studentenpopulatie door selectie, 7) aanpassing van de inrichting
van het onderwijs aan de instroom. Bovenal zal anders moeten worden
nagedacht over onder-
wijs: "Als kennis macht is mag van de machtigen toch op zijn minst verwacht worden dat zij
zich realiseren waar zij mee bezig zijn." (p. 104).

Nee, het is zeker geen doorsnee proefschrift. Je zou eigenlijk kunnen zeggen dat weinig van de
kracht van het gezegde verloren zou gaan zonder het empirische deel. Niettemin is het waardevol
dat (nog eens) gedocumenteerd wordt dat er omtrent academisch succes weinig te voorspellen
vak, alhoewel het natuurlijk vah te bezien of in een optimaal en rationeler onderwijssysteem
geen andere resultaten zouden worden geboekt. Nog waardevoller zijn de gegevens over
studiegedrag en het belang van inzet, onafgezien de inhoud daarvan. Maar het meest interessante
van het proefschrift is de rake wijze waarop het universitaire onderwijs in Nederland wordt
gekarakteriseerd: het onderwijs is weinig doordacht, versnipperd, onacademisch en de genomen
maatregelen voor verbetering zijn (noodzakelijkerwijs) ineffectief. Haar suggesties voor verbe-
tering vallen mij echter tegen. Wezenlijk aan haar betoog en de empirische uitkomsten van haar
studies is dat studenten, voor zover zij succesvol zijn, eerder ondanks dan dankzij het vigerende
onderwijs zover zijn gekomen. Teleurstellend zijn dan suggesties die beginnen bij maatregelen
die de zweep nog eens over de rug van de studenten haalt. De selectie van studenten lijkt mij
helemaal een hachelijke zaak. Waarop zou selectie moeten plaatsvinden en hoe zou dat dan
moeten gebeuren? Natuurlijk zullen de voorgestelde suggesties effect sorteren op het rendement,
maar primair verantwoordelijk is de falende onderwijsstructuur. Op de eerste plaats zouden
suggesties dus op het onderwijs zelf moeten aansluiten en, naar mijn idee, niet op de studenten.
Het aanpakken van de onderwijsorganisatie is daarin cruciaal. Centrale coördinatie, samenwerking,
evaluatie, beloning (van docenten), formatieve toetsing e.d., vormen elementen van dc
onderwijsorganisatie die allemaal ook door Meerum Terwogt-Kouwenhoven worden genoemd,
maar die wat mij betreft in de aanbevelingen een wat centralere plaats hadden mogen krijgen.

Al met al is het boekje van Meerum Terwogt-Kouwenhoven zeer aan te bevelen voor ieder-
een die met het universitaire onderwijs te maken heeft. Wie dat wil kan de empirische stukken
overslaan zonder echt het betoog te missen. De wat cynische toon van het verhaal moet echter
wel op de koop toe worden genomen. De neiging ontstaat daardoor om het geschrevene wat
minder serieus te nemen, en dat zou echt heel jammer zijn voor dit heel serieus te nemen
onderwerp.

C. van der Vleuten
Vakgroep Onderwijsontwikkeling
en Onderwijsresearch
Postbus 616,6200 MD Maastricht

-ocr page 63-

BULLETIN

ORGAAN VAN DE VERENIGING
VOOR ONDERWIJSRESEARCH

Redactie-adres
Greetje P.C. van der Werf, RION,
Postbus 1286,9701 BG Groningen.

tel. 050-636657

Jrg. 15, nr. 1 April 1991

Inhoudsopgave

Verslag VOR-ledenvergadering 18 december 1990 58

VOR-begroting 1991 60

Toelichting begroting 1991 61

Resultaten enquête divisiestructuur 62

Ontvangen publikaties 63

VOR-prijs voor de beste dissertatie 64

-ocr page 64-

58 VOR Bulletin 15, 1

Verslag VOR-ledenvergadering 18 december 1990

Aanwezig: de leden Claessen, Creemers, Dijkstra, Franssen, Jansen, De Jong, Kievit, Kleijer,
Koerts, Van der Linden, Meijnen, Stokking, De Tempe, Terwel, Tillema, Verloop,
Voeten, Warries

de bestuursleden De Glopper, Kanselaar, Hoeben, Van Hout, Scheerens, Simons,
Stijnen, Van der Werf

1. Opening

2. Mededelingen

- De VOR is gevraagd door de VNSU om op te treden naar de kamer Onderwijskunde.

- De VOR heeft contact met NWO ten behoeve van een sterkere profilering van de onder-
wijskunde.

- De VOR draagt bestuursleden voor naar SVO en CITO. Voor SVO worden voorgedragen:
Claessen, Van Hout, Kanselaar. Voor CITO worden voorgedragen: Hoeben, Simons en
Stokking.

3. Notulen vorige vergadering
Geen opmerkingen.

4. Bestuursverkiezing

Het vertrekkende bestuurslid is Beintema. Het bestuur draagt als zijn opvolger Verloop
voor. De overige zittende bestuursleden worden opnieuw voorgedragen als bestuurslid in
1991. De voordracht wordt door de ledenvergadering unaniem overgenomen. Beintema
wordt bedankt voor zijn jarenlange activiteiten als bestuurslid en met name voor zijn in-
spanningen t.b.v. de VOR-gedragscode.

5. Jaarrekening 1989

De jaarrekening 1989 is door diverse omstandigheden nog niet gereed. Behandeling hiervan
wordt'verdaagd naar de ledenvergadering tijdens de ORD. Die van 1990 wordt dan tegelij-
kertijd behandeld.

6. Begroting 1991 (zie bijlage 1)

De begroting voor 1991 is grotendeels gelijk aan die van 1990. De wijzigingen betreffen een
conü-ibutieverhoging van f 5,- per lid en een apart contributietarief voor aio's (f 70,-).

Van der Linden merkt op dat het bedrag voor ledenwerving te laag begroot lijkt. Het
bestuur meent dat dit wel meevalt omdat werving van nieuwe leden, m.n. aio's, via de
vakgroepen kan verlopen. Verder liggen er nog stapels IJER's die daarvoor gebruik kunnen
worden. De ledenvergadering gaat accoord met de begroting.

7. Voordrachten leden Kamer van Toezicht VOR-gcdragscode

Voorgedragen worden: Claessen, Dronkers, Dijkstra, Janssen, Slavenburg, Stokking, Voe-
ten.

Er zijn geen tegenkandidaten. De ledenvergadering accepteert de voordrachten. Hier-
mede is de Kamer van Toezicht ingesteld. De Kamer benoemt uit haar midden een voorzit-
ter.

8. Voordracht leden College van Beroep VOR-gedragscode

Voorgedragen worden: Van den Broek, Hofstee, De Jong. De Klerk, Span. Warries en
Wijnen.

-ocr page 65-

VOR Bulletin 15, 1 59

Er zijn geen tegenkandidaten. De vergadering accepteert de voordrachten, waarmee het
College is ingesteld. Ook dit College benoemt uit haar midden een voorzitter.

9. Divisies van de VOR

Het bestuur heeft zich voorgenomen de VOR te structureren in divisies, waardoor een betere
profdering van het vakgebied kan geschieden, inhoudelijke werkverbanden van leden ontstaan
en een betere basis voor verbreding van de vereniging wordt gelegd. Het bestuur heeft in
eerste instantie gedacht aan zes divisies, gebaseerd op de 'cognitieve structuur' van het
vakgebied en drie divisies die gericht zijn op werkvelden.

Door middel van een enquête heeft het bestuur gepolst hoe het gesteld is met de be-
langstelling van de leden voor de divisies (zie bijlage 2). Naar aanleiding van de resultaten
van de enquête stelt het bestuur voor de divisies 1. curriculum en didactiek en 2. organisatie
en management samen te voegen tot Curriculum en Schoolorganisatie; hieronder valt ook
Didactiek.

Divisie 3. Beleid, bestuur, beheer wordt wegens te weinig belangstelling niet ingesteld.
Divisie 4. Leren en instructie wel.

Divisie 5. Onderwijs en samenleving is een duidelijk identificeerbare groep die nog kan
worden uitgebreid door met OOMO te gaan samenwerking.

Kleijer deelt namens de OOMO mee dat deze hiertoe bereid is. De OOMO heeft 200 leden.
De verdere procedure moet nog nader worden uitgewerkt.
Divisie 6. Methodologie en evaluatie kan worden ingesteld.

Divisie 7. Hoger onderwijs heeft reeds veel belangstelling en kan nog worden uitgebreid
door nieuwe leden die zich willen aanmelden als de divisie er komt.
Divisie 8. Bedrijfsopleidingen heeft ook al veel belangstelling en kan nog worden uitgebreid
door te gaan praten met TOPOS en andere bestaande netwerken op universiteiten.
Divisie 9. heeft onvoldoende belangstelling. Voorgesteld wordt deze voorlopig op te laten
gaan in Leren en instructie. Verder zal overieg met VELON plaatsvinden.

Sommige leden zijn van mening dat met dh laatste voorstel de AERA divisie.structuur
wordt doorbroken. Bovendien is er een duidelijke groep binnen Pedon die zich bezighoudt
met lerarenopleiding en lerarengedrag. Een ander probleem is de groep schoolorganisatie
binnen Pedon, die juist niet is samengevoegd met curriculum en didactiek.

De ledenvergadering gaat accoord met het voorstel tot het instellen van een divisiestructuur,
de definitieve keuze voor welke divisies worden ingesteld, wordt gemaakt na overleg met de
NWO-groepen en met andere groepen. Hierover worden in dc ledenvergadering tijdens dc
ORD besluiten genomen. Ten sloue wordt bij de toekomstige bestuurssamenstelling opgemerkt
dat dc bestuursleden afkomstig uit dc divisies geen vertegenwoordigers van divisies moeten
zijn maar onafhankelijke bestuursleden. De voorzitter merkt op dat de relatie tussen het
VOR-bestuur cn de divisies nog moet worden uitgewerkt.

10. Vor-prljs

Naar aanleiding van de ervaringen van het afgelopen jaar met dc VOR-prijs, stelt het bestuur
voor in de toekomst een prijs toe te kennen voor de beste dissenatie. Op dit moment wordt in
Twente ccn folder ontworpen die na goedkeuring van het bestuur zal worden verspreid. De
leden gaan accoord met het voorstel.

11. W.v.t.t.k.

Geen punten.

12. Rondvraag
Niets.

13. Sluiting

De voorzitter sluit de vergadering om 16.30 uur.

-ocr page 66-

60 VOR Bulletin 15, 1

Bijlage 1: VOR-begroting 1991

INKOMSTEN

100 contributie

110 leden 450 xf 110,- f 49.500,-

120 aio's 35 xf 70,- f 2.450,-

130 studenten 20 x f 30,- f 600,-

f52.550.-
300 IJER

310 abonnementen 85 x f 45,- f 3.825,-
320 garantie-subsidie SVO 
f 5.375,-

--f 9.200,-

500 SOR-bijdrage VOR-prijs f 1.000.-

700 inkomsten TOR (royalties) f 1.500,-

800 SVO-subsidie TOR f 5.000,-

900 diversen f 750-

f 70.000,-

UITGAVEN

400 activiteiten

410 ledenwerving f 1.000.-

420 ORD programmaboek f 1.500,-

440 colloquia f 1.500,-

480 gedragscode p.m.

490 divisiestructuur p.m.

f 4.000,-

500 tijdschriften

510TOR-VOR bulletin
511 collect. abonnement

leden 470 x f85,- f 39.950,-

aio's 40 X f65.- f 2.600,

studenten 25 x f65,- f 1.625,

f 44.175.-

512 redactiekosten TOR f 4.000,

513 redactiekosten VOR-bulletin f 500,

f48.675,-
520 IJER

150 abonnementen è f 45,- f 6.750.-

linguistic editing f 2.500,-

--f 9.250.-

600 bestuur f 2.000,-

700 VOR-prijs f 1-000.-

800 financiële administratie f 2.875,-

900 diversen f 2.200.-

f70.000.-

-ocr page 67-

VOR Bulletin 15, 1 61

Toelichting begroting 1991

De begroting voor 1991 verschilt op een aantal punten van die van 1990. Wijzigingen betref-
fende de inkomsten en de uitgaven worden hieronder toegelicht.

1. Inkomsten

100 Voor 1991 wordt gerekend op 450 betalende leden, 35 betalende aio's en 20 betalende
studenten. Het voorstel is de contributie te verhogen, voor gewone leden van f 105,- naar
f 110,- en voor studenten van f25,- naar f30,-. Voor aio's wordt een contributie van
f 70,- voorgesteld.

300 De bedragen hier zijn overeenkomstig de afspraken die met Pergamon en SVO voor 1990
en 1991 zijn gemaakt.

500 De SOR financiert de VOR-prijs.

700 Van Swets & Zeitlinger ontvangt de VOR 10% van de TOR-abonnementsinkomsten van
niet-VOR-leden.

800 Ten behoeve van het TOR ontvangt de VOR jaarlijks f 5.000,- van SVO.

2. Uitgaven

410 Evenals in 1990 geschat op f 1.000,-.

420 Geschatte kosten van toezending van het programmaboek van de ORD aan alle VOR-
leden.

440 Geschatte kosten voor colloquia en andere inhoudelijke activiteiten, overeenkomstig 1990.

480 De kosten voor drukken en verzenden van de Gedragscode worden p.m. opgevoerd en
voorgefinancierd uit het vermogen van de SOR. Via weloverwogen contributieverhogingen
in de toekomst zullen deze kosten terugbetaald worden.

490 De kosten voor het tot stand brengen van de divisiestructuur (drukken en verzenden enquête
divisiestructuur cn andere, toekomstige kosten) worden p.m. opgevoerd en voorgefinancierd
uit het vermogen van de SOR. Via weloverwogen contributieverhogingen in de toekomst
zullen deze kosten terugbetaald worden.

500 Swets & Zeitlinger hebben de prijs voor TOR gesteld op f 85,- voor leden cn f 65,- voor
studenten. Het laatste bedrag wordt ook voor aio's aangehouden. Overige kosten geschat
overeenkomstig 1990.

600 Geschatte kosten overeenkomstig 1990. Een belangrijk deel betreft reiskosten van enkele
bestuursleden.

700 Maximale bedrag VOR-prijs.

800 Geschatte kosten overeenkomstig 1990.

K. de Glopper (penningmee.ster)

december 1990

-ocr page 68-

62 VOR Bulletin 15, 1

Bijlage 2: Resultaten enquête divisiestructuur

1. Van de 444 verzonden formulieren zijn 171 ingevuld terug gekomen (=39%).

2. Van de 171 respondenten acht 82% de voorgestelde divisiestructuur zinvol.

3. Van de 171 respondenten hebben 162 één of meer divisies aangekruist waarvan men lid zou
willen worden. 78 Respondenten hebben één divisie aangekruist, 58 twee divisies, 20 drie
divisies, 5 vier divisies en 1 vijf divisies. In totaal zijn 279 divisies aangekruist.

4. In onderstaande tabel is de verdeling van de keuze over de afzonderlijke divisies weergege-
ven. In de eerste kolom staat de verdeling van de enkelvoudige keuzes, in de tweede, derde
en vierde kolom de verdeling van respectievelijk de tweede, derde en vierde keuze. De
laatste kolom geeft de verdeling van het totaal aantal belangstellenden voor de afzonderlijke
divisies.

le keus

2e keus

3e keus

4e/5c keus

totaal per
divisie

Curriculum cn didactiek

7

22

9

4

42

Schoolorganisatie cn
managament

5

8

4

2

19

Beleid, bestuur en beheer

2

7

7

1

17

Leren en instructie

15

25

10

3

52

Onderwijs en samenleving

6

9

4

5

24

Methodologie en evaluatie

13

18

9

4

44

Hoger onderwijs

17 '

14

4

2

36

Bedrijfsopleidingen en
beroepsonderwijs

9

9

n

8

2

28

Lerarenopleiding

4

4

5

2

15

Totaal

78

116

60

25

279

5. Bij de respondenten die twee of meer divisies hebben aangekruist is gekeken of bepaalde
combinaties vaker voorkomen. Uit de gegevens blijkt dat er alleen tussen divisie 1 en 4 vrij
veel overlap is. Verder zijn er geen combinaties die duidelijk meer voorkomen dan andere.

6. Wat betreft de taken van de divisies acht 84% van de respondenten de ORD-taken en 79% dc
publikatietakcn zinvol. Over ccn vernieuwd VOR-bulletin is men minder enthousiast, slechts
58% vindt dit zinvol.

-ocr page 69-

VOR Bulletin 15, 1 63

Ontvangen publikaties

Akker, J.J.H. van den, Boersma, K.Th. & Nies, A.C.M. (1990). Ontwikkelingsstrategieën in SLO-projcclen.
Enschede: Instituut voor Leerplanontwikkeling.

Boeren, A. & Kater, A. (Eds.) (1990). Dclsilife: an educational strategy to fight poverty. Den Haag: CESO
(CESO Paperback no. 9).

Dam, A. van (1990). Het onderwijs in Noord-Jcmcn. (Landcndocumcnt no. 1). Den Haag: CESO.

Dam, A. van (1990). Het onderwijs in Egypte. (Landcndocumcnt no. 2). Den Haag: CESO.

Dam, A. van 0990). Het onderwijs in Sri Lanka. (Landcndocumcnt no. 3). Den Haag: CESO.

Dam, A. van (1990). Het onderwijs in Bangladesh. (Landcndocumcnt no. 4). Den Haag: CESO.

Dam, A. van 0990). Hcl onderwijs in Indonesië. (Landcndocumcnt no. 5). Den Haag: CESO.

Dam, A. van 0990). Het onderwijs in India. (Landcndocumcnt no. 6). Den Haag: CESO.

Dam, A. van (1990). Hcl onderwijs in Kenia. (Landcndocumcnt no. 7). Den Haag: CESO.

Dam, A. van 0990). Het onderwijs in Pakistan. (Landcndocumcnt no. 8). Den Haag: CESO.

Dam, A. van (1990). Het onderwijs in Soedan. (Landcndocumcnt no. 9). Den Haag: CESO.

Dam, A. van 0990). Het onderwijs in Tanzania. (Landcndocumcnt no. 10). Den Haag: CESO.

Dekkers, H. 0990). Sckscspccifickc studiekeuzen in het wctcnschappclijk onderwijs. Proefschrift KU
Nijmegen. Nijmegen: Instituut voor Toegepaste Socialc Wctcnschappcn. ISBN 90-6370-711-8.

Drcnlh, P.J.D. & Sijtsma, K. (1990). Tcsuhcoric. Inleiding in dc theorie van dc psychologische test cn zijn
toepassingen. Houtcn/Antwcrpcn: Bohn Stafleu Van Loghum. ISBN 90-368-0199-0 (f 75,-).

Driessen, G.W.J.M. (1990). Dc onderwijspositie van allochtone leeriingen. Dc rol van sociaal-cconomischc
cn cthnisch-cuhurclc factoren, met spccialc aandacht voor het Onderwijs in Eigen Taal cn Cultuur.
Proefschrift KU Nijmegen. Nijmegen: Instituut voor Toegepaste Socialc Wctcnschappcn. ISBN
90-6370-739-8.

Ecdcn, P. van den, Hox, J. & Haucr, J. (Eds.) (1990). Theory and model in multilevel rcscarch: Convcrgcncc
or divcrgcncc? Amsterdam: SISWO. ISBN 90-6706-091-7.

Elzcnga, H.E. (1991). Kwaliteit van kwantiteit. Een chcmicdidactisch onderzoek naar het ontwerpen van
synthcscproccdurcs op ccn universitair praktikum. Procf.schrifi RU Uu-ccht. Utrccht: CDB press.

Hendriksen, J.G.M. (1990). Stress bij basisschoolleerlingen: ccn onderzoek naar sü-css cn coping in
schoolsituaties die door leerlingen uit groep zeven cn acht als belastend worden waargenomen.
Proefschrift KU Nijmegen. Dc Lier: Academisch Boeken Centrum. ISBN 90-72015-63-0.

Hocvcn-Van Doornum, A.A. van der (1990). Effcctcn van leerlingbeelden cn succfnivcaus op schoolloopbanen.
Proefschrift KU Nijmegen. Nijmegen: Instituut voor Toegepaste S(x;ialc Wctcnschappcn (OOMO-
rccks). ISBN 90-6370-737-1,

Lccuwc. J.F.J. van (1990). Probabilistic conjunctive models: contributions to multidimensional analysis of
binary test data. Procfschrifl KU Nijmegen. Nijmegen: Institute for Cognition Rcscarch and
Information Technology. ISBN 90-9003712-8.

Peschar, J.L. (Ed.) (1990). Social Reproduction in Eastern and Western Europe. Comparative Analyses on
Czechoslovakia, Hungary, ihc Netherlands and Poland. Nijmegen: Institute for Applied Social
Scicnccs; Prague: Institute of Sociology, Czechoslovak Acadcmy of Scicnccs (OOMO-rccks).
ISBN 90-6370-772.

Rcsing, W.C.M. (1990). Intelligentie cn Iccrpolcniiccl: ccn onderzoek naar het Iccrpotcniiccl van jongc
leerlingen uit het basis- cn spcciaal onderwijs. Proefschrift VU Amsterdam. Amstcrdam/Lissc:
Swcls & Zeitlinger. ISBN 90-265-1134-5.

Rontcltap, C.P.M. (1990). Dc rol van kennis cn fysiothcrapcutischc diagnostiek: psychometrische cn cogniticf-
psychologischc studies. Proefschrift RU Limburg. Amsterdam: Thesis. ISBN 90-5170-051-2.

Rood, R. van't (1990). Van Iccsplank tol Icsmodulc: CESO cn het onderwijs in ontwikkelingslanden. Den
Haag: CESO (CESO paperback no. 10).

Schalkwijk, E.V. (1990). Het functioneren van hcl literatuurboek Duils: ccn onderzoek naar hcl gedrag, dc
tevredenheid cn dc bchocflcn van havo- cn vwo-doccntcn Duils mcl bcuckking tot litcraluur-
bockcn. Procfschrifl KU Nijmegen. ISBN 90-9003719-5.

Sijlstra, J.M. (1991). DocI cn inhoud van taalonderwijs. Dc omwikkeling van ccn model voor domein-
beschrijvingen van taalonderwijs. Arnhem: Instituut voor Toetsontwikkeling.

Timmerman, W.G. & Veldhoven, G.M. van (Red.) (1990). Dc kwaliteit van het inscrvicc-ondcrwijs. Over
dc rclalic lussen dc kwaliteit van opleiden cn dc kwaliteit van zorg. Lochcm: Uitgeversmaatschappij
Dc Tijdsuoom. ISBN 90-352-1389-0.

Voorbach, J.T. & Prick, L.G.M. (Eds.) (1990). Tcachcr education 6: Rc.scarch and developments on icachcr
education in the Netherlands. Amslcrdam/Lissc: Swcis & Zeitlinger. ISBN 90-265-1130-2.

-ocr page 70-

64 VOR Bulletin 15, 1

Vries, G.C. de, Monsma, G. & Meilink, E. (1990). Als een slak, ongaarne, schoolwaarts. Een onderzoek
naar schoolverzuim van leerlingen en invloeden van de school. Amsterdam; SCO.

VOR-prijs voor de beste dissertatie

Het doel van deze prijs is het bevorderen van dissertatie-onderzoek van hoge kwaliteit op het
gebied van de onderwijskunde.

De prijswinnaar wordt jaarlijks tijdens het openingsprogramma van de Onderwijsresearchdagen
bekend gemaakt.

De prijs bestaat uit een oorkonde alsmede een geldbedrag van f 1.000,-.

Aan de bekroonde dissertatie zal via een persbericht ruime bekendheid gegeven worden.

Voorwaarde voor deelneming

Deelpeming staat open voor alle dissertatie die in 1990 met succes verdedigd zijn.

Dissertaties kunnen aangemeld worden door de auteur(s), de promotor(es) of derden.

Om voor toekenning van de prijs in aanmerking te kunnen komen, dient de dissertatie zich te
richten op een aspect van het onderwijs of op een onderwerp dat direct voor het onderwijs van
belang is. Voor de disciplinaire achtergrond van de auteur(s) gelden geen voorwaarden. In alle
gevallen is het oordeel van de jury bindend.

Jury

Prof.Dr. H.P.M. Creemers

Prof.Dr. L.F.W. de Klerk

Prof Dr. J.M.G. Leune

Prof Dr. W.J. van der Linden, voorzitter

Inzending

Auteurs, promotores of andere personen die de jury willen attenderen op oen dissertatie die
binnen de bovengenoemde periode verschenen is, dienen het volgende in te zenden:

1. Vier exemplaren van de dissertatie;

2. Een begeleidend schrijven waarin gemotiveerd wordt waarom de dissertatie kandidaat gesteld
wordt voor de prijs;

3. Het huidige adres en telefoonnummer van de auteur(s).

Inzendingen moeten worden gericht aan:

Jury VOR-PRIJS

Prof Dr. W.J. van der Linden

Faculteit der Toegepaste Onderwijskunde

Postbus 217

7500 AE Enschede

Sluitingstermijn

Inzendingen dienen uiteriijk 1 april 1991 door de jury ontvangen te zijn.

-ocr page 71-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 2, pp. 65-71

Weighting two- and four-choice items

D.N.M. de Gruijter

Educational Research Center, University of Leiden

ABSTRACT

Wang and Stanley (1970) suggested that true-false items might be weighted differently from multi-
ple-choice items. An argument to do so might be that two-choice items arc, ceteris paribus, less
reliable indicators of achievement than, for example, four-choice items. In the present study it was
investigated to which extent the larger unreliability of two-choice items necessitates a lower weight
for this item type. It has been found out that differential weighting of both item types is not
indicated.

INTRODUCTION

In test practice there are tests in which the number of choices varies over items. A test might
have four-choice items and two-choice items, true-false items particularly. The reason for this
combination might be that part of the subject matter can be tested with a different item form in
a more natural way. In an extensive review of classical weighting procedures Wang and Stanley
(1970) notice that different sections of a test might be differentially weighted on an a priori
basis. As an example they mention a test with a combination of true-false and multiple choice
items.

Differential prior weighting cannot be recommanded in general. When a particular section is
regarded as relatively important, it is preferable to have more items in that secdon (Tinkelman,
1970). In the example of Wang and Stanley another consideration can play a role: true-false
items are, ceteris paribus, less accurate than, for example, four-choice items.

The problem of differential weighting of two-choice and four-choice items cannot be solved
without a psychometric analysis. Here the problem will be investigated with an analysis based
on Item Response Theory (IRT), assuming that both item types differ only with respect to the
impact of guessing. First, the method to compare different weighting or scoring formulas is
discussed. Next, the method is applied to the present problem.

THE ACCURACY OF A SCORING FORMULA

Within the one-dimensional IRT the item characteristic curve P,(0) gives the probability of a
correct response to item
i as a function of latent ability 0. The family of functions P.(0) for the
items from the relevant item domain must be specified. When guessing is possible the three-
Parameter logistic model is relevant. In this model the ICC is:

P.{0) = c. + (\ -c,.)exp[Da,(0 - 1 + exp[Dfl.(0-/),.)1), (1)

where b. is the difficulty parameter of item i, a. the discrimination parameter, c. the pseudo-chance
level and
D the conventional constant equal to 1.7. The parameter c- is estimated from the res-
ponses along with the other item parameters and may differ from the inverse of the number of
choices. Frequently the average c is lower than the inverse. In this theoretical study c,. is set equal

Bureau Onderzoek van Onderwijs, Boerhaavelaan 2,2334 EN Leiden

-ocr page 72-

66 D.N.M. de Gruijter

to the inverse of the number of choices, following the approach by Lord (1980) in a study of the
efficiency of tests with items differing with respect to the number of choices.
The scoring formula can be written as

y = iwpc, (2)

j=l

where n is the number of test items, w- the weight of item i and x. the item score - 0 for an in-
correct response, 1 for a correct response. As index for the precision of the scoring formula the
information function can be used:

my) = [I .(0)]2/[Z (3)

»•=1 /=1

with
and

(Bimbaum, 1968). The inverse of l(0,y) gives asymptotically the variance of ê. I (0,y) depends
on the scale chosen to represent 0; in the case of the three-parameter model this scale is deter-
mined up to a linear transformation. For a comparison between two scoring formulas y and z
only the relative efficiency of
y with respect to z

RECy.z) = my)/IiO,z) (4)

is relevant, and this index is independent of the scale definition.

Bimbaum demonstrates with an application of the Cauchy inequality that the optimal weights,
the weights for which 1(6,y) is maximal, are equal to

w, = />•,.( (5)

The test information, the information obtained with optimal weights, equals

m = ip\{e)yp.(0)Q,(0). (6)

/=i

So, the test information is the sum of the item contributions or item informations, a useful
property.

In the three-parameter logistic model

= Dap.(e)/P.(e), (7)

where is the probability of a correct response which is obtained when c,. is set equal to zero.

-ocr page 73-

Weighting two- and four-choice items 67

For Cj>0 the optimal weights depend on latent ability 0. For low values 0the weights are small,
especially the weights of difficult items. This result is what is to be expected: at low values 0
guessing is the dominant factor. In the Rasch model c,. equals 0 and a. is equal for all items
i. In
this model the unweighted sum score is optimal.

The use of optimal weights in the three-parameter model is not without problems:

- The item parameters a., b. and c^ must be estimated. One should take into account the impact
of estimation errors on the obtained values for the weights, especially in small examinee
samples. As a result the weighted sum score is less optimal than one might expect on basis of
the estimates. The estimated optimal score might even be less accurate than the unweighted
sum score, as demonstrated by Lord (1983) in a study with the somewhat misleading title
'Small //justifies Rasch model'.

~ The optimal weights depend on 0, a parameter which has to be estimated.

- When new items are used, examinees cannot be informed about the weights beforehand. In
case the weights depend on 0, information on weight prior to the test administration certainly
is not possible. This makes the total test procedure less transparant to the examinees.

WEIGHTING ITEMS WITH DIFFERENT NUMBERS OF ALTERNATIVES

Consider the case of a test with a subtest A in which all n^ items have N^ alternatives and a
subtest
B in which all rig item have Ng alternatives. It is assumed that the guessing parameter of
items in subtest
A equals c^ = 1/A^^; similarly we have Cg = MNg for all items in B. Funher it is
assumed that the subtests have the same composition with respect to the other item parameters
a
and b. The item scores are weighted by w^ for items in subtest A and with Wg otherwise. In this
section we allow w to vary with 0. In this case we can write Equation 3 as:

my) = (8)

with

E^ = the average /'/(O) for / in subtest X(X=A,B)
V;^. = the average P^(0)Q^(0) for i in subtest X(X=A,B).

From this equation it can be deduced that the ratio wB/wA is the relevant factor at each ability
level.

Analogously to Bimbaum's derivation of optimal weights in connection with Equation 3, we
obtain optimal weigths under the restriction of equality within subtests as

= V^x (9)

and the corresponding score information function

7(0,y) = n^E^'/V^+ngEgWg. (10)

case all a^ are equal to a constant a and all equal to a constant b an interesting relation
between the weights from Equation 9 and the formula score for correction for guessing is
obtained. Without omits the formula score reads

Nx-n

x'=- . (11)

(N-l)

^here N is the number of alternatives.

-ocr page 74-

68 D.N.M. de Gruijter

The formula score can be written in terms of item weights depending on total score x. This is
achieved by weighting each item with

Nx-n

w = --(12)

{N-\)x

When the expected value of x under the three-parameter model,

EX = npi0)+n[l-pmiN. (13)

is substituted for x, we obtain

Pid) P(0)

w =- = -(14)

p(9)+U-p{e)VN PiO)

which differs from the weights in Equation 9 by the constant Da.

The correction for guessing, in which the observed score is used instead of true score, suffers
from the same problem as all weights depending on estimated ability. Negative corrected scores
x' are possible. Therefore alternatives for Equation 11 have been suggested, based on Bayesian
procedures (Molenaar, 1977, with a correction in Molenaar, 1981).

The relative efficiency of equal weights with respect to the weights from Equation 9 depends
on the ratio of
n^ and rig. In the appendix it is proved that the worst case occurs for

V'»/« = (1—c^VO—

In the discussion on the effects of weighting we will proceed with the worst case analysis.

A SIMULATION

The relative efficiencies of equal weights and weights from Equation 14 with respect to weights
from Equation 9 were computed for various hypothetical tests with = 4 and Ng = 2 and var-
ious levels of
0. For tests with unequal values of a and/or b plP was substituted for weights pIP
derived from the formula for correction of guessing in case of equivalent items.

The results are given in Table 1. Column /?£, in the table gives the relative efficiency of
equal weights with respect to optimal weights for four-choice and two-choice items. In all tests
/?£, is close to one for the higher ability levels. Further, the relative difference between weights
for two-choice and four-choice items is small at these levels, as one can see from column w,.
Although the optimal weights for the two item classes differ at lower ability levels, /?£, remains
relatively high. From a comparison of columns /?£, and REj^ one can conclude that w, might be
replaced by weights derived from the correction for guessing formula.

For most tests results based on w, are notably inferior to results by weighting all items dif-
ferentially (column RE^. This result is in agreement with an example presented by Lord (1980,
Fig. 5.5.1) and data from Hambleton and Traub (1971). The last column gives the test information
divided by the number of items. From this column it is clear that the tests do not differentiate
accurately at low and to a lesser extent higher abilities; the tests are not designed for these
levels. The worst results for equal weighting are obtained at ability levels where the tests are
inadequate anyway.

Differentially weighting item classes appears to have a small effect in the above analysis in
which 0is assumed to be known. Unfortunately, estimation of 0 gives rise to complications. In
most applications, however, weights depending on
0 are not needed. Frequently only a small

-ocr page 75-

Weighting two- and four-choice items 69

Table 1. Weights and Relative Efficiencies for several test compositions (N^ = 4; = 2).
Test 1: a= 1; ^7 = 0; n, = 5

e

REj

RE^

REj

/

-2

.531

.906

.531

1.000

1.000

.005

-1

.634

.950

.634

1.000

1.000

.078

0

.833

.992

.833

1.000

1.000

.318

1

.958

1.000

.958

1.000

1.000

.212

2

.992

1.000

.992

1.000

1.000

.053

Test 2: a = 1;

ft = -1.5.-

-.5. .5,1.5;n,=

20

e

REj

REj

REj

/

-2

.575

.927

.589

1.000

An

.055

-1

.647

.954

.714

.998

.605

.134

0

.717

.973

.833

.994

.770

.162

1

.815

.990

.921

.996

.938

.162

2

.930

.999

.974

.999

.997

.114

Test 3: a = .5.

1.5; 6 = 0;

10

6

REj

RE^

REj

I

-2

.569

.925

.574

1.000

.670

.010

-1

.645

.954

.657

1.000

.996

.049

0

.833

.992

.833

1.000

.800

.397

1

.927

.999

.949

1.000

.705

.167

2

.960

1.000

.979

1.000

.861

.038

Test 4: a = .5;

ft = -1.5,-

-.5, .5. 1.5

a = 1.5; 6 = -1.5.

,-.5. .5. 1.5; n,

= 40

0

RE,

REj

REj

/

-2

.596

.936

.612

1.000

.465

.052

-1

.664

.959

.727

.998

.494

.137

0

.731

.976

.833

.996

.620

.154

1

.821

.990

.914

.997

.755

.155

2

.924

.998

.966

1.000

.730

.113

= minimal test length for the pattern and k = 1.5
= ^
b'^a with weights from Equation 9
= RE of equal weights with respect to w,
= ^B^^A with weights from Equation 14
=of Wj with respect to w,
^E^ = RE of w, with respect to optimal weights (Equation 5)
' = test information (Equation 6), divided by number of items

-ocr page 76-

70 D.N.M. de Gruijter

Table 2.RE of fixed weights with respect to weights (9) for several tests {N^ = A\Ng = 2); weight
ratio Wj = 1; = .833.

Test 1 Test 2 Test 3 Test 4

e

RE(w^)

RElw^)

RE(w,)

REiw^)

RE{w,)

REiw^)

RE(w,)

R£(w,)

-2

.906

.951

.927

.967

.925

.965

.936

.973

-1

.950

.982

.954

.984

.954

.984

.959

.987

0

.992

1.000

.973

.994

.992

1.000

.976

.996

1

1.000

.995

.990

1.000

.999

.997

.990

1.000

2

1.000

.993

.999

.997

1.000

.995

.998

.997

ability range or one ability level, 0q, is of interest. The latter is the case in pass/fail decisions,
where is the standard of performance on the latent ability scale. Then an obvious choice is to
apply weights optimal for the relevant ability level. This is done for = 0 in Table 2.

In Table 2 RE(w^) displays for each test the RE-resuUs for equal weights again. In column
RE{
w2) results are given for a ratio of weights equal to .833 (w^iO = 0) in Table 1). REiw^) ex-
ceeds RE(,w^) at most levels. At high ability levels equal weighting is more efficient. At the
ability of interest, 0 = 0, the difference is rather small.

DISCUSSION

The mathematical analysis of the problem of differential weighting of two-choice and four-
choice items under the assumption that the subtests of two-choice and four-choice items differ
only with respect to the value of the guessing parameter demonstrated that differential weight-
ing of the two item types might be useful at lower abilities. In the analysis ability was assumed
to be known. Using fixed weights for all abilities, chosen to approximate optimally discriminating
weights at one ability level, resulted in a slight improvement at that ability level.

Taking into account that the analysis was a worst case analysis in terms of numbers of four-
choice and two-choice items, and that two-choice and four-choice subtests can differ in other
respects than guessing alone, it can be concluded that differential weighting is not justified. This
conclusion can be generalized to tests with other values of N^ and Ng. The conclusion does not
pertain, however, to optimally weighting all items differentially.

REFERENCES

Bimbaum, A. (1968). Some latent Uait models and their use in inferring an examinee's ability. In F.M. Lord
and M.R. Novick,
Statisdcal theories of mental test scores. Reading MA: Addison-Wcslcy.

Hambleton, R.K., & Traub, R.E. (1971). Information curvcs and efficiency of three logistic test models.
British Journal of Mathematical and Statistical Psychology. 24, 273-281.

Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale NJ: Erlbaum.

Lord, F.M. (1983). Small W justifies Rasch model. In D.J. Weiss (Ed.). New horizons in testing. New York:
Acadcmic Press.

Molenaar, W. (1977). On Bayesian formula scorcs for random guessing in multiple choicc tests. BritishJournal
of Mathematical and Statistical Psychology, 30,
79-89.

Molenaar, W. (1981). On Wilcox's laicnl sUuclurc models for guessing. British Journal of Mathematical
and Statistical Psychology, 34.
224-228.

Tinkclman, S.N. (1970). Planning the objcctivc lest. In R.L. Thorndike (Ed.), Educational Measurement. 3d
cd. Washington DC: American Council on Education.

-ocr page 77-

Weighting two- and four-choice items 71

Wang, M., & Stanley J.C. (1970). Differential weighting: A review of methods and empirical studies.
Review of Educational Research, 40, 663-705.

Manuscript ontvangen 25-7-1990
Definitieve versie ontvangen 26-3-1991

APPENDIX: MINIMAL RE

Let -oo<e<'>°,k = ngln^, r = (1 — c^)/(l — Cg) and = VglV^. As we have assumed that subtests
A and B differ only with respect to c we have — c^) = Eg/(\ Cg). Now we can write the
relative efficiency of equal weights with respect to the optimal weights from Equation 9 as

REix) =

A' B

(E^+kEg)

{r-kf vy,

Wir+k)^

(A.l)

Differentiation of RE(x) with respect to k and setting the result equal to zero gives

F(r+/:)(^f)(l-rW)2 = 0 (A.2)

with

F = W/[{\+kW){r^W+K)]'^,

where W is unequal to 1/r due to the fact that subtests differ only with respect to c. Considering
only values of > 0 the solution to Equation A.2 is

k = r (A.3)

and from inspection of Equation A.2 it is clear that a minimum is obtained for this value.

-ocr page 78-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 1, pp. 72-48

De constructie en interne validering van een
meerkeuzetoets voor het meten van
schrijfvaardigheid

E. van Schooten en K. de Glopper
SCO, Amsterdam

ABSTRACT

This ardcle describes the construction and evaluation of an objective instrument for the measurement
of writing ability. The construction of the instrument was based on nine different aspects of writing
ability: content and organization, style, usage, grammar at the sentence level, grammar at the word
level, spelling by visual orthographic strategy, spelling by rule of conjugations, spelling by rule of
inflections and punctuation.

Factor analyses of the data show that the factorial validity of the instrument is satisfactory, even
though some a-priori made distinctions between different aspects of writing ability are not supported
by the factor structure in the data. The style factor, the content and organization factor and the usage
factor correlate very highly. A parsimonious model with one single factor for content and organization,
style and usage fits the data as well as the nine factor model, and is therefore preferable (Ockham's
razor).

INLEIDING

Aan de validiteit van meerkeuze-instrumenten voor schrijfvaardigheid wordt vaak getwijfeld.
Vooral tegen de inhoudsvaliditeit worden bezwaren ingebracht: meerkeuze-instrumenten zouden
alleen receptieve en geen produktieve vaardigheden kunnen meten en de beheersing van aspecten
als stijl, organisatie en creativiteit zouden met meerkeuzevragen niet goed gemeten kunnen
worden. De criteriumvaliditeit van meerkeuze-instrumenten lijkt echter goed. In adequaat opgezette
studies bedraagt de mediane correlatie tussen meerkeuze-toets en criteria .82 (Van Schooten &
De Glopper, 1990). De consuuctvaliditeit van de meerkeuze-instrumenten lijkt ook heel behoorlijk.
De 'known-group'-validiteit en de convergente en divergente validiteit van de meerkeuze-
instrumenten blijken goed. Er is wel multi-trait multi-method onderzoek dat wijst op het bestaan
van methode-factoren, maar deze effecten lijken niet erg groot (Van Schooten & De Glopper,
1990).

Nader onderzoek kan meer inzicht verschaffen in de validiteit van meerkeuze-instrumenten
voor het meten van schrijfvaardigheid. In zulk.onderzoek moet aan twee zaken bijzondere
aandacht besteed worden: (a) er moeten meerkeuze-instrumenten ontwikkeld worden die het
vaardigheidsdomein zo goed mogelijk dekken en (b) er moet meer aandacht worden besteed aan
de validiteit van de criteria. In dit artikel houden wij ons met het eerste punt bezig: wij beschrijven
de constructie en inteme validering van een meerkeuze-toets voor leerlingen van 11 ä 12 jaar. In
toekomstig onderzoek verdient de bestudering van de exteme validiteit van de betreffende toets
aandacht.

SCO, Grote Bickerstraat 72, 1013 KS Amsterdam

-ocr page 79-

Meerkeuzetoets voor het meten van schrijfvaardigheid 73

DE CONSTRUCTIE VAN DE TOETS

Ideeën voor de constructie van items zijn ontleend aan verschillende bronnen (ITED, 1952;
STEP, 1956; Warries, 1969; Wesdorp, 1970, 1971a, 1971b, 1972, 1973, 1978; Plantenga e.a.,
1971; Van der Meulen, 1971). Eisen waaraan meerkeuze-vragen moeten voldoen, zijn ontleend
aan Mellenbergh (1971). Hij noemt zes voorwaarden, die aangevuld met de eis van
Unidimensionaliteit, hieronder weergegeven worden. Deze voorwaarden betreffen de voorwaarde
van relevantie (1), van specificiteit (2), van evenwichtigheid (3), van objectiviteit (4), van
efficiëntie (5) en van bekende moeilijkheid (6). Wij geven steeds aan hoe bij de constructie van
de meerkeuzetoets met deze voorwaarden rekening is gehouden.

Relevantie

Elke vraag moet de te toetsen vaardigheid betreffen. Van belang is daarbij dat bij schrijfvaardigheid
sprake is van een complex van kennis en vaardigheden dat betrekking heeft op: (a) de planning
van, de controle over en de evaluatie van de schrijftaak; (b) het genereren en selecteren van
inhoud; (c) het organiseren van inhoud; (d) het formuleren of omzetten van gedachteninhouden
in taal; (e) het in schrift coderen (spellen en interpungeren) (Hayes & Flower, 1980). Bij de
constructie van de toets zijn voor alle gebieden, behalve het eerste, dat heel lastig in meerkeuze-
vorm te vangen leek, items ontwikkeld. Er zijn toetsen ontwikkeld voor de onderdelen inhoud
en organisatie (valt onder b en c), stijl, idioom, grammatica op zins- en op woordniveau (vallen
onder d), woordbeeldspelling, regelgestuurde spelling en interpunctie (vallen onder e).

Inhoud en organisatie zijn tot één itemcategorie samengevoegd, omdat bij de constructie van
de items bleek dat deze twee aspecten in de items niet goed te scheiden waren. Voor de boven-
genoemde onderdelen (d) en (e) zijn meerdere itemcategorieën geformeerd, omdat deze aspec-
ten afzonderlijke probleemtypen betreffen. In het onderstaande worden de bij de constructie van
de toets onderscheiden itemcategorieën en dc ertoe behorende soorten items, verduidelijkt. In
Bijlage 1 wordt voor elk soort item een voorbeeld gegeven.

De toets voor inhoud en organisatie bevat items waarbij de passendheid en de volgorde van
Woorden en zinnen beoordeeld moeten worden. De items betreffen de volgorde tussen en binnen
zinnen, de indeling van zinnen bij onderwerpen, de beoordeling van de geschiktheid van on-
derwerpen en de passendheid van zinnen in alinea's.

De stijltoets bevat opgaven waarbij de adequaatheid van de woordkeus beoordeeld moet
Worden, los van de woordbetekenis. Het gaat hier om een beoordeling van de manier waarop
niet-semantische linguïstische keuzes gemaakt worden. Het gaat bij deze categorie niet zozeer
om aperte taalfouten, maar om het verschil tussen mooi en minder mooi, toepasselijk cn minder
toepasselijk. Bij dit soort vragen moet de proefpersoon aangeven welke zegswijzen het mooist,
niinst omslachtig of meest doeltreffend zijn.

De toets voor idioom bestaat uit vragen die betrekking hebben op dc correcte hantering van
vaste uitdrukkingsvormen en het toekennen van de juiste betekenis aan woorden of uitdrukkingen.

items hebben betrekking op verkeerd overgenomen uitdmkkingen, het toekennen van verkeerde
'^tekenissen aan woorden en uitdrukkingen, de contaminatie van verschillende zegswijzen en
pleonasmen.

De grammaticatoets bevat items die dc grammaticaliteit van zinnen en woorden betreffen,
'let gaat hier om 'hoorbare' fouten, niet om fouten die de codering van een fonologisch juiste
Vorm betreffen. De toets bevat twee onderdelen: grammatica op zinsniveau en grammatica op
Woordniveau. Tot de eerste categorie behoren de vragen waarbij de grammaticaliteit van zinnen
t>eoordeeld moet worden op grond van de volgorde en samenhang der zinsdelen. Voorbeelden
hiervan zijn fouten dooreen gebrekkige zinsstructuur, woorden teveel ofte weinig, incongruentie
'ussen onderwerp en persoonsvorm en verwijzingsfouten. Tot de tweede categorie behoren de
^•"agen waarbij de proefpersoon dc grammaticaliteit van een woord(-vorm) beoordeelt, los van
de andere woorden en zinsdelen in de tekst. Tot deze categorie behoren hoorbare vervoegings-
'^puten (looptc), hoorbare verbuigingsfoutcn (goedste) cn hoorbare verkeerde samentrekkingen
(^ti- en uitverkocht).

-ocr page 80-

74 E. van Schooten en K. de Glopper

De spellingtoets betreft fouten in de codering van fonologisch correcte vormen. Het onder-
scheid met grammaticale fouten is in 'natuurlijke' teksten soms moeilijk te maken. Bij meer-
keuzevragen kan men zich echter beperken tot duidelijke gevallen. De toets bevat twee hoofd-
onderdelen: woordbeeldspelling en regelgestuurde spelling. Bij de eerstgenoemde categorie
gaat het om de spelling van woorden waarvan de spelwijze niet door spellingregels, doch door
afspraken bepaald wordt. Voorbeelden van dit soort fouten zijn: het weglaten van niet hoorbare
letters (para/el, m/schien), het verwisselen van gelijkluidende grafemen (ei-ij, au-ou) en het
verwisselen van stemloze en steinhebbende medeklinkers (avdak, be^em). Bij de tweede cate-
gorie horen spelfouten die een overtreding tegen spellingregels inhouden. Deze categorie wordt
onderverdeeld in vervoegings- en verbuigingsfouten. De eerste categorie betreft onhoorbare
vervoegingsfouten (hij behoord; ik wordO, de tweede onhoorbare verbuigingsfouten zoals de
klinker- en medeklinkerverenkeling en -verdubbeling (loopen; mitten), en fouten in samenstelliiigen
(kapperzaak; radioomroep).

De interpunctietoets betreft fouten in het gebruik van leestekens en hoofdletters en fouten in
het afbreken van woorden. Daar voor de interpunctie maar in een beperkt aantal gevallen
dwingende regels gelden, zijn alleen items opgenomen waarbij duidelijk van goed of fout
sprake is.

Specificiteit

De vragen moeten alleen de bedoelde vaardigheid meten. Een belangrijk punt inzake de eis van
specificiteit betreft de eisen die de toets aan de vocabulaire-kennis van leerlingen stelt. Bij de
constructie van toetsvragen zijn moeilijke woorden, zowel in de vragen als in de begeleidende
instructies, zoveel mogelijk vermeden. Zo is getracht te voorkomen dat de vragen naast de
vaardigheid die ze moeten meten, ook woordkennis meten. Verder is erop gelet dat de goede
antwoordalternatieven wisselende posities innemen en dat de leerlingen ruim voldoende tijd
voor het maken van de vragen kregen, zodat tijdsdruk geen rol kon spelen.

Unidimensionaliteit

De vragen uit één categorie moeten statistisch gezien unidimensioneel zijn. Deze eis is nauw
verwant met de voorafgaande eis van specificiteit. Bij de constructie van de meerkeuze-items is
het zaak om vragen te maken die zoveel mogelijk één vaardigheid meten. Er moet dus bij het
verzinnen van antwoordalternatieven op gelet worden dat de verschillende alternatieven niet
een beroep doen op verschillende vaardigheden. De vragen voor dc mccrkcuzetoets zijn zo
geconstrueerd dat vier of zelfs meer antwoordaltcmaticven geboden worden als daarmee niet
van het bedoelde foutentype afgeweken werd. Als dit laatste met meer alternatieven onvermij-
delijk was, is gekozen voor een vraagvorm waarbij de proefpersonen aan moesten geven of de
aangeboden woorden of zinnen goed of fout waren.

Hieronder volgt een voorbeeld van een ongeschikt item. Het item is ongeschikt, omdat de
alternatieven zowel de woordbeeld- als de regelgestuurde spelling betreffen. Het is waarschijnlijk
dat er bij het beantwoorden van de vraag verschillende vaardigheden in het geding kunnen zijn.

Welk woord moet op de open plaats worden ingevuld? 'Hij is niet....'
A bevreest
B bevreesd
C be freest
D befreesd

Evenwichtigheid

De aantallen vragen per hoofd- en subcategorie moeten bepaald worden op grond van het
relatieve belang van de subcategorie. Dit belang wordt natuurlijk bepaald door de gebruiks-
doeleinden van een instmment. Als predictie van een criterium het hoofddoel vormt, dan dient
de grootte van dc verschillende subtoetsen afgestemd te worden op hun uit dc Hteratuur geble-
ken criteriumvaliditeit. Is specifieke meting van verschillende deelvaardigheden het doel. dan is

-ocr page 81-

Meerkeuzetoets voor het meten van schrijfvaardigheid 75

per vaardigheidsgebied een voldoende aantal relevante items nodig. Voor het onderhavige in-
strument waren beide gebruiksdoelen relevant. De toets zal, in een vervolgonderzoek, voor
predictieve doeleinden gebruikt worden en moet tevens verschillende vaardigheden meten. Wij
hebben ons echter niet heel veel gelegen laten liggen aan de verdeling van items over subtoetsen.
Een ongelijke verdeling kan immers door wegingsprocedures, bij voorbeeld na multipele re-
gressie-analyse, gecorrigeerd worden. Bij de weging kan een optimale correlatie met een crite-
rium, of ook een bepaalde doelstellingenopvauing recht worden gedaan. In onze studie is vooral
aan de keuze van items bimien categoriën veel aandacht besteed. Daarbij is rekening gehouden
met onderzoeksgegevens over de frequentie waarmee verschillende typen schrijffouten in
schriftelijk taalgebruik voorkomen (Wesdorp, 1974; Bayens, Jansen «feSchakenbos 1981; Schoonen,
1987). De frequent voorkomende fouten die in deze publicaties worden beschreven zijn in de
toetsen opgenomen.

Objectiviteit

Slechts één antwoordaltematief mag goed zijn, de andere alternatieven moeten duidelijk fout
zijn. Om aan deze eis te voldoen, zijn alle opgaven door enkele taalkundigen bekeken. Items
waarbij onenigheid over de (in)correctheid van antwoordalternatieven bestond, zijn uit de toets
verwijderd.

Efficiëntie

De instructie moet zo kort, eenvoudig en éénduidig mogelijk zijn. In de toets kon volstaan
worden met een korte mondelinge introductie en een enkel oefenitem per categorie.

Bekende moeilijkheid

De toets moet op alle vaardigheidsniveaus in de te toetsen populatie voldoende discrimineren.
Of vragen de juiste moeilijkheidsgraad hebben, is vooraf moeilijk te bepalen. Door analyse van
schrijfopdrachten gemaakt in het kader van de voorstudie PPON (Wesdorp e.a., 1986) is geprobeerd
zicht te krijgen op het schrijfvaardigheidsniveau van 11- i 12-jarige leerlingen. Daarnaast is met
een eerste versie van de vragen een individuele proefafname gehouden bij tien 11- i 12-jarige
leerlingen. Bij deze proefafname was een onderzoeker aanwezig en werden de leerlingen aan-
gemoedigd alle onduidelijkheden over de instructie of de te maken vragen, te melden. De
vragen bleken, hoewel aan de moeilijke kant, wel te maken door de leerlingen. Er zijn op grond
van de beproeving wat gemakkelijke vragen aan de toets toegevoegd en wat moeilijke vragen
verwijderd. Ook zijn enkele instructies wat vereenvoudigd.

STEEKPROEFTREKKING EN AFNAME

Om de betrouwbaarheid en de interne validiteit van de meerkeuzetoets te evalueren en slechte
vragen te kunnen verwijderen is de toets afgenomen bij leeriingen uit 28 achtste en 2 zevende
groepen van basisscholen in Haarlem, Amsterdam, Pumierend en Monnickendam. Omdat gene-
•■alisatie van toetsprestaties naar de populatie geen onderzoeksdoel vomidc, is afgezien van het
trekken van een aselecte steekproef.

De meerkeuzetoets is voor de afname verdeeld over vier toetsboekjes met daarin de deel-
toetsen 'inhoud en organisatie' (boekje 1), 'stijl' en 'idioom' (boekje 2), 'grammatica op zins-
niveau' en 'grammatica op woordniveau' (boekje 3). en 'woordbeeldspelling', 'regelgestuurde
spelling' en 'interpunctie' (boekje 4). Elk van deze boekjes bevat dus verschillende itemcatcgorieën,
^'e elk weer vertegenwoordigd worden door verschillende subtoetsen. Een overzicht van dc
^vraagde probleemtypen staat in Tabel 2; in Bijlage 1 staat een itemvoorbeeld van elke subtoets.

Uit de proefafnames bleek dat 11 - 12-jarige leerlingen ongeveer drie kwartier nodig hebben
oni één boekje te maken. Om te voorkomen dat tijdsdruk een rol zou spelen, is besloten om per
boekje één uur uit tc trekken. Omdat het wat veel gevraagd is van een leraar om een klas vier uur
tc staan voor onderzoek, is besloten slechts twee boekjes per klas af te nemen. Om ook dc

-ocr page 82-

76 E. van Schooten en K. de Glopper

Tabel 1. Onvolledig gebalanceerd blokontwerp en aantallen leerlingen.

Groep:

Inhoud &
Organisatie

Toetsboekjes:

Süjl&
Idioom

Grammatica

Spelling &
Interpunctie

1

82

82

2

118

118

3

111

111

4

99

99

5

96

96

6

95

95

Totaal

302

312

277

311

relaties tussen de verschillende subtoetsen te kunnen onderzoeken moest een roulatie-schema
gekozen worden waarbij voldoende leerlingen elke mogelijke combinatie van subtoetsen zou-
den maken. Het gehanteerde roulatieschema, met in ons geval zes groepen proefpersonen, staat
bekend als het onvolledig, gebalanceerd blokontwerp en wordt aanschouwelijk gemaakt in
Tabel 1. Een nadeel van dit afname-ontwerp is dat door de klassikale toewijzing van boekjes aan
leerlingen een clustereffect op kan treden.

Er is gestreefd naar vijf klassen voor ieder van de proefpersoongroepen. Met een gemiddelde
klassegrootte van 20 leerlingen zou dit neerkomen op 300 leerlingen per subtoets en ongeveer
100 leerlingen voor elke combinatie van subtoetsen. Uit Tabel 1 kan opgemaakt worden dat
deze opzet redelijk goed geslaagd is.

De afnames van de subtoetsen vonden plaats in september en oktober 1987. De twee afnames
per klas vonden, op één uitzondering na, niet op dezelfde dag plaats. De instructie voor het
maken van de toetsen werd voor de afnames aan de leerlingen uitgedeeld en klassikaal door de
proefleider behandeld. De afnames verliepen zonder uitzondering goed. Het enige probleem
was dat er op sommige Amsterdamse scholen veel allochtone leerlingen zitten voor wie de toets
te moeilijk was.

BETROUWBAARHEID EN MOEILIJKHEID VAN DE TOETS

Voor het evalueren van de interne validiteit van het instmment zijn toetsende factoranalyses
uitgevoerd. Daaraan voorafgaand zijn op grond van betrouwbaarheidsanalyses slechte items en
subtoetsen verwijderd. Dit was wenselijk, omdat de power van de modeltoetsingen toeneemt
naarmate de gebmikte subtoetsen betrouwbaarder zijn.

Voor het evalueren van de betrouwbaarheid is gekeken naar de item-restcorrelaties van de
vragen. Vragen met een erg lage of negatieve item-rcstcorrelatie (ten opzichte van de subtoets
waar de vraag bij hoort) zijn verwijderd. Vervolgens is over de resterende vragen een split-
halfbeü-ouwbaarheid (SH in Tabel 2) berekend over zo parallel mogelijke subtoetshelften. Omdat
de p-waarden van de items sterk uiteen lopen, is het niet aannemelijk dat de items essentieel tau-
equivalent zijn. In dat geval is de coëfficiënt alpha een onderschatter van de ware betrouwbaarheid
en is de split-halfcoëfficiënt met dc methode van gematchte subtests wellicht ccn betere
bctrouwbaarheidsmaat al is deze laatste maat wat minder efficiem (grotere standaardfout) dan
coëfficiënt alpha (Eiting, 1991).

Het splitsen van de subtoetsen in twee zo parallel mogelijke helften is geschied door paren
vragen te selecteren op grond van overeenkomende itcm-restcorrclatics cn p-waardcnOok zijn
de p-waardcn berekend om na tc gaan of dc betrouwbaarheid van dc verschillende subtoetsen
negatief beïnvloed werd door een te hoge moeilijkheidsgraad.

-ocr page 83-

Meerkeuzetoets voor het meten van schrijfvaardigheid 77

Tabel 2. Betrouwbaarheid en moeilijkheid van de verschillende voor het onderzoek geselecteerde sub-
toetsen. [N-items = het aantal items na verwijdering van slechte items; SH = split-halfcoëfficiënt;
SH20 = op 20 vragen gestandaardiseerde split-halfcoëfficiënt; p = gemiddelde p-waarde; N-uit =
aantal verwijderde items].

Subtoets

N-itcms

SH

SH20

P

N-uit

Inhoud & organisatie

1 volgorde tussen/binnen zinnen

7

.43

.72

.81

2

2 zinnen bij onderwerpen

9

.71

.86

.79

0

3 geschiktheid onderwerpen

4

.57

.87

.48

3

4 passendheid zin in alinea

4

.46

.81

.55

0

Stijl

1 vorm uitdrukkingen

7

.31

.60

.39

2

2 vaste voorzetsels

4

.21

.57

.59

0

3 juiste woord invullen

10

.69

.82

.52

2

4 opstel verbeteren

4

.37

.75

.42

3

Idioom

1 betekenis voegw.

6

.50

.77

.75

1

2 betekenis uitdrukkingen

5

.47

.82

.51

0

3 woordbetekenis

10

.71

.83

.74

1

4 betekenis zinnen

4

.41

.78

.53

0

Grammatica

iinsniveau

1 foute zinsstructuur

6

.44

.72

.76

1

2 zinsdelen weglaten

4

.59

.88

.65

0

3 verwijzing

9

.40

.63

.46

0

4 iidw./zclfst.nw.

11

.77

.87

.67

0

5 incongr. v. tijd

4

.39

.76

.62

0

Woordniveau

6 vcrbuig.bijv.nw.

8

.73

.87

.72

0

7 m.v.-vorming

4

.31

.69

.64

0

8 vergr. en overtr. trap

5

.31

.69

.58

3

9 vorming verkleinwoord

4

.46

.81

.75

0

10 vorming zclfst.nw.

6

.71

.89

.68

0

Spelling

woordbeeld

1 woordbeeld

46

.73

.54

.72

15

gel gestuurde vervoeging

2 volt. dw.(t/d)

6

.44

.72

.62

0

3 o.v.t. (dd/ll/l/d)

5

.70

.92

.57

5

''^gelgestuurde verbuiging

.73

.73

0

4 bijv. gcbr. volt.d.w.

4

.35

5 meervoudsvorming

4

.72

.79

.87

4

® zelfst. vnw. mv.(n)

4

.15

.47

.69

0

' gcnilicf-s/ aposuof

4

.25

.63

.72

4

8 stoff. bijv. nw.

4

.18

.52

.83

0

' verkleinwoorden

4

.26

.64

.60

0

stcmh./!. mcdckl. uitgang

4

.55

.86

.89

0

(mede-)kl. cnkcl/dubbcl

4

.17

.51

.79

0

samenstellingen

4

.41

.78

.71

0

vcrb./sam.tr.su-cepje

4

.46

.81

.70

4

interpunctie

^ afbreken woorden

6

.15

.37

.65

0

2 komma's

12

.46

.59

.64

0

3 aanhalingstekens

4

.53

.85

.68

0

^ hoofdletters

4

.41

.78

.61

0

-ocr page 84-

78 E. van Schooten en K. de Glopper

Omdat de spHt-halfbetrouwbaarheid groter wordt naarmate het aantal (onderling positief
correlerende) vragen groter wordt, is van de geobserveerde split-halfcoëfficiënt met de Spearman
Brown-formule een gestandaardiseerde versie berekend, uitgaande van twintig vragen per sub-
toets. Deze gestandaardiseerde coëfficiënten (SH20) zijn onderling vergelijkbaar en geven in-
formatie over de potentiële betrouwbaarheid van de vragen uit de verschillende subtoetsen. In
Tabel 2 worden naast de split-halfbetrouwbaarheden ook de gemiddelde p-waarden van de voor
het onderzoek geselecteerde subtoetsen gegeven. Vijftig items ('N-uit' in Tabel 2) met een erg
lage of negatieve item-restcorrelatie en 10 subtoetsen met split-halfcoëfficiënten lager dan .20
zijn verwijderd en niet in Tabel 2 opgenomen.

Na selectie van vragen en verwijdering van onbetrouwbaar gebleken subtoetsen is de gemid-
delde split-halfcoëfficiënt .46. De gemiddelde split-halfcoëfficiënt van de inhoud- en
organisatiesubtoetsen bedraagt .54, van de stijlsubtoetsen .40, van de idioomsubtoetsen .52, van
de grammaticasubtoetsen .51, van de spellingsubtoetsen .41 en van de interpunctiesubtoetsen
.39.

Deze coëfficiënten zijn vrij laag, maar daarbij moet in aanmerking genomen worden dat
sommige subtoetsen slechts uit vier vragen bestaan. Een verdere verklaring voor de lage
betrouwbaarheidscoëfficiënten van sommige subtoetsen is dat de desbetreffende vragen erg
moeiUjk voor de leerlingen waren. De invloed van de raadkans op de scores verlaagt de be-
trouwbaarheid en wordt groter naarmate de items moeilijker zijn. De gemiddelde p-waarde van
de vragen van de subtoetsen met betrouwbaarheidscoëfficiënten kleiner dan .20 (waarvan de
meeste bij de verdere analyses zijn verwijderd), is .56. De gemiddelde p-waarde van de vragen
van de overige subtoetsen is .69. De conelatie (p.m.c.) tussen de SH20 en de gemiddelde p-
waarde van vragen in een subtoets bedraagt .61. Het is dus waarschijnlijk dat de betrouwbaarheden
hoger uit zouden vallen als de toets aan oudere, vaardiger leerlingen zou worden afgenomen of
als er gemakkelijker vragen aan de subtoetsen toegevoegd zouden worden.

De gemiddelde SH20 bedraagt .73. Deze waarde geeft aan dat de potentiële betrouwbaarheid
van de meeste subtoetsen heel behoorlijk is. Hierbij moet natuurlijk wel bedacht worden dat een
aantal van 20 items voor iedere subtoets tot een voor praktische doeleinden onmogelijk lange
toets leidt.

De volgende subtoetsen met split-halfcoëfficiënten lager dan .20 zijn verwijderd. Bij Stijl is
de subtoets 'verkeerde samentrekkingen' (7 items) verwijderd, bij Grammatica woordniveau
'vervoegingsfouten' (8 items), bij Regelgestuurde spelling vervoegingen 'voltooid deelwoord/
o.t.t.(d/t)' (8 items), 'onvoltooid tegenwoordige tijd O/d/dt) (6 items), 'onvoltooid verleden tijd/
bijv. gebruikt volt. deelw.' (4 items), bij Regelgestuurde spelling verbuigingen 'bezittelijk
gebruikt persoonlijk voornaamwoord' (2 items), 'zelfstandig gebruikt bijvoeglijk naamwoord'
(4 items), 'los of vast schrijven van woorden' (4 items), en bij Interpunctie 'tremagebmik' (4
hems) ep 'herkennen zinsgrenzen' (4 item.s).

INTERNE VALIDITEIT

Om na te gaan of de indeling in subtoetsen door de empirie ondersteund wordt, zijn met behulp
van het programma LISREL VI (Jöreskog & Sörbom, 1986) verschillende modeltoetsingen
uitgevoerd. De toetsingen zijn uitgevoerd in drie stappen. Eerst is per categorie (de cursieve
termen in Tabel 2) nagegaan of de betreffende subtoetsen op het veronderstelde model te passen
zijn. Daarna is per proefpersoongroep een model getoetst met factoren voor elke (sub-)catcgorie
die de betreffende proefpersoongroep gemaakt had. Ten slotte zijn modellen voor de structuur
van de totale toetsbatterij gepast.

De analyse is in deze drie stappen uitgevoerd, dit vanwege de onvolledige datamatrix (iedere
proefpersoongroep maakte een andere combinatie van toetsen). Door eerst per afzonderiijke
categorie de correlatiematrijs van produkt-momentcorrelaties tussen somscores op subtoetsen te
analyseren, konden de modelpassingen met het maximale aantal proefpersonen (ongeveer 300)
en dus met de grootst mogelijke power verricht worden. De analyses per proefpersoongroep zijn

-ocr page 85-

Meerkeuzetoets voor het meten van schrijfvaardigheid 79

uitgevoerd met 82 tot 118 proefpersonen per groep (zie Tabel 1). Tot deze analyses is besloten,
omdat problemen werden verwacht bij het analyseren van de totale, onvolledige datamatrix. Per
proefpersoongroep is de datamatrix wel volledig. Bij de analyse van de structuur van de totale
toetsbatterij zijn de correlaties tussen toetsonderdelen over wisselende aantallen proefpersonen
berekend (ongeveer 300 biimen subtoetsen en ongeveer 100 tussen subtoetsen; zie Tabel 1).

In de analyses zijn alle in tabel 2 vermelde subtoetsen meegenomen. Vier van deze subtoetsen
hebben een split-halfcoëfficiënt lager dan .20. We hebben zo vier subtoetsen per factor, waardoor
er geen restricdes aan de te toetsen modellen opgelegd hoeven te worden. Voor de idendficatie
van een éénfactormodel zonder restricties zijn namelijk minstens vier subtoetsen nodig. Eén
interpunctiesubtoets (nr. 1) met een spHt-half van .15 is meegenomen, omdat er anders slechts
drie interpunctie-subtoetsen overbleven. Drie spellingssubtoetsen (nr. 6, 8 & 11) met split-
halfcoëfficiënten van respectievelijk .15, .18 en .17 waren voor de identificatie niet nodig, maar
zijn meegenomen, omdat het interessant leek om na te gaan of de subtoetsen op de juiste factor
zouden laden. Een nadeel van het opnemen van subtoetsen met een lage betrouwbaarheid is dat
de power van de modeltoetsingen daar geringer van wordt.

Stap 1

In de onderstaande tabel wordt een overzicht gegeven van de resultaten van de modelpassingen
(maximum likelihood-methode) per categorie. De passing van het model wordt uitgedrukt in
een chi-kwadraat waarde (X^) met een bepaalde overschrijdingskans (p). Daarnaast worden de
'goodness of fit-index' (GFI) en 'root mean square residual' (RMR) gegeven. De GFI is een
maat voor de passing die kan variëren tussen O en 1. De RMR is een maat voor de gemiddelde
grootte van de niet door het model verklaarde residuen. Hoe kleiner de waarde van de RMR, hoe
beter de passing van het model. Wij hanteren als vuistregel dat GFI-waarden groter dan .90 en
RMR-waarden kleiner dan .07 op een goede passing duiden.

Het éénfactormodel blijkt voor de vier subtoetsen voor inhoud en organisatie, gezien Tabel
3. goed tc passen. Op de vier stijltoetsen past een éénfactormodel ook goed. De eerste subtoets
(vorm uitdrukkingen) blijkt echter niet op de factor tc laden en lijkt dus een andere vaardigheid
te meten. In de tabel zijn de passingsgegcvens voor dc toetsing met de drie resterende stijltoetsen
Weergegeven. Bij deze toetsing zijn de factorladingen van twee subtoetsen (op basis van dc
resultaten van het passende eerste model voor vier toetsen) aan elkaar gelijk gesteld, omwille
yan de identificatie van het model. Dit éénfactormodel past goed bij de gegevens. Voor de vier
idioom-subtoetsen past het éénfactormodel blijkens Tabel 3 zonder meer goed. Voor de grammatica-
subtoetsen past het tweefactormodel met factoren voor het zinsnivcau en het woordniveau
significant beter dan het alternatieve éénfactormodel (df = 35, x^ = 87.14). De correlatie tussen

Subtoets

Spclll

1.00

mg

Intc

1.26

rpunctic

.53

Tabel 3. Resultaten modclpassingcn per afzonderlijke catcgoric.

Inhoud & organisatie
Stijl (cxci.sub. 1)
'dioom
Grammatica

Aantal factorcn
+ omschrijving

df

P

GFI RMR

1

2

2.40

.30

1.00 .02

1

1

0.01

.92

1.00.00

1

2

0.74

.69

1.00 .01

2

34

21.87

.95

.91 .05

zmsnivcau

woordniveau

3

woordbeeld
vervoegingen
verbuigingen
1

64

32.92

.94 .05

1.00 .02

-ocr page 86-

80 E. van Schooten en K. de Glopper

de twee factoren verschilt evenwel niet significant van 1.00. Voor de spelling-subtoetsen geeft
een driefactormodel met factoren voor woordbeeldspelling, spelling van vervoegingen en spelling
van verbuigingen een goede passing. Bij de toetsing is de factorlading van de subtoets voor
woordbeeldspelling op de woordbeeld-factor gefixeerd op de wortel uit de split-halfbeu-ouwbaarheid
van de toets. De factorladingen van de twee subtoetsen voor de spelling van vervoegingen zijn
aan elkaar gelijk gesteld. Dit model past significant beter dan corresponderende twee-factor-
(woordbeeld- en regelgestuurde spelling) en éénfactormodellen (resp. df = 66, y} = 126.64 en df
= 65, i} = 126.63). Ook hier geldt dat de correlaties tussen de factoren niet significant van 1.00
verschillen. Voor de vier interpunctie-subtoetsen ten slotte, past het éénfactormodel goed.

Al met al werpen de analyses van de afzonderlijke subtoetsen een gunstig licht op de interne
validiteit van de ontwikkelde meerkeuze-toets. Subtoetsen die één (ongesplitste) categorie ver-
tegenwoordigen, zijn op een éénfactormodel te passen en de in de toetsen gemaakte onder-
scheidingen binnen de categorieën grammatica en spelling worden door de factoranalyses on-
dersteund.

Stap 2

Na de toetsingen per categorie zijn toetsingen per proefpersoongroep uitgevoerd. Zoals uit
Tabel 1 kan worden afgelezen waren er zes proefpersoongroepen die elk wisselende combinaties
van subtoetsen maakten. In Tabel 4 wordt een overzicht gegeven van de resultaten van de
modelpassingen per proefpersoongroep.

De eerste proefpersoongroep maakte de subtoetsen behorend bij de categorieën inhoud en
organisatie, stijl en idioom. Een driefactormodel past blijkens Tabel 4 goed bij de data. De
correlaties tussen de drie factoren bleken wel elk één te zijn. Om deze reden is tevens een
spaarzamer éénfactormodel getoetst, waarvan de passing niet voor die van het driefactormodel
onderdoet (df = 44, = 34.06).

De tweede proefpersoongroep maakte de subtoetsen van de categorieën inhoud en organisatie,
zinsgrammatica en woordgrammatica. Een driefactormodel past goed bij de data en de correla-
ties tussen factoren zijn lager dan één. De correlatie tussen de twee grammaticafactoren wijkt
niet significant van één af, maar een model waarin deze twee factoren tot één factor worden
samengevoegd past significant slechter dan het driefactormodel (df = 76, y} = 94.32).

De derde proefpersoongroep maakte de subtoetsen van de categorieën inhoud en organisatie,
woordbeeldspelling, spelling vervoegingen, spelling verbuigingen en interpunctie. Een vijf-
factormodel past blijkens Tabel 4 goed bij de data. Alleen de correlatie tussen de factoren
spelling vervoegingen en interpunctie wijkt niet significant van één af. Een model waarin deze
twee factoren worden samengevoegd past ongeveer even goed (df = 187, x^ = 164.12).

Groep vier maakte de subtoetsen van de categorieën stijl, idioom, zinsgrammatica en
woordgrammatica. Het vierfactormodel past blijkens Tabel 4 redelijk bij dc data, maar de
factoren stijl en idioom correleren perfect. Een driefactormodel waarin stijl en idioom zijn
samengevoegd past ongeveer even goed (df = 116, x^ = 154.89). Daar de correlaties tussen de
grammaticafactoren bij deze modeltoetsing niet significant van één afwijken, is ook een twee-
factormodel getoetst waarin de grammaticafactoren zijn samengevoegd. Het tweefactormodel
past ongeveer even goed als het drie- en vierfactormodel (df = 118, x^ = 156.69).

Dc vijfde proefpersoongroep maakte de subtoetsen van de categorieën stijl, idioom, woord-
bceldspelling, spelling vervoegingen, spelling verbuigingen en interpunctie, lïen zesfactormodel
past blijkens Tabel 4 redelijk bij de data, maar de correlatie tussen de factoren stijl en idioom is
weer één. Een vijffactormodel waarin deze factoren zijn samengevoegd past significant slechter
(df = 244, x^ = 288.67) dan het zesfactormodel.

De laatste proefpersoongroep maakte de subtoetsen van de categorieën zinsgrammatica,
woordgrammatica, woordbeeldspelling, spelling vervoegingen, spelling verbuigingen en inter-
punctie. Bij de toetsing van het zesfactormodel bleek de correlatiematrijs niet positief definiet,
zodat tot een andere schattingsmethode moest worden overgegaan (ongewogen kleinste kwadraten
i.p.v. maximum likelihood). Hierdoor konden geen standaardmeetfouten van de factoriadingen
en de correlaties tussen factoren berekend worden. Ook geeft deze schattingsmethode geen f}

-ocr page 87-

Meerkeuzetoets voor het meten van schrijfvaardigheid 81

Tabel 4. Resultaten modelpassingen per proefpersoongroep.

Groep factoren df f} p GFI RMR

+ omschr.

1 3 4 2 36.64 .71 .93 .07
inh. & orga.

stijl
idioom

2 3 74 58.05 .91 .90 .07
inh. & orga.

zins gram.
woordgram.

3 5 183 163.02 .85 .89 .06
inh & orga

spell. woordb.
spell, vervoeg,
spell. verb,
interp.

4 4 113 154.15 .01 .86 .07
ötijl

idioom

zinsgram.

woordgram.

5 6 241 273.65 .07 .84 .08
stijl

idioom

spcll. woordb.
spell. vervoeg,
spcll. verb,
intcrp.

6 6 n.v.t. n.v.t. n.v.t. .933 .07
zinsgram.

woordgram.
spcll. woordb.
spcll. vervoeg,
spcll. verb,
intcrp.

cn overschrijdingskans, maar alleen een GFI en RMR als passingsmaten (Jöreskog & Sörbom,
1986). Het zesfactormodel bleek redelijk bij de data te passen (zie Tabel 4), hoewel het programma
aangaf door numerieke problemen niet tot een oplossing te kunnen komen. De correlaties tussen
factoren zijn in dit model alle kleiner dan één.

Bij de toetsingen per proefpersoongroep komen enkele problemen aan het licht. Vooral de
factoren voorstijl en idioom blijken slecht tc scheiden: met name in proefpersoongroep I en 4 is
Cr geen grond voor het onderscheiden van verschillende factoren. Problemen doen zich ook voor
"U het onderscheiden van inhoud en organisatie van stijl en idioom (groep 1), van spelling
Vervoegingen van interpunctie (groep 3) en van grammatica zinsniveau van grammatica
Woordniveau (groep 4).

Stap 3

finale toets van de interne validiteit zijn twee modellen voor de structuur van de gehele
toetsbatterij gepast. Het eerste getoetste model is gebaseerd op de veronderstellingen op grond
Waarvan het in.strument is geconstrueerd. In het model zijn dc negen, in Tabel 3 genoemde

-ocr page 88-

82 E. van Schooten en K. de Glopper

factoren onderscheiden. Bij de toetsing is gespecificeerd dat de subtoetsen alleen op de 'eigen'
factor mogen laden en geen bijladingen op andere factoren mogen vertonen. De correlaties
tussen de factoren worden vrij geschat.

Bij de modeltoetsing bleek de correlatiematrijs voor alle subtoetsen niet positief defmiet te
zijn. Wederom is in plaats van de maximum likelihood schattingsmethode de methode van de
ongewogen kleinste kwadraten gebruikt.

Tabel 5. De toetsing van het gehele model met negen factoren.

Subtoets Factoren

123456789

Inhoud en organisatie

1 .53(.44)

2 .55(.69)

3 .45(.46)

4 .58053)
Stijl

2 .66(.63)

3 .66(.63)

4 .41 (.49)
Idioom

1 .64(.58)

2 .65(.63)

3 .63(.66)

4 .54(.60)
Grammatica

1 .62(.65)

2 .59(.51)

3 .65(.71)

4 .65(.62)

5 .43(.47)

6 .58(.60)

7 .57(.58)

8 .53(.51)

9 .35(.35)

10 .61(.61)
Spelling

1 . .88(.88)

2 .46(.46)

3 .46(.46)

4 .56(.49)

5 .51 (.54)

6 .29(.31)

7 .36(.36)

8 - .54(.60)

9 .46(.46)

10 .51(.55)

11 .23(.31)

12 .35(.35)

13 .55(.47)
Interpunctie

1 . .41 (.53)

2 .29(.30)

3 .37(.28)

4 * .52(.49)

-ocr page 89-

Meerkeuzetoets voor het meten van schrijfvaardigheid 83

De resuhaten van de toetsing van het model voor de totale toetsbatterij zijn weergegeven in
Tabel 5 en 6. In Tabel 5 zijn achter de bij deze modeltoets geschatte factorladingen tussen
haakjes de bij de toetsingen per categorie geschatte factorladingen weergegeven (stap 1). Uit de
overwegend zeer geringe discrepanties tussen de waarden buiten en binnen de haken kan opge-
maakt worden dat de resuhaten van de afzonderlijke toetsingen bij de passing van het model
voor de gehele toets overeind blijven.

Blijkens de GFI en RMR, respectievelijk .91 en .09, past het getoetste model redelijk goed
bij de gegevens, hoewel het programma aangaf door numerieke problemen niet tot een oplossing
te kunnen komen. Ook deze resultaten vormen een ondersteuning van de inteme validiteit van
de toets.

Uit Tabel 6 blijkt dat er tussen verschillende factoren zeer hoge correlaties geschat worden.
Enerzijds correleren de inhoud en organisatie-, de stijl- en de idioomfactor, net als bij de
toetsingen per proefpersoongroep, erg hoog. Dit zou erop kunnen wijzen dat de toetsen die op
deze factoren laden, anders dan bij de constructie van de toets verwacht was, toch eenzelfde
vaardigheid(scomplex) meten. Net als bij de afzonderlijke toetsingen hangen ook de twee
grammaticafactoren onderiing hoog samen, evenals de factoren voor interpunctie en regelgestuurde
spelling vervoegingen. De factoren voor interpunctie en idioom enerzijds en de factoren voor
regelgestuurde spelling verbuigingen en grammatica op woord- en zinsniveau anderzijds correleren
ook hoog. Het is niet mogelijk de standaardmeetfouten van de geschatte correlaties te berekenen
vanwege de gehanteerde schattingsmethode (ongewogen kleinste kwadraten).

Als laatste exploratie is een model getoetst waarin de subtoetsen voor inhoud en organisatie,
stijl en idioom op één factor laden. De passing van dit model doet niet onder voor de passing van
het negenfactormodel. De GFI bedraagt .91 en de RMR .09. Weer gaf het programma aan door
numerieke problemen niet tot een oplossing te kunnen komen. De geschatte factorladingen
wijken nauwelijks af van de schattingen onder het negenfactormodel. De correlaties tussen de
zeven factoren staan in Tabel 7. Ook deze wijken nauwelijks af van de vergelijkbare correlaties
uit Tabel 6.

Ook bij de toetsing van het totale model komen dus problemen aan het licht. Opnieuw blijken
de factoren voor inhoud en organisatie, stijl en idioom slecht te scheiden. Ook de andere
problemen die zich bij de analyse per proefpersoongroep voordeden, treden weer op: zeer hoge
Correlaties tussen spelling vervoegingen en interpunctie (.95) en tussen grammatica zinsniveau
en grammatica woordniveau (.93).

Tabel 6.Dc gcschauc correlaties tussen de negen factoren.

2 3 4 5 6 7 8

.60
.77
.79
.01
-.09
.77

.68
.52
.50
.92
.89
.81
.82

l.OO*

.75
.88
.88

.59
.69
.90
.65
.67

.98
1.00»

.47
.86
.80
.93

.79
.77
.96
.67
.67
.78
.95
.84

1 = inhoud en organisatie

2 = stijl

= idioom
4 = grammatica zinsnivcau
^ = grammatica woordniveau

6 = woordbeeidspclling

7 = regelgestuurde spelling vervoegingen

8 = regelgestuurde spelling verbuigingen

9 = interpunctie

* = geschatte correlaties groter dan 1 (resp. 1.10 en 1.04)


-ocr page 90-

84 E. van Schooten en K. de Glopper

Tabel 7. De geschatte correlaties lussen de zeven factoren.

2

3

4

5

6

7

1

.83

.71

.75

.72

.56

.86

2

.93

.65

.02

.93

.67

3

.67

-.09

.89

.68

4

.77

.81

.78

5

.82

.95

6

.84

1 = inhoud en organisatie,
stijl en idioom

2 = grammatica zinsniveau

3 = grammatica woordniveau

4 = woordbeeldspelling

5 ='regelgestuurde spelling vervoegingen

6 = regelgestuurde spelling verbuigingen

7 = interpunctie

CONCLUSIE

In de literatuur wordt de inhoudsvaliditeit van meerkeuze-instrumenten voor schrijfvaardigheid
kritisch beoordeeld; de criteriumvaliditeit lijkt echter goed. Om meer licht op deze tegenstelling
te werpen is onderzoek nodig waarbij gesloten toetsen met een zo hoog mogelijke inhouds-
validiteit met betrouwbare en valide open toetsen voor schrijfvaardigheid in verband gebracht
worden. Aan de bestaande gesloten toetsen voor schrijfvaardigheid kleven nogal wat problemen.
Uit een overzicht van empirische studies blijkt dat veel toetsen eenzijdig zijn samengesteld en
bepaalde aspecten van het vaardigheidsdomein oververtegenwoordigen (Van Schooten & De
Glopper, 1990). Wij hebben daarom getracht zelf een meerkeuze-instrument te ontwikkelen dat
het vaardigheidsdomein beter dekt. In zo'n toets zouden kennis en vaardigheden aan bod moe-
ten komen die betrekking hebben op (a) de planning van. de controle over en de evaluatie van de
schrijftaak; (b) het genereren en selecteren van inhoud; (c) het organiseren van inhoud; (d) het
formuleren of omzetten van gedachteninhouden in taal; (e) het in schrift coderen (spellen en
interpungeren). Voor de gebieden (b) tot en met (e) denken wij daarin redelijk geslaagd te zijn.
Het belangrijke, maar lastig in gesloten vragen te vangen gebied (a) ontbreekt vooralsnog echter
in de door ons ontwikkelde toets.

Onze toets bevat negen subtoetsen: (1) inhoud & organisatie, (2) stijl, (3) idioom. (4) gram-
maticarzinsniveau. (5) grammatica-woordniveau, (6) spelling-woordbeeld, (7) spelling-regel-
gestuurd vervoegingen, (8) spelling-regelge.stuurd verbuigingen, en (9) interpunctie. Uit de
bovenbeschreven modeltoetsingen per subtoets blijkt dat de verschillende testjes die samen een
subtoets vormen in een éénfactormodel te passen zijn. Ook blijkt dat de onderscheiding van
twee grammaticasubtoetsen en drie spellingsubtoetsen empirische ondersteuning vindt. De
modeltoetsingen per proefpersoongroep en de toetsingen van het totale model geven echter
reden tot twijfel over enkele gemaakte onderscheidingen. Dc problemen doen zich vooral voor
bij dc categorieën inhoud en organisatie, stijl cn idioom. Dc testjes die deze categorieën verte-
genwoordigen, blijken op één factor tc laden. Een mogelijke verklaring hiervoor is dat dc
vragen van deze testjes alle (mede) betrekking hebben op betekenisproblemen, zowel tussen als
binnen zinnen. De hoge correlatie tussen inhoud en organisatie, stijl en idioom is overigens niet
ongewoon. In ander onderzoek (Blok & Hoeksma. 1986; Dc Glopper. 1988; Van den Bergh.
1988) zijn ook zeer hoge correlaties tussen scores voor inhoud en stijl gevonden. In deze studies
zijn geen objectieve toetsen maar beoordelaars gebruikt, waardoor'de vraag of dc hoge overeen-
stemming tussen inhoud en stijl een beoordelaarsprobleem of een werkelijke empirische samen-
hang weerspiegelde, niet beantwoord kon worden. Onze resultaten wijzen duidelijk in de rich-
ting van een empirische samenhang.

-ocr page 91-

Meerkeuzetoets voor het meten van schrijfvaardigheid 85

Voor de hoge correlatie tussen speiiing-rege/gestuurd vervoegingen en interpunctie is min-
der gemakkelijk een verklaring te vinden. De subtoetsen van deze categorieën betreffen in onze
ogen echt andere problemen. Een
mogelijke verklaring is dat scholen waar veel aan vervoegingen
gedaan wordt, ook relatief veel aandacht aan interpunctie besteden. Een andere verklaring is dat
de items voor vervoegingen en interpunctie beide vragen om de bewuste toepassing van com-
plexe regels.

Tussen de factoren grammatica op zinsniveau en grammatica op woordniveau werden ook
hoge correlaties gevonden, maar deze liggen, gezien de inhoud van de twee factoren, in de lijn
der verwachting. Bij de toetsingen met de grootste power, die per categorie, bleek een model
met twee samengevoegde grammaticafactoren overigens significant slechter te passen dan het
tweefactormodel.

Voordat het komt tot externe validering valt aan de interne validheit van het ontwikkelde
instrument nog wel het een en ander te verbeteren. Van belang is in ieder geval de scheidbaarheid
van de factoren inhoud en organisatie, stijl en idioom nader te onderzoeken. Daartoe zou de
meerkeuzetoets bij wat oudere proefpersonen afgenomen kunnen worden, of zouden langere
subtoetsen met meer items gebmikt kunnen worden. Zulk onderzoek zou mogelijk een meer
gedifferentieerde factorstructuur op kunnen leveren. Als het tot uitbreiding en verbetering van
de toets komt, is het ook de moeite waard om alsnog te proberen of planning, controle en
evaluatie van het schrijven in meerkeuzevorm te operationaliseren vallen.

NOTEN

1- De splitsing in parallelle icsthelften is uitgevoerd met behulp van ccn Basic-programma geschreven door

dr. M. Eiting (SCO).

LITERATUUR

Baycns, M., Jansen, F. & Schakcnbos, H. (1981). Een foutenanalyse van schrijfprodukten. Taalbeheersing
1981. Lezingen op het VIOT-taalbcheersingscongres op 8,9 en 10 september 1981 aan de Techni-
sche Hogeschool Twente.
Enschede: Viot, p. 88-95.
ßcrgh. H. van den (1988).
Examens geëxamineerd. 's-Gravcnhagc: SVO.
B'ok, H. & Hoeksma, J.B. (1986).
Schaalconstructie voor opstelbeoordeling. Amsterdam: SCO.
Eiting, M.H. (1991) Sequential Reliability Tests. Applied Psychological Measurement, (persklaar).
Glopper. K. dc (1988). Schrijven beschreven. 's-Gravcnhagc: SVO.

"ayes, J.R. & Flower, L.S. (1980). Identifying the organization of writing processes. In L.W. Gregg & E.R.

Steinberg (Eds.), Cognitive processes in writing. Hillsdale, NJ: Erlbaum, 3-30.
ITED
(The Iowa Tests of Educational Development). (1952). State University of Iowa. Chicago: Scicncc
Research Associates.

Jöreskog, K.G. & Sörbom. D. (1986). LISREL VI. Analysis of lineair structural relationships by the method

of maximum likelihood. University of Upp.sala.
Mellenbergh, G.J. (1971).
Studies in studietoetsen. Psychologisch Laboratorium Universiteit van Amsterdam,
'beulen, Jr. van der (1971).
Spellinginstructie en woordverklaring. Het betwijfelde teken. 12c druk. Gro-
ningen, Wolters Noordhoff.
P'antenga. D., Prins, R.. Doorenbosch. L., Moed, K., Verbeek, M., Koster, A.. Geest, T. v.d., Jansonius, K.
& Fondcrie. L. (1971).
Evaluatie van de "gemengde taalopgaven" van de Cito-schooltocts Ba-
sisondcn^'ijs 1971 door de Werkgroep Taaltesten, Instituut voor Toegepaste Taalkunde, UvA
. Arnhem:
Cito.

Schoenen, R. (1987). Taalmaten; Constructie van gedetailleerde beoordelingsprocedures voor spreken en
schrijven ten behoeve van peilingsonderzoek. Deel 2: liet beoordelen van schrijfprestaties.
Stichting Centrum voor Onderwijsonderzoek van de Universiteit van Amsterdam. (SCO-rapport
<5 . 139)

schooien, E. van & Glopper, K. de (1990). Dc validiteit van mecrkcuzcinsü-umcnten voor het meten van

schrijfvaardigheid. Tijdschrift voor Taalbeheersing, 12, 2, p. 93-110.
S TïP
{Sequential Tests of Educational Progress). (1957). Cooperative Test Devision. Educational Testing
Service. Princeton, N.J. Los Angels 27. Calif.

-ocr page 92-

86 E. van Schooten en K. de Glopper

Warries, E. (1969). Proefwerken met vierkeuze-vragen voor het basisonderwijs. Pedagogische Studiën, 46,
l,p. 22-41.

Wesdorp, H. (1970). Itemtypen ter meting van de taalvaardigheid. Arnhem: Cito. (Cito-publikatie nr. 3.).

Wesdorp, H. (197 la). Een poging tot concretisering van de doelsteUingen van het onderwijs in het produktief-
schriftelijk taalgebruik.
Arnhem: Cito.

Wesdorp, H. (1971b). Experimentele constructie van een aantal toetsen voor de moedertaal. Niveau: eind-
HAVO.
Arnhem: Cito. (Cito-memo nr. 21.).

Wesdorp, H. (1972). De validiteit van de subtoets spelling uit de Schooltoetsen Basisonderwijs van het Cito.
Arnhem: Cito. (Cito-memo nr. 34.).

Wesdorp, H. (1973). Enkele praktische suggesties voor de constructie van schrijfvaardigheidstoetsen. Arnhem:
Cito. (Cito-memo nr. 61.).

Wesdorp, H. (1974). Het meten van de produktief-schriftelijke taalvaardigheid. Directe en indirecte methoden:
'opstelbeoordeling' versus 'schrijfvaardigheidstoetsen'.Puimer&nd:
Muusses.

Wesdorp, H. (1978). Evaluatie-technieken voor het moedertaalonderwijs. Een inventarisatie van
beoordelingsmethoden voor de stelvaardigheid, het begrijpend lezen, de spreek-, luister- en
discussievaardigheid. Den Haag: Staatsuitgeverij, RITP.

Wesdorp, H. e.a. (1986). De haalbaarheid van periodiek peilingsonderzoek. Een voorstudie op het gebied
van het taalonderwijs in de lagere school.
Lisse: Swets & Zeitlinger (SVO-rccks 85).

Manuscript ontvangen 23-11-1990

Definitieve versie ontvangen 5-4-1991

BIJLAGE 1. ITEM VOORBEELDEN PER ASPECT
1. INHOUD EN ORGANISATIE

1.1 Volgorde tussen en binnen zinnen bepalen:

Wat is de beste zin?

A De hengelaar, die een zalm ophaalde, wierp zijn lijn uit en deed weer aas aan de haak.
B De hengelaar haalde een zalm op, deed weer aas aan zijn haak en wierp zijn lijn uit.
C De hengelaar haalde een zalm op, wierp zijn lijn uit, en deed weer aas aan zijn haak.
D De hengelaar wierp zijn lijn uit, deed weer aas aan zijn haak en haalde een zalm op.

1.2 Zinnen bij onderwerpen

Bij de vragen staat steeds een zin. Deze zinnen komen uit een opstel getiteld: 'Regenachtige
dagen'.
Het opstel bestaat uit vier stukken (alinea's). Deze vier stukken gaan over de
volgende onderwerpen (A tot en met D):

A Hoe ik me voel als ik opsta en het blijkt een regenachtige dag te worden.
B De verschillen tussen regendagen in lente, zomer, herfst en winter.
C De goede, nuttige kanten van de regen.
D Leuke dingen, die je op regenachtige dagen kunt doen.

Zeg van elke zin die bij een vraag staat bij welk onderwerp (A, B, C of D) deze zin hoort.

*

- Op regenachdge dagen kun je in de plassen stampen en dat vind ik leuk. -
A B C D

-ocr page 93-

1.3 Geschiktheid onderwerpen

Meerkeuzetoets voor het meten van schrijfvaardigheid 87

Stel je voor, dat je vriend of vriendin een aantal ideetjes op papier gezet heeft, waaruit hij of
zij moet kiezen om een kort opstel
(van één pagina) te maken.
Nu moet jij zeggen wat je van die ideetjes denkt.

Kies A als het ideetje een te uitvoerig onderwerp betreft, dat veel te veel omvat voor een

kort opstel van één pagina.
Kies B als het ideetje een te beperkt onderwerp aansnijdt, waarover niet genoeg te zeggen

is, zelfs niet in een kort opstel van één pagina.
Kies C als het idee bruikbaar is. Dus als het over een onderwerp gaat dat best in een kort
opstel van één pagina
kan worden behandeld.

- Ik wil gaan vertellen hoe ik heet. -

ABC

1.4 Passendheid zin in alinea

Hieronder staat een verhaaltje. Eén zin hoort niet in dit verhaaltje thuis. Geef aan, door A,
B, C of D te kiezen welke zin niet in dit verhaaltje hoort. (Als je je vergist, zet dan een pijl
bij het goede hokje.) Er is maar één antwoord goed.
Hoe de planten verhuizen

1 Planten blijven niet altijd op dezelfde plek wonen.

2 Ze verhuizen.

3 Dat komt onder andere door de wind.

4 De wind blaast bij voorbeeld de pluisjes van een paardebloem weg.

5 Niet alleen de wind verspreidt de zaden, ook dieren doen dat.

6 Er blijven soms zaadjes aan de vacht van een konijn haken.

7 Ook blijven er wel eens takjes aan de vacht van een konijn hangen.

8 Ook de vogels zorgen voor de verspreiding van de planten.

9 Dat gaat zo.

10 Eerst eten ze de kersen van de bomen en dan poepen ze later de pit ergens anders uit.

11 Zelfs mieren helpen mee met de verhuizing van planten.

12 Die brengen bij voorbeeld het zaad van de viooltjes van de ene plaats naar de andere.
A zin 1

B zin 3
C zin 7
D zin 8

2. STIJL

2.1 Vorm uitdrukkingen

Welke woorden moeten op de open plaatsen in de onderstaande zin ingevuld worden? Kies
één antwoord (A. B, C of D).

- Het is een (1).....pil, maar we zullen (2).... -

A (1) bittere - (2) erdoorheen moeten bijten
B (1) bittere - (2) hem moeten slikken
C (1) zure - (2) erdoorheen moeten bijten
D (1) zure - (2) hem moeten slikken

-ocr page 94-

88 E. van Schooten en K. de Glopper

2.2 Vaste voorzetsels

Welk woord moet op de open plaats in de onderstaande zin ingevuld worden? Kies één
antwoord.

- Geef je nog .... Peter, of houd je niet meer van hem? -
A om
B voor
C over
D op

2.3 Juiste woord invullen

Welk woord past het best op de open plaats in onderstaande zin?

- Deze jongen is niet in staat een .... gesprek te voeren; hij kan alleen maar gekke dingen
zeggen. -

A mooi

B leuk

C grappig

D ziiuiig

2.4 Opstel verbeteren

Hieronder staat een opstel van een leerling. In dit opstel wordt een kampeerboerderij be-
schreven. De leerling die dit opstel geschreven heeft, heeft met zijn klas in deze boerderij
gelogeerd. In het opstel zitten een aantal fouten. De zinnen zijn genummerd, zodat er in de
vragen naar de zinnen verwezen kan worden.

Lees het opstel en beantwoord dan de vragen.

1 De kampeerboerderij

2 Ik zal jullie beschrijf hoe onze kampeerboerderij eruit ziet.

3 Wij zaten in een erg mooie omgeving.

4 Achter, links en rechts van de kampeerboerderij was een bos.

5 .Vóór de kampeerboerderij liep een weg, waar je als je rechtsafging, het dorp Helmwijk
inliep.

enz.

Hoe kun je zin 4 het best verbeteren? (Als dc zin goed is. kruis dan "A" aan.)
A Dc zin is goed.

B Links en rechts achter dc kampeerboerderij was een bos.
C Links achter en rechts achter de kampeerboerderij was een bos.
D Achter de kampeerboerderij was een bos links cn rechts.

3. IDIOOM

«

3.1 Betekenis voegwoorden

Welk woord moet op dc open plaats in de onderstaande zin ingevuld worden? Kies één
antwoord.

-ocr page 95-

Meerkeuzetoets voor het meten van schrijfvaardigheid 89

- De voorwaarde .... ik wekelijks moet trainen, vind ik onaanvaardbaar. -

A omdat

B dat

C of

D doordat

3.2 Betekenis uitdrukkingen

- Welk spreekwoord past het best bij de onderstaande zin?
Kies één antwoord.

- Die gestolen appels zullen je slecht bekomen. -

A Aan de vruchten kent men de boom.

B De appel valt niet ver van de stam.

C Gestolen goed gedijt niet.

D Hoogmoed komt voor de val.

3.3 Woordbetekenis

Zij snippert de appel.

A eet hem lekker op

B pakt hem stiekem

C snijdt hem in kleine stukjes

D wast hem

3.4 Betekenis zinnen

- Wat betekent dc onderstaande zin?

- Dankzij dc medewerking van ouders cn politic is voorkomen, dat er teveel schade werd
aangericht. -

A Door dc medewerking van ouders cn politie is bereikt, dat cr geen schade werd aange-
richt.

B Door dc medewerking van ouders cn politic is bereikt, dat er veel schade werd aange-
richt.

C Door de medewerking van ouders cn politie is bereikt, dat cr vrij veel schade werd
aangericht.

D Door de medewerking van ouders en politie is bereikt, dat cr vrij weinig .schade werd
aangericht.

4. GRAMMATICA OP ZINSNIVEAU

Foute zinsstructuur

Van dc huiden van gedode dieren maken ze bontjassen van. goed fout

Zinsdelen weglaten

Welk deel kan worden weggelaten?

-ocr page 96-

90 E. van Schooten en K. de Glopper

- Een auto, die een lading hout vervoerde, is verongelukt op het kruispunt. -

A , die een lading hout vervoerde,

B Een auto, die een lading

C een lading hout

D , is verongelukt op het kruispunt

4.3 Verwijzing

De klok van mijn zusje,.....een kapotte wijzerplaat had, is weggegooid.-

A die

B wat

C dat
D dezelfde

4.4 Lidwoord bij zelfstandig naamwoord

Als.....president zou hij dat moeten weten.-

A de
B het

C - (= geen lidwoord)

4.5 Incongruentie van tijd

Welke van de vier onderstaande zinnen is de beste zin?

A Ik had je wel willen helpen als jij dat op prijs stelt.

B Ik had je wel willen helpen als jij dat op prijs gesteld had.

C Ik had je wel willen helpen als jij dat op prijs gesteld hebt.

D Ik had je wel willen helpen als jij dat op prijs zult stellen.

5. GRAMMATICA OP WOORDNIVEAU

5.1 Verbuiging bijvoeglijk naamwoord

een vierkant doosje goed fout

5.2 Meervoudsvorming

In de slagerij lagen de beenderen schots en scheef door elkaar op de grond.

goed fout

5.3 Vergrotende en overtreffende trap

Jan is beterder dan Piet. ' goed fout

5.4 Vorming verkleinwoord

- In de tuin hingen slingers en lampiontjes. goed fout

-ocr page 97-

Meerkeuzetoets voor het meten van schrijfvaardigheid 91

5.5 Vorming zelfstandig naamwoord

Iemand die voetbalt kun je een 'voetbal/er' noemen, maar iemand die schoenen maakt noem
je een 'schoen/Ma/:er'. Geef aan hoe het woord eindigt dat op de drie puntjes ingevuld moet
worden.

- Een man die een molen heeft, is een ... -

A ....aard
B ....aar
C ....er
D ....maker
E ....eur
F ....ast

6. SPELLING

Woordbeeldspelling

Mischien komt hij. goed fout

6.2 Regelgestuurde spelling, vervoegingen
Ö-2.1 Voltooid deelwoord (t/d)

Achter de boerderij ligt een mestvaalt die een

doordringende geur verspreid. goed fout

6-2.2 Onvoltooid verleden tijd (dd/tt/t/d)

Hij antwoordde niet. goed fout

6.3 Regelgestuurde spelling, verbuigingen
6-3.1 Bijvoeglijk gebruikt voltooid deelwoord

De fotograaf vergrote de foto. goed fout

6.3.2 Meervoudsvorming

Onze opaas waren thuis. goed fout

6-3.3 Zelfstandig voomaamwoordelijk meervoud (-n)

Twee mannen waren niet gekomen, omdat beide ziek waren. goed fout

6-3.4 Genitief-s/ apostrof

Ik heb opa's fiets gerepareerd. goed fout

Stoffelijk bijvoeglijk naamwoord

Hij heeft gouden tanden in zijn mond. goed fout

-ocr page 98-

92 E. van Schooten en K. de Glopper

6.3.6 Verkleinwoorden

Hij zag een woninkje in het bos. goed fout

6.3.7 Stemhebbende of -loze medeklinker als uitgang

De knop van de radio is kapot. goed fout

6.3.8 (Mede-)klinker enkel of dubbel

Zij gooide de appelschillen in de prullebak. goed fout

6.3.9 Samenstellingen

Is dat een brulaap! goed fout

6.3.10 Verbindings- of samentrekkingsstreepje

Hij werkt bij de radio-omroep. goed fout

7. INTERPUNCTIE

7.1 Afbreken van woorden

be-staan goed fout

7.2 Komma's

Januari, de koudste maand van het jaar, is voor dit doel ongeschikt. goed fout

7.3 Aanhalingstekens

Nog eenmaal zei hij kalm; „Ik ben onschuldig". goed fout

7.4 Hoofdletters

Hij is Lid van de Partij van de Arbeid. goed fout

-ocr page 99-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 2. pp. 93-115

Leren begrijpen van anaforische relaties in teksten:
effecten van instructie in jaargroep vijf van het
basisonderwijs

E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten
Vakgroep Onderwijskunde, K.U. Nijmegen

ABSTRACT

This study examined whether Dutch third grade students can effectively be taught to comprehend
anaphoric relationships in Dutch texts. Based on the direct instruction model, a series of eleven
lessons was developed to teach six types of anaphora. The study assessed the results of teaching
these lessons in two elementary schools for two consccutive years (n's of 74 and 59) and in another
group of six schools during the next two years (n's of 168 and 165). In the first two years a control
group was used (n's of 30 and 113). The results showed the program to be effective. Contrary to
expectations poor comprchendcrs did not profu more from the instruction than the other students.
No transfer effect on identifying the main idea of a text and on reading comprehension in general
could be demonstrated.

INLEIDING

Uit Amerikaans (Pearson, 1984) en Nederiands onderzoek is de laatste jaren steeds duidelijker
naar voren gekomen dat het mogelijk is om effectief instructie in begrijpend lezen te realiseren,
fnits op een systematische wijze te werk wordt gegaan. De meest hoopgevende resultaten zijn
bereikt waar het onderwijs zich richtte op het aanleren van deelvaardigheden (Rosenshine &
Stevens, 1984; Hansen, 1981; Aarnoutse, 1982). In het hier gerapporteerde onderzoek staat één
deelvaardigheid van begrijpend lezen centraal: het begrijpen van anaforische relaties in teksten.
Nagegaan is in hoeverre leeriingen door middel van het programma "Verwijswoorden" (Aarnoutse,
Roelofs & Driessen, 1989) anaforische relaties in teksten beter leren doorzien.

Om een tekst te kunnen begrijpen moet dc lezer onder andere een aantal relaties tussen
zinnen begrijpen. Vaak zijn dit anaforische relaties (zie o.m. Haviland & Clark, 1974; Garrod &
Sanford, 1977; Van Dijk & Kintsch, 1983; Webber, 1980). Anaforische relaties tussen tekstdelen
Ontstaan door het gebruik van naamwoorden, naamwoordgroepen en voornaamwoorden die
terugwijzen naar ccn eerder in de tekst genoemd woord of naar ccn groep van woorden. De
anaforisch gebruikte (voor)naamwoordcn noemen we anafora of verwijswoorden. Het tekstdeel
Waarnaar teruggewezen wordt, noemen wc het antecedent. Een antecedent is veelal expliciet
terug te vinden in een eerdere zin, maar het kan ook voorkomen dat een anaforische uitdrukking
verwijst naar een impliciet antecedent. Dit is een antecedent dat niet letteriijk in de tekst staat
Vermeld, maar dat doordc lezer moet worden afgeleid (Webber, 1980). Het gebruik van anafora
draagt bij aan de cohesie binnen een tekst: de continuïteit die bestaat tussen één deel van ccn
tekst cn een ander deel. Een eenvoudig voorbeeld: "Toen het ging dooien, werden de mensen
yan het ijs gehaald. Sommigen hadden nog graag dc finish gehaald." In dit voorbeeld verwijst
"sommigen" terug naar "mensen" in de eerste zin. Om dc informatie uit de tweede zin te kunnen
'^grijpen moet dc lezer ccn koppeling kunnen maken tussen dc anafoor "sommigen" en het
^^tecedent "mensen". Meer algemeen geldt dat het creëren van coherentie tussen "oude" cn
"nieuwe" informatie van centraal belang is bij het begrijpen van teksten (vgl. Van Dijk &
J^intsch. 1983).

Erasmusplein 1. Postbus 9103, 6500 HD Nijmegen.

-ocr page 100-

94 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

In geschreven en gesproken tekst worden anafora in veel verschillende vormen gehanteerd.
Het is dan ook geen eenvoudige zaak alle gebruikte vormen van anafora onder te brengen in één
inzichtelijk beschrijvingssysteem. Het meest uitputtende linguïstische beschrijvingssysteem is
dat van Halliday en Hasan (1976). Zij brengen anafora onder in een domein van "cohesive ties".
In dit systeem wordt uitgegaan van de aard van de relatie tussen antecedent en anafoor. Zij
onderscheiden: referenties, substituties, ellipsen, conjunctie en lexicale cohesie. Pearson en
Johnson (1978) maken een minder uitputtend onderscheid in acht typen anafora, waarbij meer
wordt uitgegaan van de grammaticale vorm van het verwijswoord: persoonlijke en aanwijzende
voornaamwoorden; bijwoordelijke voornaamwoorden van plaats; weggelaten zelfstandige
naamwoorden (en gesubstantiveerde bijvoeglijke naamwoorden); rekenkundige anafora (hoofd-
en rangtelwoorden); inclusieve anafora (synoniemen en abstracties); inclusieve anafora verwij-
zend naar een zinsdeel, zin of alinea; weglatingen van het weggelaten naamwoordelijk deel van
het gezegde; en vervangingen van werkwoorden. Deze typen anafora zouden volgens de auteurs
veelvuldig voorkomen in teksten voor het basisonderwijs. In het programma Verwijswoorden
komen zes typen anafora aan de orde, ontleend aan de indeling van Pearson en Johnson. In Tabel
1 zijn de opgenomen typen anafora weergegeven, voorzien van enkele voorbeelden. Bij elk van
deze typen is tussen haakjes aangegeven om welke soort van anaforische relatie het gaat in
termen van de classificatie van Halliday en Hasan.

De mate waarin een lezer anaforische relaties doorziet, wordt bepaald door een ingewikkeld
samenspel van factoren in de lezer en kenmerken van de tekst. Belangrijke factoren binnen de
lezer zijn onder meer: voorkennis met betrekking tot het thema van de tekst (Webber, 1980), de
bekwaamheid tot infereren (Hirst & Brill, 1980), de decodeersnelheid en de werking van het
korte-termijngeheugen (Bamitz, 1986). Als relevante tekstkenmerken komen veelal naar voren:
het type tekst, zoals verhalend versus informatief (Kameenui & Carnine, 1982), de omvang van
het antecedent (naamwoord, naamwoordgroep of zin, Bamitz, 1980), de afstand tussen antece-
dent en anafoor (Clark & Sengull, 1979; Bamitz, 1980), de richting van de verwijzing (een
verwijzing naar een vorige zin of naar een volgende zin, Bamitz, 1980) en syntactische of
semantische aanwijzingen in dc anafoor, zoals geslacht of voorkeur voor bepaalde werkwoorden
(Caramazza, Grober & Garvcy, 1977).

In een groeiend aantal Engelstalige studies wordt het relatieve belang van anafora bij onderwijs
in begrijpend lezen beklemtoond. Zo blijkt dat veel leerlingen in groep 5 en 6 van het Engelse en
Amerikaanse basisonderwijs problemen hebben met het doorzien van anaforische relaties (Lesgold,
1974; Richek, 1976; Bamitz,1980; Oakhill, 1986). Er zijn zelfs aanwijzingen dat problemen
met het doorzien van anaforische relaties ten grondslag kunnen liggen aan stagnaties in de
ontwikkeling van het begrijpend lezen. Dit blijkt onder meer uit studies van Oakhill (1986,
1987). Zij vond dat lezers die zwak zijn in begrijpend lezen bij het oplossen van anaforische
relaties te weinig gebruik maken van syntactische aanwijzingen in de anafoor en meer problemen
krijgen naarmate het achterhalen van het antecedent meer inferenties vergt. Webber (1980)
sprak eerder al het vermoeden uit dat een aantal problemen bij het begrijpend lezen weleens
temg te voeren kan zijn op een gebrekkig begrip van anaforische relaties in teksten. Irwin
(1986) concludeert misschien terecht: "The growing body of evidence supporting the relationship
between cohesion and comprehension suggests that this (inferring various cohesive relations) is
a previously ignored or misunderstood comprehension skill." (p. 40).

Het is dan ook opmerkelijk dat onderzoek en onderwijs op het terrein van begrijpend lezen
binnen het Nederlandse taalgebied zo weinig aandacht besteden aan het begrijpen van anaforische
relaties. In de Amerikaanse traditie van dc directe instructie zijn op dit gebied cchtcr al vcrschilIcndc
positieve ervaringen opgedaan. Baumann (1986) onderzocht het effect van instructie in anaforische
relaties voor groep 5 van het basisonderwijs. Zijn onderwijsprogramma was opgebouwd vol-
gens het model van directe instmctie, waarbij elke les een viertal fasen kende: een introductie-
fase, waarin opgenomen een terug- en een voomitblik, een presentatiefase, waarin de leerkracht
de vaardigheid demonstreert en modelleert, een fase van geleide oefening, waarbij de leerkracht
actief begeleidt en veel feedback geeft aan de leeriingen en een fase waarin leeriingen zelfstandig
oefenen. De resultaten van het onderzoek wezen uit dat leerlingen na afloop van het programma

-ocr page 101-

Leren begrijpen van anaforische relaties in teksten 95

Tabel 1. Gehanteerde typen anafora in het programma Verwijswoorden en in de Verwijswoordentest.

!• Persoonlijke voornaamwoorden (referenties),
jij' je. nie, mij, zij, ze, haar, hem
hij, zij, het, wij, we, jullie, zij, ze, hen, hun etc.

Voorbeelden: Caro en Leon wandelen met de hond. Ze laten de hond rennen in het bos.

Kwak de kikker ligt die winter lekker in de modder. "Mij zie je niet meer deze winter!", riep Kwak vrolijk.

2. Aanwijzende voornaamwoorden (substituties en referenties),
die, dit, deze, dat

Voorbeeld: Kijk, in dit hokje staat een schildwacht met een rode muts. Die staat de hele dag doodstil.
Erik legde
het autootje naast de hijskraan. "Dit heb ik ook gekregen", zei hij uots.

3. Bijwoordelijke voornaamwoorden van plaats (referenties),
daar, er, hier

daarop, erop, hierop
daarin, erin, hierin
daarvoor, ervoor, hiervoor ctc.

Voorbeeld: In de wachtkamer van landarts Boor slaat een oude bank. Daarop zit een dikke meneer een si-
g^ tc roken.

Bij mooi weer liggen veel mensen op het strand. Je kunt er lekker in de zon liggen.

Synoniemen en abstracties (lexicale cohesie),
zwijnen-varkens, kar-wagcn, oma-grootmoeder ctc.
auto's, fictsen-vocrtuigen, poes, hond-huisdieren etc.

Voorbeeld: 's Zomers zie je veel vliegen en muggen. Die insecten zijn vaak knap lastig voor de mensen.
Ronnie werd laatst door een mug gestoken. Hij kreeg toen ccn hele dikke
bult op zijn wang. Zijn moeder
niaakte zich al zorgen. Toen de
bobbel groter werd, moest Ronnic naar de dokter.

Rekenkundige anafora en gesubstantiveerde bijvoeglijke naamwoorden (ellipsen),
eerste, laatste, sommigc(n), de meestc(n), dc twee, de vier ctc.
zwarte, lange, korte, dikke etc.

Voorbeeld: Op dc Jorisschool was dit jaar ccn knikkerwcdsuijd. De leerlingen legden hun knikkers op het
schoolplein.
De meesten hadden al vaker geknikkerd.

Heel lang geleden leefde er een geweldige reus op dc Bobbclberg. Hij had twee verschillende voeten: ccn lange
smalle
en een korte dikke.

Inclusieve anafora, verwijzend naar een complete gedachte of zin (substüutie).
dit idee. dat plan, deze opdracht, dit, dat etc.

Voorbeeld: Acht vrienden willen op ccn dag iets leuks gaan doen bij het water. Dc ene helft wil gaan vissen
cn de andere helft wil gaan roeien. "Laten wc
eerst een halfuur gaan roeien en daarna gaan vissen". Dat idee
Vonden alle vrienden goed.

"aul stookt ccn vuurtje in het bos. Dat mag hij niet van zijn moeder.

duidelijk beter presteerden op instrumenten die het begrip van an^orische relaties meten dan
'cerlingen uit een controlegroep. Bovendien bleken vooral zwakke lezers profijt tc hebben van
gevolgde aanpak. Meer algemeen blijkt dat Ic.sgeven volgens het model van directe instructie
Vooral vruchten afwerpt bij dc zwakkere leerlingen (Rosenshine & Stevens, 1984).

-ocr page 102-

96 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

Binnen het diepteproject 'Voortgezet technisch en begrijpend/studerend lezen" is vier jaar
lang gewerkt volgens de uitgangspunten van de directe instructie in begrijpend lezen. Ter
verbetering van het voortgezet leesonderwijs zijn voor een aantal deelvaardigheden van begrij-
pend lezen programma's of lessenseries ontwikkeld, beproefd en geëvalueerd. Deze programma's
werden op de vakgroep Onderwijskunde ontwikkeld en in samenwerking met de onderwijs-
begeleidingsdienst in Sittard, het Katholiek Pedagogisch Centram in 's-Hertogenbosch en de
PABO in Sittard uitgeprobeerd op twee zogenaamde ontwikkelscholen en zes volgscholen in en
rondom Sittard. Eén van de produkten van het diepteproject is het programma Verwijswoorden
voor leerlingen uit groep vijf van het basisonderwijs. In dit programma, dat gedeeltelijk is
gebaseerd op het werk van Baumann, staat het leren begrijpen van anaforische relaties centraal.

Het diepteproject kende na de ontwikkelfase van twee jaar (1986-1988) een even lange fase
van implementatie op beperkte schaal (1988-1990). Tijdens deze tweede fase had de vakgroep
Onderwijskunde tot taak de programma's te evalueren. De zes volgscholen kregen nu de gelegenheid
om in navolging van de ontwikkelscholen de herziene materialen in te voeren en hun bevindin-
gen te rapporteren. Ook zij ontvingen hierbij ondersteuning en begeleiding van de onderwijs-
begeleidingsdienst.

Het diepteproject had onder andere tot doel om leerlingen die zwak zijn in begrijpend lezen
te helpen bij het leren aanpakken en begrijpen van teksten. Verwacht werd dat zij van de
systematische wijze van onderwijzen zouden profiteren. Uitgaande van de veronderstelling dat
begrijpend lezen een complex proces is waarin allerlei deelprocessen en -vaardigheden een rol
spelen (vgl. Perfetti, 1985; Beek, 1989; Just & Carpenter, 1987), kon echter niet zonder meer
verwacht worden dat instmctie in één deelvaardigheid een sterk effect zou hebben op het hele
proces van begrijpend lezen. Om een effect op het begrijpend lezen in het algemeen te bereiken
is instructie in meerdere deelvaardigheden zeer waarschijnlijk noodzakelijk (vgl. Aarnoutse,
1982). Verder mocht niet verwacht worden dat instractie in één specifieke vaardigheid, i.e. het
leren begrijpen van anaforische relaties, een sterk effect zou hebben op andere deelvaardigheden.

In dit artikel wordt verslag gedaan van de bevindingen met het programma Verwijswoorden.
De volgende vragen staan centraal:

1. Is het mogelijk het begrip van anaforische relaties te verbeteren bij leerlingen uit groep 5 van
het basisonderwijs door middel van directe instractie?

2. In welke mate profiteren zwakke lezers van directe instractie in anaforische relaties vergele-
ken met de overige leerlingen?

3. In hoeverre heeft instractie in anaforische relaties invloed op de beheersing van een andere,
verwante vaardigheid van begrijpend lezen, in casu het afleiden van de hoofdgedachte uit
een informatieve tekst?

4. In hoeverre heeft instractie in anaforische relaties invloed op het begrijpend lezen in het
algemeen?

De opzet van het programma Verwijswoorden

De opzet van de lessenreeks wordt bepaald door twee variabelen die in de literatuur steeds als
relevant naar voren komen: het type anafoor en de afstand tussen antecedent en anafoor.

In het programma worden de 6 typen anafora aangeleerd zoals onderscheiden in Tabel 1. Dc
typen worden onderwezen in de volgorde zoals in de tabel aangegeven. Deze volgorde is voor-
namelijk om logische en didactische redenen gemaakt. Begonnen wordt met anafora die in
sterke mate vervangend zijn voor hun antecedent (typen 1 tot cn met 4). Daarna volgen anafora
die niet door hun antecedent kunnen worden vervangen (type 5). Ten slotte komen anafora aan
de orde die naar hele gedachten verwijzen (type 6).

De laatste drie lessen van het programma worden besteed aan dc kwestie van dc afstand
tussen antecedent en anafoor. Het aantal woorden tussen antecedent cn anafoor wordt daarbij
systematisch vergroot.

Dc teksten waarin de anafora zijn verwerkt, zijn afwisselend informatief cn verhalend van
aard. Tijdens dc instracticfasc van elke les wordt voornamelijk gewerkt met paren van zinnen.

-ocr page 103-

Leren begrijpen van anaforische relaties in teksten 97

Waarin anafora voorkomen. Tijdens de verwerkingsfase worden naast zinnen korte teksten
gehanteerd.

Zoals eerder vermeld is het programma opgezet volgens de principes van dkecte instructie.
Elke les bestaat uit vier fasen. Begonnen wordt met een
introductie, waarin de leerkracht te-
rugblikt op datgene wat in de vorige les aan de orde is geweest en uitlegt wat het doel is van de
les. Hierop volgt een fase van
klassikale presentatie, waarin de leerkracht de nieuw aan te leren
(stap in de) strategie presenteert, onderwijst en modelleert. In de derde fase is sprake van
begeleid oefenen. De leeriingen oefenen tijdens deze fase de aangeleerde strategie onder bege-
leiding van de leerkracht. De les wordt besloten met een fase van
individuele verwerking,
waarin de leerimgen de aangeleerde strategie zelfstandig toepassen.

Hieronder wordt het programma Verwijswoorden beschreven door een korte karakterisering
van elke les.

Les 1: In deze les leren de kinderen de betekenis en functie van verwijswoorden kennen. Ge-
leerd wordt dat verwijswoorden terug verwijzen naar woorden die in de vorige zin genoemd
zijn. Geoefend wordt aan de hand van persoonlijke voornaamwoorden (type 1: hij, zij, het etc.)
in eenvoudige teksten.

Les 2: De leerlingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden die behoren bij persoonlijke voornaamwoorden (type 1: hij, wij.
jullie etc.).

Les 3: De leeriingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden die behoren bij aanwijzende voomaamwoordeii (type 2: deze, dit,
die, dat) en bijwoordelijke voornaamwoorden van plaats (type 3: daar, er, hier).

Les 4: De leerlingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden die behoren bij synoniemen (type 4: opa-grootvader) en abstracties
(type 4: mus-vogel).

Les 5: De leerlingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden bij verwijswoorden die niet strikt vervangend zijn voor hun antecedent
' c. gesubstantiveerde bijvoeglijke naamwoorden (type 5: de gele, de dikke) en telwoorden (type
de eerste, de drie, de meesten).

Les 6: De leeriingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden bij verwijswoorden die niet strikt vervangend zijn voor hun antecedent.

de eerste plaats bij gesubstantiveerde bijvoeglijke naamwoorden en telwoorden (type 5: de
8ele, de eerste, de meeste, dc drie). In de tweede plaats bij een aantal bijwoordelijke voor-
naamwoorden van plaats (type 3: daarin, hierop, erin etc.).

Les 7: De leeriingen leren in teksten van verschillende moeilijkheidsgraad antecedenten af te
'eidcn bij verwijswoorden die terugslaan op een hele gedachte, een zin, een idee etc. (type 6).

Les 8: In deze les worden alle typen (1 t/m 6) verwijswoorden herhaald. De leeriingen identificeren
leiden antecedenten af bij dc zes onden?cheidcn typen verwijswoorden in teksten van ver-
schillende moeilijkheidsgraad.

Les 9: In deze les leren de leeriingen dat het antecedent van een verwijswoord op verschillende
^fstand kan staan van het verwijswoord. De leeriingen identificeren of leiden antecedenten af
persoonlijke voornaamwoorden en aanwijzende voornaamwoorden (typen 1 en 2) in teksten
verschillende moeilijkheidsgraad.

-ocr page 104-

98 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

Les 10: De leerlingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden bij bijwoordelijke voornaamwoorden van plaats, synoniemen en
abstracties (typen 3 en 4). Daarbij wordt de afstand tussen antecedent en verwijswoord gevarieerd.

Les 11: De leerlingen leren in teksten van verschillende moeilijkheidsgraad antecedenten te
identificeren of af te leiden bij gesubstantiveerde bijvoeglijke naamwoorden en telwoorden en
verwijswoorden die terugslaan op een hele gedachte, een zin, een idee etc. (typen 5 en 6).
Daarbij wordt de afstand tussen antecedent en verwijswoord gevarieerd.

ONDERZOEKSOPZET

Gerapporteerd worden de gegevens van vier schooljaren, te weten 1986-1987,1987-1988,1988-
1989 en 1989-1990. De onderzoeksgroepen zijn gedurende die periode wisselend van grootte
geweest. De experimentele groep bestaat uit alle leerlingen van de klassen waarin het programma
Verwijswoorden werd toegepast. Dit zijn de groepen vijf van de twee ontwikkelscholen (1986-
1988) en van de zes volgscholen (1988-1990). In het schooljaar 1987-1988 kon gebruik worden
gemaakt van een controlegroep, bestaande uit vijf scholen in het zuiden en oosten van het land.
Bij één van deze scholen waren ook al metingen verricht in het eerste onderzoeksjaar. In de
controlegroep is het reguliere leesonderwijs gegeven zonder expliciete instructie in anaforische
relaties. Voor de laatste twee schooljaren, waarin het onderzoek gericht werd op de volgscholen,
geldt een pretest-posttest design met één enkele experimentele groep. In alle schooljaren is
onmiddellijk voorafgaand aan en direct volgend op de uitvoering van het lesprogramma het
begrip van anaforische relaties gemeten. In de controlescholen vonden metingen plaats op
overeenkomstige tijdstippen.

Elke les van het programma Verwijswoorden is uitgewerkt in een handleiding voor de leer-
kracht en materiaal voor de leerlingen. In de handleiding staan instmcties voor de leerkracht
uitvoerig beschreven. Dc leerkrachten die het programma uitvoerden, dienden zich strikt te
houden aan deze instructies. Dit om te voorkomen dat de resultaten per klas niet meer vergelijkbaar
zouden zijn. De elf lessen van elk 45 minuten werden met een frequentie van drie in twee weken
gegeven. De feitelijke uitvoering van de lessen door de leerkrachten kon slechts marginaal
worden gecontroleerd. Gedurende evaluatieve bijeenkomsten op de deelnemende scholen is
door de onderzoekers steeds gevraagd in welke mate men was afgeweken van dc voorgeschre-
ven activiteiten. Uit deze bijeenkomsten bleek dat dc leerkrachten zich stipt hadden gehouden
aan de handleiding.

Tabel 2. Overzicht van dc samenstelling der onderzoeksgroepen, hel gebruikte design cn dc tc beantwoor-
den onderzoeksvragen per schooljaar.

Schooljaar

exp.groep

conuolcgrocp

design

onderzoeksvraag

1986-1987

3 klassen

1 klas.

prcicst-posttcsl

vr 1

(april-juni)

(n=74)

(n=30)

controlegroep

1987-1988

3 klassen

5 klassen

prcicsi-posttcsl

vr 1 t/m 4*

(januari-maarO

(n=59)

(n=113)

controlegroep

1988-1989

6 klassen

géén

prclcsl-posllcsi

vr 1.2

(sept.-nov.)

(n=168)

«

1989-1990

6 klassen

géén

pretest-posttest

vr 1.2

(januari-maarl)

(n=165)

Bij dc beantwoording van vraag twee worden géén gegevens van dc conuolcgrocp gebruikt.

-ocr page 105-

Leren begrijpen van anaforische relaties in teksten 99

Alle deelnemende leerkrachten hadden ten minste vijf jaar onderwijservaring. In Tabel 2 is
de samenstelling van de onderzoeksgroep per schooljaar weergegeven. Tevens wordt vermeld
tijdens welke periode in het schooljaar het programma Verwijswoorden is uitgevoerd.

Voor de beantwoording van de eerste vraagstelling kunnen de gegevens van alle schooljaren
worden gebruikt. Vraag 2 kan beantwoord worden met de gegevens van drie schooljaren. Vraag
3 en 4 kunnen alleen worden beantwoord met behulp van de gegevens uit het schooljaar 1987-
1988. De afhankelijke variabelen zijn het begrip van anaforische relaties, begrijpend lezen in
het algemeen en een specifieke vaardigheid op het gebied van begrijpend lezen, namelijk het
afleiden van de hoofdgedachte uit een informadeve tekst.

Instrumenten

In Tabel 3 is een overzicht gegeven van de afgenomen tests per schooljaar. Het begrip van
anaforische relaties is gemeten met behulp van een speciaal voor dit doel ontwikkelde test, de
Verwijswoordentest (Aamoutse, Roelofs & Driessen, 1989). De test bestaat uit twee parallel-
vormen. Vorm A is steeds voorafgaand aan het programma afgenomen en vorm B direct na
afloop van het programma. De test bestaat uit 27 meerkeuzevragen waarbij gevraagd wordt naar
het correcte antecedent van een anafoor uit een tekst. Verder bevat de test vier cloze-items.
Hierbij krijgt de leerling opdracht om in een korte tekst het juiste woord in te vullen op plaatsen
Waar woorden zijn weggelaten. Op de open plaatsen wordt in feite gevraagd naar het antecedent
van een anafoor. In beide testvormen worden de zes typen anafora gehanteerd die zijn beschreven
in Tabel 1.

De A- en de B-versie zijn geconstrueerd op basis van de resultaten van een onderzoek dat
eerder op acht basisscholen (n=115) in het (zuid)oostcn van het land is uitgevoerd. Uit een
Verzameling van 156 items, verdeeld over vier testboekjes, resteerden 62 items die zowel inhoudelijk
^Is psychometrisch voldeden aan de gestelde eisen. De inhoudelijke cis was een gelijke verde-
Iwg van items over de onderscheiden typen anafora in beide parallelvormen. Dc psychometrische
eisen hadden betrekking op dc betrouwbaarheid van de test als geheel en het discriminerend
vermogen van dc items (itcmrcstcorrclatie <.25; .20 < item p-waarde <.80). De psychometrische
gegevens van dc twee testvormen worden Tabel 4 vermeld.

In het schooljaar 1987-1988 is na afloop van het experimentele programma ccn eerdere
Versie van de Hoofgedachtctcst van Aamoutse, Feenstra & Bisschop (1985) afgenomen, zowel

^abcl 3. Overzicht van dc afgenomen tests per schooljaar.

Schooljaar Vcrwijswoordentest Begrijpend lezen

Vonn A cn B Schriftelijke 1. CITO E3

opdrachten 2. Hoofdgedachtetest

•'0/-1988

988-1989
1989.1990

!^86-l987 ja nee nee

\lll-im ja ja ja

ja ja nee

ja ja nee

^orm A

^Orm B

^J^l 4. Enkele psychomeuische gegevens van dc Vcrwijswoordentest vorm A cn B.

aantal items

Gem

Sd

a

^AB

31

20.5

6.8

.89

.89

31

20.2

6.3

.86

-ocr page 106-

100 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

in de experimentele groep als in de controlegroep. Deze test meet voor jaargroep 5 de vaardig-
heid in het afleiden van de hoofdgedachte uit een informatieve tekst (zie vraagstelling 3). De
hier gebruikte versie van de test teh 29 items.

Het begrijpend lezen in het algemeen is gemeten met behulp van twee tests, namelijk de test
Cho Begrijpend lezen E3 (Cito, 1981) en de test Schriftelijke Opdrachten 3 (Brus & Van
Bergen, 1973). Beide tests staan bekend als maten die begrijpend lezen op zins- en tekstniveau
meten. De eerste test bestaat uit 25 items, terwijl de tweede 32 items omvat. De eerste test is
afgenomen na afloop van het experimentele programma (half maart 1988) in de experimentele
groep en in de controlegroep. Deze test wordt gebruikt voor de beantwoording van vraag 4 naar
het transfer-effect van het programma op begrijpend lezen in het algemeen. De tweede test is
afgenomen aan het begin van groep vijf in de periode september-oktober (1987,1988 en 1989).
Om praktische redenen was het niet mogelijk deze lest af te nemen in de controlegroep. De
scores op de test Schriftelijke Opdrachten worden gebruikt als een voormeting voor begrijpend
lezen in het algemeen, ter beantwoording van de vraag naar het differentieel effect van de
instructie voor zwakke en goede lezers (vraagstelling 2).

RESULTATEN

In Tabel 5 zijn de gemiddelde prestaties op alle leestests weergegeven. De resultaten op de
Verwijswoordentest voor vier schooljaren laten zowel bij de ontwikkelscholen (1986-1987 en
1987-1988) als bij de volgscholen (1988-1989 en 1989-1990) een significante toename van de
gemiddelden zien. De standaardafwijkingen zijn bij de nameting lager dan bij de voormeting,
hetgeen wijst op een aftiame van individuele verschillen tussen leerlingen. De leerlingen uit de
controlegroep van 1987-1988 boeken echter eenzelfde vooruitgang in begrip van anaforische

Tabel 5. Gemiddelde tesucsultatcn over vier schooljaren cn toetsing van het programma-cffcct door middel
van ccn t-tocts voor gepaarde waarnemingen.

VERW A
Gem Sd

VERWB
Gem Sd

HGD
Gem Sd

CITO

Gem Sd

Schooljaar

t

Sehr. Opdr.
Gem Sd


1986-1987

exp. groep 22.2 6.2 24.9 4.0 4.8'
(n=73)

controlbgrocp 23.7 5.1 22.6 5.6 -1.4
(n=23)

23.2 5.6

1987-1988:

controlegroep 18.0 6.7 20.2 5.3 4.5" 13.6 5.1 18.9 4.1
(n=105)

exp. groep 22.4 5.2 24.1 4.5 3.7" 15.9 4.0 20.1 3.8
(n= 58)

6.9 22.2 5.7 9.9"

1988-1989:
exp. groep
(n= 162)

18.0

23.3 4.8

21.8 6.3 24.2 4.7 6.1'

1989-1990:
exp. groep
(n= 160)

22.2 5.2

-ocr page 107-

Leren begrijpen van anaforische relaties in teksten 101

relaties zonder te hebben deelgenomen aan het programma. Bij uitsplitsing naar klassen blijkt
dat deze toename voor rekening komt van twee klassen die op de voormeting een laag gemiddelde
hebben, met name door de aanwezigheid van enkele leerlingen met zeer lage scores op de
voormeting.

Om de verschillen in gemiddelden van de scholen (c.q. klassen) in de experimentele groep
(de ontwikkelscholen) en in de controlegroep (de controlescholen) te toetsen is een covariantie-
analyse uitgevoerd, met de score op de voormeting als covariabele. Hierbij zijn de volgende
contrasten tussen schoolgemiddelden getoetst: het verschil tussen de ontwikkelscholen enerzijds
en de controlescholen anderzijds (het programma-effect), het verschil tussen de twee
ontwikkelscholen onderling en voor het schooljaar 1987-1988 de verschillen tussen de vijf
controlescholen onderling. Door op deze wijze te toetsen omvat de foutenvariantie alleen verschillen
m scores tussen leerlingen binnen scholen en geen verschillen tussen scholen, c.q. verschillen in
gegeven onderwijs.

Voor het eerste schooljaar (1986-1987) blijkt de relatie tussen voormeting en nameting in de
experimentele groep significant te verschillen van die in de controlegroep; er zijn geen verschillen
tussen de twee ontwikkelscholen onderiing (zie Tabel 6, model 1). Na weglating van niet-
significante effecten (Tabel 6, model 2) luidt dc regressievergelijking voor de controlegroep
3-5+0.81 ♦Voormeting en voor de experimentele groep 15.7+0.41 ♦Voormeting. Met andere
Woorden, de experimentele groep scoort hoger op de nameting dan de controlegroep, maar dit
verschil neemt af naarmate de score op de voormeting hoger is. Het effect van de instructie is
dus het grootst bij leerlingen met lage scores op de voormeting. Dit interactie-effect wordt
echter niet teruggevonden in het tweede onderzoeksjaar (Tabel 6, model 3). Wel vinden we hier,
na weglating van niet-significante effecten, een significant positief effect van het programma
(Tabel 6, model 4). Het geschatte programma-effect is 1.4 op de Verwijswoordentest ten voor-
dele van de experimentele groep. Opnieuw zijn er geen verschillen tussen de twee ontwikkelscholen
te constateren.

Ter beantwoording van de tweede vraagstelling zijn de prestaties van de leerlingen in begrij-
pend lezen bij het begin van het schooljaar, zoals gemeten door de test Schriftelijke Opdrachten
gedichotomiseerd. Dit is gebeurd met behulp van de in de handleiding bij de test (Brus & Van
Bergen, 1973) gerapporteerde C-schaal. Leeriingen met een C-score van 4 of lager worden hier
aangeduid als "zwak". Uit Tabel 7 blijkt dat dc "zwakke" lezers op de Verwijswoordentest
duidelijk lager scoren dan dc overige leerlingen. Dit geldt ook nog na het programma Verwijs-
woorden te hebben gevolgd, hoewel de "zwakke" lezers een grotere vooruitgang op de

Tabel 6. Vergelijking van dc ontwikkelscholen met de controlescholen op dc nameting van de Vcrwijs-
woordcntcst (F-waardcn).

1986-1987 1987-1988

^arianticbron model 1 model 2 model 3 model 4

voormeting (df=l) 69.3" 74.0" 139.3" 168.8"

Programma (df=l) 7.3" 10.9" 0.6 7.0"

°"lwikkcIscholen(df=l) 1.9 1.8

?ontroicscholen (df=4) 2.6' 2.2

'"tcracties

• voorm. • progr. 4.1' 6.5" 0.0
■ VQorm. • ontwik. 1.6 1.7

• voorm • controle 1.9

"Gerlingen df=90 df= 92 df=149 df=155

-ocr page 108-

102 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

Tabel 7. Toetsprestaties van zwakke lezers in vergelijking met de overige leerlingen.

Vcrwijswoordentest Schriftelijke Opdrachten

prestatiegroep Voonneting Nameting

per schooljaar Gem. Sd Gem. Sd Gem. Sd

1987-1988

zwak (n=12)

16.1

4.1

19.0

3.6

15.3

2.7

overig (n=42)

24.1

4.1

25.5

4.3

24.5

3.5

1988-1989

zwak (n=27)

12.3

6.0

16.7

5.2

15.5

2.3

overig (n=134)

19.1

6.5

23.3

5.2

24.9

3.6

1989-1990

zwak (n=38)

15.7

6.4

20.6

5.0

15.3

2.7

overig (n=113)

24.0

4.9

25.5

4.0

24.6

3.5

Verwijswoordentest behalen dan de overige leerlingen. Dit laatste kan verklaard worden uit een
negatieve correlatie van de behaalde winst op de test met het beginniveau. Deze negatieve
correlatie geldt ook voor de controlegroep. Daarom is nagegaan of de in Tabel 7 geconstateerde
samenhang tussen het niveau van begrijpend lezen en winst op de Verwijswoordentest blijft
bestaan wanneer gecontroleerd wordt voor de voormeting met de Verwijswoordentest. Hiertoe
is een regressie-analyse uitgevoerd, waarin ook het verschil tussen scholen is meegenomen.
Omdat de test Schriftelijke Opdrachten niet was afgenomen in de controlegroep, kon deze
analyse uitsluitend worden toegepast op de resultaten van de experimentele groep. Dc analyse is
uitgevoerd op dc gegevens voor alle drie schooljaren vanaf 1987 tegelijkertijd. Het schooljaar
was hierbij als een variabele opgenomen. Aangezien echter de resultaten over dc drie jaren
stabiel bleken (geen significante interactie tussen schooljaar cn school en ook geen significant
hoofdeffect voor schooljaar), worden hier alleen de resultaten gepresenteerd van ccn analyse
waarin het onderscheid naar schooljaar genegeerd wordt.

Na controle voor zowel de voormeting als voor Schriftelijke Opdrachten zijn er significante
verschillen in schoolgcnüddclden (F=8.09, p<.01). Van dc zes volgscholen scoort er één signi-
ficant lager dan dc ontwikkclscholcn, terwijl twee van de volgscholen juist significant hoger
scoren. Voor dc regressie van de nameting op beide covariabclcn zijn geen significante verschillen
tussen- de scholcn aangetroffen. Het verschil tussen dc meest en de minst effccticvc school
bedraagt 4.62 op de schaal van dc Verwijswoordentest, een verschil van méér dan ccn
standaardafwijking.

Zowel dc voormeting als de test Schriftelijke Opdrachten vertonen ccn significant positief
regressiegewicht. Dc ongestandaardiseerde regrcssicgcwichtcn waren: 0.40 (t = 11.42) voor dc
voormeting en 0.28 (t = 6.29) voor Schriftelijke Opdrachten. Dit betekent dat dc winst die
leerlingen hebben geboekt op de Vcrwijswoordéntcst positief gccorrclccrd is met hun niveau
van begrijpend lezen bij het begin van het schooljaar. De verwachting dat juist de zwakkere
lezers van de instructie zouden profiteren, kan dus niet bevestigd worden.

In Tabel 8 zijn dc resultaten vermeld van dc analyse van transfcr-cffcctcn (vraagstelling 3 cn
4), uitgevoerd op dc gegevens van dc experimentele groep cn dc conu-olcgrocp voor het schooljaar
1987-1988. Uitgevoerd zijn variantie-analyses cn covariantic-analyscs op dc Hoofdgcdachtctcst
en op de Cito-toets voor begrijpend lezen in het algemeen. Als covariabclcn zijn gebruikt zowel
dc voor- als de nameting van dc Vcrwijswoordentest. Bij deze analyse is dezelfde procedure
gevolgd als bij dc covariantie-analysc ten behoeve van dc eerste vraagstelling.

Uit de gemiddelden gerapporteerd in Tabel S blijkt dat zowel bij de Hoofdgcdachtctcst als de
Cito-toets voor begrijpend lezen de experimentele groep hoger scoort dan de controlegroep.
Deze verschillen zijn statistisch significant (zie Tabel 8, model 1). Dit verschil tussen dc beide

-ocr page 109-

Leren begrijpen van anaforische relaties in teksten 103

Tabel S.Toetsing van transfer-effecten, schooljaar 1987-1988 (F-waarden).

varianticbron

model 1

model 2

model 3

HGD

CITO

HGD

CITO

HGD

CITO

voormeting

70.1"

62.3"

nameting

70.7"

65.3"

controlescholen

6.4"

2.4

6.4"

1.6

8.1"

2.6"

ontwikkelscholen

0.9

1.4

0.9

1.6

1.0

1.6

programma-effect

14.2"

4.3'

1.1

0.6

2.3

0.1

* = p < .05 »* = p < .01

groepen dient te verdwijnen wanneer de score op de nameting van de Verwijswoordentest
constant gehouden wordt. Uit de covariantie-analyse gerapporteerd als model 2 in Tabel 8,
blijkt dat dit inderdaad het geval is. Deze bevindingen zijn echter nog niet voldoende om te
kunnen concluderen, dat de instructie in verwijswoorden een transfer-effect heeft op het afleiden
van dc hoofdgedachte of op begrijpend lezen in het algemeen. Het kan immers zo zijii dat de
experimentele groep en de controlegroep bij het begin van het schooljaar reeds verschilden in
niveau van begrijpend lezen. Aangezien we voor de controlegroep niet beschikken over een
beginmeting van de vaardigheid in begrijpend lezen, kunnen we alleen de voormeting met de
Verwijswooidentest gebniiken als covariabele om te controleren voor vooraf bestaande verschillen.
Uit model 3 in Tabel 8 blijkt dat er na controle voor de voormeting geen significant verschil
nieer is tussen de twee groepen, zodat we moeten concluderen dat met deze data geen transfer-
effect kan worden aangetoond. Bij alle analyses gerapporteerd in Tabel 8 bestaan significante
verschillen tussen de controlescholen onderling, met name op de Hoofdgedachtetest.

CONCLUSIES EN DISCUSSIE

De vraag of training in het identificeren cn afleiden van antecedent-anafoor relaties effect heeft
op het doorzien van die relaties, kan positief beantwoord wonlen. De resultaten over vier
schooljaren bij zowel ontwikkelscholen als volgscholen wijzen uit dat hel programma Verwijs-
woorden tot een beter begrip van antecedent-anafoor relaties leidt (onderzoeksvraag 1). Dc
grootte van het effect hangt mede af van het niveau dat op dc voormeting al wordt bereikt. Het
effect is tamelijk stabiel over de vier schooljaren. In het schooljaar 1988-1989 is het effect
groter dan in dc overige schooljaren, toen het programma ongeveer ccn half jaar later werd
gegeven. Er zijn geen vcrschillcn gevonden in effectiviteit tussen de twee ontwikkelscholen.
Wel zijn er stabiele verschillen (over twee schooljaren) tussen dc volgscholen.

Het programma brengt bij zwakke lezers niet die groei teweeg, die men op grond van de
bevindingen uit eerder onderzoek (vgl. Baumann. 1986) mocht verwachten (onderzoeksvraag
2). De zwakkere begrijpende lezers profiteren weliswaar duidelijk van het programma, maar
blijven achter bij dc overige leeriingen. Een mogelijke verklaring hiervoor is dat de condities
Waaronder het programma gegeven is niet optimaal waren. Zo stonden de leerkrachten in het
^iepteproject voorde opdracht ccn programma uit te voeren dat voor hen relatief nieuw was. In
de ontwikkelfase, tijdens dc schooljaren 1986-1987 cn 1987-1988 deden zich praktische proble-
"len voor die typerend zijn voor ontwikkelingswerk cn die een storende invloed kunnen hebben
gehad op het lesgebcurcn. Voorbeelden hiervan waren storende taal- of typefouten in teksten en
verschillen tussen materialen voor de leerkracht en materialen voor dc leeriing, daar waar geen
verschillen hadden mogen optreden etc. Wij verwachten dat vooral zwakke lezers nadeel on-
dervonden van dergelijke invloeden. Een andere verklarende factor die in dit onderzoek builen
beschouwing is gebleven, is dc leerkracht. Hel is de vraag in hoeverre hel programma daadwer-

-ocr page 110-

104 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

kelijk is uitgevoerd zoals is bedoeld. Het programma veronderstelt dat les wordt gegeven vol-
gens het model van de directe instructie. Alle fasen van het model zijn weliswaar per les
geconcretiseerd in concrete leerkrachtactiviteiten, maar dit garandeert niet dat de les ook daad-
werkelijk zo is uitgevoerd. De veronderstelde instructievaardigheden zijn niet in een aparte
cursus getraind, hoewel bekend is dat er grote verschillen tussen leerkrachten bestaan waar het
gaat om het hanteren van directe instructie-activiteiten (Veenman, Lem en Roelofs, 1990; Roelofs,
Raemaekers en Veenman, 1991). Met name zwakke leerlingen blijken profijt te hebben van de
aanpak van directe instructie.

Het programma Verwijswoorden lijkt geen transfer-effect te hebben op het afleiden van de
hoofdgedachte uit een tekst (onderzoeksvraag 3). Deze bevinding sluit aan bij resultaten van
eerder interventie-onderzoek waarin geen sprake was van transfer-effecten (zie Aarnoutse, 1982).
Het zou evenwel interessant zijn om in een volgend onderzoek met een grotere onderzoeksgroep
na te gaan in hoeverre sprake is van een transfer naar meer nabij gelegen taken. Zo wijken de
aard van de teksten van de Hoofdgedachtetest en de daarbij behorende opdrachten in belangrijke
mate af van datgene wat in het programma Verwijswoorden is aangeleerd. Sommige auteurs
opperen de mogelijkheid dat door het leren koppelen van anafora aan antecedenten de vorming
van een tekstrepresentatie en daarmee van een macropropositie of hoofdgedachte bevorderd
wordt (vgl. Haviland & Clark, 1974; Webber. 1980).

Ten slotte wijzen de resultaten van het onderzoek er niet op dat training in het afleiden van
antecedenten bij anafora een transfer-effect heeft op het begrijpend lezen in het algemeen
(onderzoeksvraag 4). Deze bevinding komt overeen met resultaten uit eerder onderzoek. Begrijpend
lezen doet een beroep op een complex geheel van kennis en vaardigheden. Training van één
enkele vaardigheid heeft te weinig invloed op de ontwikkeling van het gehele begrijpend lezen
(zie Aamoutse 1982). Een belangrijke vraag voor nader onderzoek is dan ook, of en in hoeverre
training in een aantal vaardigheden op de lange duur positieve effecten heeft op het begrijpend
lezen in het algemeen. Wellicht hangt het achterwege blijven van transfer ook samen met de
wijze waarop begrijpend lezen in het algemeen wordt gemeten. Men kan zich afvragen in
hoeverre de beschikbare tests voor begrijpend lezen een afspiegeling vormen van het complex
aan kennis en vaardigheden waarop de lezer een beroep doet tijdens het begrijpend lezen.
Daarnaast is de vraag aan de orde in welke mate de beschikbare tests voldoende gevoelig zijn
voor het vaststellen van transfer-effecten (vgl. Paris & Oka, 1986).

Ondanks de positieve resultaten ten aanzien van het doorzien van antecedent-anafoor rela-
ties, kent dit onderzoek een aantal beperkingen. Hierboven is al gewezen op het ontbreken van
observatiegegevens over de wijze waarop de leerkrachten het programma hebben uitgevoerd.
Daarnaast kende het onderzoek een tamelijk ondoorzichtige controleconditie, alleen vaag te
omschrijven als: regulier lees/taalonderwijs. Er bleken onderlinge verschillen te bestaan tussen
de controlescholen in bijna dezelfde orde van grootte als de verschillen tussen de experimentele
groep en de controlegroep. In het onderhavige onderzoek bleek het niet mogelijk scholen tc
vinden die tijdens een vergelijkbare periode in groep vijf enigerlei vorm van instmctie in
anaforische relaties gaven. Dit is niet verbazingwekkend aangezien uit onderzoek al bekend is
dat in de Nederlandse methoden voor begrijpend lezen en taal geen sprake is van een systemati-
sche opbouw waar het gaat om het bestuderen van teksten of het aanleren van studietechnickcn
(Boonman & Kok, 1986; Aamoutse & Wcterings, 1991). Het verdient niettemin aanbeveling,
wanneer men dc effecten van een specifieke lessenreeks wil aantonen, mede een controleconditie
te creëren waarbij op een andere wijze onderwijs wordt gegeven in het begrijpen van anaforische
relaties.

De feitelijke realisatie van de experimentele en controleconditie zou bovendien meer aan-
dacht moeten krijgen. Het opnemen van enkele relevante leerkrachtvariabelen, zoals de kwali-
teit van het instructie- en managementgedrag zou hiervan onderdeel kunnen uitmaken.

-ocr page 111-

Leren begrijpen van anaforische relaties in teksten 105

LITERATUUR

Aarnoutse C.A.J. (1982). Aspecten van begrijpend lezen in het vierde leerjaar van het gewoon lager onder-
wijs.
Dissertatie. Nijmegen: Berkhout B.V.
Aarnoutse C.A.J., Feenstra, H., Bisschop, P. (1985). Hoofdgedachtetest. Test voor begrijpend lezen bestemd

voor het derde leerjaar van het basisonderwijs. Nijmegen: Berkhout B.V.
Aarnoutse, C.A.J., Roelofs E.C. & Driessen, J.W. (1989). Programma Verwijswoorden. Een serie uitge-
werkte lessen voor het leren begrijpen van verwijswoorden.
Nijmegen: Berkhout B.V.
Aarnoutse, C.A.J., Roelofs E.C. & Driessen. J.W. (1989). De Verwijswoordentest. Nijmegen: Berkhout B.V.
Aarnoutse, C.A.J., & Weterings, A.C.E.M. (1991). Onderwijs in begrijpend lezen. Nijmegen: Vakgroep
Onderwijskunde.

°amii2, J.G. (1980). Syntactic effects on the reading comprehension of pronoun-referent snuctures by

children in grades two, four and six. Reading Research Quarterly, 15, 268-289.
Bamitz, J.G. (1986). The anaphora jigsaw puzzle in psycholinguistic and reading research. In J.W. Irwin
(Ed.),
Understanding and teaching cohesion comprehension. Newark: International Reading
Association.

oaumann, J.F. (1986). Teaching third grade students to comprehend anaphoric relationships: The application
of a direct instruction model.
Reading Research Quarterly, 21, 71-84.

J.L. (1989). Improving practice through understanding reading. In L.B. Resnick and L.E. Klopfcr
(Eds.),
Toward the thinking curriculum: current cognitive research. Yearbook of the Association
for Supervision and Curriculum Development,
"oonman, J.H. & Kok, W.A.M. (1986).
Kennis verwerven uit teksten. Onderzoek naar factoren die van
invloed zijn op het verwerven van kennis uit teksten door leerlingen van de achtste groep van de
basisschool.
Dissertatie R.U. Utrecht. Utrecht: Vakgroep Onderwijskunde.

rus, B. Th. & Van Bergen, J.B.A.M. (1973). Schriftelijke opdrachten, verantwoording en handleiding.
Nijmegen: Berkhout B.V.

*-aramaz7.a, A., Grobcr, E., & Garvey, C., (1977). Comprehension of anaphoric pronouns. Journal ofVerbal
Learning and Verbal Behavior, 16,
601-609.

j'o (1981). Begrijpend lezen leerjaar 3, 4 en 5, Handleiding. Arnhem.

'ark, H.H. & Sengull, C.J. (1979). In search of referents for nouns and pronouns. Memory d Cognition, 7,
35-41.

'Jk, T.A. van, & Kintsch, W. (1983). Strategies for discourse comprehension. New York/London: Acadcmic
„ Press.

^od. S. & Sanford, A. (1977). The integration of semantic information while reading. Journal ofVerbal
^ Learning and Verbal Behavior, 16,
77-90.

jjailiday, M.A.K. & Hasan, R. (1976). Cohesion in English. London: Longman.

anscn, J. (1981). The effccu of infcrcncc training and practice on young children's reading comprehension.
J. . Reading Research Quarterly, 16,'i9\-A\6.

aviland, S.E. & Clark, H.H. (1974). What's new? Acquiring new information as a proccss in comprehension.
Journal ofVerbal Learning and Verbal Behavior, 13, 512-521.

"■St. W. & Brill, G.A. (1980). Contextual aspects of pronoun assignment. Journal ofVerbal Learning and
I Verbal Behavior, 19,
168-175.

J.W. (1986). Understanding and teaching cohesion comprehension. Newark: International Reading
J Association.

M.A. & Carpenter, P. A. (1987). The psychology of reading and language comprehension. Newton: Allyn
J. and Bacon.

amcenui, E.J., & Carninc, D.W. (1982). An investigation of founh graders' comprehension of pronoun
constructions in ecologically valid texts.
Reading Research Quarterly, 17, 556-580.
Sold, A.M. (1974). Variability in children's comprehension of syntactic structures./ouz-na/o/frfucanona/

Oakhn. ^'y^^o^osy, 66, 333-338.

J., & Yuill, N. (1986). Pronoun resolution in skilled and less skilled comprchcndcrs: Effccts of
Oakh II load and inferential complexity.
Language and Speech, 29, 25-37.

J., & Yuill, N. (1987). Understanding of anaphoric relations in skilled and less skilled comprehcndcrs.
Pari c publication, University of Sussex, Experimental Psychology.

S.G., & Oka. E.R. (1986). Children's reading suatcgics, mctacognition and motivation. Developmental
Pears 25-56.

l^car ^ D-D. (1978). Teaching reading comprehension. New York: Holt. Rinehart & Winston,

rson, P.D.(1984). Dircct explicit teaching of comprehension. In: G.G. Duffy, L.R. Rochlcr, & Ma.son, J.

-ocr page 112-

106 E.C. Roelofs, C.A.J. Aarnoutse en M.J.M. Voeten

(Eds.), Comprehension instruction: Perspectives and suggestions (pp. 222-233). New York:
Longman.

Pearson, D.P. (1984). Handbook of reading research. New York/London: Longman.

Perfetti. C.A. (1985). Reading ability. New York/London: Oxford University Press.

Richek, M.A. (1976-1977). Reading comprehension of anaphoric forms in varying linguistic contexts.

Reading Research Quarterly, 12, 145-164.
Roelofs. E.C., Raemaekers, J.. & Veenman. S.A.M. (1991).
Verder met combinatieklassen: effecten van
teamgerichte nascholing en coaching.
Eindrapport SVO-project 9343. Nijmegen: Vakgroep On-
derwijskunde Nijmegen.

Rosenshine. B.. & Stevens, R. (1984). Classroom instruction in reading. In P.D. Pearson (Ed.). Handbook of

reading research. New York/London: Longman.
Veenman, S., Lem, P., & Roelofs, E. (1990). Omgaan met combinatieklassen: een onderzoek naar de

effecten van een teamgericht nascholingsprogramma. Pedagogische Studiën, 67(2), pp 45-58.
Webber, Bi. (1980). Syntax beyond the sentence. In R. Spiro. B.C. Bruce. & W.F. Brewer (Eds.).
Theoretical
issues in reading comprehension.
Hillsdale. NJ: Erlbaum.

Manuscript ontvangen 29-11-1990
Defmitieve versie ontvangen 5-4-1991

-ocr page 113-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 2. pp. 107-115

Een kunstmatige, maar intelligente oplossing voor de
werkwoordsspelling

J. Zuidema* en J. Weber*
ABSTRACT

Many students have serious difiiculty in spelling Dutch verb forms correctly, due to the complexity
of the grammaUcally defined orthographic system. Traditionally, researchers uy to reduce this
spelling problem by improving instruction, or by designing a simpler orthographic system. We
propose an arüficially intelligent alternative: an educational computer tool, based on a psychological
model of a human expert. This expert system is confronted with 48 compositions of 10 - 18 years
old students. The expert system turns out to be very successful in indicating actual and potential
sources of students' mistakes. Actual mistakes are not frequent in the students' work (1.2%), but
verbs of the same category as these mistakes are until 3.5 limes more frequent in formal adull
wriüngs lhan in the sludcnls' compositions. The expert system can be very useful as an insuiictional
lool, when students are automatizing iheir knowledge about ihe orthographic system.

ONDERWIJZEN, WIJZIGEN OF ANDERS

Foutloos spellen van de Nederiandse werkwoordsvormen is voor velen moeilijk, zo niet onmogelijk.
Wetenschappelijk onderzoek tracht dit spellingprobleem op twee manieren te elimineren: ten
eerste door verbetering van dc didactiek (zie bijvoorbeeld Van der Velde, 1956; Assink, 1983;
Zuidema. 1988; Van der Linden & Assink. 1990) en ten tweede door spellingvereenvoudiging
(zie bijvoorbeeld Van der Velde, 1968; Gccrts. Assink. Van de Craen. Dc Rooij. Dc Schutter,
Verhoeven & Duthoy, 1988; Zuidema. 1991).

Ondanks deze inspanningen is het probleem van dc wcrkwoordsspelling met opgelost. Het
onderwijsonderzoek boekt weliswaar voomitgang, maar een volledig bevredigende didactiek
^oor de werkwoordsspelling blijft waarschijnlijk een onbereikbaar ideaal. Dit geldt zeker als
geëist wordt dat leerlingen van de basisschool dit onderdeel moeten beheersen. Over welke
spellingverandering leidt tot een vereenvoudiging van het schrijven van dc werkwoordsvormen
^staat onder deskundigen weinig eensgezindheid. Het is vrijwel onmogelijk om op basis van
®[ïipirisch ondcraock tc besluiten welk systeem dc voorkeur verdient. Mochten dc gelederen
^'ch sluiten ten aanzien van deze kwestie, dan volgt nog niet automatisch een spellinghervorming
- in dc maatschappelijke discussie over spelling gelden zeker niet alleen argumenten van dcs-

•^undighcid.

In dit artikel wordt ccn derde benadering gepresenteerd om het probleem van dc
^verkwoordsspclling tc lijf tc gaan. Het gaat hier om ccn tcchnologischc oplossing: een kunstmatig
"ilclligent computerprogramma. DT-duiveltjc. controleert dc vrije taalpnïduktics van Iccrlin-
8en. die op ccn (school)tckstvcrwcrkcr hun werk intypen. Het programma kan aangeven waar
"jocilijkc werkwoordsvormen in dc tekst staan, cn corrigeert spelfouten in dc werkwoordsvonncn.
^T-duivcItjc is gebaseerd op Zuidema's (1988) model van ccn menselijke expert op het gebied
^^ dc wcrkwoordsspelling. Er wordt in het hierna volgende verslag gedaan van dc eerste
confrontatie van dit expertsysteem met opstellen van schoIicrcn in dc leeftijd van tien tot
^chuicn jaar, cn met cnkclc teksten van volwassen schrijvers. Uit dit onderzoek blijkt de
Nauwkeurigheid waanncc het cxpcrtmodcl voorspellingen kan doen over dc moeilijkheden bij
"et schrijven van dc werkwoorden. Tevens leiden dc resultaten van dit onderzoek tot ovcrwc-
^'"gen met betrekking tot dc inrichting van het spcllingondcrwijs.

J OW & OC (Vakgroep Onderzoek Wiskundeonderwijs & Onderwijs Computercentrum). Rijksuniversiteit
"trccht. Tiberdreef 4. 3561 GG Uuechl.

-ocr page 114-

108 Johan Zuidema en Jeroen Weber

EEN INGEBLIKTE WERKWOORDSSPELLINGEXPERT

De bespreking van het expertmodel dat ten grondslag ligt aan DT-duiveltje wordt hier slechts
schetsmatig gevoerd. Voor de theoretische achtergrond en een uitvoerige bespreking van het
model wordt verwezen naar een eerdere publikatie (Zuidema, 1988); hetzelfde geldt voor de
technische achtergrond van de computerimplementatie (Zuidema & Weber, 1989).

Een geoefend schrijver gebruikt tijdens het opstellen van brieven, verslagen of nota's zelden
de op school geleerde regels van de werkwoordsspelling. Slechts een enkele keer denkt hij een
ogenblik na over de spelling van een werkwoord. Dat denken beperkt zich dan tot het zich
realiseren van, bijvoorbeeld, of 'verlevendig/t/' een persoonsvorm is of een voltooid deelwoord,
of 'wen/t/' van 'wennen' of van 'wenden' komt, of de schrijver overweegt of 'verwach/t/en' een
persoonsvorm-verleden-tijd is in 'Zij leefden in barre omstandigheden, en verwach/t/en niets
meer van de toekomst.'. Maar in verreweg de meeste gevallen denkt hij helemaal niet na over de
spelling van werkwoordsvormen, hij schrijft automatisch, en bijna altijd goed. Voorbeelden van
woorden die de meesten volledig automatisch opschrijven: 'koopt', 'sleept', 'gerepareerd',
'uitstekend', 'scheurt', 'tankt', 'uitgerekend', 'taxeert', 'beslist', 'heroverweegt', 'besluit', 'stapt',
'uit'.

De expertise die een geoefend schrijver bezit met betrekking tot het spellen van
werkwoordsvormen bestaat uit het herkennen van een zeer groot aantal patronen in de taal
(letterclusters), en het koppelen van schrijfvoorschriften aan (combinaties van) die patronen. Er
zijn drie typen patronen:

(1)Vaste Patronen, waaraan direct schrijfvoorschriften zijn gekoppeld - 'na deze letter(s) kan
een /t/-klank uitsluitend als de letter 't' weergegeven worden';

(2)Beperkende Patronen, waarbij een deel van de oplossing wordt gevonden, bijvoorbeeld wordt
een grammaticale categorie herkend - 'dit kan nooit een voltooid deelwoord zijn';

(3)Alarmen, waarbij er als het ware -en rood lampje gaat branden: 'Pas op, is het hier wel een
voltooid deelwoord?'. Een Alarm indiceert een moment van twijfel bij een geoefende schrijver.

De voorbeelden die hier gegeven zijn hebben alle betrekking op EINDproblemen
(werkwoordsvormen die op een /t/-klank eindigen, met een schrijfwijze '-t', '-d' of '-dt'). Voor
MIDDENproblemen (vormen die op '-/t3(n)/' of '-/d9(n)/' eindigen, met schrijfwijze '-te(n)',
'-ue(n)', '-de(n)' of '-dde(n)') is het expertmodel nog niet ver genoeg uitgewerkt om op basis
hiervan voorspellingen te doen over de moeilijkheidsgraad van die werkwoordsvormen. De
frequentie van MIDDENproblemen is overigens veel lager dan die van EINDproblemen.

Door gebruik tc maken van patroonherkenning maakt een spellingexpert optimaal gebruik
van één van de sterke kanten van het menselijke denken, namelijk de mogelijkheid om massaal
parallel informatie te verwerken. Dit verwerken gebeurt volledig autonoom, er is geen centrale
sturing'bij het patroonherkennen, cn het vereist dan ook geen aandacht van dc speller. Er zijn
functionele eenheden te onderscheiden, die zelfstandig opereren: FonoFiltcrs, EénLcltcr-
greepFiitcrs, SuffixFilters, PrefixFilters, SterkFilters, TegcnwoordigDcelwoordFilters en
ContextFiltcrs (voor een beschrijving van deze eenheden wordt verwezen naar Zuidema, 1988).

De analyse vindt altijd plaats op een zo laag mogelijk niveau, dat betekent op het niveau dat
zo veel mogelijk geautomatiseerd ('geautonomiseerd') is. Mogelijk bereikt de analy.se niet het
niveau van het bewustzijn, dat is alleen nodig als analyses op de geautomati.scerde niveaus geen
eenduidige spelling hebben bepaald. Een schrijver die voldoende spcilingexpcnise bezit kan
zijn gedachten houden bij de inhoud van wat hij schrijft, zonder zich erover te hoeven bekom-
meren of dc vorm ervan correct is. Bijna altijd gaat het automatisch goed. In de zeldzame andere
gevallen wordt hij - ook vanzelf - gewezen op het gevaar van een spellingfout, en herkent hij de
categorie van het spellingprobleem. Een expert heeft het systeem van de wcrkwoordsspclling
ooit geleerd als een verzameling regels, via analogieredeneringen of met ccn algoritme. Algoritmen
blijken superieur voor de instructie van het systeem (Assink, 1983; Zuidema, 1988), maar zc
vormen geen geschikt model voor de mentale handeling van een expert. De didactische manie-
ren waarmee het systeem wordt geïnstrueerd zijn noodzakelijkerwijs sequentieel van aard. Een
expert heeft cr belang bij om op den duur over tc gaan op een andere representatie van het

-ocr page 115-

Oplossing voor de werkwoordsspelling ^ ^ 3

werkwoordelijk spellingsysteem. Voor een expert is de sequentiële manier van probleemanalyse
onvoordelig. Het grote aantal denkstappen dat een algoritme vereist, levert een ongewenste
vertraging op van het schrijven. Een mens kan vele denkstappen tegelijkertijd uitvoeren, op
voorwaarde dat die geautomatiseerd zijn. Dat kan, als hij zijn denken baseert op patroonherkenning.
Deze simultane handelingen kunnen niet direct worden geïnstrueerd; ze worden verworven door
incidenteel (= terloops) leren.

Na het leren van een algoritme is het leerproces met betrekking tot de werkwoordsspelling
dus nog niet geheel afgerond. Er moet nog een fase van automatisering plaatsvinden, waarbij
een leerling overgaat van de langzame, sequentiële manier van informatieverwerking naar de
snelle, simultane manier.

HET EXPERTMODEL IN DE PRAKTIJK

Het model dat opgesteld is van de menselijke expert is inmiddels als een expertsysteem
geïmplementeerd op een computer (in PROLOG). Dit expertsysteem is de kern van DT-duiveltje.
Het l^vat de in de vorige paragraaf genoemde drie typen van patroonherkenning, en ook nog
een 'boekhouder', die registreert welke grammaticale categorieën herkend dan wel uitgesloten
zijn. De boekhouder beperkt zo de verzameling schrijfvoorschriften die van toepassing kan zijn;
met andere woorden: de boekhouder houdt bij hoe de probleemruimte verkleind wordt. Het
expertsysteem bevat geen syntacrische zinsontleder (parser). Hoewel de werkwoordsspelling
gebaseerd is op een syntactische regeling, is het zelden noodzakelijk om een syntactische
analyse uit te voeren teneinde te komen tot een correcte schrijfwijze van de werkwoordsvormen.

Onderzoeksvragen

DT-duiveltje is nog niet gereed om gebruikt te kunnen worden in het onderwijs, het programma
is nog in ontwikkeling. De motor van het programma, de computerimplementatie van het
expenmodel, is al wèl reeds uitgeprogrammeerd. Dit is reden genoeg om onderzoek te doen naar
de werking ervan. Ten eerste is het van belang om na te gaan in hoeverre het expertsysteem
zelfstandig een correcte schrijfwijze kan vinden, hoe vaak het twijfelt, ofdat terecht is. hoeveel
fouten het maakt, enzovoort. Ten tweede verschaft onderzoek ons inzicht in de hoeveelheid en
het karakter van de werkwoordsproblemen die in vrije taalprodukties van de leeriingen zelf
voorkomen. Op basis van deze gegevens kan een gefundeerde uitspraak gedaan worden over het
nut van het ontwikkelen van het expertmodel tot een volledig educatief computerprogramma, cn
over de plaats ervan in het onderwijs. Een derde reden om het onderzoek uit te voeren is het
Wetenschappelijk belang: een toets aan de praktijk zegt iets over de 'ecologische validiteit' van
het expertmodel.

Proefp

Er werkten 48 leeriingen mee aan het onderzoek, afkomstig uit groep 7 en 8 van de basisschool
en klas 1 t/m 6 van het voortgezet onderwijs. Uit elke klas deden drie mei.sjes cn drie jongens
mee.

Werkwijze

Alle leerlingen hebben in kla.ssikaal verband ccn opstel geschreven. Dit opstel werd meestal met
dc hand geschreven, sommigen gebruikten een tekstverwerker. Geen van de leeriingen had de
beschikking over het expertsysteem om zijn werk tc con-igcrcn. Er werd geen speciale instnictic
gegeven over de spelling van dc werkwoordsvormen, het was ccn opstel zoals altijd. Dc opstel-
len zijn daarna door de onderzoekers ongecorrigeerd overgetypt. Vervolgens zijn dc opstellen
Verwerkt door het expertsysteem.

Resultaten

'n totaal zijn cr door dc 48 leeriingen 16608 woorden geschreven. 2972 van die woorden

ersonen

-ocr page 116-

110 Johan Zuidema en Jeroen Weber

eindigen op een'd' of een't' (dat zijn dus niet alleen werkwoorden). Leerlingen uit groep 7-8
en klas 1 - 6 schreven respectievelijk 348,222,550.218,522,318,474 en 320 EINDproblemen
(vormen eindigend op 't', 'd' of 'dt'). De onderlinge verschillen in aantal zijn het gevolg van de
variatie in lengte van de (vrije) opstellen. Van de in totaal 2972 EINDproblemen werd verreweg
het grootste deel, 2755, goed geschreven en als zodanig door de computer herkend. Eén keer
maakte een leerling een fout die niet opgemerkt werd door de computer. In 58 gevallen conflicteerde
de schrijfwijze van een leerling met die van de computer; daarvan had in 36 gevallen de leeriing
en in 22 gevallen de computer het bij het rechte eind. De voor ons meest interessante categorie
'Alarm', waar het expertsysteem twijfel voorspelt, telt 158 gevallen; daarvan zijn er 14 fout
geschreven door de leerling. De resultaten zijn samengevat in Tabel 1.

Het expertsysteem specificeert drie typen van Alarm: (1) twijfel of het EINDprobleem een
werkwoord is; dit komt 73 keer voor en wordt in alle gevallen correct geschreven door de
leerlingen; (2) twijfel van welk werkwoord het EINDprobleem komt; dit komt 20 keer voor en

Tabel 1. EINDproblemen, goed en fout, door leerling en computer.

leerling

expertsysteem

aantal

procent

schrijfwijzen van leerling

goed

goed

2755

92,7

aandacht (5), aangericht,
aangeslingerd, aangespoord (2),
aangevraagd, aankomst,
aantrekt, acht (5), adverteert,
afgebeeld, afgeleverd, afgepakt,
afwijkend, allereerst, altijd (20),
alvast, apart, aparthcid(5),......

goed

fout

36

1.2

aard, appartement, arbeid,
bangescheiterd, bed (4),
binnenland, bloed, buitenwereld,
cursusgeld (5), dood, hard,
honderd (10), lesgeld, mand,
tweehonderd, vastgelegd,
vliegveld, vreemd,
wegonderhoud, zogenaamd

fout

fout

1

0,0

doodt

fout

goed

22

0,7 ^

aanbid, aangevraagt,
antwoord (2), gegroeit, gekamt,
houd (3), onderhoud, probeerd,
steld, verbint, vind (2), werdt (2),
word (5)

goed

twijfel

144

4.8

zie tabel 2

fout

*

twijfel

14

0,5

zie tabel 2

-ocr page 117-

Oplossing voor de werkwoordsspelling ^ ^ 3

wordt eveneens in alle gevallen correct geschreven; (3) twijfel over de syntactische functie van
een werkwoordsvorm; dit komt 65 keer voor, en leidt tot 14 fouten in het leerlingenwerk. Deze
resultaten zijn weergegeven in Tabel 2.

De fouten die door leerlingen gemaakt zijn in de categorie 'syntactische functie?' zijn per
jaargroep leerlingen uitgesplitst, en staan in Tabel 3.

Alle hierboven gepresenteerde resultaten hebben betrekking op woorden die eindigen op een
finale /t/-klank. Om het overzicht van de spellingproblemen bij de werkwoordsvormen te com-
pleteren is tevens nagegaan hoeveel MIDDENproblemen voorkomen, dat wil zeggen, vormen
die op '-/t9(n)/' of
'-/<id(n)/' eindigen. In het leerlingenwerk zijn er 185 van die vormen, waarbij
1 fout gemaakt wordt. 3 vormen vereisten een nontriviale verdubbeling van de 'd' of 't'.
Triviale verdubbelingen komen 14 keer voor, en er zijn 25 nontriviale 'enkel' geschreven
MIDDENproblemen. Deze resultaten staan in Tabel 4.

De analyse van de MIDDENproblemen is met de hand gebeurd - het expertsysteem kan deze
vormen (nog) niet beoordelen.

DISCUSSIE

Over de teksten

Het aantal fouten in het leerlingenwerk ligt in feite lager dan gevreesd moest worden na de
onheilspellende uitkomsten van eerder uitgevoerd onderzoek.
Een totaal van 37 fouten in 2972
ElNDproblemen betekent een score van 98,8% goed. Er zijn weinig schoolvakken waarbij een

Tabel 2. Specificatie van Alarm.

type twijfel

aantal

schrijfwijzen van leerling

wel / geen-
werk-
woord?

73
goed

baard, dood (3), gebied (7), geld (11), grond (7), hout (2),
land (21), maand (2), lied (2), moed, mond, paard (2),
rond (4), strand (6), süijd, wild (2)

welk
werk-
woord?

20
goed

bood, boot, laat (10), rijdt, verwend, voorbaat, wet,
wind (3), zond

syntac-
tische
functie?

51

goed

14
fout

aard (Ig), antwoord (2g), bedoelt (Ig, 10. begroeidt (If),
behoord (If), bekend (Ig), benauwd (2g), beschouwd (2g).
be.schuldigd (Ig), bestemd (Ig), beweerd (Ig),
bezorgd (Ig), gebeurd (2f, Ig), gebeurt (3g), geld (2g),
gelooft (Ig), land (Ig), ondergrond (Ig), ontvlooh (20.
ontwikkeld (2g), ontwomit (20. overtuigd (2g),
thuisbezorgd (2g), uiteraard (Ig), verbrijzelt (Ig),
verdeeld (2g), verenigd (Ig), verkeerd (Ig), verkleed (Ig),
veriiefd (Ig), vernield (Ig), vernederd (Ig), verslaafd (Ig),
verteld (3f, 3g), vertoont (Ig), vervoert (10. vervuilt (Ig),
verzorgd (Ig), verzorgt (10. verzuurt (Ig), vind (Ig),
word (4g)

-ocr page 118-

112 Johan Zuidema en Jeroen Weber

Tabel 3. Twijfelgevallen per groep / klas.

groep / klas

7

8

1

2

3

4

5

6

aantal 'd /1'
woorden

348

222

550

218

522

318

474

320

twijfel over
syntactische functie

1

5

11

7

8

14

10

9

fouten

0

0 .

6

3

2

0

1

2

Tabel 4. MIDDENproblemen.

MIDDENproblemen

aantal

schrijfwijzen van leerling

fout

1

hoordde

nontriviaal 'dubbel'

3

belandde, heette (2)

nontriviaal 'enkel'

25

aanraden (2), beladen, bevruchte, feesten,
heten, korten, kosten, laden, misten,
pleiten, praten (2), richten, storten (2),
stoten, verrichten, vluchten, voeden,
wachten (5)

triviaal 'dubbel'

14

bevallen, hadden (2), inzetten, opletten,
rotten, verzetten (2), zette, zitten (5)

triviaal 'enkel'

142

afweten, belde, besloten, besluiten,
bevinden, deden, draaide, durfde, duwde,
eten (2), geloofde..................................

wisten, worden (36), zakte, zeiden,
zouden (6)

hogere prestatie van de leerlingen geëist wordt. Moeten we hieruit concluderen dat het allemaal
vreselijk meevalt met het beheersingsniveau van de werkwoordsspelling? Zijn het dc leraren en
onderzoekers die erg goed zijn in het bedenken van moeilijke dictees?

Hoe verleidelijk deze conclusie ook is, terecht is zij niet. We moeten ons realiseren dat de
basisschool - als het goed is - niet alleen opleidt tot het correct spellen van uitingen op het

-ocr page 119-

Oplossing voor de werkwoordsspelling ^ ^ 3

taalniveau van twaalfjarigen, maar ook van volwassen taalniveau. En dan komen 'moeilijke
Woorden' mogelijk frequenter voor.

In het luchtig geschreven 'Signalement' (Piet Vroon, Volkskrant 10-6-1990), van 687 woor-
den lang, komen 4 werkwoordsvormen voor die vallen onder de beruchte categorie van de
twijfel over de syntactische functie (bepaald(2), onderbouwd, verlengt). Dit is anderhalf keer zo
vaak als in het leerlingenwerk. Het artikeltje is te kort om er vérstrekkende conclusies aan te
verbinden, maar de tendens wordt duidelijk bij de analyse van langere, formelere teksten.

De richtlijnen voor auteurs van Pedagogische Studiën telt 1251 woorden; er komen 12
Alarmen van het type 'syntactische twijfel' voor (bedoeld, behoeft, behoort, beleid, beoordeeld,
hepaald, bevordert, onderbouwd, verantwoord, verdient, vereenvoudigd, vermeld). Dat betekent
relatief 2,5 keer zoveel als in het leerlingenwerk. Het Tijdschrift voor Onderwijsresearch heeft
kortere richtlijnen voor auteurs: 592 woorden, met 3 Alarmen (vergezeld, vermeldt, bepaald).
Dat betekent een factor 1,3 ten opzichte van het leerlingenwerk.

In het zeer formele schrijfwerk van een notaris, een eigendomsbewijs van een huis, herkent
het expertsysteem in 947 woorden 13 vormen van de bedoelde categorie (bekend(3), bedoeld(2),
behoort, bewaart, ondertekend, toebedeeld, verschuldigd, vermeld(2), verrekend). Dit is een
factor 3,5 keer zoveel als in de opstellen van de leerlingen.

Er is een verklaring voor, dat volwassenen relatief vaker vormen van deze syntactische
categorie gebruiken dan kinderen. Het gaat in deze categorie namelijk om de zogenaamde
zwakke prefixwerkwoorden met een onbeklemtoonde prefix, en deze vallen onder de onscheidbare
samenstellingen. Onscheidbare samenstellingen genereren geen 'ge-' als prefix van het voltooid
deelwoord. Daarom is het onderscheid tussen een persoonsvorm en een voltooid deelwoord in
<leze categorie niet op klank te onderscheiden. "Vaak hebben de onscheidbare samenstellingen
een meer figuurlijke betekenis in vergelijking met de scheidbare" (Geerts, Haeseryn, De Rooij
f- Van den Toom, 1984 : 496). Bijvoorbeeld hebben dc onbeklemtoonde prcfixwerkwoorden
'doorzién', 'doorbréken', 'doorsnijden', 'verspringen' en 'overiópcn' een meer figuurlijke be-
tekenis dan 'dóórzien', 'dóórbreken', 'dóórsnijden', 'vérspringen' en 'óveriopen'. waar wèl het
Accent op de prefix valt. De figuuriijke betekenissen vereisen ccn hoger abstractievermogen, en
borden pas op latere leeftijd opgenomen in de actieve woordenschat. Dc woordenschatverwerving
het spellingonderwijs lopen bij basisschoollecriingcn dus niet synchroon.

Over het expertsysteem

"et in dit artikel besproken onderzoek is mede uitgevoerd ter toetsing van Zuidema's (1988)
expertsysteem. Het feit dat het model zonder veel aanpassingen om te zetten is in ccn werkende
computersimulatie, is een bewijs voor de intcmc consistentie ervan.

De computersimulatie kan in deze eerste testsituatie nog niel zo goed spellen als dc leeriin-
gen: als het expertsysteem in al zijn twijfelgevallen een 'd' schrijft, maakt het
72 fouten m de
EINDproblemen van de opstellen, legen
37 fouten van de leerlingen.

Dit aantal fouten kan wel vrij gemakkelijk tol (veel) minder dan dc helft gereduceerd worden
(a's er rekening gehouden wordt met woorden als 'hondcrd(lO)' cn mcl frcqucmie-cffcctcn bij
boorden als 'bed(4)' cn 'laat(lO)').

, Veel belangrijker dan ccn lage fouienscorc is. dat het cxpcnsystecm slechts 1 fóut van dc
'^eriingen 'over het hoofd ziet'. Dc fouten die leeriingen maken als gevolg van onoplettendheid
^Ün waarschijnlijk veel talrijker. Dc waakzaamheid is hcl sterke punt van het cxpensyslccm, cn
hiervan kan gebruik gemaakt worden in het onderwijs.

De goede prestatie van hci cxpcnsystccm. 93,4% goed tegen 1.2% fout. èn 5.3% terecht
'^^»igewezcn Alarmen, is levens een ondersteuning van dc stelling, dat, hoewel dc werkwoords-
spclling gebaseerd is op ccn syntactische regeling, hci zelden noodzakelijk is om ccn syntactische
^"alyse uil ie voeren teneinde te komen tol een correcte schrijfwijze van de werkwoordsvormen.
Het cxpensyslccm ondcrschcidi zich niet alleen qua werking van ccn spelhngchecker, maar
qua resultaat. Traditionele spellingcheckers werken mci vasic lijsten woorden cn nicl aan de
"and van spellingpatronen in dc taal. SpclIingchcckcrs zijn na een relatief eenvoudige aanpassing
^«^eds in staat om aan le geven waar mogelijke doublctvormcn bij dc werkwoordsvormen voor-

-ocr page 120-

114 Johan Zuidema en Jeroen Weber

komen. Uitsluitend de computersimulatie van het expertmodel kan bij een dergelijke ambiguï-
teit in de schrijfwijze gerichte vragen stellen over waarop de keus voor het ene of het andere
alternatief gebaseerd is. DT-duiveltje genereert deze vragen inderdaad automatisch.

Over het spellingonderwijs

Veel valkuilen in de spelling voelen leerlmgen goed aankomen. Als ze daar dan toch nog
invallen, komt dat omdat ze niet correct kiezen voor het goede schrijfvoorschrift. Bij de
werkwoordsspelling ligt dat iets anders. Leerlmgen (en volwassenen) hebben bij dit spelling-
onderdeel minder betrouwbare intuïties over wäär de problemen zitten. Dat komt omdat het hier
gaat om een complex regelsysteem, dat relatief wemig gebruikt hoeft te worden. Vrijwel overal
geven de regelmatigheden van de taal direct uitsluitsel over het toe te passen schrijfvoorschrift.
Slechts in een enkel geval is het nodig om een syntactisch analyse uit te voeren. Met name in een
situatie waarin de aandacht door iets anders wordt opgeëist dan spelling, bijvoorbeeld bij het
schrijven van een opstel, wordt de noodzaak van een syntactische analyse niet op grond van
intuïties aangevoeld.

DT-duiveltje kan haarfijn aangeven wanneer het wèl nodig is om een syntactische analyse uit
te voeren, en ook nog wèlk syntactisch vraagstuk dan moet worden opgelost. Deze uitkomst van
het onderzoek bevestigt het nut van een uitwerking van het expertsysteem tot een educatief
computerprogramma, 'DT-duiveltje'. Het idee achter dit programma is, dat een leerling zijn
opstellen intypt op een tekstverwerker, en dat DT-duiveltje het werk van de leerling schaduwt.
Het programma grijpt alleen in bij fouten en bij twijfelgevallen: de leerling moet dan zelf het
denkwerk nog doen. Het programma kan hiermee wel weer helpen, door aan te geven over
welke vragen moet worden nagedacht.

Om profijt te trekken van DT-duiveltje moet de leeriing dus wel kennis hebben van de
spellingregels voor de werkwoordsvormen, en van de grammaticale begrippen die nodig zijn
voor de analyse. Die kennis kan, zo blijkt uit het onderzoek van Assink (1983) en Zuidema
(1988), het beste worden geleerd aan de hand van een regelgerichte, algoritmische methode,
bijvoorbeeld die van Assink en Klein (1984). Als de kennis over het systeem in principe geleerd
is, moet er niet héél lang geoefend worden met het algoritme.

Om het geleerde te automatiseren kan na enige tijd eventueel overgeschakeld worden op het
algoritme van De Schutter (1984) en Pepermans en Van Herck (1985). Dit algoritme is minder
uitgebreid dan dat van Assink, en heeft al meer het karakter van een 'checklist voor moeilijke
gevallen'. Ook met dit systeem hoeft niet heel lang gewerkt te worden: dan is DT-duiveltje aan
de beurt, om uitsluitend bij gevallen waar het echt noodzakelijk is in te grijpen. Op deze wijze
wordt een leeromgeving gecreëerd, waarin leeriingen gestimuleerd worden om over te gaan van
het door directe instructie aangeleerde, sequentiële denken op het door incidenteel leren verworven,
simultane denken.

Het voordeel van deze overgang blijkt ook uit de resultaten van het onderzoek. De algorhmes
schrijven voor om bij 100% van de werkwoorden te stoppen voor een analyse van de schrijfwijze.
Dat is bij de door ons onderzochte opstellen hooguit bij 7,3% van de EINDproblemen echt
nodig. Leerlingen moeten gevoelig worden voor die moeilijke gevallen, zodat ze op den duur dc
gemakkelijke vormen volledig automatisch goed schrijven, en bij de moeilijke zich automatisch
rekenschap geven van het karakter van die moeilijkheid. Dit kan door een proces van incidenteel
leren, als ze telkens even worden geattendeerd op de moeilijke vormen, ook wanneer ze die
goed schrijven (Zuidema & Weber, 1990).

Door de invoering van DT-duiveltje krijgt het onderdeel 'wcrkwoordsspelling' de plaats die
het verdient in het onderwijs: bescheiden aandacht, en uitsluitend waar het echt aan dc orde is.
Het expertsysteem helpt leeriingen alert te worden bij potentiële foutenbronnen. Als het pro-
gramma ingeschakeld is maken ze geen fouten meer door onoplettendheid. De kwaliteit van hun
werk gaat omhoog, terwijl ze minder tijd besteden aan spellingonderwijs.

Door de verhoging van de efficiëntie van het spellingonderwijs die met DT-duiveltje ver-
wezenlijkt kan worden, is de paradox van Van Oudenhoven (1983 :15 - 16) opgelost. Hij stelt,
dat enerzijds dc spellingprestaties verhoogd moeten worden, vanwege het sociale belang van

-ocr page 121-

Oplossing voor de werkwoordsspelling ^ ^ 3

een goede beheersing van deze basisvaardigheid, terwijl anderzijds de leraren minder tijd wen-
sen te besteden aan de lessen voor dit taaionderdeel - er zijn veel creatieve aspwcten van taal
waaraan zij door de tijdverslindende spelling niet voldoende toe zouden komen.

NOTEN

1. Met dank aan de Vondelschool te Amersfoort en het Cals College te Nieuwegein voor hun medewerking
aan het onderzoek.

2. 36 fouten in de tweede categorie van Tabel 1, plus

1 fout in de derde categorie van Tabel 1, plus

2 fouten in de eerste categorie van Tabel 2, plus
14 fouten in de tweede categorie van Tabel 2, plus

19 fouten in de derde categorie van Tabel 2, is in totaal

-ocr page 122-

Tijdschrift voor Onderwijsresearch. 16 (1991). nr. 2, pp. 116-120

Notities en Commentaren

BESCHIKBAARHEID VAN TIJDSCHRIFTARTIKELEN
OP HET GEBIED VAN HET ONDERWIJS

H.M. Knippenberg en R.E.C. Verstraaten

Bibliotheek Pedagogische Wetenschappen en Onderwijskunde, Katholieke Universiteit Nijmegen1

Voor onderzoekers en studenten op het gebied van het onderwijs biedt het literatuurbestand van
het Educational Resources Information Centre (ERIC) een belangrijke toegang tot de internationale
vakliteratuur.

Het bestand kan geraadpleegd worden in gedrukte vorm. als online beschikbaar gestelde
database of op Compact Disk-Read Only Memory (CDROM). In deze laatste vorm kan de
onderzoeker of student zelf - zonder tussenkomst van een informatiespecialist - het ERIC-
bestand in geautomatiseerde vorm raadplegen.

In de bibliotheek Pedagogische Wetenschappen en Onderwijskunde van de Katholieke Uni-
versiteit Nijmegen (KUN) is het ERIC-bestand sinds enkele jaren op CDROM raadpleegbaar.
Het gebruik ervan is intensief. Dh intensieve gebruik heeft echter geleid tot een toename van
een klacht, die in verband met het raadplegen van het ERIC-bestand ook vroeger al gehoord
werd: dat het vaak moeilijk is de in ERIC opgespoorde tijdschriftartikelen werkelijk in handen
te krijgen.

Aan deze klacht is het huidige onderzoek gewijd. Hierin is nagegaan in hoeverre tijdschrift-
artikelen die zijn opgespoord in het ERIC-bestand. aanwezig zijn in de bibliotheek Pedagogische
Wetenschappen en Onderwijskunde van de KUN. in bibliotheken van dc KUN in het algemeen,
en in bibliotheken in Nederland.

METHODE

In het onderzoek is gebruik gemaakt van de CDROM-versie van het ERIC-bestand. ERIC
bestaat uit twee deelbestanden: 'Current Index to Journals in Education' en 'Resources in
Education'. In het eerstgenoemde treft men verwijzingen aan naar tijdschriftartikelen, in het
laatstgenoemde verwijzingen naar rapporten. Het onderzoek is alleen gericht op de verkrijgbaarheid
van tijdschriftartikelen en is daarom beperkt tot het deelbestand 'Current Index to Journals in
Education'.

Onderzocht zijn de tijdschriftartikelen die in een periode van twee jaar (van oktober 1987
t/m september 1989) in het ERIC-bestand zijn opgenomen. Totale aantal: 34.938. Van de artike-
len uit de onderzochte periode is 99,3% in het Engels, de resterende artikelen zijn vooral in het
Frans of in het Duits. In dc onderzochte periode zijn er geen Nederlandstalige artikelen in ERiC
opgenomen. Er zijn steekproeven genomen voor dc verschillende clearinghouses die elk op een
eigen deelgebied de literatuur voor het ERIC-bestand verzamelen. In de eerste twee
kolommen
van Tabel 1 treft men dc naam van deze clearinghouses aan met daarbij aangetekend het aantal
artikelen dat in genoemde periode door het betreffende clearinghouse voor ERIC
verzameld
werd.

Per clearinghouse is een random steekproef van 100 artikelen genomen. Bij deze
steekproefgrootte is de standaardfout van geen van dc gevonden proporties groter dan 0.05. Van
dc artikelen uit dc steekproef is nagegaan of ze aanwezig waren in:

1) dc bibliotheek Pedagogische Wetenschappen cn Onderwijskunde van de KUN

2) een van de andere bibliotheken van de KUN

♦ Postbus 9103, 6500 HD Nijmegen.

-ocr page 123-

Notities en commentaren 117

3) een van de Nederlandse bibliotheken aangesloten bij de Nationale Centrale Catalogus (NCC).
Deze is de basis voor het Interbibliothecaire Leenverkeer in Nederland.

Er is gezocht in bovenstaande volgorde. Als een artikel in een van de stappen gevonden werd, is
er niet verder gezocht. Er is alleen in catalogi gekeken. Er is niet nagegaan of een artikel ook
werkelijk voorhanden was.

RESULTATEN

In Tabel 1 treft men voor de verschillende clearinghouses de proporties artikelen aan die aanwe-
zig zijn in de bibliotheek Pedagogische Wetenschappen en Onderwijskunde van de KUN, in de
bibliotheken van de KUN in het algemeen, en in de Nederlandse bibliotheken aangesloten bij de
NCC. De proporties voor de verschillende soorten bibliotheken zijn onderling afhankelijk. Als

Aantal
verschil-
lende
tijdschr.
titels

Aanwezig
Pcd.Wct &
Onderwijs-
kunde KUN

Tabel 1. Aantal in ERIC 10.87-09.89 opgespoorde artikelen. Proporties voor aanwezigheid van artikelcri in
Nederland (NCC). op dc KUN, cn in dc bibliotheek Pcdagogischc Wctcnschappcn cn Onderwijs-
kunde van dc KUN. Aantal vcrschilIcndc üjdschrifuilcls in dc steekproeven van 100 artikelen.

Gebied (Clearing- Aantal Aanwezig Aanwezig

"ousc) mcl arükclcn Nederland KUN

ERlC-afkorting in ERIC NCC

Tests, Measurement and

Evaluation (TM)
Information Rcsourccs (IR)
Elementary and Early

Childhood Education (PS)
Languages and Linguistics
(FL)

Scicncc. Mathematics and
EnvironmcnUl Education
(SE)

Counseling and Guidance (CG)
Higher Education (HE)
Social Scicnccs / Social

Studies (SO)
'^duh, Career and

Vocational Education (CE)
^rban Education (UD)
Handicapped and Gifted

Children (EC)
Tcachcr Education (SP)

heading and Communication

Skills (CS)
Educational Management (EA)
Junior Colleges (JC)
Rural Education and Small
Schools (RC)

25
52

18

34

0,71
O

0,51
O

0,80
0,21

0,59

0,64

0,89
0,88

0,85

0.85

1127
2647

1592

1509

43
41
34

49

49
36

48
33

49
19
12

29

0,01
0,09
0,01

0,12

0.18
0,11

0,38
0,12

0,01
0,33
0,12

0,09

0,38
0,42
0.19

0,44

0,28
0.42

0,45
0,19

0,14
0,33
0,12

0,15

0.80
0,75
0,69

0,67

0,63
0,61

0,56
0.52

0,51
0,50
0,33

0,21

3359
3492
2860

2663

2230
1354

3466
1661

3512
2087
544

835

34.938

-ocr page 124-

Notities en commentaren 118

Tabel 2. Proporties en standaardafwijkingen van beschikbaarheid van anikelen over onderwerpgebieden
heen (voor het ERIC-bestand in het algemeen): in Nederland (NCC), op de KUN, en in de bibliotheek
Pedagogische Wetenschappen en Onderwijskunde van de KUN.

Proportie

Standaardafwijking

Aanwezig Nederland (NCC)

0,67

0,0121

Aanwezig KUN

0,35

0,0121

Aanwezig bibliotheek

Pedagogische Wetenschappen

0,15

0,0079

en Onderwijskunde KUN

een artikel meetelt voor de proportie aanwezigheid van de bibliotheek Pedagogische Weten-
schappen en Onderwijskunde van de KUN, telt het ook mee voor de proportie aanwezigheid van
de bibliotheken van de KUN in het algemeen en voor die van de bibUotheken in Nederland.

Binnen een clearinghouse kunnen meerdere artikelen uit één tijdschrift komen. In de laatste
kolom van tabel 1 is aangegeven hoeveel tijdschriften nodig waren om bij het betreffende
clearinghouse tot de steekproef van 100 artikelen te komen.

Voor de drie verdelingen van proporties afzonderlijk (die van de bibliotheek Pedagogische
Wetenschappen en Onderwijskunde van de KUN, die van de bibliotheken van de KUN in het
algemeen, en die van de bibliotheken in Nederland) is door middel van een chi-kwadraat toets
nagegaan of er significante verschillen zijn tussen de clearinghouses in proporties aanwezigheid.
Binnen alle drie de verdelingen zijn deze verschillen significant (p<0,001). De gevonden Chi-
kwadraat-waarden zijn: 441,204 voor de bibliotheek Pedagogische Wetenschappen en Onder-
wijskunde van de KUN, 253,967 voor de bibliotheken van de KUN in het algemeen, en 255,704
voor de bibliotheken in Nederiand. Omdat de Chi-kwadraat-waarden berekend zijn bij gelijk
aantal vrijheidsgraden kan hieruit worden afgeleid dat de verschillen tussen de clearinghouses
binnen de bibliotheek Pedagogische Wetenschappen en Onderwijskunde van de KUN groter
zijn dan de verschillen tussen de clearinghouses binnen de bibliotheken van de KUN in het
algemeen en binnen dc bibliotheken in Nederland.

Er zijn ook schatters berekend voor de proportie aanwezige artikelen voor het gehele ERIC-
bestand (over de clearinghouses heen). Deze worden met bijbehorende standaardafwijkingen
vermeld in Tabel 2. Zij zijn berekend met behulp van de schauers die Yamane (1967. p. 148-
153) geeft voor gestratificeerde random steekproeven.

DISCUSSIE

Binnen dc onderzochte bibliotheken zijn er grote verschillen tussen dc onderwerpgebieden
(clearinghouses) in de beschikbaarheid van tijdschriftartikelen. Deze verschillen zijn het grootst
als alleen gekeken wordt naar de collectie van de bibliotheek Pedagogische Wetenschappen cn
Onderwijskunde van dc KUN, kleiner maar nog steeds significant zijn ze voor dc collecties van
de KUN in het algemeen en de Nederlandse bibliotheken aangesloten bij de NCC.

In de bibliotheek Pedagogische Wetenschappen en Onderwijskunde van de KUN zijn op de
meeste gebieden zeer weinig artikelen aanwezig. Er zijn twee duidelijke uitzonderingen: dc
gebieden 'tests, measurement and evaluation' en 'elementary and early childhood education'
scoren hoog op beschikbaarheid: 0,71 cn 0,51. Deze dragen dan ook het meeste bij aan dc hoge
Chi-kwadraat-waarde van deze bibliotheek. Twee gebieden liggen tussen genoemde hoge
aanwezigheidsproporties en de grote groep van zeer lage proporties in: 'educational management'
(0,33) en 'handicapped and gifted children' (0,38).

-ocr page 125-

Notities en commentaren 119

In de collectie van de bibliotheken van de KUN in het algemeen vormt het gebied 'tests,
measurement and evaluation* nog steeds een positieve uitzondering in vergelijking met de
overige gebieden. Dh gebied draagt dan ook relatief veel bij aan de Chi-kwadraat-waarde van de
verdeling binnen deze collectie. Verder valt op dat de beschikbaarheidsscores van de verschil-
lende gebieden bijtrekken in vergelijking met die van de bibliotheek Pedagogische Wetenschap-
Pen en Onderwijskunde van de KUN. Dit geldt vooral voor de gebieden 'languages and linguistics',
'science, mathematics and environmental education', 'social sciences/social studies', 'counsel-
ing and guidance' en 'urban education'. De eerste drie genoemde gebieden hebben te maken met
andere wetenschappen dan Pedagogiek en Onderwijskunde. De artikelen op deze gebieden zijn
op de KUN eerder te vinden in de bibliotheken van deze wetenschappen dan in de bibliotheek
Pedagogische Wetenschappen en Onderwijskunde. Artikelen uit het gebied 'counseling and
guidance' staan vaak in psychologische tijdschriften en zijn daarom op de KUN vaak te vinden
in de bibliotheek Psychologie. De artikelen uit het gebied 'urban education' staan voor een klein
gedeelte in onderwijskundige tijdschriften maar daarnaast in tijdschriften op allerlei
Wetenschapsgebieden: sociale wetenschappen in het algemeen, sociologie, antropologie, geo-
grafie. Ze zijn dan ook nogal verspreid over de KUN te vinden in bibliotheken.

Op landelijk niveau hebben alle gebieden een proportie beschikbaarheid van 0,50 of hoger
bereikt met twee uitzonderingen: 'junior colleges' (0,33) en 'rural education and small schools'
(0.21). Dit zijn twee kleine gebieden, waarin weinig artikelen zijn ondergebracht. De geringe
relevantie van deze gebieden voor de Nederiandse situatie zou ten grondslag kunnen liggen aan
de lage beschikbaarheidsscores. Relatief hoge beschikbaarheidsscores op landelijk niveau halen
de gebieden 'tests, measurement and evaluation' (0,89), 'infonnation resoun;es' (0,88), waarin
yeel tijdschriften zijn opgenomen op de gebieden informatietechnologie en bibliotheek- en
informatiewetenschap, 'elementary and eariy childhood education' (0,85), 'languages and
linguistics' (0,85), 'science, mathematics and environmental education' (0,80) en 'counseling
and guidance' (0,75). Het gebied 'elementary and early childhood education' is het enige uit
deze opsomming dat alleen op onderwijs betrekking heeft. Daarnaast zitten er ook in het hoog
scorende gebied 'tests, measurement and evaluation' voornamelijk tijdschriften die op het onderwijs
betrekking hebben. In de hoge score van de overige genoemde gebieden hebben tijdschriften uit
andere wetenschappen dan Pedagogiek en Onderwijskunde een forse inbreng.

De beschikbaarheidsproporties over de onderwerpgebieden heen zijn 0,15 voorde bibliotheek
Pedagogische Wetenschappen en Onderwijskunde van de KUN. 0,35 voor de bibliotheken van
<le KUN in het algemeen cn 0,67 voor dc bibliotheken in Nederiand. Deze proporties zijn laag tc
noemen. Ter vergelijking: in een recent onderzoek naar beschikbaarheid van tijdschriftartikelen
op het gebied van de Psychologie (Knippenberg & van Dorsser-Willcms, 1990) werden voor
Engelse. Duitse. Franse cn Nederlandse artikelen die in dc periode oktober 1986 t/m september
'988 zijn opgenomen in Psychological Abstracts, de volgende bcschikbaarhcidsproportics ge-
vonden: 0,27 voorde instituutsbibliotheek (dc bibliotheek Psychologie van dc KUN). 0,56 voor

bibliotheken van dc KUN in het algemeen, cn 0.85 voor dc bibliotheken in Nederland die
aangesloten zijn bij de NCC.

Voor gebmikers van ERIC valt dc grens tussen beschikbaar en niet beschikbaar vaak samen
"iet de vraag of ccn artikel binnen dc instelling tc verkrijgen is of niet. Dit geldt vooral voor
studenten, die weinig van het intcrbibliothecairc leenverkeer gebmik maken. Een
beschikbaarhcidsproportic van 0,35 voor dc instelling is in dat licht bezien laag. De situatie zal
^oor concrete gebmikers van ERIC waarschijnlijk iets minder ernstig zijn. omdat in dit onder-
hoek niet gedifferentieerd is naar onderwerpen die bij onderzoekers cn studenten van de KUN in
de belangstelling staan. Daarvoor mogen op lokaal niveau hogere beschikbaarheidsproporties
Verwacht worden. Toch bevestigt dc voor dc instelling gevonden proportie dc klachten die
Sebruikers regelmatig uiten ten aanzien van dc verkrijgbaarheid van artikelen.

Ook dc landelijke beschikbaarhcidsproportic van 0,67 is laag tc noemen. Het opvragen van
^r^ikelcn in het buitenland of via documentleveranciers gebeurt weinig. Ook hier moet men cr
tekening mee houden dat het onderzoek niet beperkt is tot onderwerpen die in Nederiand in dc
•^langstelling staan. Op het gebied van het onderwijs zullen ertussen landen verschillen bestaan

-ocr page 126-

Notities en commentaren 120

in de belangstelling voor onderwerpen, en het ERIC-bestand met zijn Amerikaanse oriëntatie
sluit wat dit betreft niet helemaal aan bij de Nederlandse situatie. De lage scores op beschikbaarheid
op landelijk niveau van de gebieden 'junior colleges' en 'rural education and small schools'
duiden ook in deze richting. Een andere oorzaak voor de lage landelijke beschikbaarheidsproportie
zou kunnen zijn dat in het ERIC-bestand ook tijdschriften worden opgenomen die niet zozeer op
een wetenschappelijk publiek gericht zijn als wel op de beroepsgroep van leraren en onderwij-
zers.

Het onderzoek is beperkt tot tijdschriftartikelen. Zoals eerder vermeld neemt ERIC ook
verwijzingen naar rapporten op. De verkrijgbaarheid hiervan is in Nederland geregeld: ERIC-
rapporten zijn verkrijgbaar bij het Ministerie van Onderwijs en Wetenschappen. Dit leidt tot een
vreemde situatie: rapporten uit het ERIC-bestand, waarvan men in het algemeen mag aannemen
dat zij in mindere mate kritisch gescreend zijn vóór publikatie dan tijdschriftartikelen, zijn - als
gekeken wordt naar de verkrijgbaarheid op landelijk niveau - beter beschikbaar dan de
tijdschriftartikelen uit het ERIC-bestand!

LITERATUUR

Knippenberg, H. M., & Dorsser-Willems, M. G. J. van. (1990). Beschikbaarheid van tijdschriftartikelen. De

Psycholoog, 25, 554-557.
Yamane, T. (1967).
Elementary sampling theory. Englewood Cliffs, NJ: Prentice Hall.

Manuscript ontvangen 13-12-1990

-ocr page 127-

Tijdschrift voor Onderwijsresearch. 16 (1991). nr. 2, pp. 121-120

Boekbesprekingen

H.P.A. Boshuizen. De ontwikkeling van medische expertise; een cognitief-psychologische be-
nadering.
Academisch proefschrift Rijksuniversiteit Limburg, 1989.

Informatie en kennis spelen in onze maatschappij een belangrijke rol. Het is daarom niet ver-
wonderlijk dat onderzoek naar expertise in vakinhoudelijke domeinen sterk in de belangstelling
staat. Naast de meer exacte vakinhoudelijke domeinen (zoals natuurkunde) wordt er met name
ook veel onderzoek verricht in het domein van de medische wetenschap. Het aan de Rijksuniversiteit
Limburg verrichte onderzoek is op dit laatste terrein sterk vertegenwoordigd, en Boshuizen's
proefschrift is hier een exponent van. Zij richt zich in haar proefschrift niet alleen op de aard van
medische expertise maar met name, gelet op de titel, op de
ontwikkeling van de expertise. Een
kleine nuancering is hier op zijn plaats: haar onderzoek is
cross-sectioneel van aard en beziet het
ontwikkelingsproces dus vanuit doorsneden in de ontwikkeling.

Om meteen de context voor de rest van deze bespreking te geven: Het proefschrift blinkt uit
door leesbaarheid en overzichtelijkheid. De onderzoeken zijn verantwoord opgezet en de theo-
retische verantwoording getuigt telkens van een gedegen inzicht in de relevante literatuur.
Hieronder gemaakte kanttekeningen dienen in die context gelezen te worden.

Het proefschrift is opgebouwd uit 3 hoofdonderdelen: een theoretische achtergrond, verslag van
4 experimenten en tot slot een integrerend hoofdstuk. Het eerste hoofdstuk geeft een historisch
overzicht van onderzoek en theorievorming over probleemoplossen en daarmee verwante cog-
nitieve vaardigheden. Volgens Boshuizen wordt het onderzoek naar probleemoplossen uit het
begin van deze eeuw gekenmerkt door:

* het opvatten van kennis als een hinderpaal bij probleemoplossen, en
Weinig interesse voor het
proces van probleemoplossen.

Hierna verflauwde, onder invloed van het behaviorisme, de aandacht voor probleemoplossen,
"iet als uitzondering het werk van Dc Groot, die als een van dc eersten probleemoplossen
relateerde aan kennis. Het recente onderzoek kenmerkt zich door expliciete aandacht voor de
relatie tussen probleemoplossen en kennis en voor het oplosproces.

Centraal in deze benadering staat dc imeme representatie die de probleemoplosser van een
probleem maakt en die tijdens het oplosproces verandert. Deze inteme representatie wordt
Vooral beïnvloed door dc kennis van de probleemoplosser en dan met name door de structuur
^an die kennis.

De eerste fase van het verwerven van kennis ziet Boshuizen vooral als een fase van toename
en structuurverandering van kennis. Daarna komt er volgens haar een fase waarin er specialisatie
«^n automatisering van de kennis plaatsvindt. Het is echter ook vol te houden dat in dc fase van
'specialisatie en automatisering veranderingen in dc structuur van de kennis plaatsvinden en
daarom is het onderscheid niet zo scherp als door Boshuizen aangegeven. De verwevenheid van
probleemoplossen met domcinkcnnis is voor Boshuizen zeer belangrijk en daarin wordt ze
gesteund door een grote hoeveelheid van recent onderzoek. Boshuizen verzuimt echter twee
^langrijke 'concurrerende stromingen' te noemen waarin naar domein-vrije kennis gezocht
^ordt: het onderzoek naar metacognitie cn het onderzoek naar generische modellen in dc Al.
Het bovenstaande algemene uitgangspunt relateert Boshuizen aan resultaten van onderzoek
het medisch domein. Gevonden werd daar dat artsen al vrij snel in het diagnoseproces
[hypothesen genereren maar tevens dat beginners dat ook doen en dat
expertise-verschillen met
het oplosproccs, maar in dc
inhoud van dc hypothesen tot uitdrukking komen. Dit ondersteunt
veronderstelling van verwevenheid van kennis cn probleemoplossen, een relatie die m de rest
^an het proefschrift verder wordt uitgewerkt. Dit gebeurt in 4 onderzoeken, waarin de mtcme
Probleemrepresentatie, de relatie daarvan met dc (.stmctuur van) kennis en verschillen in kennis-
structuur tussen verschillende expcrtisenivo's aan de orde komen.

-ocr page 128-

122 Boekbesprekingen

Het eerste experiment is een 'recall'-experiment. Proefpersonen (4 expertisenivo's, van 2'
jaars studenten tot huisartsen) kregen een tweetal casusbeschrijvingen voorgelegd met daarbij
de opdracht een diagnose te stellen. Na afloop werd hen gevraagd alles op te schrijven wat ze
zich nog konden herinneren. De veronderstelling bij deze taak is dat er een interne representatie
van de casus tot stand komt op basis van het activeren van een probleem-'frame' dat naar
aanleiding van de casus met feitelijke informatie geïnstantieerd wordt. Boshuizen veronderstelt
dat in de hogere expertisenivo's geen verschillen zullen zijn in de kennis van de textbase (de
•frames'), maar nog wel in de hoeveelheid specifieke domeinkennis. Op basis hiervan verwacht
zij o.a. een over expertisegroepen (tot een horizontale asymptoot) toenemende hoeveelheid
recall.

De resultaten van het experiment bevestigen de veronderstelling dat experts betere
probleemmodellen (frames) bezitten dan begirmers (o.a. een kortere bestuderingstijd, betere
samenhang van de recall, en een toenemend aantal inferenties). Een onverwacht resultaat is
echter dat de hoeveelheid recall niet continu toeneemt, maar dat er een afname van de hoeveelheid
recall valt te constateren bij de meest ervaren groep. Boshuizen geeft hiervoor twee mogelijke
verklaringen:
selectie en chunking. Chunking zou kunnen blijken uit het feit dat experts meer
inferenties geven en dat zo'n chunk een grotere hoeveelheid informatie bevat. Selectie zou
inhouden dat de meer ervaren artsen door selectieve perceptie de meest relevante informatie uit
de casusbeschrijving in de probleemrepresentatie opnemen. Het is spijtig dat Boshuizen de
selectieve perceptie als verklaring niet toetst. Het moet eenvoudig zijn een beoordeling van de
relevantie van de in een casus opgenomen informatie te maken. Dat een dergelijke analyse
ontbreekt, is opmerkelijk omdat vele andere recall studies wel dit onderscheid tussen relevante
en niet relevante informatie aanbrengen (voor zo'n studie in het medisch domein zie Patel,
Groen & Frederiksen, 1986) en er ook studies zijn die de informatie in de probleemstelling (in
dit geval de casus) indelen naar hun epistemologische betekenis.

Het basisidee dat in het tweede experiment getoetst wordt, is dat kennisverwerving eerst
gekenmerkt wordt door een fase van
kennisaccumulatie en vervolgens dooreen fase van compilatie
van kennis. De veronderstelling is dat tot het vijfde jaar van de studie er accumulatie plaatsvindt
en dat daarna een compilatie van de kennis plaats zal vinden. De toetsing vond plaats door in een
recall-experiment de bestuderingstijd niet vrij te laten (zoals in het eerste experiment) maar
deze experimenteel te manipuleren en tevens door de proefpersonen te vragen naar het patho-
fysiologische proces dat aan de verschijnselen zoals in de casus beschreven ten grondlag ligt.
Wederom namen er 4 expertisegroepen aan het onderzoek deel. Echter, het nivo van deze
expertisegroepen was niet geheel gelijk aan dat uit het eerste experiment (1® jaars in plaats van
2' jaars, internisten in plaats van huisartsen), wat dc vergelijkbaarheid uiteraard niet bevordert.
(Het verschijnsel dat onderscheiden expertisenivo's bestaan uit wisselende groepen bemoeilijkt
overigens ook de vergelijkbaarheid van de resultaten van andere onderzoeken zoals door Boshuizen
aangehaald).

Dc verwachting dat 'intermediates' (uitgebreid, nog niet gecompileerd kennisbestand, waarin
zij actief redenerend en claborerend moeten zoeken) meer gehinderd worden door een beperking
van dc bestuderingstijd dan beginners (weinig kennis) en experts (gecompileerde kennis), wordt
in het onderzoek bevestigd. Tevens bleek (alhoewel iets minder duidelijk) dat dc hoeveelheid
pathofysiologische verklaringen het grootst was bij de intermediates cn dat ook hier dc verschil-
len tussen expertisegroepen kleiner werden bij een kortere bestuderingstijd. Tot slot werden
aspecten van dc door dc proefpersonen gegeven pathofysiologische verklaringen vergeleken
met ccn modclverklaring. Bij ccn toenemend cxpcrtiscnivo wordt de overeenkomst tus.scn gege-
ven cn modclverklaring groter. Dc resultaten van dit onderzoek ondersteunen dc veronderstelling
dat de ontwikkeling van kennis uit twee stadia bestaat.

Dc derde en vierde in het proefschrift beschreven experintcnten maken gebruik van dc
methode van hardop denken. Boshuizen gebruikt deze techniek om het verband tussen
probleemrepresentatie cn kennisstructuur te onderzoeken op een directere manier dan met dc
rccall-tcchnick mogelijk is.

Door het introduceren van het idee van 'zicktescripts' van Feltovich en Barrows wordt ccn

-ocr page 129-

Boekbesprekingen '23

nuancering aangebracht op het eerder beschreven idee van het bestaan van 'frames' in het
geheugen van experts. Ziektescripts zijn opgebouwd uh 3 verschillende soorten kennis
enabling
conditions,
factoren van leeftijd, geslacht, sociale en erfelijke achtergrond die maken die iemand
meer of minder vatbaar is voor een bepaalde ziekte;
ét fault, kennis van het ziekteproces zelf; en
de
consequences, signalen en symptomen die met de aandoening samenhangen. Boshuizen
verwacht dat experts meer gebruik zullen maken van de enabling conditions en dat zij een
rijkere kennis van consequences zullen hebben dan beginners. Naast een nuancering van het
frame idee. stellen Feltovich en Barrows dat experts veelal gebruik zullen maken van algemene
ziektescripts en deze bij een diagnose zullen 'invullen' met medische basiskennis. Dit laatste is
jn tegenspraak met het bovenvermelde resultaat dat experts gecompileerde kennis toepassen en
intermediates geëlaboreerde kennis.

In het derde experiment kregen 4 proefpersonen (één beginner, twee intermediates, één
expert) een casus voorgelegd waarbij zij gevraagd werden hardop denkend een diagnose te
stellen. In de protocollen werd beoordeeld wanneer er sprake was van een diagnostische hypo-
these en werd gekeken hoe proefpersonen tot zo'n hypothese kwamen. Het onderzoek ondersteunt
het ziektescript idee. Experts gebruiken een samenstelsel van enabling conditions en één
consequence om tot een hypothese te komen die aan de rest van de gegevens wordt getoetst. De
"iet-experts gebruiken eerder consequences om een script te activeren of in het geval zij enabling
conditions gebruiken, slechts één gegeven.

De resultaten ondersteunen niet het idee dat experts altijd gebruik maken van medische
basiskennis, eerder hebben experts kant en klare ziektescripts die geen verdere invulling behoeven,
^it is dus in lijn met de resultaten van de eerdere onderzoeken uit het proefschrift.

Zoals Boshuizen zelf al opmerkt, is het aantal proefpersonen in dit onderzoek minimaal en
"loet het onderzoek dus als zeer exploratief worden gekenmerkt. Ook het toch wel geringe
aantal uitingen per protocol en het feit dat er maar één casus gebruikt werd, draagt hier aan bij.
^eer dan het aangeven van een richting voor verder onderzoek zou uit deze studie dus met
gehaald mogen worden.

Het vierde, en laatste, experiment werd uitgevoerd om te onderzoeken wat er met de medische
basiskennis gebeurt bij een toenemende expertise. Wordt deze
vergeten, is deze inert, of
gecompileerd en geïntegreerd? Twintig proefpersonen uit 4 expertisegroepcn stelden hardop
denkend een hypothese bij één casus. Na afloop werd hen gevraagd hun bevindingen in patho-
fysiologische tennen te verklaren. Op basis van dc bevinding dat cr ccn met expertisemvo
toenemende overiap is tussen dc pathofysiologischc proposities in het protocol en dc vcrklanngcn
achteraf concludeert Boshuizen dat de medische basiskennis gecompileerd binnen dc ziektescnpts

aanwezig is.

Samenvattend kan gesteld worden dat het onderzoek belangrijke gegevens heeft opgeleverd
over het kennisbestand van (aankomende) artsen op verschillende expertiscnivo's. Het proefschnft
'^demt een sfeer van vakman(vrouw)schap en is bovendien zeer plezierig te lezen. Zijn er dan
Seen kanttekeningen tc plaatsen? Uiteraard wel. . ,,

Tcniggrijpend naar dc titel van proefschrift "Dc ontwikkeling van medische expertise kan
Besteld worden dat. en Boshuizen merkt dat zelf ook op. dat
ontwikkelingsproces zelf met echt
kaart is gebracht. Ontstaan zicktescripts uil dc medische basiskennis of worden er eerst
'•»ektcscripts ontwikkeld die later met basiskennis worden onderbouwd? Boshuizen heeft hier
'deeën over. maar die zijn speculatief. Ook andere rcsuhatcn zijn toch wat minder sterk dan dc
^fteur ons doet geloven. Alhoewel het derde experiment als exploratief wordt aangekondigd.
Worden dc resultaten niet echt als zodanig gepresenteerd. Waarom telkens zo weinig verschillende
!^asusbeschrijvingen gebmikt die ook nog over experimenten heen hetzelfde zijn? Een toevallige
'"Vloed van deze keuze op dc resultaten is niet uit tc sluiten. Zoals eerder vermeld, schuilen
'échter de termen expert, intenncdiatc cn beginner nog al eens verschillende expertiscnivo's. Dat
8eldt ook voor het onderzoek in dit proefschrift. Ik kan mc voorstellen dat ccn mtcmist (zeker
deze in ccn academische setting werkt) anders tegen medische basiskennis aankijkt dan ccn
""isarts, beide groepen zijn echter 'expert'. Wanneer cr sprake is van beginners in het proef-

-ocr page 130-

124 Boekbesprekingen

schrift dan is er niets bekend over de studieprestaties van de individuele proefpersonen. Zeker
op dit nivo kunnen die verschillen nogal groot zijn. Een laatste bezwaar is dat de lezer weinig te
weten komt over de beoordeling (en de betrouwbaarheid daarvan) van de verschillende data in
het onderzoek. Weliswaar wordt gedetailleerd beschreven hoe een protocol ontleed kan worden
maar over de beoordelaars wordt (vaak) slechts vermeld dat dit er twee waren. Relevante
informatie in dit verband is bijvoorbeeld of zij gezamenlijk of apart beoordeelden, of er vaak
sprake van niet-overeenstemming was, en of de beoordelaars op de hoogte waren van de hypo-
thesen van het onderzoek. Tot slot is het spijtig dat er wat slordigheden in de literatuurlijst
zitten. Zeker wanneer er meer dan één auteur vermeld wordt is de lijst niet altijd alfabetisch en
in de tekst vermelde referenties ontbreken soms (Schmidt et al. blz. 3; Clancey, blz. 14, Patel &
Groen (1985), blz. 36; Brooks, blz. 146). Bovendien ontbreken een auteurs- en onderwerpindex.
Die indexen zouden met name beginners in de cognitieve psychologie van dienst kunnen zijn,
want het overzicht van ontwikkelingen in het vakgebied is niet alleen geschikt voor vakgenoten,
maar door zijn helderheid ook uitermate geschikt voor hen die nog niet zo zeer zijn ingevoerd in
de wereld van kennis en probleemoplossen.

LITERATUUR

Patel, V.L., Groen, G.J., & Frederiksen, G.H. (1986). Differences between medical students and doctors in
memory for clinical cases.
Medical Education, 20, 3-9.

Ton de Jong

Groep Onderwijsresearch

Technische Universiteit Eindhoven

Postbus 513

5600 MB Eindhoven

en

Vakgroep Sociaal Wetenschappelijke Informatica
Universiteit van Amsterdam
Herengracht 196
1016 BS Amsterdam

J. van den Brink, Realistisch rekenonderwijs aan jonge kinderen. (Proefschrift). Utrecht: Vak-
groep'Onderzoek Wiskundeonderwijs en Onderwijscomputercentrum, R.U.Utrecht, 1989, 222
pp.

De oorsprong van deze studie gaat tcmg tot 1971, toen de auteur samen met dc overige leden
van het toenmalige Wiskobasteam, startte met dc ontwikkeling van een "realistisch" altcmatief
voor het toendcrtijd sterk mechanistisch reken/wiskundeonderwijs in dc eerste klassen van dc
lagere scholen in Nederland. Meer concreet betrof het de constructie van een prototypische
leergang voor het leren optellen en aftrekken, m.n. het pakket "Autobussen".

De naam "Autobussen" verwijst naar de context die in deze leergang gebmikt wordt om het
optellen en aftrekken bij de kinderen te introduceren, nl. het in- en uitstappen van passagiers bij
een autobushalte. Nadat de leerlingen veelvuldig gewerkt hebben met gespeelde, verbaal be-
schreven en getekende autobusproblemen, wordt vervolgens de meer abstracte en dus
ook
breder toepasbare pijlentaai geïntroduceerd, die zélf als voorbereiding dient op de meer formele
is-gelijk-aan-taal.

De vijf kcmprincipes die aan deze "realistische" leergang voor het leren optellen en aftrek-
ken ten grondslag liggen, komen hierop neer dat

- vakstructuren moeten worden geleerd met behulp van voor kinderen zinvolle contexten.

-ocr page 131-

3204 Boekbesprekingen

- de pijlentaai een uitstekende brugfunctie vervult tussen allerlei beeldende en sprekende
contexten en de meer formele is-gelijk-aan-taal,

- cognitieve conflicten een zeer belangrijke en waardevolle rol spelen bij het leren rekenen,

- het stereotiep oefenen van reeksen sommen beter vervangen kan worden door het op eigen
initiatief bedenken en ontwerpen van rekenopdrachten,

~ het cijferen zich vaak dient te onderwerpen aan de specifieke eisen van het toepassmgs-
gebied.

Inmiddels heeft deze leergang z'n weg gevonden naar de Nederlandse onderwijspraktijk: in
vrijwel alle rekenmethoden die de laatste jaren voor de aanvangsklassen van het
Nederlandse
basisonderwijs ontwikkeld zijn, wordt gretig gebmik gemaakt van in het kader van dit project
Ontwikkelde materialen, oefeningen, e.d.

In het proefschrift staat de vraag centraal of deze nieuwe prototypische leergang voor het
leren optellen en aftrekken in klas 1 beter is dan bestaande traditionele rekenprogramma's. Bij
de beantwoording van deze vraag maakt de auteur gebruik van allerhande soorten van gegevens,
die hij in het kader van zijn jarenlang ontwikkelingsonderzoek heeft vergaard. Meer bepaald
rapponeert hij vier verschillende deelstudies:

een doelstellingenonderzoek (in samenwerking met het CITO),

- een onderwijsevaluatie op de school waarin het nieuwe pakket werd ontwikkeld en uitgepro-
beerd,

een hypothesevormend onderzoek en
een vergelijkend evaluatie-onderzoek.

I^e eerste studie (die dateert van 1975) concentreert zich op de vraag: in welke mate bereikten de
ieerlingen van de school waarin het pakket ontwikkeld en uitgeprobeerd werd. de doelen die de
ontwerper ervan voor ogen stonden? Dc resultaten op een speciaal geconstrueerde toets zijn
"ogal teleurstellend. Doch een aantal tekorten in de opzet en de uitvoering van het onderzoek
"open de auteur tot de conclusie dat het niet mogelijk is op grond daarvan deze onderzoeksvraag
te beantwoorden. , ^

Met het tweede onderzoek, het onderwijsevaluatie-onderzoek (1975-1978) wilde de auteur
"agaan of dc praktijk van het (reken)onderwijs in de experimcnteerschool wel veriopcn was
^oals hij het had bedoeld. Uit de evaluatiebesprekingen komt duidelijk naar voren dat er tussen
leerkrachten grote verschillen in de uitvoering van het onderwijsleerpakket waren opgetre-
den.

. De bedoeling van het derde onderzoek, het hypothesevormend onderzoek (1979-1982), was
^ia een aantal speciaal daartoe opgezette interviews met individuele kinderen uu de
^*PerimentcerkIassen meer licht te werpen op de adequate en inadequate denkbeelden van
'«^eriingen betreffende dc autobuscomcxt, de pijlentaai e.d. Daaruit komt naar voren dat ver-
scheidene kinderen inderdaad opvattingen koesterden die niet helemaal strookten met het
®utobusmodcl.

Het vierde en meest uitvoerige onderzoek (1982-1983) was bedoeld om een antwoord te
Beven op dc vraag welke voor- en nadelen het pakket
"Autobussen" heeft ten opzichte van het
'faditionclc rekenen wat betreft het leren optellen an aftrekken.
Daartoe werd cr een systema-
Hsch vergelijkend experiment opgezet waarin naast dc met het pakket werkende
•^"Perimentcerschool
ccn .school meewerkte waar mechanistisch onderwijs gegeven werd. Vooreerst
berden beide scholen vergeleken op een aantal parameters van het gehanteerde rekenprogramma
?oals het aantal gemaakte cn correct opgeloste sommen. Vervolgens werd er - aan de hand van
'"dividuele interviews afgenomen in dc loop van het schooljaar nagegaan welke voor cn
Jadelen deze verschillende programma's zouden kunnen hebben voor het leren rekenen van
•^'"deren. Ten derde werden dc leeriingen uit beide scholen vergeleken op een aantal cntenummaten.

de kwaliteit van door de leerlingen zelf samengestelde rekenboeken, uitslagen op een toets
^°or algemene rekenvaardigheid cn een stipsommentoets. De grootste verschillen werden aan-
Seiroffen bij de zelfgemaakte rekenboeken.

-ocr page 132-

126 Boekbesprekingen

In het slothoofdstuk concludeert de auteur dat de ontwikkelde prototypische leergang "betere *
effecten op het leren rekenen heeft" (p. 208). Hoewel ik persoonlijk de vijf algemene vak-
didactische uitgangspunten van deze leergang grotendeels onderschrijf én ook het vakmanschap
waarmee deze principes concreet uitgewerkt zijn sterk apprecieer, vind ik deze positieve eind-
conclusie - op basis van het empirisch materiaal dat in het proefschrift gerapporteerd wordt -
niet gewettigd. Daarvoor kleven er aan de uitgevoerde smdies te veel methodologische tekort-
komingen (onvoldoende controle van bepaalde variabelen, geen statistische analyses...). Bovendien
is de rapportering van de opzet en de resultaten van de verschillende onderzoekingen erg
fragmentarisch. Dit is jammer, mede omdat het een aantal hardnekkige (voor)oordelen over
"ontwikkelingsonderzoek" op het gebied van het reken/wiskunde-onderwijs, bevestigt.

Daartegenover staat dat dit proefschrift verscheidene erg waardevolle originele ideeën bevat
in verband met methoden en technieken voor onderzoek van het reken/wiskunde-onderwijs aan
jonge kinderen. Vooral het "wederzijds observeren" (d.w.z. het jonge kind commentaar laten
geven op interpretaties van de onderzoeker) én de leerlingen zelf een rekenboek laten samen-
stellen (als techniek om achter hun kennis van en denkbeelden over het vakgebied te komen),
lijken me erg goede vondsten. Doch ook hier mist het proefschrift diepgang. Immers, een
kritische evaluatie van en reflectie op deze nieuwe onderzoekstechnieken ontbreekt.

Tot slot kan men vraagtekens plaatsen bij de centrale vraag van onderhavige studie, nl. of het
experimentele pakket beter is dan een ouderwetse mechanistische leergang. Had de auteur
zich
in z'n proefschrift niet beter toegespitst op een aantal meer actuele en tevens meer specifieke
vragen of discussiepunten van het realistisch reken/wiskunde-onderwijs? Te denken valt hierbij
aan een vergelijking van verschillende varianten van de "Autobussen"-leergang. Of een con-
frontatie van de "Autobussen"-leergang met een andere "realistisch" pakket waarin echter niet
een veranderingssituatie doch een vergelijkings- of een combinatiesituatie (met een daarbij
aansluitend ander aanschouwelijk schema) als vertrekpunt wordt genomen.

Samengevat: Van den Brink's proefschrift is geen overtuigend onderzoeksrapport. Wel is het
een zeer lezenswaardige temgblik op
één van de meest waardevolle en invloedrijke
ontwikkelingsprojecten die er de voorbije jaren in ons taalgebied op het vlak van reken/wis-
kunde-onderwijs zijn geweest.

L. Verschaffel

Centmm voor Instructiepsychologic

en -Technologie

K.U.Leuven

Vesaliusstraat 2

B-3000 Leuven

K.J. Westerhof, Effectiviteit van Leerkrachtgedrag: Een empirische studie naar leerkracht-
gedrag en de samenhang met leerwinst.
Proefschrift Rijksuniversiteit Groningen, 1989.

Dc dissertatie van Westerhof behandelt een interessant fenomeen, namelijk het Iccrkracht-
gedrag en de samenhang ervan met leerwinst. Op dit gebied is in Nederland nog bctrckkclij''
weinig onderzoek gedaan. Twee Nederlandse onderzoeken op dit zelfde gebied (Krammer'
1984; Tomic, 1985) gaan echter uit van een totaal verschillende methodologische cn
theoreti-
sche achtergrond. Krammer cn Tomic rapporteren con-elationccl onderzoek zonder uit tc gaa"

van een expliciet theoretisch model; zij gaan uit van het "dcscriptivc-con^clational-cxpcrimenta'
loop design".

Westerhof presenteert casestudies cn ccn bcschijvend onderzoek. Uitgangspunt voor z'j"
onderzoek is dc ecologie van de klas en "dc daaruit voortvloeiende vooronderstellingen dat hc'
leerkrachtgcdrag niet is te beschrijven en te verklaren met behulp van
docl-middclschcma's c"
dat onderwijs tot stand komt doordat leerkrachten be.schikkcn over ccn repertoire aan
standaard-

-ocr page 133-

Boekbesprekingen '23

fp °"der andere inzetten op grond van de perceptie van de klasse-situatie"

"sta H ^^^ bespreking wil ik eerst een aantal opmerkingen maken over de zogenaamde
andaardgedragingen" van leerkrachten en vervolgens ingaan op het uitgevoerde onderzoek.

S^t^daardgedragingen van leerkrachten en routines worden door Westerhof als identiek be-
jjg, ^wd en zijn "steeds wederkerende activiteiten die in een bepaalde klas een vaste plaats
(p 1 ^^^ didactische handelen, en de reactie van de leerlingen daarop voorspelbaar maken"
het I If ^^^^ omschrijving zitten voor mij een aantal moeilijkheden, omdat er, volgens mij, in
win ^^''r'achtgedrag geen routines voorkomen. Een routine zou ik graag in de volgende vorm
gee (bepaalde situatie),
dan (gedrag). Het invullen van deze als-dan relaties geeft

ing" probleem voor de "dan"-kant, immers hier kan het gedrag van de leerkracht worden
gevuld. Het probleem zit aan de "als"-kant: is er een situatie te formuleren, waarop de leer-
leerkr bepaald gedrag reageert? Natuurlijk, alleen er zijn legio situaties waarop de

niet h "^et hetzelfde gedrag antwoordt. Een routine in de bovenbeschreven vorm bestaat er
Dat d" ieerkrachtgedrag, wel bestaan er standaardpatronen in het gedrag van leerkrachten,
nin standaard patronen voorspelbaar gedrag van leerlingen bewerkstelligen, is voor reke-
g van Westerhof. Overigens is dit ook een punt, dat in de dissertatie niet wordt uitgewerkt.
Zou . ^''krachtgedrag komt tot stand op grond van routines", zo schrijft Westerhof. Maar dit
con dat iedere leerkracht alleen "routines" zou vertonen. Dit heeft dan toch wel

in u ^'^"^"ties voor de opleiding van leerkrachten. Het lijkt mij juister om te formuleren, dat er

«t

net gedrag van leerkrachten bepaalde patronen van gedrag zijn te onderkennen, die als
sta dpatroon" zijn aan te
merken. Het leerkrachtgedrag is m.i. geen optelsom van
^^ ndaardgedragingen. De opmerking in hoofdstuk
4 (nabeschouwing en aanbevelingen voor
jg j®"" onderzoek) op pagina 146, waar staat, dat "wc aannemelijk gemaakt (hebben) dat het
de 3 ^'^'^^Kfdrag tot stand komt op grond van routines" is onjuist, immers dit is nu juist een van
k ^^"nipties
die aan het uitgevoerde onderzoek ten grondslag lag. zoals op zo vele plaatsen in
boek wordt aangegeven.

^^ hoofdstukken 2 cn 3 bevatten de empirische studies. In hoofd.stuk 2 rapporteert Westerhof
Ig^,'^^sestudics cn in hoofdstuk 3 een beschrijvend onderzoek waaraan door ongeveer 70
^^^'^hten is deelgenomen. De volgorde van de twee hoofdstukken is enigzins vreemd. De
vg "'"dies die gerapporteerd worden, zijn niet alleen hypothese-generator voor het beschrij-
uitic ""'^^f'-ock. maar er worden uitgebreide analyses gerapporteerd en hypothesen getoetst. De
o^^'^sten van het bc.schrijvcnd onderzoek ondersteunen de uitkomsten van de casestudies. Een
zwa van dc volgorde van deze twee hoofdstukken zou logischer lijken en zou een minder
Voor ^an de casestudies mogelijk hebben gemaakt. Westerhof heeft hier echter niet

J gekozen.

sch 2 wordt cr verslag gedaan van dc casestudies. Vier leerkrachten van een basis-

ooi worden voor een aantal lessen geobserveerd om hun lesgedrag te beschrijven en zicht te
Jgen op hun planning.sgcdrag. Een deel van de les wordt op video opgenomen en later samen
goe I "'^'^^•^^acht bekeken, die cr dan zijn commentaar bij geeft (stimulated rccall). Dit is ccn
he, '"anicr om dit ie onderzoeken. Dc resultaten hiervan zijn globaal, maar inherent eraan, als
gedf^^' otn grotere eenheden in het gedrag van leerkrachten te ontdekken. Om het plannings-
, jag ^^ brengen lijkt mij dc methode van stimulated recall geen goede: wanneer een

, Kracht gevraagd wordt hoe hij/zij dc les die net bekeken is. had voorbereid, dan zal dc
Icsv. dc details niet meer
hcnnncrcn. Zij zullen in veel gevallen hun "standaard"-

joorbcrciding vertellen, tcn/ij dc les zo iets speciaals had. dat dc details van dc planning nog
sta^kunnen worden. Ik denk dat door het gebruik van de methode er
als artefact
V. "^^^Icsvoorbcreidingsgcdrag wordt gcrapponccrd. Van iedere leerkracht wordt beschre-
man-, rekenen cn
wereldoriëntatie verloopt in termen van instructicgcdrag,

g agemcntgcdrag. settings (kla.s-organi.satic) cn vaste gedragingen, alsmede het plannmgs-
schr-®". "leest interessante analyse
waarover gerapporteerd wordt in hoofdstuk 3 is dc bc-

ng Van een les in

gcdrag.scatcgoricCn cn dc sequenties hierin per vak. Twee grond-

-ocr page 134-

128 Boekbesprekingen

patronen zijn, bijvoorbeeld, instructie - controle - instructie, en, instructie - uitnodigen - luisteren
- motiveren.

In hoofdstuk 3 wordt het beschrijvend onderzoek gerapporteerd en worden een aantal inte-
ressante hypothesen getoetst met betrekking tot de invloed op de leerprestaties van het
leerkrachtgedrag, het vak (rekenen, wereldoriëntatie), het curriculum, de groep (4, 6, 8) , de
setting (klassikaal, individueel), de ervaring van de leerkracht en de richting (klassikaal, groep,
individu, buiten setting). Met behulp van deze variabelen zijn er verschillende modellen gecon-
strueerd en getoetst om de variantie
in de leerresultaten te verklaren. Uit de resultaten blijkt, dat
er twee modellen zijn die de empirische data goed futen. Het eerste goed passende model is het
model dat de interactie tussen setting, groep en categorie leerkrachtgedrag beschrijft. Dit stemt
overeen met wat in de casestudie is gevonden. Het tweede model betreft de interactie tussen
groep, setting en curriculum. Deze interactie duidt erop "dat curricula verschillen in de mate
waarin ze aanleiding geven in de ene dafl wel de andere setting te onderwijzen" (p.98). Ook in
dit hoofdstuk worden de handelingssequenties in een les geanalyseerd. Een veel voorkomende
sequentie is die van instructie - uitnodigen - luisteren - controleren. De resultaten van deze
analyse vertonen grote overeenkomst met de resultaten van de casestudie.

Het proefschrift van Westerhof heeft een belangrijke bijdrage geleverd aan onze kennis over het
onderwijzen in de klas. Het uitvoeren van een empirisch onderzoek van deze omvang is moeilijk
en vol valkuilen. Westerhof heeft de valkuilen overbrugd, sommige met een stevige brug,
andere met een noodbrug.

LITERATUUR

Krammer, H.P.M. (1984). Leerboek en leraar. Harlingen: Flevodruk.

Tomic, W. (1985). Docentgedrag en leerresultaten. Proefschrift Universiteit Twente.

Peter van der Sijde

Onderzoekcentrum Toegepaste Onderwijskunde
Universiteit Twente
Postbus 217
7500 AE Enschede

-ocr page 135-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 2. pp. 129-115

De diagnose van foute oplossingen van moeilijk
lerende kinderen bij eenvoudige redactieopgaven1

Monique W.M. Jaspers en Emest C.D.M. van Lieshout
Vakgroep Orthopedagogiek, K.U. Nijmegen

ABSTRACT

In general, the difficulties experienced by children solving arithmetic word problems do not so much
originate from executing as from selecting the proper operation. However, children who lack the
knowledge needed to solve simple two-digit addition and subtraction problem types might solve
these problems correctly by change. As such, the answers produced often might not reflect the kind
of error committed and thus the knowledge lacks of the child. This study represents a first step in
determining the knowledge lacks and specific errors of children with learning deficiencies founded
on a product-oriented approach. The knowledge emanating from these error-analyses could be used
in designing CAI, in which the remediation path taken fits in with the specific error and knowledge
deficit of a particular child. In order to reveal unequivocally the error type, a typical set of word
problem types and number uiplets (one number irrelevant) was constructed. The subjects were 66
educablc mentally retarded children of grade 4, 5, 6 and 7 (grade 4: 19 subjects. Mean age 10.4;
grade 5: 16 subjects. Mean age 10.8; grade 6: 16 subjects. Mean age 11.9 and grade 7: 15 subjects.
Mean age 13.5). Ten word problem tests were administered. A multivariate analysis of variance of
the answers in a 4 x 7 x 9 (Grade x Problem type x Response type) design yielded a significant third-
order interaction effect (F( 1,51) = 1.58, < .05). It was concluded that the disüibution of the different
types of errors made by children in the various grade levels significandy differed per word-problem
type and that this knowledge could be used in directing the kind of rcmediaüon path to bc followed.

INLEIDING

Binnen het cognitief psychologisch onderzoek op het gebied van eenvoudige redactieopgaven
zijn de laatste decennia twee onderzoekslijnen tot ontwikkeling gekomen. Binnen een van deze
lijnen zijn op basis van empirisch onderzoek procesmodellen opgesteld over de oplossings-
strategieën die jonge kinderen hanteren bij redactieopgaven. Diverse onderzoekers hebben ge-
tracht de oorzaak van fouten in dit proces te achterhalen en niveaus van moeilijkheidsgraad van
diverse onderscheiden opgavetypen op le stellen (De Corte & Verschaffel, 1981, 1987a. 1987b;
Carpenter & Moser. 1982. 1984; Riley. Greeno & Heller. 1983). Een andere onderzoekslijn
richtte zich op dc ontwikkeling van computersimulatiemodellen waarmee getracht wordt de
oplossingsprocessen van deze kinderen te simuleren (Briars & Larkin. 1984; Riley e.a.. 1983;
Dellaro.sa. 1986).

Op basis van de bevindingen van deze onderzoekslijnen zijn uainingsprogramma's ontwik-
keld die tot doel hebben leerlingen de vaardigheden, die belangrijk worden geacht voor het
adequaat oplossen van redactieopgaven. bij te brengen (Lindvall. Tamburino. & Robinson.
1982; Willis & Fuson. 1988; Fuson & Willis. 1989; Van Lieshout. 1988; Jaspers & Van Lieshout.
1989, 1990; Van Lieshout & Jaspers, 1990; Jaspers. 1991).

Jaspers en Van Lieshout onderzochten het effect van trainingen waarin kinderen met leer-
problemen leerden de opgavetekst zorgvuldig te analy.seren door relevante informatie uit die
tek.st te selecteren (Van Lieshout, 1988; Jaspers, 1991) of leerden de verzamelingen en de
relaties of acties die be.schreven worden in de opgave tc rcpre.senicrcn (Jaspers & Van Lieshout.
1989. 1990; Van Lieshout & Jaspers. 1990; Jaspers. 1991). De effect-studies met deze

1  Met dank aan mevrouw Frenks voor de uitvoering van het onderzoek.

Vakgroep Orthopedagogiek, Universiteit Nijmegen. Postbus 9103, 6500 HD Nijmegen.

-ocr page 136-

130 M.W.M. Jaspers en E.C.D.M. van Lieshout

computergestuurde trainingsprogramma's heten positieve (Van Lieshout, 1988; Jaspers & Van
Lieshout, 1990) maar ook minder poshieve resuhaten zien (Jaspers, 1991).

Binnen de meest recente versies van de trainingsprogramma's die ontwikkeld werden door
Jaspers en Van Lieshout, werd de voortgang van leerlingen door het programma bepaald door
hun prestatie op elk probleemtype. Zo werd een bepaald type redactieopgave niet meer getraind,
wanneer een leerling in de voorgaande drie metingen, die voorafgingen aan de trainingen, deze
opgave juist oploste.

Een probleem dat zich bij het vaststellen van het kennisniveau van een leerling kan voordoen
is dat goede oplossingen op verschillende wijzen tot stand kunnen komen en soms zelfs op
onvolledige kennis (kennisleemte) of onjuiste kennis (systematische misverstanden of misvattingen)
kunnen berusten. Een direct gevolg hiervan kan zijn dat leerkrachten, op basis van een
productgerichte vaststelling van het kennisniveau, een leerling onterecht laten overstappen naar
het volgende onderdeel van het rekencurriculum omdat verondersteld wordt dat de leerling het
vorige onderdeel reeds beheerst. Evenzo werden leerlingen in de computergestuurde instructie-
programma's van Jaspers en Van Lieshout wellicht onterecht niet meer getraind in het oplossen
van een bepaald type redactieopgave, omdat op basis van de antwoorden in de metingen ver-
ondersteld werd dat de leerling het bewuste type opgave al beheerste.

Er bestaan aanwijzingen dat slecht presterende reguliere leerlingen (De Corte & Verschaffel,
1987b) maar ook Idnderen met leerproblemen (Van Lieshout & Jaspers, 1989), waar onze
trainingsprogramma's voor bedoeld zijn, de opgaveteksten van moeilijke typen redactieopgaven
minder vaak herlezen dan normaal presterende kinderen. Ook Goodstein, Cawley, Cordon en
Helfgott (1972) konstateerden dat kinderen met leerproblemen onzorgvuldig lezen en vaak
slechts de getallen uit de opgave selecteren om daar vervolgens een of andere rekenoperatie op
los te laten. Zo kan een leerling die onzorgvuldig leest bij een opgave als "Peter heeft 3
knikkers. Ans heeft 2 knikkers meer dan Peter. Hoeveel knikkers heeft Ans?" slechts de getallen
uit de opgave selecteren en besluiten deze getallen domweg bij elkaar op te tellen (bijv. omdat
dit de rekenoperatie is die het eerst geleerd wordt), hetgeen bij deze opgave toevallig tot de
juiste oplossing leidt.

Ook kan oppervlakkige analyse van de opgavetekst leiden tot het toepassen van een zogenaamde
"sleutelwoordstrategie". Sleutelwoorden als "samen", "meer dan", "winnen" etc. kunnen een
aanwijzing zijn om de getallen uit de opgave op te tellen, terwijl sleutelwoorden als "veriiezen",
"minder" etc. kunnen suggereren dat er afgetrokken moet worden. Het sleutelwoord "meer" uit
de voorbeeldopgave zou een leerling ertoe kunnen bewegen om de getallen 2 en 3 op te tellen,
onafhankelijk van verdere informatie in de opgavetekst. wat bij deze opgave wederom het juiste
antwoord oplevert.

Er zijn echter opgavetypen waarin deze sleutelwoorden een bepaalde rekenoperatie onterecht
suggereren. Nesher en Teubal (1975) onderscheidden in dit verband "verbal cues" en "verbal
distractors". Dit onderscheid komt overeen met het onderscheid in "directe" en "indirecte"
redactieopgaven. Bij "directe" opgaven is op basis van het sleutelwoord dc juiste rekenoperatie
eenvoudig te achterhalen (zie voorbeeldopgave). Zonderde opgavetekst zorgvuldig te analyseren
kan een probleemoplosser door slechts de getallen uit de opgave en het sleutelwoord te bekijken
het goede antwoord produceren. Voor het oplossen van "indirecte" opgaven lijkt een diepere
analyse van de opgavetekst vereist om het goede antwoord te verkrijgen. Zo kan het sleutelwoord
"meer" in een "indirecte" opgave als "Peter heeft 5 knikkers. Ans heeft 3 knikkers. Hoeveel
knikkers heeft Peter meer dan Ans?" als "verbal distractor" fungeren omdat "meer" het optellen
van de getallen suggereert, terwijl in feite afgetrokken moet worden. Met name bij indirecte
redactieopgaven worden veel fouten in de keuze van de rekenoperatie geconstateerd (Verschaffel.
1984; Russell & Ginsburg. 1984).

Een belangrijke consequentie van dit alles kan zijn dat opgavetypen die op basis van de
semantische complexiteit van de opgave als "moeilijk" geclassificeerd-zijn juist door onkundige
probleemoplossertjes goed worden opgelost, terwijl probleemoplossertjes met een hoger
kennisniveau de opgave juist fout oplossen. Hiermee is de indeling van kinderen op basis van de
kennis waarover zij beschikken alsook het indelen van opgavetypen qua moeilijkheid.sgraad

-ocr page 137-

De diagnose van foute oplossingen bij redactieopgaven 131

problematisch geworden. Bovendien is ook in het geval van een fout antwoord de soort fout niet
eenduidig te achterhalen, hetgeen geen inzicht verschaft in de kennisleemten van leerlingen.

Een belangrijk doel binnen ons onderzoek is het ontwikkelen en evalueren van meer ge-
avanceerde computergestuurde instructiesystemen, waarbij de remediatie aansluit bij het
kennisniveau van een leerling. Dit vereist allereerst een nauwkeurige diagnose van het
bekwaamheidsniveau van een leerling. Over het algemeen wordt voor het achterhalen van de
kennisleemten en misvattingen van leerlingen een procesgerichte aanpak gehanteerd. Immers,
foutieve uitkomsten kunnen op verschillende wijzen tot stand komen. Aan de hand van een
procesgerichte aanpak kunnen niet alleen de specifieke fout(en) in het oplossingsproces maar
ook de misvauingen, die er mogelijk aan ten grondslag liggen, blootgelegd worden. Hoewel een
procesmatige benadering belangrijke informatie over het leerlinggedrag kan opleveren, lenen
de technieken die gehanteerd worden om deze informatie te verkrijgen, zoals hardopdenk pro-
tocollen, zich niet direct voor onderwijstoepassingen. Zonder verbalisaties van proefpersonen
kan de observatie van probleemoplossingsgedrag, bijvoorbeeld op een computerscherm, bovendien
problemen opleveren wegens de ambiguïteit in de interpretatie van dat gedrag. Vanwege deze
problemen werd besloten een productgerichte aanpak te ontwikkelen, die zich wel direct leent
voor implementatie in de bestaande computergestuurde trainingsprogramma's voor redactierekenen.
De vraag is dan of karakteristieke fouten in het oplossingsproces bij redactierekenen en moge-
lijk ook de achterliggende misvattingen eveneens via een productgerichte aanpak achterhaald
kunnen worden. Zo kan op basis van het gegeven antwoord eerst de fout wellicht bepaald
worden, waarvan vervolgens de oorzaak misschien achterhaald kan worden door verschillende
hypothesen omtrent potentiële misvattingen op tc stellen cn deze te toetsen door variaties in de
opgavetekst en getals-structuur aan le brengen. Een belangrijk voordeel kan zijn dat op basis
van deze kennis minder traditionele Computer Ondersteunende Onderwijs (COO) programma's
le ontwikkelen zijn waarbij hel kennisniveau van individuele leerlingen afgeleid kan worden uil
het gegeven antwoord. Dc voortgang door het programma kan dan afhankelijk gemaakt worden
van de competentie van de leerling op specifieke opgaven. Wanneer levens de aard van dc
fouten die dc leerling maakte tijdens hel oplossen van de verschillende typen opgaven wordt
bijgehouden, beslaat de mogelijkheid de feedback binnen hel programma tc specificeren naar de
soort fout of specifieke routen binnen hei programma in le slaan.

Om een dergelijke productgerichte benadering ic ontwikkelen werd een invcntarisaiic gemaakt
van alle in dc literatuur gerapporteerde antwoordcategorieën. Vervolgens werden opgavelypcn
en gciallencombinalies geconstrueerd waarbij hcl gegeven antwoord eenduidig le categoriseren
was. Ofschoon deze procedure ccn accuraicre inschatting van hcl kennisniveau van ccn leerling
mogelijk maaki cn informatie oplevert over kenmerkende fouten van ccn bepaald kind, kan dc
gehanteerde oplossingsstrategie niet altijd met zekerheid vastgesteld worden. Immers, omdat
aan één antwoord meerdere strategieën ten grondslag kunnen liggen, kan op basis van hcl
gegeven antwoord slechts gegist worden naar dc gehanteerde strategie. Ook is het nicl zeker of
de inventarisatie volledig is cn alle antwoordcategorieën dekt. Bovendien kunnen antwoorden,
die lukraak gegeven worden of antwoorden die hcl resultaat zijn van fouten in iclproccdurcs,
bijvoorbeeld sianfouien, toevallig ovcrccnsicmmen mcl antwoorden die verkregen worden op
basis van een heel andere oplossingsstrategie. Mcl dii onderzoek wordl dan ook slechts een
eerste aanzei gegeven in hel vaslslellcn van hel kennisniveau van een leerling op basis van een
produclgcrichte aanpak. Dc voomaamsic onderzoeksvraag is of cr op basis van kennis omtrent
fouten een betere prcsiaiicgcrichte diagnostiek tc ontwikkelen is. Deze kennis zou vervolgens
gebruikt kunnen worden om compulcrgcsluurdc insiruciiesystcmen beter aan te laien sluiten bij
hcl kennisniveau van leerlingen door in dc remcdialic rekening le houden mcl dc gemaakte foul.

METHODE

Materiaal

Het technisch leesniveau van dc kinderen werd vastgesteld met dc Cito Technisch Lezen locls,
beslaande uil 48 meerkeuze vragen, die kla.ssikaal afneembaar is. Voor de vaslstclling van hcl

-ocr page 138-

132 M.W.M. Jaspers en E.C.D.M. van Lieshout

technisch rekenniveau werd een rekentoets geconstrueerd bestaande uit 35 optel- en aftrek-
opgaven in directe (a + b = a - b = .) en indirecte (a + . = c, a -. = c,.+ b = c,. - b = c) vorm met
het goede antwoord kleiner dan 17 (Technisch Rekentoets). Tenslotte werd een redactierekentoets
afgenomen bestaande uit 10 subtoetsen met elk zeven verschillende opgavetypen.

Voorde redactierekentoets werden opgavetypen geconstrueerd, waarbij het gegeven antwoord
eenduidig te categoriseren was. In elke opgave werd bovendien een derde verzameling beschreven,
die irrelevant was voor de juiste oplossing van het probleem. Hiertoe werd besloten om de kans
op een toevallig juist antwoord te verlagen. De plaats van de zin die de irrelevante verzameling
beschreef werd gevarieerd binnen elk opgavetype. Vervolgens werden tien getallencombinaties
van drie getallen samengesteld, waarbij op basis van het gegeven antwoord, onder de aannamen
dat geen rekenfout of telfout gemaakt of een gok gedaan werd, de gehanteerde rekenoperatie
(optellen of aftrekken van twee getallen of een combinatie van optellen en aftrekken van drie
getallen) met absolute zekerheid achterhaald kon worden. Bovendien zijn antwoorden die
overeenkomen met een van de getallen uit de opgave op basis van deze getallencombinaties ook
te onderscheiden van antwoorden die het resultaat zijn van een of andere optel- of aftrekbewerking
met de getallen. De volgende getallencombinaties werden in het onderzoek gebruikt: (1,3,9)
(1,3,10) (1,3,12) (1,3,11) (1,4,11) (1,6,9) (2,3,9) (2,3,11) (3,4,9) (4,5,7).

De selectie van opgavetypen vond plaats op basis van een inventarisatie van oplossings-
strategieën die in de literatuur worden beschreven voor de 14 onderscheiden opgavetypen (zie
Heller & Greeno, 1978). Voor elk van deze 14 typen werd nagegaan of elk beschreven antwoord
te categoriseren was, gegeven een van de getallencombinaties. Zo werden opgavetypen waarbij
het sleutelwoord de juiste rekenoperatie suggereert en dus gebruik van een sleutelwoordstrategie
tot het juiste antwoord zou leiden niet in het onderzoek opgenomen. Dit leidde uiteindelijk tot
een selectie van de volgende zeven opgavetypen: oorzaakverandering 3,5 en 6 (OV-3, -5 en -6),
combinatie 2 (C-2) en vergelijking 1, 5 en 6 (VG-1, -5 en -6). Tabel 1 geeft voor elk van deze
opgavetypen een voorbeeld.

Tabel 1. Voorbeelden van de verschillende opgavetypen uit hel onderzoek.

OV-3 Jos had 3 poppen. Peter gaf Jos er wat poppen bij. Marleen had 2 poppen. Nu heeft Jos 9 poppen.
Hoeveel poppen gaf Peter aan Jos?

OV-5 Jos had wat poppen. Marleen had 2 poppen. Jos kreeg cr 3 poppen bij. Nu hccfl Jos 9 poppen.
Hoeveel poppen had Jos eerst?

OV-6 Jos had wat poppen. Jos verloor 3 poppen. Nu heeft Jos nog 9 poppen. Marleen had 2 poppen.
Hoeveel poppen had Jos eerst?

C-2 Jos heeft 3 poppen. Marleen heeft 2 poppen. Moniek heeft ook wat poppen. Samen hebben Jos en
Monick 9 poppen. Hoeveel poppen heeft Moniek?

VG-1 Jos heeft 3 poppen. Moniek heeft 9 poppen. Marleen heeft 2 poppen. Hoeveel poppen heeft Monick
meer dan Jos?

VG-5 Marleen had 2 poppen. Jos heeft 9 poppen. Jos hccfl 3 poppen meer dan Moniek. Hoeveel poppen
hccfl Moniek?

VG-6 Jos heeft 9 poppen. Jos hccfl 3 poppen minder dan Moniek. Marleen heeft 2 poppen. Hoeveel
poppen heeft Moniek?

Noot: Dc irrelevante zinnen zijn gecursiveerd ten behoeve van de leesbaarheid van dc label.

-ocr page 139-

De diagnose van foute oplossingen bij redactieopgaven 133

Om het categoriseringssysteem te verduidelijken wordt de oorzaakveranderings-3 opgave uit
Tabel 1 als voorbeeld genomen. De opgave luidt: "Jos had 3 poppen. Peter gaf Jos er wat poppen
bij.
Marleen had 2 poppen. Nu heeft Jos 9 poppen. Hoeveel poppen gaf Peter aan Jos?". De
gebruikte getallencombinatie is (2,3,9). Wanneer een leerling deze opgave beantwoordt met een
van de getallen uit de opgave, levert dit 2, 3 of 9 op. Wanneer een kind besluit de drie getallen
uit de opgave lukraak bij elkaar op te tellen, levert dit 2 + 3 + 9 = 14 op. Aftrekken van de twee
kleinste getallen geeft 9-2-3 = 4. Een kind dat de twee relevante getallen uit de opgave optelt
(bijvoorbeeld op basis van de sleutelwoorden "gaf erbij") geeft 3 + 9 = 12 als antwoord. Het
juiste antwoord is 9 - 3 = 6. Een "O" antwoord en "geen" antwoord zijn eenvoudig te onderscheiden
van de andere antwoordcategorieën. Een kind dat het irrelevante getal niet kan onderscheiden
van de relevante getallen zou bijvoorbeeld het irrelevante getal kunnen optellen bij een van de
relevante getallen (3 + 2 = 5 of 9 + 2 = 11) of het kunnen aftrekken van een van de relevante
getallen (3 - 2 = 1 of 9 - 2 = 7). Elk antwoord dat zonder telfouten of zonder te gokken tot stand
is gekomen kan op deze wijze eenduidig worden ondergebracht in een van de antwoordcategorieën.
De onderscheiden antwoordcategorieën worden beschreven in de paragraaf "Scoring".

Voor elk opgavetype werden 10 varianten geconstrueerd, waarin de 10 getallencombinaties
en plaats van de irrelevante informatie systematisch werden gevarieerd. Om herkenning van het
opgavetype te voorkomen werden ook de persoonsnamen en objectnamen over opgavetypen
verwisseld. Tenslotte werden van de 70 opgaven 10 subtoetsen samengesteld met random toewijzing
van een van de 10 varianten per opgavetype aan een van de toetsen.

Proefpersonen

Op een school voor moeilijk lerende kinderen werden in de vier hoogste groepen de proefpersonen
voor het onderzoek geselecteerd. Om voor het onderzoek in aanmerking te komen moest een
kind over een voldoende leesvaardigheid (meer dan 75% correct op de Cito Technisch Lezen
toets) en een voldoende rekenvaardigheid (meer dan 80% correct op de directe opgaven van dc
Technisch Rekentoets) beschikken.

Op basis van de toetsgegevens werden 3 leerlingen uit groep 4 uitgesloten van verdere
deelname aan het onderzoek. Dc definitieve selectie bestond uit 19 proefpersonen voor groep 4,
16 proefpersonen voor groep 5, 16 proefpersonen voor groep 6 en 15 proefpersonen voor groep
7. De gemiddelde leeftijd van de kinderen in de verschillende groepen betrof 10;4 jaar voor
groep4(.Tfi= 1.11) 10;8 jaar voor groep 5 (^d = 0.98), 11;9 jaar voor groep 6 (.vJ= 1.26) cn 13;5
jaar voor groep 7
{sd ~ 0.61). Ofschoon de kinderen uit grwp 4 cn 5 nauwelijks in leeftijd van
elkaar verschilden vertegenwoordigde de groepsindeling volgens dc .school het toenemende
niveau van bekwaamheid in algemene .schoolse vaardigheden. Groep 7 vormde hierop ccn
uitzondering. In deze niveaugroep waren kinderen vertegenwoordigd waarvan, naar het oordeel
van de school, verwacht kon worden dat zij in het voortgezet onderwijs betere resultaten zouden
halen door ccn jaar langer Speciaal Onderwijs tc volgen.

Procedure

Dc Cito Technisch Lezen toets cn de Technisch Rekentoets werden in de verschillende niveau-
groepen opeenvolgend klassikaal afgenomen door ccn proefleider. In de instructie van beide
toetsen werd door de proefleider benadrukt dat de kinderen alle opgaven dienden te maken.
Tijdens dc afname werd geen tijdsdruk uitgeoefend. Op basis van de behaalde resultaten op deze
toetsen vond dc scicctic van proefpersonen plaats. Vervolgens werd dc gescIcctccrdc leerlingen
elk van dc 10 subtoetsen voor rcdacticrckencn in random volgorde afgenomen. Deze afnamen
vonden klassikaal binnen ccn tijdsbestek van 2.5 weck op 10 opeenvolgende schooldagen plaats.
Ook nu werd het kind gevraagd alle opgaven op tc lossen.

Scoring

Dc aldus verkregen antwoorden werden voor elk kind afzonderlijk in de onderscheiden
antwoordcategorieën ondergebracht. Tabel 2 geeft ccn overzicht van dc verschillende categorieën.

-ocr page 140-

134 M.W.M. Jaspers en E.C.D.M. van Lieshout

Tabel 2. Onderscheiden antwoordcategorieën en overeenkomstige labels.

Nummer

Label

Omschrijving

1

Een getal

een van de getallen uit de opgave als antwoord gegeven

2

Alles optellen

alle drie getallen opgeteld

3

Alles aftrekken

twee getallen afgeuokken van grootste getal

4

Rckenoperatie-fout

verkeerde rekenoperatie met dc relevante getallen

5

Goed

het goede antwoord

6

0

een O-antwoord

7

Geen

geen antwoord ingevuld

8

Irr. opgeteld

irrelevante getal opgeteld bij een van de relevante getallen

9

Irr. afgetrokken

irrelevante getal afgetrokken van een van de relevante getallen

10

Rest

niet classificeerbare antwoorden

RESULTATEN

Alle tien antwoordcategorieën werden in alle vier groepen proefpersonen aangetroffen. Figuur 1
geeft voor elk van de opgavetypen de verdeling van de antwoorden per niveaugroep weer. Elf
procent van de antwoorden werd geclassificeerd als categorie-1 antwoorden; 3% als categorie-2
antwoorden; 6% als categorie-3 antwoorden; 12% als categorie-4 antwoorden; 41% als catego-
rie-5 antwoorden; 3% als categorie-6 antwoorden; 1% als categorie-7 antwoorden; 7% als
categorie-8 antwoorden; 9% als categorie-9 antwoorden en 8% als categorie-10 antwoorden.
Wegens interpretatieproblemen werden bij de analyse van de resultaten de antwoorden in de
rest-categorie buiten beschouwing gelaten.

Een multivariate variantie-analyse met Groepslidmaatschap (4 niveaus) als tussen-subjecten
faaoren Opgavetype (7 niveaus) en Antwoordcategorie (9 niveaus) als binnen-subjecten factoren
en aantal responsen als afhankelijke variabele leverde een significant hoofdeffect op voor
Antwoordcategorie (F(l,8) = 405.97,
p < .001) en significante tweede-orde interactie-effecten
voor Groepslidmaatschap x Antwoordcategorie (F(l,24) = 2.21, p < .01) en voor Opgavetype x
Antwoordcategorie (F(l,48) = 7.77,
p < .001). Bovendien was de derde-orde interactie Groeps-
lidmaatschap
X Opgavetype x Antwoordcategorie significant (f(l,144) = 1.58, p < .05). De
verdeling van de antwoorden over de negen categorieën was afhankelijk van het niveau van dc
groep en van het opgavetype. Figuur 1 geeft per opgavetype dc verdeling van de antwoorden in
de verschillende categorieën voor elk van de niveaugroepen weer.

l

Groep 4

- 0

Groep 5

' b

Groep 6

■ ^

Groep 7

1

1

l

^..ijll.

.. .j.L.jl

0)

4)
TJ
■O

1
4)

O

Antwoordcategorie

8.0
7.5
7.0
6.5
6.0
5.5
5.0
4.5
i.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0

10.0
9.5
9.0
8.5
8.0
7,5
7.0
6.5
6.0
»5
5.0
<.5
4.0
35
3.0
2.5
2.0
1.5
1.0
0.5
0.0

Groep 4
Groep 5
Groep 6
Groep 7

E
01
O

8 9

Antwoordcategorie

-ocr page 141-

De diagnose van foute oplossingen bij redactieopgaven 135

8 9

0)
■O
■D

1
«>

O

Lm

Anlwoordcategorie

Groep 4
Groep 5
Groep 6
Groep 7

k.fcn

Antwoordcategorie

0
2
O)

•O
■O

1
0)
O

8.0
7,5
7.0
6.5
6.0
5.5
5.0
4.5
<.0
3.5
3.0
2.5
J.0
1.5
1,0
0,5
0,0

O
T3

O
?

Ë
«

O

O

W . Wfa.

Fig. 1. Gemiddeld aanial antwoorden per antwoordcategorie cn niveaugroep voor dc gebruikte opgave-
typen oor7.aakvcrandcring-3 (a), oorxaakvcrandcring-S (b), oorzaakvcrandering-6 (c), combinaiie-2
(d), vergelijking-1 (c), vcrgclijking-5 (Q en vergclijking-6 (g).

-ocr page 142-

136 M.W.M. Jaspers en E.C.D.M. van Lieshout

Voor elk opgavetype werden vervolgens afzonderlijke variantie-analyses en contrast-toetsen
uitgevoerd. De resultaten van de contrast-toetsen staan per opgavetype vermeld in Tabel 3.

Een eerst variantie-analyse toonde aan dat voor de oorzaakveranderings-3 opgaven de verde-
ling van antwoorden over de categorieën 1, 5, 8 en 9 per niveaugroep significant verschilde
(F(l,3) = 5.41 .p < .01; F(l,3) = 10.07,p< .001; F(l,3) = 4.22,p< .01 en F(1.3) = 4.19,p< .01).
De resultaten van de contrast-toetsen voor oorzaakveranderings-3 opgaven staan weergegeven
in Tabel 3a. Hieruit blijkt dat kinderen in niveaugroep 4 deze opgaven significant vaker met een
van de getallen uit de opgave beantwoordden en het irrelevante getal significant vaker optelden
bij een van de relevante getallen dan kinderen in niveaugroep 5. Kinderen in groep 5 daarente-

Tabel 3.Significante contrasten tussen de verschillende niveaugroepen per opgavetype.

Nummer:

Antwoord-label:

Conü-ast:

1 =

P<

(a) Oorzaakverandering-3

1

Een getal

Groep 4 > Groep 5

2.46

.05

5

Goed

Groep 4 < Groep 5

2.29

.05

Groep 5 < Groep 6

2.43

.05

8

Irr. opgeteld

Groep 4 > Groep 5

2.80

.01

9

Irr. afgeuokken

Groep 5 > Groep 6

3.09

.01

(b) Oorzaakverandcring-5

1

Een getal

Groep 4 > Overige Groepen

3.09

.01

5

Goed

Groep 4 < Groep 5

2.15

.05

Groep 5 < Groep 6

2.33

.05

8

Irr. opgeteld

Groep 4 > Groep 5

2.44

.05

(c) Oorzaakverandcring-6

1

Een getal

Groep 4 > Overige Groepen

2.47

.01

5

Goed

Groep 5 < Groep 6

1.98

.05

(d) Combinalic-2

1

Een getal

Groep 4 > Overige Groepen

2.89

.01

5

Goed

Groep 4 < Groep 5

3.62

.001

Groep 5 < Groep 6

2.25

.05

(e) Vergelijking-1

1

Een getal

Groep 4 > Overige Groepen

3.78

.001

5

Goed

Groep 4 < Groep 5

3.50

.001

8

Irr. opgeleid

Groep 4 > Groep 5

1.96

.05

(0 Vcrgclijking-5

1

Een getal

Groep 4 > Overige Groepen

2.53

.01

4

Rckcnoperatie-fout

Groep 4 < Overige Groepen

5.77

.01

5

Goed

Groep 4 < Groep 5

3.04

.01

Groep 5 < Groep 6

2,56

.01

(g) Vergclijking-6

1

Een getal

Groep 4 > Overige Groepen

3.35

.001

4

Rckcnoperatie-fout

Groep 7 > Overige Groepen

2.49

.05

Groep 4 < Overige Groepen

6.80

.001

Groep 5 < Overige Groepen

2.41

.05

5

Goed

Groep 5 < Groep 6

2.74

.01

8

Irr. opgeteld

Groep 5> Groep 6

2.46

.05

-ocr page 143-

De diagnose van foute oplossingen bij redactieopgaven 137

gen trokken het irrelevante getal significant vaker af van een de relevante getallen dan kinderen
in groep 6 (zie ook Figuur la voor een grafische weergave van de antwoordpatronen).

De analyses voor de overige opgavetypen, oorzaakverandering-5 en -6, vergelijking-1, -5 en
-6 en combinatie-2, toonden aan dat het aantal antwoorden in categorie 1 (antwoorden met een
van de getallen uit de opgave) voor de vier niveaugroepen significant verschilde
(oorzaakveranderings-5 opgaven: F(l,3) = 6.05,p< .001; oorzaakveranderings-6opgaven: F(l,3)
= 5.47,p < .01; vergelijkings-1 opgaven: F(1.3) = 8.94,p< .001; vergelijkings-5 opgaven: F(l,3)
= 3.83, ƒ7 < .05; vergelijkings-6 opgaven: F(1,3) = 8.10,p < .001 en combinatie-2 opgaven: F(1,3)
= 9.91, p < .001, zie Figuur Ib-lg). De resultaten van de contrast-toetsen staan respectievelijk
weergegeven in Tabel 3b-3g. Kinderen in niveaugroep 4 beantwoordden deze opgavetypen
significant vaker met een van de getallen uit de opgave dan de kinderen in de overige groepen
(zie ook Figuur Ib-lg voor de grafische weergave van de antwoordpatronen).

Ook verschilden bij de overige opgavetypen het aantal antwoorden in categorie 8 (irrelevant
getal opgeteld bij een van de relevante getallen) voor de opgavetypen oorzaakverandering-5
(F(l,3) = 3.76,p < .05), vergelijking-1 (F(1.3) = 3.19,p < .05) cn vergelijking-6 (F(l,3) = 3.10,
p < .01) voorde niveaugroepen significant van elkaar. Voor oorzaakverandcrings-5 en vergelijkings-
1 opgaven gold dat kinderen in groep 4 het irrelevante getal significant vaker optelden bij een
van de relevante getallen (zie Tabel 3b en 3e en Figuur Iben le) dan kinderen in groep 5, terwijl
kinderen in groep 5 de vergelijkings-6 opgaven vaker oplosten door het irrelevante getal bij een
van de relevante getallen op te tellen dan kinderen in groep 6 (zie Tabel 3g en Figuur Ig).

Voor alle opgavetypen gold dat kinderen in de verschillende niveaugroepen significant ver-
schilden in het aantal goed opgeloste opgaven (oor7.aakveranderings-3 opgaven: F(l,3) = 10.07,
p < .(X)l; oorzaakveranderings-5 opgaven: F(l,3) = 8.70, p < .001; oorzaak-veranderings-6 op-
gaven: F(l,3) = 3.91,p < .05; combinatic-2 opgaven: F(1.3) = 14.06,p < .001; vergclijkings-1
opgaven: F(I,3) = 8.94,p < .001; vergelijkings-5 opgaven: F(l ,3) = 11.86,p < .001 en vergclijkings-
6 opgaven; F(l,3) = 6.07,
p < .CK)!. zie Figuur la-lg). Kinderen in groep 4 losten
oorzaakveranderings-3 en -5, combinatic-2 en vergelijkings-1 cn -5 opgaven significant minder
vaak goed op (zie respectievelijk Tabel 3a, b, d, e cn f en Figuur 1 a, b, d. c, cn O dan kinderen in
groep 5, die op hun beurt oorzaakvcrandcrings-3, -5 cn -6 opgaven, combinatic-2 opgaven cn
vergelijkings-5 en -6 opgaven significant minder vaak goed oplosten dan kinderen in groep 6
(zie Tabel 3a. b. c. d. f en g cn Figuur 1 a, b, c, d, f en g).

Tenslotte gold voor vcrgcIijkings-5 cn -6 opgaven dat het aantal antwoorden in categorie 4
(rekcnoperatie-fout) significant verschilde voor dc verschillende niveaugroepen (F(1.3) = 3.46,
p < .05 en F(1.3) = 5.31, p < .01). Kinderen in groep 4 pasten bij deze opgaven significant
minder vaak de verkeerde rckcnopcratic toe dan dc overige kinderen (zie Tabel 3f cn 3g cn
Figuur If cn Ig). Voor vcrgclijkings-6 opgaven gold dat kinderen in groep 5 significant minder
vaak cn kinderen in groep 7 significant vaker de verkeerde rckcnopcratic toepasten dan dc
kinderen in dc overige groepen (zie Tabel 3g cn Figuur Ig).

DISCUSSIE

Aangetoond werd dat de groepen ondcriing significant verschilden in dc verdeling van dc
vcrschilIcndc typen antwoorden per opgavetype. Ten eerste verschilden dc kinderen uit dc
diverse niveaugroepen in het aantal opgaven dat zij goed wisten tc beantwoorden. Voor alle
opgavetypen gold dat het aantal goed beantwoorde opgaven in het algemeen toenam met het
groepsniveau. Zo beantwoordden kinderen in dc laagste niveaugroep minder opgaven goed dan
kinderen in niveaugroep 5. die op hun beun weer minder opgaven goed beantwoordden dan
kinderen in niveaugroep 6. Opvallend was dat kinderen in niveaugroep 6 over het algemeen
beter presteerden dan kinderen in groep 7. ofschoon deze trend voor geen van dc opgavetypen
significant was. Vermoedelijk kan het speciale karakter van niveaugroep 7 deze trend verklaren.
De kinderen, die in deze niveaugroep geplaatst werden, venegenwoordigdcn dc kinderen uit

-ocr page 144-

138 M.W.M. Jaspers en E.C.D.M. van Lieshout

niveaugroep 6 van het vorig schooljaar die slechtere schoolprestaties behaalden dan hun mede-
leerlingen.

Ook de verdeling van de antwoorden in de overige categorieën lijkt te wijzen op een bepaalde
ontwikkeling in de redactierekenkennis van de leerlingen uit de verschillende niveaugroepen.
Zo gaven de proefpersonen uit groep 4 in vergelijkmg met de overige kinderen opvallend vaak
categorie 1-antwoorden (een van de getallen uit de opgave). Visuele inspectie van de ruwe data
liet zien dat deze categorie-1 antwoorden voor alle opgavetypen afkomstig waren van een
subgroep kinderen uit niveaugroep 4. Deze kinderen beantwoordden bijna alle opgavetypen met
een van de getallen uit de opgave.

Ook Verschaffel (1984) constateerde dat begiimende probleemoplossertjes in het regulier
onderwijs redactieopgaven vaak beantwoordden met een van de getallen uit de opgave. Als
belangrijkste verklaring voor deze fout geeft Verschaffel de onjuiste representatie die kinderen
zich van de opgave vormen als gevolg van het verkeerd begrijpen van begrippen als "meer dan",
"minder dan", "samen" etc. Zo bleek onder andere uit de navertellüigen van de reguliere
eersteklassers in het onderzoek van Verschaffel dat sommige kinderen, die een opgave als "Piet
heeft 3 appels. An heeft 6 appels meer dan Piet. Hoeveel appels heeft An?" fout oplosten door
een van de getallen uit de opgave als antwoord te geven (nl. "6"), de tweede zin uit de opgave-
tekst verkeerd geïnterpreteerd hadden als "An heeft 6 appels" in plaats van "An heeft 6 appels
meer dan Piet". Daarnaast bleken andere kinderen, die deze opgave ook beantwoordden met het
getal 6 uit de opgave, de tweede zin geïnterpreteerd te hebben als "An heeft 6 appels" en "An
heeft meer dan Piet". Beide groepen kinderen zouden volgens Verschaffel in dc veronderstelling
verkeren dat het antwoord in de opgavetekst gegeven is. Klaarblijkelijk weten deze kinderen
nog niet dat het oplossen van redactieopgaven het toepassen van een of andere rekenoperatie
vereist. Deze kennis zou onderdeel kunnen uitmaken van de zogenaamde "redactie-schema"
kennis (Verschaffel, 1984). Volgens Verschaffel zijn beginnende probleemoplossertjes nog niet
ingewijd in "het spel der redactieopgaven" en weten derhalve niet goed wat er nu precies van
hen verwacht wordt wanneer zij deze opgaven ter oplossing krijgen aangeboden. Dc opgavetypen
die in dit onderzoek gebruikt werden kunnen met name eengetals-antwoorden hebben uitgelokt
omdat zij een selectie van typen vormen, waarvoor eengetals-antwoorden vaak worden gecon-
stateerd (zie o.a. Verschaffel, 1984).

Daarnaast lijken sommige kinderen uit groep 4, die wel beseffen dat er ccn rekenoperatie
moet worden uitgevoerd op de getallen uit de opgave, bij dc meeste opgavetypen niet in staat om
de relevante verzamelingen van de irrelevante vcrz^amcling te onderscheiden, gezien het hoge
aantal categorie 8-antwoordcn (het optellen van het irrelevante getal bij ccn van dc relevante
getallen). Ook Cruickshank (1948) cn Goodstein e.a. (1971) vonden dat redactieopgaven met
irrelevante informatie in dc vorm van ccn derde getal dc prestaties van kinderen met leerproblemen
negatief bcnvloeddc.

In het algemeen lijken de proefpersonen uit groep 5 wel over dc kennis te beschikken dat het
oplossen van redactieopgaven de toepassing van ccn rekenoperatie vereist, gezien dc lagere
frequentie van catcgoric-1 antwoorden. Daarentegen gcbniiktcn deze kinderen het irrelevante
getal uit dc oorzaakvcrandcrings-3 cn vcrgclijkings-6 opgaven vaak voor dc berekening van hun
antwoord. Blijkbaar weten ook dezx kinderen in groep 5 dc irrelevante gegevens in deze
opgavetypen niet te scheiden van de relevante gegevens. In plaats van dc opgavetekst grondig te
analyseren, passen zij ccn rekenoperatie toe op twee getallen uit dc opgave, zonder rekening te
houden met dc relevantie van dc getallen ten aanzien van dc goede oplossing.

Dc meeste kinderen uit dc niveaugroepen 6 cn 7 lijken wel in staat dc relevante getallen tc
kimnen onderscheiden van het irrelevante getal, aangezien cr weinig catcgoric-8 cn -9 antwoorden
voorkomen in deze groepen. Opvallend is het grote aantal "rckcnopcratic-foutcn" dat deze
kinderen en kinderen in groep 5 in vergelijking n«t kinderen in groep 4 maken bij het oplossen
van vcrgclijkings-5 cn -6 opgaven. Ondanks het feit dat kinderen in groep 5. 6 cn 7 zich bij het
oplossen van deze opgaven wel laten leiden door opgavckcnmcrken. lijkt dc tekstanalyse die zij
plegen vaak echter ook nogal oppervlakkig van aard. Wellicht laten zij zich bij dc kcuzx: van dc
rekenoperatie tc snel laten leiden door het sleutelwoord uit dc opgave ("meer" of "minder"). In

-ocr page 145-

De diagnose van foute oplossingen bij redactieopgaven 139

de literatuur wordt een sleutelwoordstrategie vaak als ontstaansbron van "rekenoperatie-fouten"
beschouwd (zie o.a. De Corte & Verschaffel, 1981; Nesher & Teubal, 1975). Bij alle opgave-
typen die in dit onderzoek werden gebruikt, zou toepassing van een sleutelwoordstrategie tot
"rekenoperatie-fouten" hebben geleid. Bij directe redactieopgaven zou deze strategie overigens
tot het juiste antwoord hebben geleid en dus nooit zichtbaar zijn geworden.

Een andere verklaring voor het ontstaan van "rekenoperatie-fouten" bij vergelijkings-5 en -6
opgaven wordt gegeven door Lewis en Mayer (1987). Met name de vergelijkings-5 en -6 opgaven
staan bekend als moeilijke opgavetypen (Briars & Larkin, 1984; Riley e.a., 1983). Zowel Briars
en Larkin als Lewis en Mayer (1987) maken een onderscheid in "consistente" en "conflict"
ofwel "inconsistente" vergelijkingsopgaven. "Consistente" vergelijkingsopgaven zijn opgaven,
waarbij de vergelijkende term ("meer dan" of "minder dan") overeenkomt met de rekenkundige
bewerking (optellen en aftrekken respectievelijk) die tot de goede oplossing leidt en waarin de
"set-eigenaar" uit de eerste zin
{"Piet heeft 5 auto's") de persoon is waaraan gerefereerd wordt
in dc tweede zin ("An heeft 3 auto's meer dan
Piet"). De vergelijkende term in "inconsistente"
opgaven daarentegen komt niet overeen met de toe te passen rekenoperatie en in deze opgaven
is dc set-eigenaar uit de eerste zin ook onderwerp van de tweede zin ("P/c» heeft 5 auto's.
Piet
heeft 3 auto's meer dan An."). Lewis en Mayer (1987) veronderstellen dat probleemoplossers dc
voorkeur geven aan consistente redactieopgaven en aan deze voorkeur uiting geven door hun
pogingen inconsistente vergelijkingsopgaven tc transformeren naar een consistente vorm. Zo
zouden zij proberen de personen uit dc tweede zin van inconsistente opgaven van rol te laten
verwisselen. Een opgave als "Piet heeft 5 auto's. Piet heeft 3 auto's meer dan An" wordt dan
"Piet heeft 5 auto's. An heeft 3 auto's
minder dan Piet". Zoals het voorbeeld toont moet bij dc
verwisseling van dc personen ook een transformatie van de "meer dan" in ccn "minder dan"
relatie plaatsvinden. Volgens Lewis cn Mayer zouden probleemoplossers met name deze laatste
omwisseling vergeten, hetgeen "rckcnopcratic-foutcn" kan verklaren. Deze verklaring veronderstelt
dat problecmoplo.sscrs bij het oplossen van inconsistente vergelijkingsopgaven wel trachten ccn
representatie van de verzamelingen en relaties tussen deze verzamelingen op le bouwen in
plaats van alleen op ba.sis van hcl sleutelwoord tc antwoorden. Door hun pogingen inconsistente
vergelijkingsopgaven te transformeren naar een probleemrepresentatie die overeenkomt met die
van consislcntc vergelijkingsopgaven ontslaan echter fouten in dc keuze van dc rekenoperatie.

Hoe dc "rckcnopcratic-foulcn" van dc leerlingen in dit onderzoek tot siand kwamen kan op
basis van dc gegevens in dit ondcr/.ock niet vastgesteld worden. Zoals eerder vermeld valt het
toct.scn van hypothesen omtrent de ontstaanswijze van "rekenopcraiie-foulen" ic overwegen. Zo
zouden "rckcnopcratic-foutcn" die het gevolg zijn van een slcutelwoordsiralegic wellicht on-
derscheiden kunnen worden van "rckcnopcratic-foutcn" die representatieproblemen weerspiegelen
door ccn kind, dat een "rckcnoperatic-foui" maakte op ccn bepaald type opgave, andere opgaven
van hetzelfde type aan le bieden. Een kind dat opgaven als "Piel hccfl 6 knikkers. Piet heeft 2
knikkers minder dan Tom. Hoeveel knikkers heeft Tom?" cn "Piet heeft 2 knikkers. Pici hccfl 6
knikkers minder dan Tom. Hoeveel knikkers heeft Tom?" zou beantwoorden door slechts naar
dc getallen ("2" en "6") cn hci sleutelwoord ("minder") te kijken, zou vermoedelijk in beide
gevallen op basis van hcl sleutelwoord "minder" 2 van 6 aftrekken. Kinderen die wel zouden
pogen een representatie van dc opgave op le bouwen maar de transformatie van "minder" in
"meer" zouden vergeten zouden in hcl ccrslc voorbeeld de opgave omvormen tot "Piet heeft 6
knikkers. Tom heeft 2 knikkers minder dan Piet. Hoeveel knikkers heeft Tom?" cn ook 2 van 6
aftrekken. In het tweede voorbeeld zou deze onvolledige omvorming echter de onmogelijke
opgave "Piet hccfl 2 knikkers. Tom hccfl 6 knikkers minder dan Piet. Hoeveel knikkers heeft
Tom?" opleveren. Wanneer deze laatste groep kinderen op deze opgave een "kan niet" antwoord
zouden produceren dan zouden zij le ondcRcheidcn zijn van kinderen die een slcuielwoordstratcgic
hanteerden. Op deze wijze zou sicchis op basis van antwoordpatronen wellicht ook de ont-
staanswijze van andere foutcntypcn te achterhalen zijn. In lockonvsiig onderzoek kan deze
methode mis.schien ook aangewend worden bij "directe" redactieopgaven om antwoorden, die
hei gevolg zijn van tocpa.ssing van ccn sicutelwoordstrategic te kunnen onderscheiden van
goede antwoorden. Bij de standaardfonmuleringcn van direcic opgavetypen doet zich immers

-ocr page 146-

140 M.W.M. Jaspers en E.C.D.M. van Lieshout

het probleem voor dat het sleutelwoord de juiste rekenoperatie suggereert. Door echter het
sleutelwoord biimen "directe" redactieopgaven te variëren, kunnen kinderen, die op basis van
een zorgvuldige analyse van de opgavetekst hun antwoord formuleren, wellicht onderscheiden
worden van kinderen die zich bedienen van een oppervlakkige sleutelwoordstrategie. Zo zal het
sleutelwoord "won" in een standaard-opgave: "Piet had 3 knikkers. Piet won er 5 knikkers bij.
Hoeveel knikkers heeft Piet nu?" als "verbal cue" fungeren omdat het kinderen, die een
sleutelwoordstrategie toepassen, verieidt tot het optellen van de getallen, hetgeen tot het goede
antwoord leidt. Door het sleutelwoord "won" te vervangen door "verloor" ("Piet had 3 knikkers.
An verloor 5 knikkers aan Piet. Hoeveel knikkers heeft Piet nu?") fungeert het sleutelwoord als
"verbal distractor" omdat het nu het aftrekken van de getallen suggereert, terwijl in werkelijk-
heid opgeteld moet worden. Terwijl goede oplossers vermoedelijk in beide gevallen het goede
antwoord produceren, zullen kinderen, die op basis van het sleutelwoord besluiten tot een
bepaalde rekenoperatie. in het tweede voorbeeld "verkeerde rekenoperatie" fouten produceren.

In het licht van de beschreven resultaten kan wellicht een uitspraak worden gedaan over de
opbrengst van een productgerichte aanpak in het kader van de mogelijkheid prestatiegerichte
diagnostiek te ontwikkelen, die weer gebruikt kan worden bij het ontwikkelen van minder
traditionele COO. Inmiddels is duidelijk geworden dat een productgerichte aanpak op basis van
een zorgvuldige selectie van typen redactieopgaven en een inventarisatie van gerapporteerde
strategieën in combinatie met unieke getallencombinaties niet alleen kennis verschaft omtrent
het niveau van een leerling maar ook het eenduidig categoriseren van de gegeven antwoorden
mogelijk maakt. Ofschoon de resultaten van dit onderzoek zich niet altijd lenen voor het achterhalen
van de ontstaanswijze van fouten, kan de aard van hel gegeven antwoord wel richting geven aan
mogelijke verklaringsgronden. Door hypothesen op te stellen en variaties in de opgavestructuur
aan te brengen kan in toekomstig onderzoek wellicht de oorzaak van de fout met meer zekerheid
achterhaald worden. Zoals geïllustreerd werd. zou deze methode ook aangewend kunnen worden
voor het achterhalen van de ontstaanswijze van bepaalde antwoorden bij de "directe" redactie-
opgaveiypen. Op basis van de aldus verkregen informatie kan leerling-specifieke instrucde
volgen. Zo kunnen categoric-4 antwoorden ("rekenoperatie-fouten") die hel gevolg zijn van een
oppervlakkige sleutelwoordstrategie. welHcht geremedieerd worden door kinderen te leren dc
opgavetekst eerst zorgvuldig le analyseren voordat zij tot een bepaalde rekenoperatie besluiten.
Daarentegen zouden categorie-4 antwoorden die het resultaat zijn van mislukte pogingen van dc
probleemoplosser zich een juiste representatie van dc opgave tc vormen beter tegengegaan
kunnen worden door kinderen tc leren dc relevante verzamelingen en relaties daartussen op ccn
juiste wijze tc representeren.

Categoric-8 cn 9 antwoorden (het irrelevante getal wordt opgeteld bij. respectievelijk afge-
trokken van ccn van dc relevante getallen) lijken voornamelijk tc ontstaan vanuit het onvermogen
van de leerling om de relevante gegevens uit dc opgave tc onderscheiden van dc irrelevante
gegevens. De remediatic zou dan gericht kunnen zijn op het leren ontdekken van de irrelevante
informatie door vanuit ccn zorgvuldige analyse van dc Vraagzin, waarin dc onbekende quantitcit
gedefinieerd wordt, de relevante bekende quantitcitcn in dc opgave op tc sporen en vervolgens
de irrelevante quantitcit tc elimineren uit dc probIccmrcprc.scntatic.

Voor de ontwikkeling van meer geavanceerde COO. waarbij de remcdiatie aansluit bij het
kennisniveau van een leerling. lijkt dc gebruikte methode ccn aanzet tc vormen in dc diagnostiek
van fouten in het oplossingsproces bij rcdactierekencn. Op basis van dc soort fouten die een
leerling maakt kan dc remcdiatie beter afgestemd worden op specifieke Iccriingkcnmcrkcn.
Voor dc ontwikkeling van ITS, waarbij dc interactie tussen dc leeriing cn het systeem flexibeler
verloopt dan in traditionele COO. moeten dc oplossingen van dc leeriing voortdurend vergele-
ken worden met die van het systeem cn zijn ook dc tussentijdse producten van het oplossingsproces
van dc leeriing van belang voor het stellen van de diagnose. Ondcr/ock, waarbij de tussentijdse
producten in het oplossingsproces van moeilijk lerende kinderen gediagnosticeerd worden cn
vergeleken met die van kinderen in het reguliere onderwijs, is recent van start gegaan.

-ocr page 147-

De diagnose van foute oplossingen bij redactieopgaven 141

LITERATUUR

Briars, DJ., & Larkin, J.H. (1984). An integrated model of skill in solving elementary word problems.
Cognition and Instruction, 1, 245-2%.

Carpenter, T.P., & Moser, J.M. (1984). The acquisition of addition and subtraction concepts in grades one
through three.
Journal for Research in Mathematics Education. 15, 179-202.

Carpenter, T.P., & Moser, J.M. (1982). The development of addition and subtraction problem solving skills.
In T.P. Carpenter, J.M. Moser. & T.A. Romberg (Eds.),
Addition and subtraction, a cognitive
perspective
(pp. 9-23). Hillsdale NJ: Erlbaum.

Cruickshank, W. (1948). Arithmetic ability of mentally retarded children: ability to differentiate exuancous
material from needed arithmetic fact
Journal of Educational Research, 42, 161-170.

De Corte, E., & Verschaffel, L. (1981). Children's solution processes in elementary arithmetic problems:
analysis and improvement.
Journal of Educational Psychology, 6, 765-779.

De Corte, E., & Verschaffel, L. (1987a). The effect of semantic structure on first graders' strategics for
solving addition and subtraction word problems.
Journal for Research in Mathematics Education,
7,
363-381.

De Corte. E.. & Verschaffel. L. (1987b). Oogbewegingen van eersteklassers tijdens het oplossen van
redactie-opgaven.
Pedagogische Studiën, 64, 137-149.

Dellarosa, D. (1986). A computer simulaUon of children's arithmetic word problem solving. Behavior Re-
search Methods, Instruments <ü Computers, 18,
147-154.

Fuson. K.C.. & Willis. G.B. (1989). Second graders' use of .schematic drawings in .solving addition and
subtraction word problems.
Journal of Educational Psychology, 4, 514-520.

Goodstcin. H.A., Cawlcy. J.F.. Gordon. S.. & Helfgott, J. (1971). Verbal problem solving among cducable
mentally retarded children.
American Journal of Menial Deficiency, 76, 238-241.

Heller, J.I., & Greeno. J.G. (1978). Semantic processing of arithmetic word problem solving. Paper presented
al the Midwestern Psychological As.sociaiion Convention, Chicago, Mci.

Ja.spcrs. M.W.M. (1991). Prototypes of computcr-assisled instmction for arithmetic word-problem solving.
Dissertatie. Universiteit van Nijmegen. Maart 1991.

Jaspers, M.W.M., & Lie.shout. E.C.D.M. van (1989). Ecn uainingsprogramma voorkinderen met leerproblemen
gericht op het aanleren van concrete representaties voor redaciicopgavcn.
Pedagogische Studiën,
6. 240-255.

Ja.spcrs, M.W.M., & Lieshout, E.C.D.M. van (1990). Visuele modellen leren opbouwen in ccn computer-
gestuurde training voor redaclicrekcncn.
Tijdschrift voor Orthopedagogiek. 5, 277-286.

Lewis. A.. & Mayer, R.E. (1987). StudcnLs' miscomprehension of relational statements in arithmetic word
problems.
Journal of Educational Psychology. 4, 363-371.

Lieshout. E.C.D.M. van (1988). Ecn mcuicogniucf georiënteerde compulcrgc.sluurde training icr bevordering
van het oplossen van redactiesommen door moeilijk lerende kinderen. Paper gcprc.scntccrd tijdens
de "Onderwijs Rcscarchdagen'. Leuven, België, 1988.

Lieshout, E.C.D.M. van. & Ja.spcrs, M.W.M. (1990). A training procedure for children with learning dcficicncies
to improve their rcprc.scnlation of simple arithmetic word problems. In H. Mandl. E. dc Corte, N.
BcnncU & H.F. Fricdrich (Eds.).
Learning and in.uruction. European research in an international
context. Vol 2.2, Analysis of complex skills and complex knowledge domains
(pp. 431 -444). Oxford:
Pergamon Press.

Lieshout, E.C.D.M. van. & Jaspers. M.W.M. (1989). Reading and solving arithmetic word problems by
poorly performing and normal children. In A. Ro.sa (voor/.itlcr).
Learning environments for special
educational needs: techniques for improving academic performance.
Symposium op de "ihird
conference of the EARLI", Madrid, Spanje.

Lindvall. C.M. .Tamburino. J.L.. & Robinson. L. (1982). An exploratory investigation of the effect of teaching
primary grade children to u.se specific problem solving strategies in solving simple arithmetic
story problems.
Paper gcprc.scntccrd op dc "Annual Meeting of ihc American Educational Research
Association". New York.

Nesher. P.. & Teubal, E. (1975). Verbal cucs as an interfering factor in verbal problem .solving. Educational
Studies in Mathematics, rt. 41 -51.

Riley. M.S. . Greeno, J.G., & Heller. J.I. (1983). Development of children's problem solving ability in
arithmetic. In H.P. Gin.sburg (Ed.).
The development of mathematical thinking (pp. 153-196). New
York: Acadcmic Press.

Rus.scl. R.L.. & Gin.shurg. H.P. (1984). Cognitive analysis of children's mathematical difficulties. Cognition
and Instruction,
217-244.

-ocr page 148-

142 M.W.M. Jaspers en E.C.D.M. van Lieshout

Verschaffel, L. (1984). Representatie- en oplossingsprocessen van eersteklassers bij aanvankelijke
redactieopgaven over optellen en aftrekken. Een theoretische en methodologische bijdrage op
basis van longitudinale, kwalitatief psychologische studie.
Ongepubliceerde dissertatie. Universi-
teit van Leuven, Beige.

Willis, G.B., & Fuson, K.C. (1988). Teaching children to use schematic drawings to solve addition and
subuaction word problems.
Journal of Educational Psychology, 2, 192-201.

Manuscript ontvangen 22-8-1990

Defmitieve versie ontvangen 13-8-1991

-ocr page 149-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 2. pp. 143-115

De correlationele structuur van taalvaardigheid: een
exploratie1

Hans Kuhlemeier2 en Huub van den Bergh3

CITO, Arnhem
*** Vakgroep Nederlands, R.U. Utrecht

ABSTRACT

The data of a national assessment in secondary education arc rcanalyscd in order lo investigate the
correlational stnicture of language abilities. It is concludcd that listening, speaking, reading and
writing can be differentiated, although these factors correlate rather highly. On ihc other hand, it was
not possible lo differentiate productive language abilities (speaking and writing) as one factor from
a rcccplivc language ability factor (lislening and reading). The measurement of language abilities
seems to be congeneric across different types of secondary education. Furihcrmorc, ihc data suggest
lhal the mcasuremcnl of language abilities is conlaminalcd by factors lhal relate lo the conicnl and
struciurc of the lasks being used.

INLEIDING

Over de structuur van taalvaardigheid is al veel gezegd en gcschrcven. Empirisch onderzoek is
echter schaars. Reeds aan het begin van de jaren zestig wees Carroll (1962) op het ontbreken
van sludies waarin de relatie tussen de traditionele laalmodi luisteren, spreken, lezen en schrij-
ven diepgaand onderzocht wordt. Afgezien van enkele uitzonderingen (Horowitz & Bcrkowitz,
1967; Loban. 1976; Neville. Mulholland & Kydd, 1985; Van Geldcrcn, 1987) lijkt hierin nog
weinig veranderd. Dit laat.ste wekt weinig verwondering wanneer wc bedenken dal onderzoek
naar de samenhang tussen de vier taaimodi niet alleen omslachtig cn arbeidsintensief, maar ook
verre van goedkoop is. Voor zover cr al ondcrzock.sgegcvcns beschikbaar zijn, betreft hcl
doorgaans ccn vergelijking van slechts twee taalvaardigheden. Hierbij heeft dc relatie tussen
lui.stcrcn cn lezen nog dc meeste aandacht gekregen, waarschijnlijk omdat recepiievc laal-
vaardigheden nu eenmaal eenvoudiger (en goedkoper) te meien zijn dan produktief taalgebruik.

Dc resultaten van onderzoek naar dc correlationele stmctuur van taalvaardigheid blijken weinig
consi.slcnt. Zo varieert dc gerapporteerde correlatie tussen luister- en leestoetsen van .22 tot .83
(Anderson & Baldauf. 1963; Ross, 1964; Brown, 1965; Dukcr, 1965; Tinzmann & Thomsom,
1977; Jolly, 1980; Van Geldcrcn, 1987; Neville c.s., 1985), lussen lui.slercn cn spreken van -.31
tot .81 (Brilhart, 1965; Neville c.s., 1985; Van Geldcrcn, 1987) en tussen lezen cn schrijven van
.10 lot .94 (Shanahan, 1984; Neville c.s., 1985; Bclangcr, 1987; Van Geldcrcn, 1987). Voor
deze uiteenlopende bevindingen zijn verschillende verklaringen aan tc voeren.

In dc eerste plaaLs i.s cr nog geen sprake van een algemeen geaccepiecrde cn empirisch gevalideerde
theorie omtrent dc structuur van taalvaardigheid (Meuffcls, 1982). Het wekt dan ook geen
verbazing dat dc diverse opcraiionalisalies van taalvaardigheid vrij willekeurig aandoen, waardoor
de rcsullaien van verschillende onderzoeken moeilijk vergelijkbaar zijn. Immers, dc samenhang
lussen toeisscorcs wordl mede veroorzaakt doordal de loclscn ccn beroep doen op gcmccn-

1  Mcl dank aan Lcijn Mclsc. Josjc Sytsira cn Michacl Zwarts voor hun commcnuar op ccn eerdere versie
van dit artikel.

2  Cilo. afdeling Beginfase Voortgczcl Onderwijs, Nieuwe Ocvcrslraal 65, 6811 JB Arnhem.

3 R.U. Uucchi. Vakgroep Nederlands, Afdeling Taalbeheersing. Trans 10, 3512 JK Uuechi.

-ocr page 150-

144 H. Kuhlemeier en H. van den Bergh

schappelijke (deel)vaardigheden. Zo zullen luister- en leesprestaties waarschijnlijk hoger corre-
leren wanneer in beide toetsen uitsluitend naar de hoofdgedachte van de uitgangstekst wordt
gevraagd dan wanneer de toetsen sterk verschillen in de aard van de bevraagde deelvaardigheden.
De leerlingprestaties en de hoogte van de gerapporteerde correlaties tussen toetsscores lijken
daarmee sterk afhankelijk van de min of meer toevallige keuze voor bepaalde deelvaardigheden
van taalvaardigheid (Shanahan & Lomax, 1986).

Een speciaal probleem hierbij vormt de contammatie van de meting van taalvaardigheid met
zogeheten taakeffecten of opdrachtspecificiteiten. Carroll (1962) merkte op dat taalvaardig-
heidsprestaties variëren al naar gelang het type opdracht dat de leerling krijgt voorgelegd. Meer
in het algemeen beschrijven anderen dit fenomeen als 'mono-method bias' (Cook & Campbell,
1979), 'method effects' (Fiske, 1987) of 'instrumental variables' (Feldt & Brennan, 1989). In
ieder geval lijkt de hoogte van de samenhang tussen taalvaardigheden sterk afhankelijk te zijn
van de aard van de opdrachten waarmee taalvaardigheid wordt gemeten (Bodoo & Garlinghouse,
1984; Van Gelderen, 1987; De Glopper, 1988; Van den Bergh. 1988). Luisteren en lezen zullen
bij voorbeeld hoger correleren wanneer dezelfde tekst als uitgangspunt genomen wordt dan
wanneer luisteren en lezen aan de hand van verschillende teksten getoetst worden.' Het verdient
dan ook de voorkeur de verschillende taalvaardigheden met behulp van diverse opdrachten te
meten. Omdat een domeinbeschrijving van relevante taaltaken echter ontbreekt, is deze variatie
moeilijk op systematische wijze in een instrumentarium aan te brengen.

Een tweede verklaring voor de sterk wisselende bevindingen is gelegen in de diversiteit van
de gehanteerde analysetechnieken. Verschillende technieken kunnen leiden tot verschillende
bevindingen. Multivariate analysetechnieken verdienen natuurlijk de voorkeur, omdat daarbij
rekening gehouden wordt met mogelijke collineariteit van de verechillende indicatoren voor
taalvaardigheid. Ook maakt het wat uit of gecorrigeerd wordt voor attenuatie. Voor onbe-
trouwbaarheid gecorrigeerde schattingen vallen vrijwel altijd hoger uit dan indien daarvoor niet
gecorrigeerd is (i.e. wanneer dc betrouwbaarheid van tenminste één der metingen kleiner is dan
1.00). Correctie voor onbetrouwbaarheid kan echter riskant zijn. niet in het min.st omdat het
effect ervan in sterke mate afhankelijk is van de gekozen definitie van betrouwbaarheid. Zo
resulteert correctie op basis van dc veelvuldig gebruikte Cronbach's alpha - als ondergrens-
schatting van de 'ware' betrouwbaarheid - in een overschatting van de samenhang tussen
taalvaardigheden. Bovendien maakt het verschil of dc meting van de taalvaardigheid 'gezuiverd'
is van onbedoeld meegemcten taakeffecten. Inhoudelijke cn structurele kenmerken van dc op-
drachten blijken vaak het leeuwedeel van de totale geobserveerde variantie te verklaren, waar-
door de betrouwbaarheid van de taalvaardigheidsmcting fors overschat wordt (Coffman, 1966;
Wesdorp. 1974; Van den Bergh. Dc Glopper & Schooncn. 1987). Correctie op basis van deze,
door taakeffecten geïnflatcerdc betrouwbaarheidsschattingen, leidt tot ccn onderschatting van
de hoogte van dc werkelijke samenhang tussen taalvaardigheden. Voor zover ons bekend is
correctie voor onbetrouwbaarheid ten gevolge van contaminatie met taakeffecten alleen door
Van Gcldcren (1987) toegepast.

In de derde plaats lijkt de gevonden structuur afhankelijk van de aard van dc onderzoeksgroep
in kwestie. Verondersteld wordt dat taalvaardigheden zich ontwikkelen vanuit een relatief algemene,
ongedifferentieerde vaardigheid (Garrett. 1946; Ferguson. 1954; 1956; Hoeks. Molenaar &
Mellenbergh, 1990). Dc samenhang tus.scn verschillende taalvaardigheden is dan afhankelijk
van de mate waarin deze in dc onderzoekspopulatie gedifferentieerd zijn. Hoewel de
differentiatichypothese controversieel is (Guilford, 1967), mag worden aangenomen dat vaar-
digheden differentiëren ten gevolge van leeftijd, het genoten onderwijs (Anasia.si, 1970) en dc
van schooltype tot schooltype vcrschilicndc leerervaringen (Carroll. 1962; Meuffels. 1982;
Shanahan, 1984; Snow & Yalow. 1984). Zo zullen luisteren en spreken in het geval zij tegelij-
kertijd en geïntegreerd worden aangeboden waarschijnlijk hoger corrclcrcn dan wanneer zij
successievelijk en geïsoleerd van elkaar worden gcïnstmcerd en geoefend. Afgezien van studies
op het terrein van aanvankelijk lezen cn beginnend schrijven is onderzoek naar dc vergelijkbaarheid
van dc corrclationclc structuur van taalvaardigheid over vcrschilicndc subgroepen leerlingen
nog nauwelijks uitgevoerd, zodat nader onderzoek gerechtvaardigd is.

-ocr page 151-

De correlationele structuur van taalvaardigheid 145

In dit artikel wordt verslag gedaan van een analyse van de correlationele structuur van taalvaar-
digheid. De gegevens zijn ontleend aan een peilingsonderzoek naar de inhoud en het niveau van
het vak Nederlands in het derde leerjaar voortgezet onderwijs (Kuhlemeier & Van den Bergh,
1989). Er staan drie onderling gerelateerde onderzoeksvragen centraal. De eerste onderzoeks-
vraag luidt: in hoeverre kan een onderscheid worden gemaakt tussen luister-, spreek-, lees- en
schrijfvaardigheid? De tweede onderzoeksvraag betreft de contaminatie van de meting van
taalvaardigheid met opdrachtspecifieke factoren, zoals kennis van het onderwerp van de opdracht,
het teksttype, het vraagtype of de taaksituatie. In welke mate worden de geobserveerde scores
op de diverse opdrachten beïnvloed door taalvaardigheden, en in welke mate is er sprake van
opdrachtspecifieke invloeden? De derde onderzoeksvraag betreft de generaliseerbaaxheid van
de gevonden correlationele structuur over prestaties van leerlingen uit verschillende school-
typen. Vergelijking van de prestaties van groepen leeriingen is immers pas zinvol wanneer de
scores in iedere groep dezelfde constructen representeren. Daartoe moeten de metingen in de
verschillende schooltypen tenminste voldoen aan dc eis van congenericiteit; in de verschillende
subpopulaties zijn dan dezelfde vaardigheden gemeten, meetfouten buiten beschouwing gelaten.
Het artikel besluit met enkele conclusies, een discussie en enkele aanbevelingen voor de opzet
van toekomstig peilingsonderzoek in het voortgezet onderwijs.

Een antwoord op deze drie onderzoeksvragen lijkt om meerdere redenen van belang. Zouden
luister- en spreekvaardigheid bij voorbeeld empirisch niet onderscheidbaar zijn, dan hoeven
deze onderdelen niet bij iedere volgende peiling even uitgebreid aan bod tc komen. Onze
exploratie van taakeffecten kan leiden tot meer inzicht in de problematiek van dc 'factorzuivere'
meting van taalvaardigheid. In de toekomst kunnen dan wellicht opdrachten gekozen worden
die de beoogde vaardigheid zo zuiver mogelijk meten. Dit wil zeggen: met zo weinig mogelijk
'ruis' en met een zo gering mogelijke 'vermenging' met onbedoelde effecten die met de
taalvaardigheidsmeting gecontamineerd zijn. De vraag naar de gcncralisccrbaarhcid over
schooltypen is eveneens van praktisch belang. In peilingsonderzoek worden dc prestaties van
leerlingen uit verschillende schooltypen met elkaar vergeleken op basis van de geobserveerde
scores (vgl. Kuhlemeier & Van den Bergh. 1989). Zouden dc metingen in de onderscheiden
•schooltypen niet blijken te voldoen aan de minimumcis van congenericiteit. dan is vergelijking
op basis van geobserveerde groepsscores strikt genomen niet geoorioofd. Op grond van onze
analyses kan over de zinvolheid van dergelijke vergelijkingen meer uitsluitsel worden verkregen.

METHODE VAN ONDERZOEK

Instrumentatie cn arnamcdcslRn

Het taalvaardighcidsinstrumentarium is samengesteld volgens ccn design waarbij opdrachten of
bcoordclingsaspcctcn zijn genest binnen taakboekjes. Op het hoogste niveau zijn vier taal-
vaardigheden onderscheiden: luister-, spreek-, lees- cn schrijfvaardigheid. Voor iedere taal-
vaardigheid zijn cr één of meer taakboekjes die ieder één of meer opdrachten bevatten. Dc
schrijfprodukten van dc leerlingen zijn door jury's van docenten op diverse aspecten beoordeeld,
zoals globale kwaliteit, inhoud, stijl, organisatie en publick- cn doelgerichtheid. In dit geval
wordt schrijfvaardigheid geïndiceerd door dc bcoordclingsaspcctcn. Voor ccn gedetailleerder
beschrijving dan in het bc.stck van dit artikel mogelijk is, zij verwezen naar Kuhlemeier & Van
den Bergh (1989; 1990). Hoewel een domeinbeschrijving voor het taalonderwijs in het voortgezet
onderwijs ontbreekt, is bij de constructie van de opdrachten rekening gehouden met: dc mate
waarin relevant geachte onderwijsdoelstellingen vcncgcnwoordigd worden, dc mate waarin
verschillende deelvaardigheden gemeten worden, cn dc mate waarin frequent voorkomende
taalhandelingen, zoals rapporteren, informeren, overtuigen etcctcra, aan bod komen (Van den
Bergh. Baltzer. Marschall. Trics.schcijn & Wesdorp. 1986).

-ocr page 152-

146 H. Kuhlemeier en H. van den Bergh

Om afnametijd te besparen hebben niet alle 4428 derdeklassers alle taakboekjes gemaakt. Er
waren drie leerlingensteekproeven die deels verschillende en deels dezelfde instrumenten kre-
gen voorgelegd. Tabel 1 geeft een globaal beeld van de toewijzing van de taakboekjes aan de
drie steekproeven (Voor de precieze toewijzing van leerlingen aan taakboekjes wordt verwezen
naar Bijlage A).

Op elk van de 187 scholen participeerden circa 24 derdeklassers in het onderzoek. Zes van
hen kregen de luister- en spreekopdrachten voorgelegd; de luisteropdrachten zijn plenair afge-
nomen, terwijl de spreekop^achten aan iedere leerling afzonderlijk zijn voorgelegd. Ten behoeve
van de afname van de drie taakboekjes voor lezen en schrijven zijn de 24 leerlingen ingedeeld in
drie groepen (van ieder acht leerlingen). Van deze acht leerlingen maakten er telkens twee de
luister- en spreekopdrachten. Dit afnamedesign voorziet in ongeveer 300 waarnemingen voor de
analyse van de relaties tussen drie of vier vaardigheden en tenminste zo'n 1000 leerlingen voor
de analyse van de relatie tussen luisteren en spreken en tussen lezen en schrijven.

Omdat de taakboekjes op basis van toeval aan leerlingen zijn toegewezen mogen de drie steek-
proeven A, B en C worden opgevat als random steekproeven uit dc populatie van derdeklassers.
Omdat het onafhankelijke, niet-overlappcnde steekproeven betreft, kunnen we de relaties tussen
de vier taalvaardigheden alleen binnen elk van de drie groepen onderzoeken. Dit heeft met name
voor de schrijfvaardigheid consequenties; in steekproef A zijn (slechts) twee schrijfopdrachten
afgenomen en in de steekproeven B cn C slechts één. Derhalve kunnen voor het onderdeel
schrijfvaardigheid slechts uitermate beperkte correcties voor opdrachtspecificitcitcn uitgevoerd
worden, terwijl dergelijke effecten met name bij schrijfvaardigheid een belangrijke rol lijken tc
spelen (zie onder andere: Ackcrman & Smith, 1988; Van den Bergh, 1988; Schoonen, 1991).

In Tabel 2 zijn per taakboekje per opdracht enkele beschrijvende gegevens weergegeven.^ De
homogeniteit van de luister-, spreek- en leesopdrachten laat nogal eens tc wensen over. Zo
variecn coëfficiënt alpha, als ondcrgrensschatting van de betrouwbaarheid, voor de luistcr-
opdrachtcn van .47 tot .63 en voor de leesopdrachten van .44 tot .96.

Voorgenomen analyses en modellen

Voor de drie onderzoeksvragen zijn verschillende modellen gcspecificccrd. Dc eerste twee
onderzoeksvragen, die naar de samenhang tussen taalvaardigheden en naar dc contaminatie met
opdrachtspecificitcitcn, zijn met behulp van dezelfde modellen geanalyseerd. Voor dc derde
ondcrzoek-svraag. naar dc gencrali-sccrbaarhcid van dc metingen over vcrschilIcndc subpopulatics,
zijn apanc modellen gespecificeerd.

Tabel 1.Toewijzing van taakboekjes aan leerlingen.

Taak-
boekje

A

Steekproef
B

C

Luisteren

11

Herkomst uial

n

Herkomst ual

11

Herkomst taal

12

Burengerucht

12

Burengerucht

12

Burengerucht

13

Michel cn Sonja

13

Michel cn Sonja

13

Michel cn Sonja

Spreken

21

Randstad biedt aan

21

Randsuid biedt aan

21

Randstad biedt aan

22

Arbe idsvoorwaardcn

22

Arbeidsvoorwaarden

22

Arbeidsvoorwaarden

^ 23

Bakstenen

23

Bakstenen

23

Bakstenen

Schrijven

30

Excuusbrief

32

Huiswerk

33

Angstige ervaring

31

Sollicitatiebrief

Lezen

41

Schoolreis naar

42

Ecn ongeval

43

Conventioneel

Waddenoog

tekstbegrip

-ocr page 153-

De correlationele structuur van taalvaardigheid 147

Tabel 2. Gemiddelde (X). standaardafwijking (sd). aantal leerlingen (N), aantal items (I) en coefficient
alpha (a) per opdracht/bcoordelingsaspcct.

X

sd

N

I

a

Luisteren

Herkomst taal

8.3

2.1

1090

12

.57

Burengerucht

7.7

1.9

1079

11

.47

Michcl cn Sonja

10.0

2.7

1081

15

.63

Spreken

Randstad biedi aan

16.1

2.2

1092

19

.60

Arbeidsvoorwaarden

6.2

2.4

1092

10

.69

Navertellen verhaal

18.8

6.3

1019

2

.93'

Lezen I: Schoolreis naar Waddenoog

Tabel cn plattegrond

3.4

1.4

1435

5

.67

Inschrijfformulier

10.4

1.8

1435

13

.60

Diensucgcling

4.4

1.9

1435

6

.83

Duinen van Waddenoog

4.0

1.6

1435

6

.64

Musea van Waddenoog

12.0

2.8

1435

15

.76

Ouderliefde vogelwereld

4.2

2.5

1435

10

.68

Lezen ll: Een ongevat

Polisgegevens

0.9

1.6

1450

7

.80

Personalia

8.9

2.8

1450

13

.85

Aangifte ongeval

5.9

2.5

1450

12

.73

Medische hulp

4.4

2.8

1450

9

.83

Kosicnspccificalic

5.2

4.1

1450

6

.96

NVT-viagcn

4.1

1.3

1450

5

.73

Verzekcringsvoorwaarden

1.9

1.5

1450

5

.64

Lezen lil: Conventioneel tekstbegrip

Kick krom sluur

3.6

1.9

1457

9

.55

Geschiedenis papier

4.4

1.2

1457

6

.44

Schrijven l: Excuusbrief

.87'

Globale kwaliteit

8.9

2.9

1444

1

Inhoud

13.1

2.4

1437

l

.99'

Stijl

7.9

2.6

1430

1

.83'

Organisatie

9.1

2.9

1437

1

.87'

Schrijven l: Sollicitatiebrief

.88'

Globale kwaliteit

7.5

2.8

1438

l

Inhoud

9.6

4.4

1443

1

.84'

Slijl

5.9

2.5

1443

l

.83'

Organisatie

8.3

3.0

1447

1

.83'

Schrijven II: Huiswerk

.78'

Publickgcrichlhcid

179.8

29.8

1443

1

Doclgcrichihcid

182.3

27.4

1442

1

.77'

Slijl

186.8

28.0

1442

1

.70'

Organisatie

185.8

28.8

1438

1

.75'

Schrijven III: Angst

.79'

Inhoud

288.7

36.4

1439

1

Slijl

288.1

33.9

1434

1

.73'

Slrucluur

288.6

29.6

1439

1

.85'

' Dc7.c indices verwijzen niet naar dc scorcbcirouwbaarhcid. maar naar ccn schaiüng van de bcü-ouwbaar-
heid van hcl jury-oordeel. Deze schalling vorml een bovengrens voor dc .scorcbcirouwbaarhcid.

-ocr page 154-

148 H. Kuhlemeier en H. van den Bergh

In de modellen ter beantwoording van de eerste twee onderzoeksvragen kunnen drie niveaus
onderscheiden worden: geobserveerde scores, opdrachten en taalvaardigheden. Om model-
technische redenen zijn de geobserveerde scores voor elk van de lees-, spreek- en luister-
opdrachten gesplitst in twee parallelle subtoetsen, zodat elke factor op het tweede niveau geïndiceerd
wordt door twee geobserveerde scores; zogeheten 'random matched subtest' (Gulliksen, 1987).
De geschatte variantie op het tweede niveau wordt opgesplitst in een deel 'ware opdrachtvariantie'
en een deel residuele variantie. Op het derde niveau zijn de vier taalvaardigheden (luisteren,
spreken, lezen en schrijven) gespecificeerd. Tussen het tweede (opdrachtspecifieke) en het
derde (taalvaardigheids)niveau zijn alleen vaardigheidsspecifieke relaties toegestaan. Zo zijn
voor leesvaardigheid alleen regressies van de leesopdrachtfactoren op de latente lees-
vaardigheidsfactor toegestaan. Hetzelfde geldt natuurlijk voor de andere drie taalvaardigheden.
De opdrachtspecifieke factoren op het tweede niveau zijn dus ongecorreleerd, conditioneel op
de taalvaardigheidsfactoren op het derde niveau. Met Strekking tot de relatie tussen de vier
taalvaardigheden zijn aan de correlaties tussen de latente taalvaardigheden op het derde niveau
verschillende restricties getoetst.

In het eerste model is aangenomen dat de vier taalvaardigheden perfect correleren; zij vormen
in wezen één ondeelbare vaardigheid; de (latente) scores op de verschillende luister-, spreek-,
lees- en schrijfopdrachten worden alle door dezelfde factor - algemene taalvaardigheid - beïn-
vloed.

In het tweede model wordt een onderscheid gemaakt tussen receptieve en produktieve taal-
vaardigheid. Lees- en luistervaardigheid respectievelijk schrijf- en spreekvaardigheid vormen
beide één vaardigheid. De correlatie tussen de receptieve en produktieve taalvaardigheidsfactor
wordt vrij geschat (daar voorbereidende analyses leerden dat modellen met ongecorreleerde
taalvaardigheidsfactoren niet plausibel zijn).

In model drie komt het onderscheid tussen de schriftelijke en de mondelinge taalvaardigheid
tot uiting. Aangenomen wordt dat lees- en schrijfvaardigheid respectievelijk luister- en spreek-
vaardigheid perfect correleren en dus twee vaardigheden weerspiegelen. In dit model wordt de
correlatie tussen de schriftelijke en mondelinge factor vrij geschat.

In het vierde en laatste model wordt voor elk van dc vier taalvaardigheden ccn apanc factor
gespecificeerd. Ook in dit model worden geen restricties aan de correlaties tussen dc
taalvaardigheidsfactoren opgelegd. In Figuur 1 is het model voor de eerste steekproef grafisch
weergegeven. In dit model is voor elk van dc beide schrijfopdrachten één opdrachtspecifieke
factor opgenomen (scl, sc2). In feite representeren deze factoren dus dc samenhang in oordelen
overéén opdracht (sell, sc21, sc31, sc41) die geen gemeenschappelijke variantie hebben met
de oordelen over de tweede schrijfopdracht (scI2, sc22, sc32. sc42). Merk op dat in model IV
voor de steekproeven B en C het niet mogelijk is de opdrachtspecifieke variantie tc .scheiden van
schrijfvaardigheidsvariantie, daar de leerlingen in deze steekproeven slechts één schrijfopdracht
gemaakt hebben.

De analyses zijn uitgevoerd op de correlatiematrices met het programma LISREL (Jöreskog
& Sörbom, 1989); gebruik is gemaakt van de GLS-schaUingsmethode (Generalized Leist Squares).
De passing van de vier modellen wordt geëvalueerd aan de hand van dc toctsingsgroothcid x^ cn
het bijbehorende aantal vrijheidsgraden. Voor zover het geneste modellen betreft, kan het
passingsverschil tussen dc modellen geëvalueerd worden aan dc hand van het verschil in X^ cn
het verschil in vrijheidsgraden (Bentler & Bonct, 1980). Zo kan het passingsverschil van model
1 ten opzichte van de modellen 2 cn 3 wel geëvalueerd worden, maar het passingsverschil tu.ssen
deze laatste twee niet.

Ten behoeve van de tweede onderzoeksvraag, naar dc invloed van opdrachtspccifickc ken-
merken, wordt gebruik gemaakt van parameterschattingen die verkregen zijn bij dc toetsing van
dc eerste onderzoeksvraag. Immers, dc niet verklaarde variantie in de opdrachtfactorcn is een
aanduiding voor de specificiteit van de opdracht in kwestie. Als dc onverklaarde variantie van
een opdrachtfactor hoog is. dan worden dc .scores op deze opdracht slechts in geringe mate
bepaald doorde taalvaardigheidsfactor. Oftewel: met deze opdracht is iets gemeten dat relatief
uniek is in vergelijking met de overige opdrachten.

-ocr page 155-

De correlationele structuur van taalvaardigheid 149

"U

E

60
U
BO

CQ

z

rs

1
00

'1

ra
>

w

a

O.

ë
O

ü
00

u .

11
c c.

ii

^ §

>

If

a i

co

iH

1

L

-ocr page 156-

150 H. Kuhlemeier en H. van den Bergh

In onze exploratie van de derde onderzoeksvraag, die naar de generaliseerbaarheid van de
gevonden correlationele structuur over leerlingen uit verschillende schooltypen, zijn vijf meer-
groepenmodellen getoetst. Alle analyses zijn uitgevoerd op de covariantiematrices^ met de GLS-
schattingsmethode. De algemene restricties van dit model zijn conform het best passende model
uit de voorafgaande analyses.^ De restricties die hier onderwerp van onderzoek zijn, betreffen
de invariantie van de parameterschattingen in de vijf subpopulaties.

Het eerste model is het meest restrictief: alle te schatten parameters zijn invariant over groepen.
Dit wil zeggen: de residuele varianties van de geobserveerde scores, de regressies van deze
scores op de opdrachtfactoren, de errorvarianties van de opdrachtfactoren, de regressies van de
opdrachtfactoren op de vaardigheidsfactoren en de correlatie tussen de vaardigheidsfactoren
zijn invariant over schooltype. We zouden dit model dan ook een model voor parallelle metin-
gen kimnen noemen.

In het tweede model worden alleen de residuele varianties van de geobserveerde scores vrij
geschat. De overige modelparameters zijn invariant over schooltype. Dit model noemen we het
eerste (essentieel) tau-equivalente model. Immers, alleen de residuele varianties van de geob-
serveerde scores mogen verschillen tussen de schooltypen; de regressies op cn de varianties van
de opdrachtfactoren alsmede de regressies op en de correlaties tussen de taalvaardigheidsfactoren
zijn invariant over schooltypen.

In het derde model worden behalve de geobserveerde residuele varianties ook dc regressies
van de subtestscores op de opdrachtfactorcn vrij geschat. Onder dc aannamen van het derde
model verschillen de groepen niet in de mate waarin taakeffecten ccn rol spelen cn in de
correlatie tussen de vaardigheden, maar wel in de betrouwbaarheid van dc geobserveerde sub-
testscores en de mate waarin deze scores de opdrachtfactoren indiceren. Dit model noemen wc
het tweede (essentieel) tau-equivalente model, omdat we hier de opdrachtspccifieke variantie
opvatten als ecn foutenvariantie. Immers, het betreft variantie die niet inherent is aan de taal-
vaardigheid in kwestie.

In het vierde model worden ook dc restricties op dc varianties van dc opdrachtfactorcn cn hun
regressies op de vaardighcidsfactoren opgeheven. Niet alleen het belang van dc opdrachtfactoren
mag van groep tot groep verschillen, maar ook dc mate waarin de opdrachten taalvaardigheid
indiceren. De samenhang tussen de vaardighcidsfactoren is cchtcr in alle groepen gelijk. Dit
model kunnen we het congenerieke model noemen, aangezien dc relaties tussen taalvaardigheden
- afgezien van meetfouten - invariant zijn over groepen.

In het vijfde model worden alle restricties op dc tc schatten parameters opgeheven, dus ook
dc correlatie tussen dc vaardighcidsfactoren wordt vrij geschat. Onder dc aannamen van model
5 model geldt dat dc corrcIationclc structuur van taalvaardigheid van groep tot groep verschilt;
in de verschillende subpopulatics weerspiegelen dc gcob.scrvecrdc scores (deels) andere vaar-
digheden. Dit model noemen wc het nict-congencrieke model.

BEVINDINGEN
Samenhang tussen luister-, spreek-, lees- en schrijfvaardigheid

De relaties tu.sscn dc vier taalvaardigheden zijn in drie onafhankelijke steekproeven geschat (zie
Tabel I). Dc passingsgcgcvens zijn weergegeven in Tabel 3.

Op welke analyse in Tabel 3 we ons ook baseren, in alle gevallen geeft het model met vier
gecorreleerde taalvaardighcidsfactoren dc beste passing tc zien. Het één-factormodcl cn dc
twec-factormodcllen met apanc factoren voor rcccpticf cn produktief taalgebruik of voor mondeling
cn schriftelijk taalgcbmik lijken minder plausibel. Alleen bij dc tweede analyse laat dc pa.ssing
van model 4 te wensen over
(p < .05).

Evalueren wc dc passingsvcrschillcn tussen dc twcc-factormodcllcn en dc één-factormodclicn.
dan kunnen we allereerst constateren dat dc evaluatie van passingsverbctcring van model 2 naar
model 1 afhankelijk van de analyse tot verschillende conclusies leidt: geen significante
passingsvertxtcring tussen model 1 cn 2 bij dc eerste analyse, maar wel bij dc tweede cn derde

-ocr page 157-

De correlationele structuur van taalvaardigheid 151

Tabel 3. Dc passing van vier modellen ter beschrijving van de relatie tussen luisteren, spreken, lezen en
schrijven.

Model Beschrijving

df

gfi

Eerste analyse (N = 292)

1 Eén factor

2 Receptief vs produktief

3 Mondeling vs schriftelijk

4 Vier factoren

Passingsvergclijking
1-2
1-3

1-4

2-4

3-4

510.46
508.30
498.84
474.92

440
439
439
434

.011
.012
.025
.085

.890
.891
.893
.898

2.16
11.62
35.54
33.38
23.92

.144
.002
<.001
<.001
<.001

Tweede analyse (N = 301)

1 Eén factor

2 Receptief vs produktief

3 Mondeling vs schriftelijk

4 Vier factoren

587.26
580.72
570.06
537.40

392
391
391
386

<.001
<.001
<.001
<.001

.869
.871
.873
.881

Passingsvergclijking
1 -2

1-3
1 -4

2-4

3-4

6.54
17.20
49.86
43.32
32.66

.012
.002
<.001
<.001
<.001

Derde analy.se (N = 287)

1 Eén factor

2 Rcccpiicf vs produktief

3 Mondeling vs .schriftelijk

4 Vier factorcn

186.40

173.41
172.31
129.56

144
143
143
138

.010
.042
.048
.684

.931
.936
.937
.952

Passingsvergclijking
1-2
1-3

1-4

2-4

3-4

12.99
14.09

56.84

43.85
42.75

.002
.002
<.001
<.001
<.001

analyse. Het onderscheid recepticf-produktief lijkt derhalve enigszins ambigu, cn afhankelijk
van dc geanalyseerde taken.

Kijken we vervolgens naar dc passingsvcrbcicring van model 3 ten opzichte van model 1,
dan zien wc dat deze in alle drie analy.scs significant is
(p < .05). Kennelijk zijn mondeling cn
schriftelijk taalgebruik op basis van onze data onderscheidbaar. Deze tweedeling lijkt echter tc
grof, gezien de passingsvcrbctcringcn van model 4 ten opzichte van dc modellen 3 en 1, Kenne-
lijk zijn luister-, spreek-, Iccs- cn schrijfvaardigheid onderscheidbare constructen. Hun onder-
linge samenhang is geschat onder dc aannamen van het vier- factorcnmodcl (zie Tabel 4).

Inspectie van dc drie matrices in Tabel 4 laat zien dat dc drie schattingen van dc afzonderiijke
relaties tussen luisteren, spreken, lezen cn schrijven over het algemeen redelijk convergeren,
zeker wanneer we de tweede analyse vanwege dc iets minder goede modelpassing buiten be-

-ocr page 158-

152 H. Kuhlemeier en H. van den Bergh

Tabel 4.Geschatte correlaties lussen luisteren, spreken, lezen en schrijven (lussen haakjes: standaardfouten).

Taalvaardigheid 1 2 3 4

Eerste analyse (N = 292)

1 Luisteren 1.00

2 Spreken .93 (.04) 1.00

3Uzen .89 (.04) .91 (.04) 1.00

4 Schrijven .75 (.05) .72 (.05) .80 (.04) 1.00

Tweede analyse (N = 301)

1 Luisteren 1.00

2 Spreken .81 (.06) 1.00

3 Lezen .64 (.07) .71 (.05) 1.00

4 Schrijven .83 (.05) .79 (.05) .75 (.05) 1.00

Derde analyse (N = 287)

1 Luisteren .100

2 Spreken .85 (.05) 1.00

3 Lezen .93 (.05) .79 (.05) 1.00

4 Schrijven .79 (.05) .67 (.05) .77 (.05) 1.00

schouwing laten. Het grootste verschil wordt zichtbaar in de samenhang tussen spreken en
lezen, die in de eerste analyse geschat wordl op .91 en in de derde analyse op .79. Dit verschil is
echter niet significant. Immers, de 95% betrouwbaarheidsintervallen (r ± 1.96 » se) voor deze
beide parameters overlappen. Dit verschil zou derhalve aan steekproeffiucluaties toegeschreven
kunnen worden.

Opdrachtspecinciteit van de taalvaardigheidsmcting

Onze exploratie van de relaties lussen de vier laalmodi kan ook meer inzicht verschaffen in het
belang van opdrachtfactoren. Op basis van de paramcicrschatlingcn uit model 4 kan de sysicma-
tische scorevarianiie in twee componenten opgedeeld worden: een deel ten gevolge van de
taalvaardigheid van de leerlingen cn een deel veroorzaakt door kennis van of affiniteit met de
opdrachten waarmee de vaardigheid gemeten is. Daarbij vormi de proponie onverklaarde variantie
van dc opdrachifacloren een indicatie voor de male waarin de desbelreffende opdracht uniek is.
Tabel 5 bevat dc over opdrachten gemiddelde proporties. gc.schat onder de aannamen van hel
gecorreleerde vicr-faciorenmodel (na .standaardisatie van de laienic factoren).

Uit Tabel 5 kunnen we allereerst opmaken dal opdrachifacloren een aanzienlijk deel van de
ware scorevarianiie naar zich loc trekken. Voons valt op dal de male van opdrachtspccificiicit
niel voor elke vaardigheid gelijk is. De coniaminaiic van dc taalvaaidigheidsmcling met laakcffccicn
blijkt bij leesvaardigheid hel sterkst ic zijn. terwijl schrijfvaardigheid relatief zuiver gemeten
wordl. Dit laatste is te verwachten, omdai hcl hier telkens één (type) schrijfopdracht betreft
waarbij de beoordelingsaspecten schrijfvaardigheid indiceren. Met andere woorden: dc propor-
tie opdrachtspecifieke variantie voor de schrijfvaardigheid is een onderschaning van de werke-
lijke opdrachtspecifieke variantie.

Tabel 5 geeft ook enig inzicht in dc mate waarin de geobserveerde variantie bepaald wordt
door de gemeenschappelijke factor (c.q. luister-, spreek-, lees- cn schrijfvaardigheid). Afhankelijk
van de geanalyseerde opdrachten varieen de proponie variantie die door de gemeenschappelijke
factor bepaald wordl van .42 tot .79. Opgemerkt moet worden dal dit laatste geial voor schrijf-
vaardigheid zonder meer een overschatting is, daar er nicl voor opdrachtspecifieke effecten
gecontroleerd kon worden (in deze analyse speelt sicchis één schrijfopdracht een rol). Tabel 5
geeft echter geen inzicht in de variabiliieil van de gemeenschappelijke variantie van dc luis-

-ocr page 159-

De correlationele structuur van taalvaardigheid 153

Tabel 5. Gemiddelde proportie onverklaarde variantie in de opdrachtspccifieke factoren (tussen haakjes:
gemiddelde proporue verklaarde variantie van de geobserveerde scores door de luister-, spreek-,
lees- en schrijffactoren).

Eerste

Tweede

Derde

Alle

analyse

analyse

analyse

opdrachten

Luisteren

.22 (.55)

.38 (.60)

.28 (.48)

.29 (.55)

Spreken

.34 (.57)

.41 (.52)

.29 (.60)

.35 (.56)

Lezen

.46 (.52)

.51 (.42)

.10 (.57)

.43 (.53)

Schrijven

.04 (.58)

.24 (.63)

.18 (.79)

.15 (.67)

ter-, spreek-, lees- en schrijfopdrachten. Deze is aanzienlijk; voor bij voorbeeld de luister-
opdrachten bij de eerste analyse varieert de gemeenschappelijke variantie tussen .28 en .71
(overigens zonder dat een duidelijk patroon in deze variatie zichtbaar wordt).

Simultane analyse over groepen

Dc bevindingen van de simultane analyse voor .substcekprocven van leerlingen uit het Vwo/
Havo. Mavo cn Lto/Lhno zijn weergegeven in Tabel 6 (N.B. voor dc aantallen leerlingen per
schooltype wordt verwezen naar Bijlage B).

De bevindingen in Tabel 6 geven ecn vrij duidelijk beeld te zien. In drie van dc vier analy.ses
wordt voldaan aan dc minimumeis van congcncricitcit (i.e. het loslaten van deze eis leidt niet tot
een significante passingsverbctcring). Er kan dus niet worden aangetoond dat de vaardigheden
in de verschillende schooltypen verschillende consuuctcn representeren; de onderlinge samen-
hang is invariant over schooltypen. Dit geldt evenwel niet voor de tweede lees- schrijfanaly.se.
waar het niet-congcncrickc model dc voorkeur verdient. Daar moeten we derhalve aannemen
dat in dc onderscheiden subpopulaties niet dezelfde vaardigheden worden gemeten.

Gemeenschappelijk in dc vier analyses is dat de residuele varianties van de geobserveerde
scores en hun regressies op dc opdrachtfactoren verschillen. Deze gegevens impliccrcn dat
vergelijking tu.s.scn schooltypen op basis van dc geobserveerde scores strikt genomen niet gc-
oorioofd is. Dc bctrouwbaarticid van dc geobserveerde scores verschilt, evenals dc mate waarin
zij dc opdrachtfactorcn representeren. Ook dc opdrachtspecificitcitcn cn dc mate waarin dc
opdrachten ccn beroep doen op taalvaardigheid mogen niet in ieder schooltype als gelijk worden
beschouwd. Vergelijkbare analyses voor dc gcncralisccrbaarhcid over groepen meisjes cn jon-
gens geven overigens ccn minder teleurstellend bccid tc zien (vgl. Kuhlemeier & Van den
Bergh. 1990).

CONCLUSIES. DISCUSSIE EN AANBEVELINGEN

De resultaten overziend kunnen wc concluderen dat luister-, spreek-. Iccs- cn .schrijfvaardigheid
op basis van onze datisct cmpiri.sch onderscheidbaar zijn. Tegelijkertijd moeten wc cchtcr
aantekenen dat hun onderlinge samenhang zeer hoog is. Of, anders gezegd: de opdrachten doen
vooral ccn beroep op gcmccnschappclijkc (dccl)vaardighcdcn, terwijl zc daamaast ook iets
'modalitcitsspccificks' meten. Dc bevindingen geven tevens aanleiding om tc twijfelen aan dc
ondcrschcidbaarhcid van rcccpticf cn produktief taalgcbmik; voor het onderscheid in monde-
ling en schriftelijk taalgcbmik is iets meer evidentie gevonden.

Dc tweede conclusie betreft dc problematiek van dc contaminatie van dc meting van taal-
vaardigheid met taakcffcctcn. zoals kennis van het onderwerp van dc opdracht, het tck.sttypc.
het vraagtype of dc taaksituatic. Opdrachtspccifickc factoren blijken ecn niet onaanzienlijk dcci
van dc totale ware scorcvariantic naar zich toe tc trekken.

Tot slot is gekeken naar dc vergelijkbaarheid van de gevonden corrcIationclc structuur voor

-ocr page 160-

154 H. Kuhlemeier en H. van den Bergh

Tabel 6. De passing van vijf modellen ter simulUine analyse van de correlationele structuur van taalvaardig-
heid over schooltypen.

Model Beschrijving

df

P

gfi

Luisteren - spreken

1 Parallel

505.50

203

<•001

.879

2 Tau-equivalent 1

264.17

179

<.001

.941

3 Tau-equivalent II

211.21

167

.012

.960

4 Congeneriek

154.77

143

.237

.974

5 Nict-congeneriek

151.50

141

.258

.974

Passings vergel ijki ng

1-2

241.33

24

<.001

2-3

52.96

12

<.001

3-4

56.44

24

<.001

4-5

3.27

2

.195

Lezen - schrijven I

1 Parallel

1582.54

571

<.001

.838

2 Tau-cquivalcnt I

918.51

531

<.001

.920

3 Tau-equivaicnt II

706.12

495

<.001

.943

4 Congeneriek

548.96

455

.002

.961

5 Nict-congencrick

544.86

453

.002

.962

Passingsvergclijking

1-2

644.03

40

<.001

2-3

212.39

36

<■001

3-4

157.16

40

<.001

4-5

4.10

2

.129

Lezen - schrijven II

1 Parallel

1184.61

469

<.001

.903

2 Tau-cquivalcnt I

1022.07

441

<■001

.921

3 Tau-cquivalcnt II

895.00

427

<■001

.932

4 Congeneriek

748.30

383

<.001

.946

5 Nict-congcncrick

731.02

381

<.001

.948

Passingsvergclijking

1-2

162.54

28

<.001

2-3

127.07

14

<.001

3-4

146.70

44

<.001

4-5

17.28

2

<0.01

Lezen - schrijven III

1 Parallel

174.22

67

<•001

.954

2 Tau-cquivalcnt I

98.24

59

.001

.973

3 Tau-cquivalcnt H

85.30

55

.005

.977

4 Congeneriek

49.33

35

.055

.987

5 Nict-congcnerick

48.69

33

. .038

.987

Passingsvergclijking

1 -2

75.98

8

<.001

2-3

12.94

4

<.001

3-4

35.97

20

.015

4-5

.64

2

.726

-ocr page 161-

De correlationele structuur van taalvaardigheid 155

leerlingen uit verschillende schooltypen. In de meeste analyses wordt voldaan aan de minimum-
eis van congenericiteit. Dit wil zeggen: de relaties tussen de taalvaardigheden zijn in iedere
groep gelijk; de betrouwbaarheid van de geobserveerde scores en de mate waarin de opdrachten
taalvaardigheid indiceren, zijn dat echter niet.

Alvorens aanbevelingen te doen is het zinvol de sterkte van de gerapporteerde hoge samenhang
tussen de taalvaardigheden te interpreteren in het licht van de wijze waarop taalvaardigheid
gemeten is. Allereerst zijn de taalvaardigheden in een relatief homogene populatie leerlingen
gemeten, namelijk de leerlingen in de derde klas van het voortgezet onderwijs. Indien we in de
peiling ook een steekproef uit een meer extreme groep betrokken hadden (bij voorbeeld: drop-
outs), dan zou dit de samenhang tussen luister-, spreek-, lees- en schrijfvaardigheid waarschijnlijk
nog verder verhoogd hebben.

Ten tweede zijn de instrumenten die wij gebmiken voor onze analyse van de correlationele
structuur van taalvaardigheid niet speciaal voordat doel ontwikkeld. Aan de constructie van het
instrumentarium heeft geen systematisch gekruist design ten grondslag gelegen, met bij voorbeeld
vaardigheden, onderwerpen en opdrachttypen als facetten. Bij de samenstelling van de taakboekjes
is wel getracht een zo groot mogelijke variatie aan te brengen, uiteraard binnen de gegeven
budgettaire en organisatorische beperkingen. Dit neemt echter niet weg dat andere operationalisaties
tot andere schattingen kunnen leiden (zie noot 1).

De gevonden (hoge) samenhang tussen de vier vaardigheden moet ook geïnterpreteerd wor-
den in het licht van de gehanteerde analy.semodeIlen en -technieken. Daarbij zijn de relaties
tussen taalvaardigheden geschat
na correctie voor onbetrouwbaarheid cn na correctie voor on-
bedoeld meegemeten taakeffecten. Hadden wij hiervoor niet gecorrigeerd, dan zouden de schat-
tingen aanmerkelijk lager uitvallen.

Zoals gezegd wijst onze exploratie in de richting van niet onaanzienlijke taakeffecten. Op zich
is dit gegeven natuurlijk niet zo relevant. Alvorens 'factorzuivere' taalopdrachten te kunnen
selecteren, dienen taakeffecten eerst inhoudelijk geïnterpreteerd tc kunnen worden. Om deze
reden wagen wij ons aan een interpretatie, door de grootte van de taakeffecten te relateren aan
kenmerken van dc opdrachten. In deze discussie beperken wc ons in hoofdzaak tot leesvaardigheid,
omdat cr voor deze vaardigheid vijftien leesopdrachtcn zijn cn dc diversiteit van dc opdrachten
hier het grootst is.

Voor leesvaardigheid bedraagt het over alle vijftien opdrachten gemiddelde percentage
opdrachtspecifickc variantie 43 procent (Tabel 5). Wat deze tabel niet laat zien is dat dc grootte
van de taakeffecten sterk varieert al naar gelang de aard van de opdrachten (vergelijk: Kuhlemeier
& Van den Bergh, 1990). Dc opdrachtspccificiicit is hcl kleinst bij dc leesopdrachtcn die
conventioneel leksibcgrip meien cn waarbij uitsluitend gebruik gemaakt is van meerkeuzevragen.
De gemiddelde ware opdrachivarianiic bc.staal daar voor 80 procent uil laalvaardigheidsvarianiie.
Achteraf gezien valt dil mi.sschien tc verklaren: dc icksibcgripopdrachlcn lijken zo op hcl oog
alle een beroep te doen op eenzelfde vaardigheid cn vertonen ook qua structuur en vormgeving
nauwe verwantschap. DiffcreniiCIe kennis of familiariteil met de opdrachisiruciuur lijki hier
geen rol van betekenis le spelen. Immers, aangenomen mag worden dal alle leeriingen len
gevolge van onderwijs bij benadering even vcnrouwd zijn mei hel verschijnsel 'tekst plus
meerkeuzevragen'. Dc kleine laakcffccicn zijn wellicht loc le schrijven aan differentiële kennis
van of affiniteit mei het onderwerp van de lekslcn waarmee leesvaardigheid gemeten wordl.

Bij de zeven opdrachlcn van de leestaak 'Een ongeval' zijn de laakcffccicn het grootst; de
vaardighcidsspccifieke varianiie bedraagt gemiddeld slechts 49 procent van de loiale ware
opdrachivarianiic. Deze bevinding wcki enige bevreemding, omdat differentiële kennis van de
inhoud en stmciuur van dc opdrachten bij deze laak nauwelijks van belang lijkt. Om dc laak zo
levensecht mogelijk le maken zijn de opdrachlcn namelijk in de ihemalischc en slmcturelc
samenhang van een schade-afwikkeling aangeboden: de leerling moei dc verschillende rubrieken
van een 'echl' schadeformulier invullen en de benodigde gegevens opzoeken in een map mcl
een omvangrijke hoeveelheid documentaiicmaieriaal. Omdat dit soort funciionele laken in het
Onderwijs nog nauwelijks onderwezen wordt en leerlingen er ook builen de school hooguit

-ocr page 162-

156 H. Kuhlemeier en H. van den Bergh

sporadisch mee in aanraking komen, lijkt differentiële kennis of ervaring als bron van opdracht-
specifieke variantie grotendeels uitgeschakeld. Op grond hiervan zou men dan ook juist een
grote mate van vaardigheidsvariantie hebben verwacht. Omdat de vaardigheidscomponent bij
dit taakboekje zo zwak vertegenwoordigd is, lijkt deze veronderstelling niet erg aannemelijk.
Misschien kan de grootte van de opdrachtspecifieke component geïnterpreteerd worden in termen
van heterogeniteit van de vaardigheden die nodig zijn om de schadeclaim adequaat te kunnen
afhandelen. Dit vermoeden wordt ondersteimd door de zwakke correlaties tussen de zeven
leesopdrachten van dit taakboekje (vgl. Kuhlemeier & Van den Bergh, 1990). Hiermee wordt
gesuggereerd dat de grote taakeffecten bij dit taakboekje niet alleen verwijzen naar opdracht-
specifieke 'kennis", maar ook naar opdrachtspecifieke leesvaardigheden of -strategieën. Met
andere woorden: naast kennis vereisen de opdrachten zowel opdrachtspecifieke vaardigheden
als meer algemene lees- of taalvaardigheid. In de door ons gehanteerde statistische procedure
wordt de unieke variantie ten gevolge van opdrachtspecifieke 'kennis' echter op één hoop
gegooid met de unieke variantie ten gevolge van eventuele opdrachtspecifieke vaardigheden.
De uniek aan specifieke opdrachten gebonden ware scorcvariantic lijkt hier eerder opgevat te
moeten worden als een bovengrensschatting voor het werkelijke effect van kennis dan dat de
taalvaardigheidsvariantie beschouwd moet worden als ecn bovengrensschatting van de werkelijke
rol van taalvaardigheid. Misschien schetsen onze analyses daarom ecn tc negatief beeld van de
contaminatie van de meting van taalvaardigheid met opdrachtspecifieke kennis en ervaring.
Daar staat echter tegenover dat de geschatte relaties tussen de vier taalvaardigheden over de
onderscheiden subpopulaties opmerkelijk convergeren. Kennelijk is in
deze dataset de stmctuur
van taalvaardigheid gelijk, wanneer taakeffecten buiten beschouwing gelaten worden. Dit lijkt
er voor te pleiten om de opdrachtspecifieke variantie niet te interpreteren in termen van
taalvaardigheidsvariantie, hoewel wij in dit verband zeker niet zover willen gaan als bij voor-
beeld Werts, Breland, Grandy & Rock (1980) cn Traub (1991) die opdrachtspecificitcitcn louter
opvatten als gecorreleerde error.

De aanbevelingen voor peilingsonderzoek zijn drieledig. In de eerste plaats is weinig evidentie
gevonden voor louter een onderscheid tussen receptief cn produktie taalgebruik of louter ccn
onderscheid tussen schriftelijk en mondeling taalgebruik. Alle vier de taalvaardigheden verdie-
nen een plaats in peilingsonderzoek waarbij men geïnteresseerd is in prestaties op Iccrlingniveau.

In dc tweede plaats blijken opdrachtspecifieke factoren ecn niet onaanzienlijk deel van dc
ware scorcvariantic op te eisen.
Enerzijds lijken taakcffcctcn veroorzaakt te worden door
differentiële kennis van dc thematiek van dc opdracht of differentiële vertrouwdheid met dc
opdrachtstructuur. Voor volgend peilingsonderzoek verdient het daarom aanbeveling het in-
strumentarium samen tc stellen als ccn steekproef uit ccn welomschreven domein van opdrachten.
Deze domeinbeschrijving is op het moment nog niet voorhanden en zou eigenlijk ecn afzonderiijk
project rechtvaardigen.
Anderzijds lijken taakcffcctcn mede ccn gevolg van opdrachtspccifickc
vaardigheden of strategieën. In dit laat.stc geval wórdt dc betrouwbaarheid van dc meting van
taalvaardigheid onderschat, hetgeen leidt tot ccn overschatting van dc samenhang tussen taal-
vaardigheden. Het is jammer dat onze dataset het niet toelaat om dc vier bronnen van ware
scorcvariantic - algemene kennis, opdrachLspccifickc kennis, opdrachtspccifickc taalvaardigheid
en algemene taalvaardigheid - van elkaar tc ondcrschcidcn. Nader wetcnschappclijk-thcorcti.sch
onderzoek volgens ccn systematisch gckmist design verdient derhalve aanbeveling. Dit stelt dc
onderzoeker in staat om het cffcct van dc vcrschilIcndc relevante variantiebronnen tc schatten
(hoofdvaardigheid, dcclvaardighcid/stratcgic, onderwerp, opdrachttypc ctcctcra).

In de derde plaats blijkt de taalvaardigheidsmcting in de verschillende schooltypen weliswaar
tc voldoen aan dc minimumeis van congcncricitcit. De geobserveerde scores meten in dc ver-
schillende schooltypen evenwel niet dezelfde constructen. Dit impliceert dat dc gebruikelijke
vergelijking van grocpsprcstaties op basis van geobserveerde scorcs niet zo zinvol is. Voor
peilingsonderzoek heeft dit verstrekkende consequenties. Het betekent in ieder geval dat we in
dc toekomst meer aandacht moeten besteden aan het pretesten van opgaven in dc vcrschilIcndc
subpopulatics. Met name zullen dc opgaven van tevoren geschaald moeten worden'.

-ocr page 163-

De correlationele structuur van taalvaardigheid 157

NOTEN

1. Hier wordt een zeer lasting probleem aangeroerd, waarvoor wij geen oplossing weten. Enerzijds mogen
we aannemen dat scores op gelijksoortige opdrachten relatief hoog corrclcrcn, bij voorbeeld: wanneer
bij toetsing van Iccs- cn luistervaardigheid dezelfde tekst gebruikt wordt, mag alleen al om deze reden
een hogere samenhang verwacht worden, dan wanneer verschillende teksten gebruikt zouden zijn. An-
derzijds, wordt iedere vaardigheid met zeer verschillende teksten (opdrachten) gemeten dan zal de
samenhang tussen de vaardigheden relatief laag uitvallen. De vraag is cchtcr welke meting het meest
adequaat of valide is: die met een 'breed' of die met ccn 'smal' insü-umentarium? Voor een 'breed'
instrumentarium pleit dat rekening gehouden kan worden met taakeffecten. Dat wil zeggen: omdat
iedere taalvaardigheid met ongelijksoortige opdrachten gemeten wordt, kan dc samenhang tussen de
vaardigheden "gecorrigeerd' worden voor (onbedoeld) meegemetcn opdrachtspecifieke factorcn, waar-
door de samenhang hoger uitvalt. Worden taalvaardigheden daarentegen met behulp van sterk op elkaar
gelijkende opdrachten gemeten, dan zijn taakcffeclcn en taalvaardigheden niet, of slechts gedeeltelijk,
onderscheidbaar. Met als mogelijk gevolg ccn overschatting van dc samenhang tussen vaardigheden.
Overigens zij opgemerkt dat wij in dit onderzoek noodgedwongen ccn enigszins opportunistisch stand-
punt in moeten nemen, daar het instrumentarium ccn gegeven is.

2. Opgemerkt zij dat de hier weergegeven indices kleine afwijkingen ten opzichte van elders gerapponcerde
waarden vertonen (Kuhlemeier & Van den Bergh, 1989). Er is namelijk niet gecorrigeerd voor
disproportionalileit ten opzichte van dc populatie. De verdeling van de leerlingen over oplcidingstypcn
in de responsgroep wijkt daardoor enigszins af van die in de populatie.

3. Onder de aanname dat dc scores op intervalniveau geschaald zijn, kunnen dc analy.ses in principe zonder
verlies aan gcncraliseerbaarhcid op de corrclalicmau-iccs uitgevoerd worden (Suppes & Zinnes, 1963).
Hierbij moet cchtcr 6én nuancering aangebracht worden. Bij een mecr-grocpcnmodel mogen de scores
voor één van dc groepen gestandaardiseerd worden. Suindaardi.satie van dc scores in alle onderscheiden
groepen impliceert identieke varianties in die groepen. Zonder expliciete toetsing op deze aanname
verliest men in feite ccn aantal vrijheid.sgradcn, dal gelijk is aan het produkt van het aantal variabelen en
het aantal groepen (Van den Bergh & Eiting, 1989). Vanwege deze problematiek hebben wij jui.st bij de
mcer-groepcnmodellcn de voorkeur gegeven aan de analy.se van de covariantiematrices.

4. Deze volgorde van analyse doet op het eerste gezicht misschien wal vreemd aan. Pas als aangetoond is
dal de toetsen in dc verschillende subpopulaties tenminste congcncrick zijn, is hel zinvol ccn analy.se
over de gehele populatie uil le voeren. Echter, dit brengi ccn clement van kanskapitali.saiie met zich mee,
daar dan niet volstaan kan worden met dc genoemde a priori opgestelde modellen, maar cr (4 x 5 =)
twintig modellen per steekproef geanalyseerd miKlcn worden.

5. Dil is eenvoudiger gezegd dan gedaan. Er zijn iwcc compliccrcnde factoren. Ten eerste het onderscheid
lussen schooltypen, cn icn tweede de alom gehanteerde matrix-sampling van items of laken. Deze laatsie
maakl het in veel gevallen onmogelijk gedciailiccrdc uitspraken te doen over de samenhang lussen
.scores op verschillende opdrachten, en dus enig inzicht le krijgen in problemen rond opdrachtspecifieke
varianties. In een aparle publikatie wordt aannemelijk gemaaki dal ook bij gc.schaalde (prixlukiieve)
opgave uil ppon-basisonderwijs ccn aanzienlijk deel van de geobserveerde variantie opdrachtspccifiek
genoemd moet/kan worden (zie: Van den Bergh, Rijlaarsdam & Zwarts, 1991). Tcr/.ijdc zij opgemerkt
dal de schalingsprocedure bij ppon-basisonderwijs plaats vindl op dc loule populatie. Het lijki gezien
enkele verkennende analyses onwaarschijnlijk dal de geconstrueerde ualvaardigheids.schalen stand hou-
den in diverse relevante declptipulalics (Eggen, mondelinge communicatie).

LITERATUUR

Ackerman, T.A. & Smith, P.L. (1988). A comparison of information provided by essay, multiple choice,
and free-rcsptMisc writing lests.
Applied Psychological measurement, 12, 117-128.

Anaxlasi, A. (1970). Testing problems in perspective. Princcion: Educational Testing Service.

Anderson, H.M. & Balilauf,R.J.(1963). A .study of a measure of listening. Journal of Educational Measurement,
57,
197-200.

Bergh, H. van den (1988). Schrijven en schrijven is twee: Een onderzoek naar de samenhang op verschillende
schrijftaken.
Tijdschrift voor Onderwijsresearch. 13. 311-324.

Bergh, H. van den, Baluer, J.E., Marshall. F., Triesscheijn, B. & We.sdorp, H. (1986). Instrumenten ter
peiling van de taalvaardigheid van leerlingen uil de derde klas van het v.o.
Amsterdam: SCO.

Berg, H. van den, Rijlaar.sdam, G. & Zwarts, M. (1991). Transfer bij produktieve taalvaardigheidsopdrachien.
Tijdschrift voor Onderwijsresearch (in voorbereiding).

Belanger, J. (1987). Reading achievement and writing proficiency: a critical review of research. Paper prcsenlcd

-ocr page 164-

158 H. Kuhlemeier en H. van den Bergh

at the Annual Meeting of the Canadian Council of Teachers of English. Winnipeg, Manitoba,
Canada, May 11-16 {ED 282 180).

Bentler, P.M. & Bonet, D.G. (1980). Significance tests and goodness of fit in the analysis of covariance
structures.
Psychological Bulletin, 88, 588-606.

Bergh, H. van den (1988). Examens geëxamineerd. 's-Gravenhage: SVO.

Berg, H. van den & Eiting, M. (1989). Estimating rater reliability. Journal of Educational Measurement, 26,
29-40.

Bergh, H. van den, Glopper, K. de & Schoonen, R. (1987). Directe metingen van schrijfvaardigheid:
Validiteit cn taakeffecten. In: F.H. van Eemcrcn & R. Grootcndorst (red.).
Taalbeheersing in
ontwikkeling.
Dordrecht: Foris Publications.

Boodoo, G.M. & Garlinghouse, P. (1983). Use of essay examination to investigate the writing skills of
undergraduate education majors.
Educational and Psychological Measurement, 43, 1005-1014.

Brilhart, B.L. (1965). The relationship between some aspccts of communicativc speaking and communicative
listening.
Journal of Communication, 15, 35-46.

Brown, C.T. (1965). Three studies of the listening of children. Speech Monographs. 32, 129-138.

Carroll, J.B. (1962). Factors of verbal achievement. Proceedings of the 1961 invitational confcrcncc on
testing problems. Princcton, NJ.: ETS.

Coffmanm, W.E. (1966). On the validity of essay test of achievement. Journal of Educational Measurement,
22.41-45.

Cook, T.D. & Campbell, D.T. (1979). Quasi-experimentation: design and analysis issues for field settings.
Chicago: Rand McNally.

Dukcr, S. (1965). Listening and reading. Elementary SchoolJournal, 65. 321-329.

Feldt & Brennan (1989). Reliability. In: R.L. Linn (Ed.), Handbook of Educational Measurement (third edition).
American Council on Education: New York: McMillan.

Fiskc, D.W. (1987). Construct invalidity comcs from method cffccLs. Educational and Psychological
Measurement. 47.
285-307.

Glopper, K. dc (1988). Schrijven beschreven. 's-Gravcnhagc: SVO.

Gcldcrcn, A. van (1987), Taalmaten. Deel 3: Relaties tussen spreek-, schrijf-, lees- en luisterprestaties.
Amsterdam: SCO.

Gullikscn, H. (1987). Theory of mental tests. Hillsdale, NJ.: Erlbaum.

Hoeks, J., Molenaar, P.C.M. & Mellenbergh, GJ. (1990).. Fitting linear model to sematic test con.structcd to
Guilford's facet design.
Multivariate Behavioral Research (in press).

Horowitz. M.W. & Bcrkowitz, B. (1%7). Listening and reading, speaking and writing: an experimental
investigation of differential acquisition and reproduction of memory.
Perceptual and Motor Skills,
24,207-215.

Jöreskog, K.G. & Sörbom, D. (1989). Lisrel 7: Users' reference guide. First edition. Moorcsvillc: Scicntific
Software.

Jolly, T. (1980). Reading, writing, listening, speaking. Language Arts. 57. 664-668.

Kuhlemeier, J.B. & Van den Bergh, H. (1989). De proefpeiling Nederlands: Een onderzoek naar de
haalbaarheid van peilingsonderzoek in het voortgezet onderwijs (Specialistisch Bulletin Nr. 74).
Arnhem: Cito (1989).

Kuhlemeier, J.B. & Van den Bergh, H. (1990). De meting van taalvaardigheid in peilingsonderzoek: luis-
teren, spreken, lezen en schrijven.
Onderzoeksrapporten beginfase voortgezet onderwijs Nr. 5.
Arnhem: Cito.

Loban, W. (1976). Language development: Kindergarten through grade twelve. Rc.scarch report no. 18. Urbana,
IL: National Counsil of Tcachcrs of English (ED 128 818).

Meuffels, B. (1982). Studies over taalvaardigheid. Amsterdam: Universiteit van Amsterdam.

Neville, M., Mulholland, H. & Kydd, S. (1985). English language in Scottish schools: a monitoring project.
Report to the Scottish Education Department, Edinburgh.

Ross, R. (1964). A look at li.stcncrs. Elementary School Journal, 64, 369-372i

Shanahan.T. (1984). Nature of the reading-writing relation: an exploratory multivariate analysis. Journal of
Educational Psychology, 76. 466-411.

Shanahan, T. & Lomax, R.G. (1986). An analysis and comparison of thcorctical models of the reading
writing relationship.
Journal of Educational Psychology, 78, 116-123.

Schooncn, R. (1991). De evaluatie van schrijfvaardigheidsmetingen (dis.<!crtatic). Amsterdam: SCO.

Snow, R.E. & Yalow, E. (1984). Education and intelligence. In: RJ. Sternberg (Ed.), Handbook of human
intelligence.
Cambridge: Cambridge university press.

Suppcs P. & Zinnes, J.L. (1963). Basic measurement theory. In: R.D. Luce, R.R. Bush & E. Galanter (Eds.),
Handbook of mathematical psychology. Vol. I. New York: Wiley.

-ocr page 165-

De correlationele structuur van taalvaardigheid 159

Tinzmann, M.B. & Thomson, G.R. (1977). A comparison of listening and reading close procedures and a
standardized reading achievement lest.
Paper presented at the annual meeting of the Northern
Illinois Association for Educational Research and Development, May, 1977 (ED 162 249).

Traub, R.E. (1991). On the equivalence of traits assessed by multiple-choice and construcied-response
tests.
Toronto: OISE.

Wcrts, C.E., Breland, H.M., Grandy, J. & Rock, D.R. (1980). Using longitudinal data lo estimate reliability
in the presence of correlated measurement errors.
Educational-and Psychological Measurement.
40,
19-29.

Wesdorp, H. (1974). Het meten van produktief-schriftelijke taalvaardigheid. Purmerend: Musses.

Manuscript ontvangen 2-1-1991

Defmitieve versie ontvangen 13-6-1991

BIJLAGE A

Toewijzing van taakboekjes aan leerlingen en aantallen waamemingen per (sub)steekproef.

Leerling-

Luisteren en Lezen I en Lezen II en

Lezen III en

mummer

Spreken Schrijven I Schrijven II

Schrijven III

Steekproef

1

1 1

A

2

1

B

3

1

C

4

1

A

5

1 1

B

6

1

C

7

1

A

8

1

B

9

1

1

C

24

1

C

Na = 292: N,

= 301; N^ = 287

BIJLAGE B

Aantal waamemingen per analyse per schooltype.

Analyse

Schooltype

I II

III

IV

Vwo / Havo

368 531

545

542

Mavo

206 283

296

297

Lbo

377 502

533

624

Totaal

951 1316

1374

1463

-ocr page 166-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 3, pp. 160-168

Gaan psychologen, (ortho-)pedagogen en
onderwijskundigen in de leerlingbegeleiding
verschillend te werk?

M.G.H. Jansen en W. Meijer
Rijksuniversiteit Groningen1

ABSTRACT

In this paper we study differences in opinions concerning explanations of learning problems and in
diagnostic behavior of educational guidance counsellors in relation to their schooling background.
Before filling out a questionnaire on the possible causes of learning problems, the respondents were
brought into a simulated assessment situation where they had to study 4 short case-histories and then
were invited to gather further information on the cases. The information requested was classified
according to topic and source. We found a significant difference on the questionnaire, which indicated
that the three groups have different views on the importance of some of the factors which influence
learning problems. Also, there were significant but small differences in diagnostic behavior between
the groups.

INLEIDING

Binnen Onderwijsbegeleidingsdiensten (OBD's) zijn diagnostici aangesteld om basisschool-
leerkrachten tc adviseren over leeriingen die stagnaties vertonen in hun lecrproccs. Bij deze
'leeriingbcgelcidcrs' worden jaariijks ruim 30.000 leeriingen aangemeld (WPRO, 1989). Be-
geleiders gaan op verschillende manieren te werk. Zowel de wijze waarop dc aanmelding van
leerlingen plaatsvindt varieert, als het diagnostisch onderzoek cn advies (Meijer, 1984). Bij
vergelijkbare leerlingen doen sommige begeleiders ccn psychologisch onderzoek, andere ccn
pedagogisch-didactisch en weer andere besluiten in het geheel geen onderzoek tc doen. Dc tijd
die aan ccn onderzoek wordt besteed, bedraagt gemiddeld drie uur, maar varieert van
één tot vijf
uur (Meijer, 1986). Om de werkdruk te verminderen, maar ook op grond van innovatic-over-
wegingen. trachten begeleiders leerkrachten in dc werkwijze tc betrekken. Men vraagt hen
didactische toetsen af te nemen, ob.scrvatics uit tc voeren, of andere gegevens tc verzamelen.
We nemen aan. dat dc mate waarin Iccrkrachtcn worden betrokken in dc proccdurc. eveneens
varieert per begeleider cn per OBD. Ook elders constatccrt men grote vcrschillcn in werkwijze.
McDcrmott (1977) stelt vast dat Amerikaanse schoolpsychologen vcrschillcn in dc tijd die zij
nodig hebben om tot ecn diagnose tc komen, cn dat zij bij eenzelfde geval tot vcrschilIcndc
diagnostische uitspraken komen (McDcrmott. 1980; Weinshank en Vinsonhalcr, 1983). In on-
derzoek naar het verioop van het proccs van diagnostisch handelen, kan in vcci gevallen geen
duidelijke relatie worden aangetoond tussen dc verschillende stappen in het diagnostisch proccs:
noch tussen data verzamelen cn hypothesen genereren, noch tus.scn di'agno.stischc interpretaties
en aanbevelingen voor hulp. In ccn aantal onderzoeken werd op basis van vcrschilIcndc diagnosen
wel ccn overeenstemming overdc behandeling aangetroffen (Algo/Jtine e.a.. 1982; Bus, 1989;
Bus cn Kruizcnga. 1989; Wcisbcrg, 1984; Weinshank. 1982).

De vcrschillcn in werkwijze worden in verband gebracht met dc professionele autonomie van
begeleiders (Meijer. 1986). Binnen de organisatie van dc OBD's bestaat kennelijk ruimte om

1  Vakgroep PAO. RU Groningen. Grote Rozenstraat 38.9712 TJ Groningen.

-ocr page 167-

Verschillen in leerlingbegeleiding 161

taken volgens verschillende werkopvattingen uit te voeren. Het is bekend dat over de verklaring
van leerproblemen consensus ontbreekt. Uiteenlopende verklaringsmodellen voor leerproblemen
worden naast elkaar gebruikt. Verschillende auteurs brachten een ordening aan in de modellen.
In het onderzoek waar we hier verslag van uitbrengen, is onderscheid gemaakt tussen (i) modellen
waarin veel waarde wordt gehecht aan factoren die een directe invloed uitoefenen op de
onderwijsleersituatie, en (ii) modellen waarin indirecte factoren een belangrijke positie innemen
(Meijer. 1991). We nemen aan dat begeleiders verschillen in de mate waarin zij de onderscheiden
modellen waarderen, en dat deze verschillen op hun beurt samen hangen met opleidingsverschillen.
In Nederiand bestaat er, ondanks voortdurende discussie (Leune, 1975; Van Vilsteren, 1982.
1985; Timmer, 1985). geen vastomschreven vooropleiding tot onderwijsbegeleider. Er is in
begeleidingskringen sprake van een algemene voorkeur om via werkervaring, inservicetraining.
intervisie, etcetera, te voldoen aan de eisen die aan de beroepsuitoefening zijn verbonden (Van
Vilsteren. 1985). Onder begeleiders treft men universitair opgeleide sociale wetenschappers
aan. en mensen die benoemd zijn op basis van onderwijservaring, aangevuld met een studie,
meestal een middelbare opleiding (MO) pedagogiek. De laatstgenoemde groep heeft meestal
geen diagnostiekopleiding gevolgd, en verricht voornamelijk systeembegeleidingstaken.
Leerlingbegeleidingstaken worden voornamelijk vervuld door psychologen, (ortho- en klinisch)
pedagogen en onderwijskundigen (WPRO. 1982).

In dit artikel doen we verslag van een onderzoek naar dc vraag of psychologen, pedagogen cn
onderwijskundigen verschillende opvattingen hebben over stagnaties in leerprocessen, en of zij
bij leerlingbegeleiding verschillend te werk gaan. We verwachten dat onderwijskundigen zich
op twee manieren onderscheiden van orthopedagogen en psychologen. In de eerste plaats ver-
wachten we dat onderwijskundigen de onderwijsgevende meer betrekken in de werkwijze. En in
de tweede plaats veronderstellen wc dat zij bij het verklaren van leerproblemen meer waarde
hechten aan factoren die de onderwijsleersituatie direct beïnvloeden.

METHODE

De proefgroep

Bij de samenstelling van dc onderzoeksgroep kon gebmik gemaakt worden van eerder verza-
melde gegevens bij 171 onderwijsbegcleiders met uiteenlopende opleidingen, afkomstig uit 20
verschillende OBD's. Zie voor een bc.schrijving van de selectie van respondenten en data verza-
meling: Meijer (1991). Om de veronderstelde verschillen tu.s.sen p.sychologen, pedagogen en
onderwijskundigen te toet.sen, zijn de begeleiders met een praktijkopleiding buiten dit onderzoek
gehouden. De onderzoek.sgroep bestaat uit 102 begeleiders met een doctoraal examen in een van
dc drie disciplines, In Tabel 1 is dc verdeling van dc proefpersonen ovcrdc disciplines weerge-
geven.

Tabel I. Verdeling van dc proefpersonen over de drie disciplines.

groep

discipline

n

1

(ortho'/klinisch) pedagogen

57

2

onderwijskundigen

17

3

(ontwikkeIings/klini.<«:h) psychologen

28

Totaal

102

-ocr page 168-

162 M.G.H. Jansen en W. Meijer

De variabelen

Opvattingen

De opvattingen van de begeleiders zijn vastgesteld met behulp van een ratingscale. Deze schaal
begint met de vraag: "ik vind het onbelangrijk 0 0 0 0 0 0 belangrijk om beschikking te hebben
over...", gevolgd door 31 items, die een reeks "oorzaken" van leerproblemen bevat. Deze lijst
bevat items die direct op het onderwijsleerproces betrekking hebben (zoals het technisch lezen
van de leerling, de rekenvaardigheid van de leerling, de rekenstrategie van de leerling), als
items, die verwijzen naar factoren die het leerproces indirect beïnvloeden (zoals: het
intelligentieprofiel van de leerling, gegevens uit neurologisch onderzoek, de gezinsoms-
tandigheden). In de instructie is de respondenten gevraagd hoe relevant deze, aan literatuur
ontleende, factoren zijn in de praktijk van de leerlingbegeleiding. Het gaat daarbij niet om de
waarde van de informatie ten aanzien van een specifieke leerling, maar om een opvatting over
de relevantie van de uitspraak in het algemeen.

Na een initiële item-analyse, op basis waarvan 7 items met een lage item-totaal-correlatie
werden verwijderd, onderwerpen we de resterende items aan een factoranalyse. In totaal vonden
we 6 factoren met eigenwaarden boven de 1, waarvan de eerste twee factoren konden worden
geïnterpreteerd in overeenstemming met de verwachting:

(A) bij de verklaring van leerproblemen worden vooral items genoemd die direct betrekking
hebben op de onderwijsleersituatie zelf. Het gaat om leerproces- en instructiekenmerken.
We omschrijven deze factoren kortweg als 'directe-factoren'.

(B) de items die hoog laden op deze factor hebben als gemeenschappelijk kenmerk dat ze
indirect invloed uitoefenen op het leerproces. Het gaat om factoren als intelligentie, per-
soonlijkheid en gezinssituatie. We benoemen deze factoren daarom als 'indirecte-factoren'
ter verklaring van leerproblematiek.

De volgende vier waren moeilijker te interpreteren en verklaarden elk op zich nog maar weinig
variantie en zijn om die redenen buiten beschouwing gebleven. Deze re.sultaten zijn verkregen
bij de oorspronkelijke onderzoeksgroep (n=171). Op basis van de boven beschreven twee factoren
werden de items in twee subschalen ondergebracht, die verder in het onderzoek gebruikt worden
(zie Tabel 2).

De betrouwbaarheidsgegevens van de subschalen zijn als volgt: subschaal A; directe factoren
(13 items) heeft een alpha van .84; subschaal B; indirecte factoren (11 items) heeft ccn alpha
van .83.

De werkwijze

In dc werkwijze van onderwijsbegeleidcrs kunnen ccn aantal stappen worden onderscheiden:

- de eerste reactie. De begeleider kan onmiddellijk besluiten zelf diagnostisch onderzoek tc
verrichten, of eerst voorinformatie inwinnen. Dc werkwijze bij deze eerste reactie is af te
meten aan de
hoeveelheid voorinformatie die dc begeleider verzamelt.

- dc voorinformatie. Deze voorinformatie kan betrekking hebben op gedragingen van dc leeriing
in kwestie, maar ook op situationele gegevens; ze kan bovendien betrokken worden van
diverse informatiebronnen: ouders, onderwijsgevende, collega's cn andere instanties.

- onderzoek cn interventie. Verschillen in werkwijze hebben tcnslonc betrekking op het eventueel
uit tc voeren diagnostisch onderhoek cn op dc voorgestelde interventie.

In dit artikel doen wc verslag van het onderzoek naar dc twee eerste .stappen; elders zullen wc dc
resultaten op onderzoek en interventie rapporteren (zie: Meijer, 1991).

Om de werkwijze van begeleiders tc onderzoeken is gebruik gemaakt van simulaties. Deze
hebben betrekking op leeriingen uit groep vier met taal-lecsproblcmen.

In eerste instantie krijgen de respondenten alleen globale informatie voorgelegd. Op verzoek
kunnen zij nadere voorinformatie vragen. Dc7.c informatie is beschikbaar, gcmbricccrd in tien
categorieën, op basis van bron (ouders, onderwijsgevende, schoolhoofd, cn overige instanties)
en soort (over leergedrag, dc thuissituatie cn de .schoolsituatie).

-ocr page 169-

Verschillen in leerlingbegeleiding 163

Tabel 2. Geroteerde factormatrix per subschaal.

Korte item-omschrijving

factor 1 factor 2

Subschaal A

concentratie

.39

.30

taal-lccs-rckcn methode

.48

.20

begrijpend lezen

.63

.13

combinatieklas

.47

.33

fouten analyse spelling

.70

-.07

taakgcrichthcid

.62

.18

did. vaardigheid leerkracht

.37

.33

oplossingsstrategie

.62

.10

rckenvaardighcid

.71

.05

technisch lezen

.72

.02

methodc/diffcreniialie

.48

.27

klassikale instructie

.51

.24

inzicht rekenstrategieCn

.72

-.03

Subschaal B

sociaal/cconomischc situatie

.13

.59

prestatie/motivatie

.41

.49

intclligenlic profiel

-.10

.70

fysieke omwikkeling

.31

.55

neurologisch onderzoek

-.02

.67

allochtonen

.18

.49

gezinsomstandigheden

.15

.64

rclalic Icerkachi-kind

.27

.54

i.q.

-.07

.64

persoonlijkheid

.16

.64

niet-cogniticvc vakken

.24

.60

eigen waarden

6.58

2.83

% verklaarde varianiie

27.4 11.8

Tabel 3. Informatie: categorieën cn beschikbare hoeveelheid informaiic.

categorie

aantal scgmenlen

no bron

soon

per casus

I onderwijsgevende

gedrag

8

2 onderwijsgevende

ihuissitualic

8

3 onderwijsgevende

schoolsiluauc

8

4 ouders

gedrag

8

5 ouders

ihuissiiualie

7

6 ouders

schoolsituatie

6

7 dirccicur

gedrag

5

8 dirccicur

Ihuissiluatie

8

9 directeur

schoolsiluaiic

8

10 overige instanlics & OBD

13

louai

79

-ocr page 170-

164 M.G.H. Jansen en W. Meijer

Het verloop van de simulatie kan als volgt kort beschreven worden:

- de respondent ontvangt globale informatie over leerling, leerprobleem en schoolsituatie;

- de proefleider vraagt na lezing of de respondent op basis van deze informatie besluit diagnostisch
onderzoek te (laten) doen, of meer informatie wil verzamelen;

- indien het laatste het geval is, geeft de respondent aan welke bron hij eerst wil raadplegen, en
over weUce soort informatie hij wil beschikken.

Alle beschikbare informatie is ondergebracht in 10 categorieën en per categorie opgesplitst in
segmenten;

- de proefleider biedt uit de gevraagde categorie het eerste informatie-segment aan. Nadat de
respondent deze heeft gelezen herhaalt de proefleider de vraag;

- de procedure wordt voortgezet met steeds het volgend informatie-segment, tot de respondent
aangeeft over voldoende informatie te beschikken:

- wanneer de respondent besluit diagnostisch onderzoek uit te (laten) voeren, vraagt de proef-
leider de respondent de aard van het onderzoek te omschrijven. Tenslotte kiest de respondent
uit een lijst de interventie uit, waarvan hij verwacht dat die het meest wenselijk is.

Om de betrouwbaarheid van de meting te verhogen hebben alle respondenten vier parallel-
casussen voorgelegd gekregen. Een uitvoerige beschrijving van de constructie van de casussen
is te vinden in Meijer (1991).

Afname

De onderzoeksgegevens zijn verzameld in een individuele situatie. In het eerste gedeelte van de
sessie vulden de respondenten de vragenlijst met opleidingsgegevens in. Daarna volgden dc
simulaties en de vragenlijsten over opvattingen. Dc totale gemiddelde tijdsduur bedroeg twee
uur.

ANALYSE

Opvattingen

Om vast tc kunnen stellen of de onderscheiden groepen respondenten verschillende opvattingen
hebben over de relevantie van 'directe' en 'indirecte' factoren bij het verklaren van stagnaties in
leerprocessen, zullen we variantie-analyse uitvoeren. Dc opleiding vormt dc onafhankelijke
variabele. Voor dc afhankelijke variabele (opvattingen) is gebruik gemaakt van dc somscorcs op
dc subschalcn A en B.

Werkwijze

Om mogelijke verschillen in werkwijze vast te stellen voeren wc een aangcpa.ste kruistabel-
analyse uit (Jansen, 1990). Gezien het discrete karakter van de afhankelijke variabelen is afge-
zien van klassieke variantic-analytische technieken. Dc analy.sc is als volgt opgebouwd.

We be.schouwcn de kmistabel als ccn dric-dimcnsioncle tabel, waarbij dc kolommen worden
gevormd door dc tien categorieën voorinformatie (j) cn dc rijen door de respondenten (i). Dc
derde dimensie wordt gevormd door dc indeling van de respondenten in groepen (g), naar het
type vooropleiding. Op grond van vooropleiding onderscheiden we dus drie groepen, pedagogen,
psychologen en onderwijskundigen. Een willekeurige cel van deze kruistabel wordt aangeduid
met celjij. Iedere cel bevat dc door ccn uit groep g afkomstige respondent i opgevraagde infor-
matie-segmenten uit categorie j. weergegeven in ccn frequentie. Dc geobserveerde frequenties
worden aangegeven met y^j..

Deze scores worden geacht Poisson verdeelde toevalsvariabclcn tc zijn. met gemiddelde
Deze aanname is tamelijk gebruikelijk in analy.ses van categorische data. waarbij het totaal
aantal observaties niet door dc opzet van het onderzoek van tc voren is vastgelegd (Bishop.
Fienberg & Holland, 1975). Vervolgens nemen wc aan dat dc ccn produkt zijn van rij- cn
kolom parameters, namelijk: = a ^ P ■ die wc als volgt interpreteren.

Dc parameter a^^ geeft dc mdividucfé 'geneigdheid' van respondent i uit groep g aan om
informatie tc vragen. Hoe hoger a hoe meer informatie-segmenten ccn respondent gemiddeld

-ocr page 171-

Verschillen in leerlingbegeleiding 165

j=

1 ............................................10

g=i i=i

Yiii..........................................Ymo

Yln,1.........................................Yln,l0

g=2 i=1
n.

Y2111.........................................Y2110

Y2n,1.........................................Y2.n,l0

Fig. 1. Model kruistabel.

zal vragen. Dc parameter P^ betreft dc 'aantrekkelijkheid' van catcgoricj voor respondenten uit
groep g. Hoe groter P . hoe meer informatie-segmenten er gemiddeld door groep g uit categorie
j zal worden gevraagd: Alle respondenten in groep g hebben dezelfde P parameters, met andere
woorden wc namen aan dat cr binnen de groep geen subjcct-catcgoric interactie is.

Dc laatste aanname is dat dc subjcct-paramctcrs gcacht worden ccn steekproef tc vormen uit
cn kan.sverdcling. Hiervoor kiezen we ccn gamma-vcrdcling, waarvan dc parameters variëren
over dc groepen. De P-paramcicrs zijn vaste parameters.

Wanneer dit model opgaat, dan blijkt dat dc geobserveerde tabel in twee afzonderiijk
analyseerbare delen uiteenvalt, die betrekking hebben op twee tc ondcrschcidcn delen van het
model.

(i) Wanneer wc per rij (per groep) dc frequenties optellen over dc catcgoricen, levert dat per
subject scorcs op. die aangeven hoeveel informatic.segmcntcn dc persoon in totaal heeft gevraagd.
We kunnen afleiden dat dc rij-totalcn (per groep) ccn negatief binominalc verdeling volgen met
dezelfde vorm- en .schaalparamctcrs als dc gamma-vcrdcling voor dc subjcctparamctcrs. Deze
rij-totalcn kunnen worden gebruikt om dc parameters tc schancn van dc kan.sverdcling van dc
subjcctparamctcrs. Gemakkelijker tc interpreteren dan dc gammaparameters zijn het gemiddelde
cn dc spreiding van dc marginale verdeling, die uit dc parameters van dc gamma-verdeling zijn
af tc leiden. Uit deze grootheden kunnen we afleiden of cr sprake is van systcmati.schc vcrschillcn
tussen groepen met betrekking tot de verdeling van het totaal aantal gevraagde segmenten.

(ii) Wanneer we per groep per kolom over dc subjecten (rijen) optellen cn deze kolomsommen
omzetten in proponics door tc delen door dc totale door dc groep opgevraagde informaticscgmentcn.
krijgen wc schattingen voorde catcgoric-paramctcrs. Daaruit kunnen we afleiden in hoeverre dc
drie groepen van elkaar vcrschillcn in dc relatieve verdeling over dc catcgoric«n. los van het
totaal aantal gevraagde informaticscgmentcn (Jansen, 1990). Wc kunnen hiervoor standaard-
programmatuur voor loglineaire analyse gebruiken, mits wc cr rekening mee houden dat wc te
maken hebben met ccn produkt-multinominalc verdeling.

-ocr page 172-

166 M.G.H. Jansen en W. Meijer

Met andere woorden, we kunnen dus hypothesen toetsen over twee soorten groepsverschillen,
namelijk hypothesen met betrekking tot de totale hoeveelheid informatie (de 'eerste reactie') en
met betrekking tot de relatieve verdeling van de gevraagde informatie over de categorieën (de
'voorinformatie').

Op basis van de in de vraagstelling vervatte verwachting toetsen we de hypothese dat de
verdeling van de informatie over de categorieën in de drie groepen niet van elkaar verschilt.
Toetsing van deze hypothese vindt plaats met behulp van een chi-kwadraattoets. Wanneer er
sprake is van significante verschillen tussen de groepen, kan op basis van de gestandaardiseerde
residuen worden vastgesteld welke cel(len) van de kruistabel verantwoordelijk is (zijn) voor de
verschillen.

RESULTATEN

Opvattingen

In Tabel 4 zijn de gemiddelde scores weergegeven op de schalen 'directe' en 'indirecte' facto-
ren. Uit de variantieanalyse blijkt dat de scores op de schaal 'directe factoren' significant van
elkaar verschillen [F (2,99) = 3.6; p < .05] voor de drie disciplines. De psychologen scoren het
laagst en de pedagogen het hoogst. Voor de schaal 'indirecte factoren' geldt het omgekeerde. De
verschillen zijn hier echter niet significant [F (2,99) = .27; n.s.). Merk op dat de gemiddelde
scores over de gehele linie hoog zijn, m.a.w. 'indirecte' zowel als 'directe factoren' worden
door alle drie disciplines heel belangrijk gevonden.

Werkwijze

In Tabel 5 wordt het gemiddeld aantal gevraagde informatiesegmenten per groep ('eerste reac-
tie') weergegeven, en de verdeling van de hoeveelheid gevraagde 'voorinformatie' over de tien
categorieën. Deze verdeling is weergegeven in proponies.

In onderstaande tabel zijn de resultaten van de analyse weergegeven. Het eerste aspect van de
werkwijze betreft de 'eerste reactie'. Het blijkt dat de pedagogen, onderwijskundigen cn psy-

Tabcl 4. Gemiddelde somscorcs en standaarddeviatie van de subschalen directe en indirecte factorcn per
groep (discipline).

groep

opvattingen

dircctc factorcn

indirecte factorcn

M

(Sd)

M

(Sd)

pedagogen

55.2

(6.9)

35.0

(7.6)

onderwijskundigen

53.4

(6.1)

35.7

(7.8)

psychologen

50.9

(8.2)

36.4

(9.1)

Tabel 5. Scores 'eerste rcactic' (1) cn 'voorinformatie' (2) per groep.

groep M

sd

1

2

3

4 5

6

'7

8

9

10

ped 67.7

(34.39)

35

14

11

17 8

4

1

1

3

6

ond 67.3

(35.83)

37

11

7

14 9

1*

1

1

5

9

psy 63.6

(30.11)

36

11

11

17 11

2'

2

1

4

6

* significant residu bij H^ onafh groep/voorinformatie

(1) = gemiddelde somscorcs

(2) = procentuele verdeling over dc categorieën.

-ocr page 173-

Verschillen in leerlingbegeleiding 167

chologen ongeveer even veel informatie inwinnen, alvorens zij besluiten over te gaan tot het
uitvoeren van diagnostisch onderzoek. Het verschil in spreiding bij de groepen, de psychologen
vormen de meest en onderwijskundigen de minst homogene groep, is eveneens niet statistisch
significant. Het tweede aspect van de werkwijze heeft te maken met de verdeling van de propor-
ties 'voorinformatie' over de 10 categorieën. Hier moeten we de nulhypothese ('geen verschillen')
op grond van de geobserveerde chikwadraatwaarde [Qii kwadraat (18)=36.8, p=.006] verwerpen.
De verdeling van de ingewonnen informatie over de tien categorieën is dus afhankelijk van de
discipline waarin de begeleider is opgeleid. Uit de geobserveerde celproporties kan worden
afgeleid dat het verschil met name is terug te voeren op categorie 6: 'informatie van ouders over
de school'. Onderwijskundigen verzamelen meer informatie, dan verwacht, bij ouders over de
schoolsituatie en psychologen juist minder. De verschillen zijn echter hoewel significant toch
tamelijk klein.

CONCLUSIE EN DISCUSSIE

Op grond van hun opleiding verwachten we dat onderwijskundigen meer dan orthopedagogen
en psychologen opgeleid zijn om verklaringen voor leerproblemen te zoeken in de onderwijs-
leersituatie. Deze verwachting is slechts ten dele bevestigd. Het blijkt dat alle diagnostici meer
waarde hechten aan directe dan aan indirecte factoren. Pedagogen, onderwijskundigen en psy-
chologen verschillen alleen in de voorkeur die zij hebben voor directe factoren: psychologen
leggen significant minder waardering aan dc dag voor factoren die het leerproces dircct beïnvloeden.
Indirecte factoren worden door de drie disciplines in dezelfde mate gewaardeerd.

De verschillen die uit de simulaties van de eerste fase van de werkwijze naar voren komen
zijn gering. De verwachting dat onderwijskundigen meer dan anderen de leerkracht in hun
werkwijze betrekken, blijkt niet uit te komen. In de simulaties stellen zij een besluit tot diagnostisch
onderzoek niet vaker uit dan orthopedagogen. Dc interindividuclc verschillen op de variabele
'eerste reactie' zijn groot, maar de variantie tussen proefpersonen binnen dc groepen is groter
dan tussen de groepen.

Wat betreft de gevraagde voorinformatie, valt op dat alle begeleiders proportioneel veel
informatie vragen van de leerkracht, en weinig van de directeur van de school cn van overige
instanties. Maar ook hier zijn dc intra-individuelc verschillen aanmerkelijk. Begeleiders verzamelen
redelijk veel informatie bij ouders, cn de groepen verschillen in dit opzicht significant van
elkaar: onderwijskundigen vragen proportioneel meer informatie dan verwacht bij ouders over
dc .schoolsituatie van dc aangemelde leerling, en psychologen juist minder dan verwacht.

De resultaten van het onderzoek bevestigen het vermoeden dat onder leerlingbegeleiders,
evenals onder andere diagnostici onderling aanmerkelijke verschillen bestaan in opvattingen en
werkwijze.

Omdat dc verschillen in opvatting cn werkwijze nauwelijks blijken tenig tc voeren op dc
discipline waarin de ondcrwijsbcgcleider is opgeleid, is dc vraag gewettigd, welke ander factoren
een rol kunnen spelen. In dc eerste plaats denken wc daarbij aan dc gevolgde opleiding. Hoewel
we aannemen dat dc doctoraalopleiding van lecriingbcgelciders ccn diagno.stiektraining bevat,
hangen verschillen in discipline niet noodzakelijkerwijs samen met de vorm cn inhoud van die
training. Om na tc gaan inhoeverre dat het geval is, is ccn nadere analyse van de gevolgde
opleiding cn bijscholing noodzakelijk. Daarnaast komen als potentiële verklaringen voor vcRchillcn
in werkwijze, ander bcgclcidcrskcnmcrkcn (zoals werkervaring, routine cn leeftijd) in aanmer-
king. Op grond van bevindingen van Van IJzendoorn (1990) kan worden aangenomen dat
ervaring zonder meer geen doorslaggevende rol speelt. Wellicht dat naast bcgclcidcrskcnmcrkcn,
ook kenmerken van dc OBD van invloed zijn op dc werkwijze bij leerlingbegeleiding. Met
name valt tc denken aan organisatie-kenmerken van dc OBD, cn aan het al dan niet bestaan van
ccn duidelijk beleid ten aanzien van leerlingbegeleiding. Het laatste komt onder andere tot
uitdrukking in het bestaan van afspraken tussen scholen cn OBD over de procedure bij
leerlingbegeleiding. Dergelijke afspraken beperken de handelingsvrijheid van dc begeleider. In
vervolgonderzoek zullen wc hierop ingaan.

-ocr page 174-

168 M.G.H. Jansen en W. Meijer

LITERATUUR

Algozzine, B., Ysseldyke, J.A., & Hill, G. (1982). Psychoeducalional Decision Making as a Function of the
Amount of Information reviewed.
Psychology in the Schools, 19, 328-334.

Bishop, Y.M.M.. Fienberg, S.E., & Holland, P.W. (1975). Discrete Multivariate Analysis: Theory and Practice.
Cambridge, Massachusetts: The MIT Press.

Bus, A.G. (1989). How are recommendations concerning reading and spelling disabilities arrived at and
why do experts disagree?
Psychology in the Schools, 26, 54-61.

Bus, A.G. & Kruizenga, T.H. (1989). Diagnostic Problem-Solving Behavior of Expert Practitioners in the
Field of Learning Disabilities.
Journal of School Psychology. 27. 277-287.

Jansen, M.G.H. (1990). Extensions of Rasch' rmdtiplecative Poisson model. Paper presented at the psychometric
society meeting, Princeton, NJ.. June 28-July 1.

Leune, J.M.G. (1975). Professionalisering van onderwijs en onderwijsinnovatie. Sociologische Gids. 25,297-
314.

McDcrmott, P.A. (1977). Measures of diagnostic data usage as discriminants among training and experience
levels in school psychology.
Psychology in the Schools. 14,3. 323-330.

McDermott, P.A. (1980). Congruence and typology of diagnosis in school psychology: an empirical study.
Psychology in the Schools. 17,1. 12-24.

Meijer, W. (1984). Verslag van een vooronderzoek naar het diagnostisch handelen van leerlingbegeleiders.
Groningen: Universiteit van Groningen, Vakgroep Interdisciplinaire Onderwijskunde.

Meijer, W. (1986). Werkwijzen in de leerlingbegeleiding. Tijdschrift voor Opvoeding. Vorming en Onder-
wijs.
2 1. 18-39.

Meijer, W. (1991). Diagnostiek en Onderwijsinnovatie. Een onderzoek naar werkwijzen in de leerling-
begeleiding.
Dissertatie. Groningen: Universiteit van Groningen.

Timmer, J. (1985). Wat is onderwijsbegeleiding nu eigenlijk? Naar ccn definitie. In Pclosi, E. (red.).
Onderwijsbegeleiding. Feiten en ideeën. Groningen: Wolters-Noordhoff.

Vilsteren, C. van (1982). Verslag van een studiedag over scholing van onderwijsbegeleiders. Utrecht:
Universiteit van Utrecht, Vakgroep Onderwijskunde.

Vilsteren, C. van (1985). Professionalisering van dc onderwijsbegeleiding. In Pclosi. E. (red.). Onderwijs-
begeleiding. Feiten en ideeën.
Groningen: Wolters-Noordhoff.

WPRO (1989). Onderwijsbegeleiding in cijfers IV. Verslag WPR0-cnqu6te 1988. 's-Gravcnhage: WPRO.

Weinshank. A.B. (1982). The reliability of diagnostic and remedial decisions of reading specialists. Journal
of Reading Behavior,
19.7.

Weinshank. A.B. & Vinsonhalcr. J.F. (1983). On diagnostic reliability in reading: what's wrong and what
can be done?
Topics in Learning and Learning Disabilities. 2. 43-52.

Weisbcrg. R.K. (1984). How consistent is the clinical diagnosis of reading specialists? The Reading Teacher.
38,2.205-212.

IJzcndoom, W.J.E. van (1990). Prognoses voor probleemleerlingen. Onderzoek naar de geldigheid van
diagnoses. Groningen: RION.

Manuscript ontvangen 16-1-1991

Defmitieve versie ontvangen 30-7-1991

-ocr page 175-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 3, pp. 169-168

Boekbesprekingen

A.A.M. Houtveen, Begeleiden van vernieuwingen. De Lier: Academisch Boeken Centrum, 1990
(Proefschrift Universiteit van Utrecht). ISBN 90-72015-59-2.

De onderwijsbegeleiding en met name de evaluatie ervan verdient grote aandacht. Meer en meer
wordt evaluatie beschouwd als een krachtig instrument voor kwaliteitsontwikkeling. Het helpt
betrokkenen zich te bezinnen op fundamentele vragen uit de beroepspraktijk.

Naar de mening van Houtveen treden twee thema's in de discussie over evaluatie-onderzoek
naar de begeleidingsinstellingen steeds op de voorgrond. Op de eerste plaats is dit het gebrek
aan zicht op de activiteiten van verzorgingsinstellingen. En vervolgens blijkt er een duidelijk
gebrek te zijn aan overeenstemming over de keuze van de maat waaraan het effect van
onderwijsverzorging afgemeten dient te worden. Mede op basis van deze thema's is het proef-
schrift van Houtveen gericht op de vraag welke activiteiten van onderwijsbegeleiders meer en
welke activiteiten minder bijdragen aan een toename in het vernieuwend handelen van
onderwijsgevenden en schoolleiders.

Het proefschrift probeert antwoord le geven op de volgende vier vragen:

1. Wat zijn de theoretische en maatschappelijke achtergronden van onderwijsbegeleiding?

2. Welke kennis heeft het Nederlandse empirische onderzoek tot 1985 opgeleverd met betrek-
king tot effecten van begeleiding bij onderwijsvernieuwingen?

3. Welke activiteiten ondernemen begeleiders bij het ondersteunen van vernieuwingen in het
onderwijs?

4. Welke activiteiten van onderwijsbegeleiders dragen meer en welke dragen minder bij aan
een toename in het vernieuwend handelen van onderwijsgevenden?

Overeenkomstig deze vier vraagstellingen is het proefschrift in vier delen opgebouwd. In het eerste
deel wordt een theoretisch kader gegeven. Een schets van de stand van kennis uit onderzoek
wordt gegeven in hel tweede deel. In deel drie beschrijft Houlveen de constructie van hel
instrumeniarium. En in deel vier komen de resultaten aan dc orde.

In deel / wordl met name ingegaan op dc vraag: hoeveel vah hel onderwijs ic vcrbclcrcn? Er
wordt een schets gegeven van dc omvang van onderwijsbegeleiding, van de frequentie alsmede
van de inzet. Voor degenen die bekend zijn mcl deze problematiek leveren dc hierop betrekking
hebbende paragrafen geen nieuwe informatie. Ook dc tckstgedeehcn waarin ccn nauwe samen-
hang wordt aangegeven tussen hel gevoerde onderwijsbeleid cn dc manier waarop het vak
onderwijsbegeleiding gc.stallc krijgt (p. 23, 24, 40. 189, 191), zullen voor menigeen niel nieuw
zijn.

In deel 11 worden enkele Ncdcriand.se onderzoeken besproken die kennis hebben opgeleverd
over effecten van onderwijsbegeleiding bij het ondersteunen van onderwijsvernieuwingen. Dc
onderzoeker pui uil kleinschalig onderzoek, uitgevoerd aan hel einde van dc zevcniigcr jaren cn
in het begin van dc tachtiger jaren. Het blijki moeilijk le zijn om op basis van de rcsullaien van
deze onderzoeken éénduidige conclusies le trekken over het effect van begeleiding op de
implemcnialie van ondcrwij.svcmieuwingen. Dc onderzoeker irckl hieruit de lering om bij on-
derzoek naar het functioneren van de onderwij.sbcgeleiding eerst in kaart tc brengen wal een
onderwijsbcgcleidcr nu precies doet.

In deel Hl wordt dan ook in kaart gebracht welke aciiviieitcn begeleiders ondernemen bij hei
ondersteunen van vernieuwingen in hcl onderwijs. De onderzoeker verricht daarvoor een
lilcraiuuranalyse én raadpleegt deskundigen. Iniercssani is de discussie van de onderzoeker
over de male van ovcrcensicmming tussen de beoordelaars. Hierbij kan ons inziens de vraag
gesteld worden waarom, gezien de geschclsie problemen inzake de uitspraken van het zeer
bcpcrkic panel van deskundigen (n = 9) (p. 60-72), niel gezocht is naar de mogelijkheid om een
tweede panel van deskundigen tc raadplegen (een soort "second opinion"). Immers, op basis van

-ocr page 176-

170 Boekbesprekingen

de uitspraken van deskundigen is er sprake van een beperkte mate van overeenstemming tussen
de inhoudspecialisten.

Na de homogeniteitsanalyse met behulp van een jury alpha blijkt dat het panel niet unaniem
is in zijn beoordeling. Daarom wordt overgegaan op een exploratieve factoranalyse (wederom n
= 9). De onderzoeker had hiermee de bedoeling na te gaan of het gebrek aan overeenstemming
teruggevoerd kon worden op verschillen in gezichtspunten. De beperkte mate van overeenstem-
ming blijkt inderdaad samen te hangen met verschillen in opvatting over onderwijsbegeleiding.

Zoals gezegd worden drie modellen voor onderwijsbegeleidmg ontwikkeld: procesbegeleiding,
leerkrachtgerichte begeleiding en schoolleiderbegeleiding. Voor elk model is een instrumenta-
rium ontwikkeld. Het instrumentarium voor procesbegeleiding wordt weergegeven in hoofdstuk
4; dat voor leerkrachtgerichte begeleiding wordt beschreven in hoofdstuk 5 en het instrumenta-
rium voor schoolleiderbegeleiding wordt geschetst in hoofdstuk 6. Elk instrumentarium wordt
ontwikkeld aan de hand van de eisen: homogeniteit van de schalen, begripsvaliditeit en robuustheid.
De onderzoeker heeft een instrumentarium ontwikkeld dat voldoet aan verschillende hoge eisen
van betrouwbaarheid en validiteit.

In deel IV wordt getracht de vraag te beantwoorden: "Welke begeleidingsactiviteiten van
onderwijsbegeleidcrs dragen meer en welke dragen minder bij aan de invoering van vernieuwin-
gen in het onderwijs?". Deze vraag wordt gekoppeld aan de drie ontwikkelde modellen voor
begeleiding. Bij het model voor procesbegeleiding wordt geconstateerd dat de begeleiders het
gehele proces van invoering van een vernieuwing begeleiden. Onderwijsbegeleidcrs ondernemen
vele activiteiten vrij regelmatig. Bij het model voor leerkrachtgerichte begeleiding liggen de
gemiddelde scores op de schalen van dit model laag. Begeleiding van de leerkracht gericht op
inhoudelijke vernieuwing op klasscnivcau, komt niet erg veel voor. De mate waarin dc activiteiten
uit het model voor schoolleidcrbegelciding ondernomen worden, liggen dicht in dc buurt van dc
activiteiten uit het model voor procesbegeleiding. Het begeleiden van de schoolleider gericht op
inhoudelijke begeleiding van dc docenten (het zogenaamde onderwijskundig leiderschap) blijft
nogal achter (p. 138, 140, 141, 142, 143).

Vervolgens wordt door de onderzoeker in hoofdstuk 8 aangegeven waarom ervoor gekozen
is de criteriumvariabele dicht bij het handelen van de onderwijsbegcleidcr tc zoeken, namelijk
in het vernieuwend handelen van leerkrachten en schoolleiders (p. 148). Als criteriummaat kiest
de onderzoeker voor het AZl-instrumcntarium, binnen het ISOR ontwikkeld. AZl staat voor:
Auituden, Zorgen en Implementatie.

Bij alle vier de respondcntgrocpen blijkt sprake tc zijn van implementatie van dc vcmicu-
wing. Wel wordt daarbij opgemerkt dat deze implementatie nog niet erg ver gevorderd is. Wel is
er ccn duidelijke samenhang tussen impicmcntaticbcgclciding cn het vernieuwend handelen van
onderwijsgevenden (p. 167.168). De onderzoeker con.statcert dan ook dat impicmcntaticbcgclciding
zeer duidelijk bijdraagt aan het vernieuwend handelen van de docent. Individuele begeleiding
van docenten levert in dit kader zonder meer dc hoogste bijdrage aan dc implementatie van de
vernieuwing. Dit is overigens ccn bevestiging van dc resultaten uit de kleinschalige onderzoe-
ken die in hoofdstuk 2 door dc onderzoeker bc.schrcvcn zijn. Daar werd ook een positief verband
gevonden tussen begeleidingsactiviteiten die op dc individuele docent gericht waren cn
implementatie van vernieuwingen. De betreffende kleinschalige onderzoeken hadden waar-
schijnlijk toch meer waarde dan door de onderzoeker in hoofdstuk 2 wordt aangegeven.

Het onderzoek van Houtveen kan ons inziens als zeer verdienstelijk worden aangemerkt. Het
proefschrift wordt gekenmerkt door een goede opbouw cn samenhang. Ook is cr sprake van ccn
adequate argumentatie. Inhoudelijk gezien is veel waardering op tc brengen voor dc wijze
waarop het werk van de onderwijsbegeleiding is geoperationaliseerd in groepen van
begeleidingsactiviteiten, in instrumentaria voor het meten ervan cn voor het zoeken van verban-
den met criteriumvariabelen.

De bijlagen behorende bij het proefschrift, bevatten psychometrische rapporten van de ont-
wikkelde instrumenten, In de rapporten worden de items omschreven. Tevens bevat elk rapport

-ocr page 177-

Boekbesprekingen 171

de volgende data: gemiddelde, modus, mediaan, minimum-maximum, standaarddeviatie, coëfficiënt
van variatie, scheefheid, kurtosis, GFI-tcst scheefheid en kimosis, Cronbach's alpha. Een schat
aan gegevens, waarmee ccn instrumentarium wordt gepresenteerd dat door onderzoekers in
andere situaties verantwoord gebruikt kan worden.

Ik wil nog graag op één principieel punt ingaan. Het betreft de vierde vraagstelling van de stu-
die: "Welke activiteiten van onderwijsbegeleiders dragen meer eh welke dragen minder bij aan
een toename in het vernieuwend handelen van onderwijsgevenden?" (p. 4). Zoals boven be-
schreven wordt op pagina 147 e.v. ingegaan op de criteriumvariabelen, waarna de lijn wordt
doorgetrokken naar het AZI-instrumcntarium. Om drie redenen wordt voor dit instrumentarium
gekozen. De onderzoeker had een instmment nodig dat in principe voor elke vernieuwing
ingevuld zou moeten worden. Op de tweede plaats gaf dc onderzoeker cr de voorkeiu" aan
gebruik te maken van een beproefd instrumentarium. En op dc derde plaats zocht de onderzoe-
ker een instrumentarium dat binnen enkele minuten in tc vullen zou zijn.

Is het nu werkelijk mogelijk om met dit instrumentarium (ik herhaal: binnen enkele minuten
in tc vullen: p. 151) dc vraagstelling tc beantwoorden? Deze vraagstelling wordt nog klemmen-
der, als op pagina 170 wordt aangegeven dat dc leerkrachten de vragenlijst invulden voor een
vernieuwing waar zij op dat moment aan werkten: in totaal 54 vcrschilIcndc vernieuwingen.
Bijkomende vragen in dit kader zijn: Welke theoretische assumpties liggen aan dc keuze van het
AZI-instrumcntarium ten grondslag? Is dc keuze van het instrumentarium niet ecn noodzakelijk
gevolg van dc grootschalige kaders van dit onderzoek? Hadden cnkclc dieptc-ondcrzockcn niet
meer zichtbare resultaten kunnen opleveren? Zo blijkt dc spreiding op dc schalcn van vernieu-
wend handden behoorlijk groot tc zijn (p. 161). In essentie wordt niet aangegeven welke deze
verschillen in implementatie (of vemicuwend handelen) zijn. Dc Likcrt-schaal voor het meten
van dc mate van implementatie van ccn vernieuwing (p. 150) is immers gcricht op
slechts negen
aspecten van het zeer rijk geschakeerde implcmcntatiegebcurcn.

Deze kanttekeningen doen niets af aan het gegeven dat de onderzoeker getuigt van kennis
van zaken cn dit adequaat heeft uitgewerkt. Veeleer geven mijn kanttekeningen aan hoe moei-
lijk het is implementatie van vernieuwingen in ons onderwijs inzichtelijk cn zichtbaar te maken.

Rudolf van den Berg
KU Nijmegen

Vakgroep Onderwijskunde Nijmegen

Erasmusgcbouw

Postbus 9103

6500 HD Nijmegen

Th.J.M. Tromp, The acquisition of expertise in computer programming. Amsterdam, Thesis, 1989.
ISBN 90-5170-021-0, 239 pagina's (ook verschenen als proefschrift UvA).

In dit proefschrift wordt verslag gedaan van dc ontwikkeling van ccn inleidende cursus metho-
disch programmeren voor eerstejaars informatica-studcntcn aan dc Universiteit van Amster-
dam. Bij het ontwikkelen van dc cursus laat Tromp zich sterk leiden door theoretische inzichten
die grotendeels afkomstig zijn uit dc psychologic van het programmeren. Daamaast hanteert hij
ccn systematische ontwerpaanpak. die in het eerste hoofdstuk van het proefschrift wordt be-
schreven. Deze aanpak houdt in dat achtereenvolgens modellen ontwikkeld worden voorcxpcrt-
gcdrag (rationele analyse), beginnersgedrag (empirischc analyse) cn het leer- cn onderwijs-
proces dat dc overgang van beginnersgedrag naar expertgedrag bewerkstelligt cn/of facilitcert.
Met name het laatste model doet dienst als basis voor het ontwerpen van dc cursus.

In Hoofdstuk 2 worden programmeerproblemen gekarakteriseerd als siccht-gc.structurccrdc.
semantisch rijke ontwerpproblemen. In de Hoofdstukken 3 cn 4 wordt vervolgens ecn bc.schrij-
ving gegeven van expertgcdrag bij methodisch programmeren. De uitgevoerde analyse wordt

-ocr page 178-

172 Boekbesprekingen

door Tromp een cognitieve analyse genoemd en levert een beschrijving van het te onderwijzen
gedrag ("exit behavior"). Bij het verzamelen van de gegevens werd gebruik gemaakt van inter-
views, brainstorm-sessies en discussies met een drietal docenten. Het resultaat is een model
waarin drie hoofdfasen onderscheiden worden (Ontwerp, Implementatie en Test), die ieder op
hun beurt weer worden uitgewerkt tot een sequentie van handelingen. Kenmerkend voor het
model is de gevolgde "top-down/breadth-first" aanpak, zoals deze ook gepropageerd wordt door
de beweging van het gestructureerd programmeren. Hierbij worden programmeerproblemen
recursief gedecomponeerd in steeds eenvoudiger deelproblemen, tot een nivo bereikt wordt
waarop de oplossingen voor deze deelproblemen relatief eenvoudig te coderen zijn. Voor de
eerste fase ziet het opgestelde model, in enigszins verkorte vorm, er als volgt uh:

ONTWERP

1. Identificeer het probleem.

1.1. Beschrijf het probleem: lees het probleem zorgvuldig.

1.2. Defmieer het probleem of benadruk het resultaat: identificeer de Input/Output-condi-
ties.

1.3. Klassificeer het probleem.

1.4. Probeer het (deel)probleem als bekend te herkennen.

2. Vind een oplossing.

2.1. Identificeer de benodigde objecten.

2.2. Identificeer de acties die op deze objecten uitgevoerd moeten worden om de gewenste
resulaten te bereiken.

3. Verifieer de oplossing.

Ga na of de begintoestand (Input) in alle gevallen leidt tot de gewenste eindtoestand (Out
put). Zo ja, begin dan met de volgende iteratie. Zo nee:

3.1. Ga na of de objecten dan wel de acties verkeerd gekozen zijn.

3.2. Ga na of de Input-condities wel scherp genoeg geformuleerd zijn.

3.3. Ga na of de Output-condities wel scherp genoeg geformuleerd zijn.

Herhaal deze iteratie tot de verificatie bevredigend is afgesloten. Draag vervolgens de Out-
put-condities over naar het volgende deelprobleem.

Een dergelijk model staat in Twente wel bekend als een Gewenst Handelingsverioop (GHV).
Het geeftzonder meer inzicht in het programmeergedrag van experts, maar toch lijkt een tweetal
kanttekeningen op zijn plaats. In de eerste plaats zou ik hier niet van een cognitieve taakanalyse
spreken, omdat het uitvoeren van de programmeertaak geen.szins in termen van cognitieve,
psychologische processen wordt beschreven (bv., mentale operaties en beslissingen). Ten tweede
wordt vrijwel geheel voorbij gegaan aan het feit dat experts in het methodisch programmeren
slechts in staat zijn om een dergelijke heuristische, top-down aanpak te volgen omdat zij be-
schikken over een uitgebreid repertoir van sterk georganiseerde kennisstructuren. Zo is uit de
literatuur bekend dat experts lijken te beschikken over schemata die problccmkcnmcrken kop-
pelen aan oplossingsmethoden en stereotype patronen van programmacode. Juist dankzij een
hiërarchie van deze schemata of "programmccrplanncn", waarbij hogere plannen relatief taal-
onafhankelijk zijn en lagere plannen meer taai-afhankelijk, zijn zij in staat om problemen
stapsgewijs te verfijnen. Omdat deze relatie tussen GHV en vereiste kennisstructuren door
Tromp niet verder wordt uitgewerkt blijft het gepresenteerde model voor expertgedrag toch wat
oppervlakkig.

In Hoofdstuk 5 wordt vervolgens een model gepresenteerd van beginnersgedrag bij het
methodisch programmeren. Tromp geeft op basis van een literatuurstudie ccn overzicht van de
problemen die beginners ondervinden bij het programmeren en de factoren die hieraan bijdra-
gen. Centraal in dit overzicht staat de neiging van beginners om snel en slordig te programmeren
(Tromp noemt dit de "hackers"-aanpak). Zij coderen hierbij delen van de oplossing voordat
deze in zijn geheel is uitgewerkt. Slordige, niet-optimaal gestructureerde en nict-robuuste
programma's vormen het re.sultaat.

-ocr page 179-

Boekbesprekingen 173

Interessant is een experiment dat in dit verband besproken wordt naar "protoprogrammeren":
het schrijven van programma's in natuurlijke taal. Een zestal aankomende studenten met géén
of weinig programmeerervaring kreeg de opdracht om, hardop denkend, tot een oplossing in het
Nederlands te komen voor een slecht-gestructureerd, vrij complex programmeerprobleem. Op
basis van een analyse van de protocollen concludeert Tromp dat de probleemaanpak overeen-
komt met de snel-en-slordig aanpak zoals die ook bij "echt" programmeren door beginners
wordt aangetroffen. Daarnaast waren de protocollen erg uitgebreid (11 tot 22 getypte pagina's)
en de tijd die nodig was om de oplossingen te bereiken lang (1 tot 2 uur). Tromp schrijft deze
resultaten toe aan het slecht-gestructureerde karakter van het gebruikte probleem. Hij spreekt
het vermoeden uit dat de zaken er anders voor zouden staan bij het gebruik van goed-gestructu-
reerde problemen: "...this kind of task would then demonstrate more clearly the usefulness of
including natural language specification in programming instruction..." (p. 47). Het blijft echter
onduidelijk waar deze verwachting op steunt. De conclusie dat het specificeren van oplossingen
in natuurlijke taal niet zonder meer een bijdrage kan leveren aan programmeerinstructie lijkt
vooralsnog meer voor de hand te liggen.

De volgende hoofdstukken presenteren een model van de leer- en onderwijsprocessen die ten
grondslag liggen aan, of ondersteunend zijn voor, de overgang van beginners- naar expengedrag.
Hoofdstuk 6 beschrijft drie fasen in het leerproces, zoals deze ook in het bekende ACT'-model van
John R. Anderson onderscheiden worden. In de declaratieve kennisfase maakt de lerende zich
nieuwe kennis eigen en gebruikt zeer algemene probleemoplosmethoden om op basis van deze
nieuwe kennis oplossingen voor problemen te vinden; dit is een moeizaam en langzaam proces
waarbij veel fouten gemaakt worden. In de procedurele kennisfase wordt declaratieve kennis
omgezet in een procedurele vorm zodat domein-specifieke methoden ontwikkeld worden om
problemen op te lossen; deze versnellen het oplossingsproces waarbij ook steeds minder fouten
gemaakt worden. In dc derde en laatste fase vindt ccn fijnafstemming ("tuning") van dc procedurele
kennis plaats, waarbij veel gebruikte cn met succes toegepaste procedures steeds verder versterkt
worden. In Hoofdstuk 7 worden vervolgens een zestal primaire onderwijsfuncties gekoppeld aan
dc drie fasen in het leerproces. Het betreft dc functies: (1) activatie van relevante voorkennis, (2)
pre.scntatic, (3) begeleide oefening, (4) terugkoppeling, (5) onafhankelijke oefening cn (6) vast-
stelling van het geleerde. Tromp geeft op basis van dc aldus ontstane 3x6 matrix op heldere wijze
ccn nadere specificatie van dc activiteiten die door dc doccnt cn de studenten uitgevoerd moeten
worden om van beginnersgedrag tot expertgedrag tc komen.

Om het tc ontwerpen onderwijs goed tc kunnen laten aansluiten op het nivo van dc doel-
groep wordt in Hoofdstuk 7 ook ccn tweede experiment naar "protoprogrammeren" besproken.
Het streven is om taakgedrag op het spoor tc komen dat relevant is voor instructie, bijvoorbeeld
om dc kloof tussen het gebmik van natuurlijke taal cn programmeertaal tc dichten. Een groep
van 76 eerstejaars studenten kreeg een gocd-gcstructurccrd maar vrij complex programmeer-
probleem aangeboden, waarvoor zij in het Ncdcriands ccn oplossing moesten uitwerken. Op
basis van ccn analy.sc van dc oplossingen rapportccn Tromp dat studenten die procedures
uitschrijven in natuurlijke taal tot op zekere hoogte gebmik maken van "besturingsuitspraken"
zoals die ook in programmeertalen gebruikt worden (ongeveer 16 procent van alle uitspraken
heeft vormen zoals Ga Naar..., Als...Dan, Zolang Als..., Ga Door Totdat... etc.). Daarnaast blijkt
dat studenten met enige programmeerervaring twee keer zoveel besturingsuitspraken gebruiken
als studenten zonder ervaring. Wat betekenen deze resultaten? Tromp meent dat "...as implied
by these results, the focus of introductory programming instruction should thus bc on the
development of highly stmctured solutions. long before the u.sc of programming language is in
order" (p. 71 -72). Er lijkt hier géén sprake tc zijn van ccn rechtstreeks verband tu.ssen resultaten
cn conclusie. Op dc hypothese die werd geformuleerd naar aanleiding van het eerste experiment,
namelijk dat dc sncl-cn-slordig aanpak bij gocd-gcstmcturccrdc problemen minder ccn rol zou
spelen dan bij slccht-gcstmcturccrdc problemen, wordt niet meer tcmg gekomen. Dc opbrengst
van de twee experimenten naar protoprogrammeren blijft zo toch beperkt. Het eerste experiment
leidt tot een hypothc.sc die niet verder onderzocht wordt; het tweede experiment leidt tot ccn
conclusie die niet duidelijk ondersteund wordt door dc resultaten.

-ocr page 180-

174 Boekbesprekingen

Tenslotte wordt in Hoofdstuk 7 nog een aantal overwegingen gepresenteerd met betrekking
tot de presentatie en de oefening van feitelijke en heuristische kennis. Wat het onderwijzen van
de feitelijke kennis betreft, signaleert Tromp noch voor de presentatie noch voor de oefening
veel problemen. Evenals in Hoofdstuk 4 wordt hier echter weer voorbij gegaan aan de rol die
programmeerplannen (stereotype oplossingspatronen voor bepaalde deelproblemen) lijken te
spelen. Dat is jammer, omdat verschillende auteurs van mening verschillen over de
onderwijsbaarheid van deze schemata. Sommigen menen dat de plaruien "direa" onderwezen
kunnen en moeten worden; anderen menen dat lerenden geconfronteerd moeten worden met een
grote hoeveelheid voorbeeldproblemen en gerelateerde voorbeeld-oplossingen teneinde zelf,
door middel van inductie, schemata te verwerven. Wat het onderwijzen van de heuristische
kennis betreft maakt Tromp een onderscheid tussen SPA-instnictie (het onderwijzen van een
Systematische Probleem Aanpak), domein-gerichte benaderingen (het gebruik van programma-
structuurdiagrammen of stroom-diagrammen bij het programma-ontwerp) en het onderwijzen
van strategische kennis (het presenteren van algemene heuristieken). In het vervolg van het
proefschrift wordt duidelijk dat de door Tromp gekozen benadering vooral het karakter van
SPA-instructie heeft.

Hoofdstuk 8 beschrijft de ontwikkeling van de procedure vooreen systematische probleem-
aanpak bij het methodisch programmeren. Deze procedure neemt een centrale plaats in binnen
de cursus. De ontwikkeling van de procedure is te zien als de omzetting van het descriptief
model voor expertgedrag naar een prescriptief model voor beginnersgedrag. De activiteiten
zoals experts deze uitvoeren worden nader gespecificeerd en geformuleerd op een manier die
begrijpelijk is voor beginners (didactische verbijzondering). Tromp beschrijft hoe de omzetting
in een drietal iteraties heeft plaats gevonden, waarbij de systematische aanpak steeds formatief
werd geëvalueerd op basis van commentaren van experts, ervaringen van studenten en door
docenten ingevulde vragenlijsten.

De gevolgde benadering, waarbij een descriptief model voor expertgedrag wordt omgezet in
een te onderwijzen model voor beginners, is een heldere benadering die echter niet altijd zonder
gevaren is. Verschillende auteurs hebben er op gewezen dat wat goed is voor expens, niet per
definitie goed is voor beginners. Tromp lijkt zich niet altijd van dit gevaar bewust. Ter illustra-
tie het volgende. Tromp stelt naar aanleiding van de systematische probleemaanpak dat "...the
purpose underlying many of the procedural directions was [...] to keep working memory load
within acceptable limits" (p.94). Nu is het zeker aannemelijk dat dc systematische probleem-
aanpak bij experts tot een reductie van de vereiste mentale inspanning leidt, omdat zij immers
op elk dccompositie-nivo beschikken over de noodzakelijke kennis (zoals procedures om problemen
te herformuleren en programmccrplanncn) om het probleem stapsgewijs verder te kunnen ver-
fijnen. Het is echter goed denkbaar dat beginners, domweg door ccn gebrek aan benodigde
kennis,
niet in staat zijn om dc systematische aanpak te volgen. In dat geval zal cr ook géén
sprake kunnen zijn een vermindering van dc vereiste mentale inspanning.

In Hoofdstuk 9 wordt dc ontwikkeling van dc gehele cursus (ontwerp, implementatie cn
formatieve evaluatie) stapsgewijs beschreven. Drie cursusdoclcn vormen het uitgangspunt voor
het ontwerp van de cursus. Het belangrijkste doel is het leren hanteren van dc systematische
probleemaanpak. Andere doelen betreffen het Ieren representeren van oplossingen voor
programmeerproblemen in de talen Pascal cn Assembler cn het leren omgaan met computers cn
besturingssystemen. Vervolgens worden dc gehanteerde werkvormen nader gespecificeerd
(hoorcolleges, werkcolleges, zelfstudie cn praktica) cn dc gebruikte instructiematerialen be-
schreven. Het grootste deel van dc nieuw ontwikkelde materialen heeft betrekking op dc syste-
matische probleemaanpak; ook wordt ccn beschrijving gegeven van dc gebruikte studieboeken
voor Pascal cn Assembler. Daarnaast wordt de ontwikkeling van dc oefen- en toctsopgavcn
besproken. Bij dc toctsopgavcn wordt ccn onderscheid gemaakt tussen theoretische cn praktische
opgaven. Bij dc theoretische opgaven moeten kleine programmeerproblemen opgelost worden
zonder gebruik te maken van de computer. Bij dc praktische opgaven moeten relatief grote
programmeerproblemen opgelost worden, waarbij ook ccn uitgebreide testfase op dc computer
plaats vindt. Dc criteria voor de beoordeling van dc toctsopgavcn worden grotendeels afgeleid

-ocr page 181-

Boekbesprekingen 175

uit de procedure voor de systematische probleemaanpak. Tenslotte wordt een beschrijving ge-
geven van een aantal formatief-evaluerende activiteiten die werden uitgevoerd om de ontwikkelde
materialen te optimaliseren.

In Hoofdstuk 10 wordt uitvoerig verslag gedaan van een summatieve evaluatie van de
ontwikkelde cursus. Deze evaluatie is beslissings-georiënteerd; hoofddoel is na te gaan of er
voldoende evidentie is voor de effectiviteit van de cursus om deze in het onderwijs te (blijven)
gebruiken. Tromp vergelijkt, gebruikmakend van een quasi-experimenteel design (het zg. "cohort
design"), de nieuw ontwikkelde cursus (studiejaar '85-'86, 89 studenten) met de oude, te ver-
vangen cursus (studiejaar '83-'84,76 studenten). De groepen studenten die de oude cursus en de
nieuwe cursus volgden worden na vergelijking op een aantal variabelen (o.a. vooropleiding,
programmeerervaring, leeftijd, gemiddeld examencijfer) gelijkwaardig geacht.

Vergelijking van de groepen vindt plaats op basis van een tweetal toetsen die theoretische
opgaven bevatten. Bij deze toetsen, die overigens niet identiek waren voor beide cursussen,
moesten de studenten onder andere Pascal programma's schrijven zonder gebruik te maken van
een computer. Tromp spreekt hier van een
taai-effect. Op de eerste toets werden bij de nieuwe
cursus hogere cijfers gehaald dan bij de oude cursus (resp. 7.5 en 7.0). Op de tweede toets
werden bij de nieuwe cursus juist lagere cijfers gehaald dan bij de oude cursus (resp. 6.5 en 7.9).
Tromp geeft als verklaring voor het tweede, negatieve resultaat dat de participatie-graad bij de
tweede toets significant lager was bij de oude cursus (80%) dan bij de nieuwe cursus (90%). Met
andere woorden, bij de oude cursus zouden veel zwakke studenten (20%) niet hebben deelgeno-
men aan de tweede toets en daarmee het gemiddelde cijfer voor deze toets verhoogd hebben.
Tromp gaat echter voorbij aan het feit dat het grote verschil in scores hiermee niet geheel
verklaard kan worden. Een eenvoudige berekening leert dat de 20 procent afwezigen een gemiddeld
cijfer lager dan een 1 had moeten halen om tot een totaal gemiddelde tc komen dat net zo laag is
als dat voor de nieuwe cursus. Afgezien hiervan lijkt het zoeken van verklaringen wat overdreven.
Over beide theoretische toetsen vinden wc ccn gemiddeld cijfer van 7.0 voor de nieuwe cursus
en 7.4 voor dc oude cursus (deze data kunnen worden afgeleid uit Tabel 10.5). Gegeven dc
zwakte van het gebruikte design en het feit dat bij beide cursussen andere toetsen cn beoorde-
laars gebmikt werden kan men dan weinig anders doen dan concluderen dat er geen groot
verschil in het nadeel van de nieuwe cursus is.

In de summatieve evaluatie wordi, naa.st aandacht voor een taal-cffect, ook ruime aandacht
geschonken aan ccn
aanpak-cffcct. Hierbij gaat het om de vraag of dc nieuw ontwikkelde cursus
bijdraagt aan het uitbannen van de snel-en-slordig aanpak. Bij het vaststellen van dit effect is
géén gebruik gemaakt van een experimenteel design: Er is noch sprake van randomisering noch
van ccn controlegroep. Tromp merkt dan ook terecht op dat de verkregen re.sultaten met enige
voorzichtigheid bezien moeten worden. Dc resultaten worden verkregen op basis van een bestu-
dering van een vijftal praktische, relatief grote cn complexe oefenopgaven. waarbij in tegenstel-
ling tot dc theoretische toetsen ook de computer gebruikt werd. Er wordt een groot aantal
gegevens geprc.scntccrd met betrekking tot de leerresultaten cn dc zg. fasc.scorcs. die betrekking
hebben op de drie fasen Ontwerp. Implemcniatie cn Test. Tromp's algemene conclusie op basis
van de gepre.senieerde gegevens luidt dat de studenten het er in de ogen van de beoordelaars heel
redelijk afbrengen wat betreft het dooriopcn van de fasen en stappen uit de procedure voor
systematische probleemaanpak. Om tot deze conclusie te komen dreigt Tromp zich echter wel
eens tc verliezen in ingewikkelde interpretaties, die steun moeten verlenen aan de effcctivheit
van de cursus. Zo stelt hij bijvoorbeeld dat "...meer dan driekwart van dc deelnemers voldeed
aan de norm voor dc opgaven. Vijfentachtig procent van hen behaalde ccn eindcijfer van ten-
minste 7.5. terwijl alle studenten die alle opgaven hadden gemaakt op één na slaagden. Op
grond van het naar verhouding hoge eindcijfer dat door dc meeste geslaagden wcixl behaald,
werd geconcludeerd dat tenminste tweederde van alle deelnemers daadwerkelijk de methodi-
sche probleem-aanpak van de cursus hadden gevolgd" (samenvatting, p. 192).

Het kernprobleem dai Tromp ondervindt bij het ondubbelzinnig vaststellen van een aanpak-
effect is het onibrcken van een duidelijk referentiepunt. Bij het afwezig zijn van een controle-
groep zou een dergelijk referentiepunt gezocht kunnen worden in ccn uitputtende lij.st van

-ocr page 182-

176 Boekbesprekingen

vooraf gespecificeerde leerdoelen of "performance objectives". Omdat echter ook een derge-
lijke specificatie ontbreekt, loopt men het risico dat verzamelde gegevens, bij gebrek aan een
referentie, maar zo "positief' mogelijk geïnterpreteerd worden. Gegeven het doel van de uitgevoerde
evaluatie (beslissen of de ontwikkelde cursus geschikt is om te blijven gebruiken in het onder-
wijs) moet men concluderen dat deze redelijk is uitgevoerd. Vanuit een theorievormend oog-
punt is de evaluatie echter beslist niet acceptabel, waarmee ik bedoel dat men op basis van de
verzamelde gegevens redelijkerwijs géén conclusies kan trekken over de kwaliteit of doelmatig-
heid van de achterliggende theorie of gehanteerde ontwerp-principes.

Dat brengt mij bij een laatste afsluitende opmerking. Het proefschrift biedt zonder meer een
goede illustratie hoe men, op basis van inzichten uit de psychologie van het programmeren en
gebruikmakend van ecn systematische ontwerpmethodiek, tot verbetering van bestaand onder-
wijs kan komen. Maar het proefschrift heeft jammer genoeg niets nieuws te bieden voor de
theorievorming op het gebied van de psychologie en de didaktiek van het programmeren.

Jeroen J. G. van Merriënboer
Universiteit Twente
Vakgroep Instructietcchnologie
Postbus 217
7500 AE Enschede

Jan J.F. van Leeuwe (1990). Probabilistic Conjunctive Models. Contributions to Multidimensional
Analysis of Binary Test Data.
Proefschrift K.U.Nijmcgcn. (promotor: Prof.dr.E.E.Ch.I.Roskam).

De laatste jaren is in de Nederlandse psychometric opvallend vccl aandacht aan itcm-rcspons
theorie besteed. Behalve in ecn niet afiatendc stroom artikelen komt dit ook tot uiting in ecn
respectabel aantal proefschriften. Met het gevaar er enige tc vergeten, noem ik Kelderman
(1987), Sijtsma (1988), Glas (1989), Engelen (1989), Boekkooi-Timminga (1989) en Hoijtink
(1990). Recentelijk is aan deze reeks het proefschrift van Jan van Leeuwe. het hoofd van dc
afdeling Researchtechnische Dienstverlening van de Pedagogische Wetenschappen van de
Katholieke Universiteit Nijmegen, toegevoegd.

De in het proefschrift behandelde probleemstelling is dc volgende. De meeste itemrespons-
modellen, zoals het Rasch model cn het Bimbaum model, hebben ecn unidimensioneel karakter,
dat wil zeggen dat itemparameters cn persoonsparameters op ccn unidimensionele schaal lig-
gen. In veel gevallen is cr met behulp van ccn unidimensioneel itcmrcspons-modcl geen acccptabclc
representatie van de data te construeren. Daarom is het gewenst dat men kan beschikken over
multidimcnsionclc itcmrcspons-modclicn. waarbij men de data probeert tc beschrijven door
items en personen tc karakteriseren met punten in ccn multidimcnsionclc ruimte. In hoofdstuk 1
van het proefschrift wordt opgemerkt dat dc meeste beschikbare multidimcnsionclc itcmrcspons-
modclicn van compensatorische aard zijn. In dc dctcrmini.sti.schc versie van deze modellen
wordt cr vanuit gegaan dat ccn persoon voor het geven van ccn goed antwoord op ccn item ccn
lage vaardigheid op een dimensie kan compenseren door ccn hoge vaardigheid op ccn andere
dimensie. In dc mee.stc stochastische versies van compensatorische modellen is dc kans op ccn
goed antwoord positief geassocieerd met dc, eventueel gewogen, som van dc vaardighcidspa-
rametcrs op dc verschillende dimensies.

Dc auteur onderzoekt een andere klasse van modellen, namelijk dc conjuncticvc cn di.sjuncticvc
modellen. Stel dat het model m dimensies heeft. De positie van persoon v in de m-dimcnsionclc
ruimte is gegeven door de coördinaten

0y - (0y/... •. 0v„). de positie van item i is gegeven door

5, = .....5^). In het deterministische conjuncticvc model geeft ccn persoon ccn goed

-ocr page 183-

Boekbesprekingen 177

antwoord als op iedere dimensie de persoonsparameter groter is dan de itemparameter, dus als

> 5.J voor alle dimensies j = l,...,m.

In een deterministische disjunctief model moet, voor het geven van een juist antwoord, er
tenminste een dimensie zijn waar de persoonsparameter Q^j groter is dan de itemparameter Het
is echter zelden mogelijk alle geobserveerde antwoordpatronen te representeren in een ruimte
van een redelijk lage dimensionaliteit, zeg in twee of drie dimensies. Met andere woorden,
deterministische conjunctieve en disjunctieve modellen van een lage dimensionaliteit zijn zel-
den houdbaar. In het proefschrift worden daarom enige stochastische varianten van deze model-
len voorgesteld. Omdat eigenschappen van disjunctieve modellen eenvoudig te vertalen zijn
naar conjunctieve modellen wordt in het proefschrift vooral de laatste klasse van modellen
behandeld.

Het eerste model dat bestudeerd wordt, is voorgesteld door Levy. In deze versie van het
conjunctieve model moet, voor de twee-dimensionele variant, de oppervlakte die een antwoord-
patroon in de ruimtelijke voorstelling van het model inneemt, evenredig zijn met de frequentie
waarin het antwoordpatroon in de data voorkomt. In het twee-dimensionele model woidt een
persoon gekarakteriseerd door twee persoonsparameters, en Er wordt verondersteld dat
deze twee parameters statistisch onafhankelijk zijn. Van Leeuwe bewijst dat als men een acceptabele
ordening van de items op de beide dimensies geconstrueerd heeft, deze ordening onafhankelijk
is van de verdeling die men voor de persooonsparameters gepostuleerd heeft. Dit resultaat lost
het probleem van de uniciteit van de oplossing echter maar gedeeltelijk op. In de Figuren 2.7 en
2.8 van het proefschrift wordt een voorbeeld gegeven van twee alternatieve ordeningen van
items over dimensies die een even goede oplossing bij een gegeven datamatrix voorstellen. Het
probleem van de uniciteit van dc oplossing is dus maar gedeeltelijk opgelost.

In Hoofdstuk 3 (ccn overdruk van Methodika, 1987, Vol.1, pp. 155-175) wordt een door dc
auteur voorgestelde generalisatie van het model van Lcvy behandeld. In dit model wordt veron-
dersteld dat dc kans op het geven van ccn goed antwoord een stapfunctic is. Als, voor alle
dimensies, dc persoonsparameter dc itcmparamctcr overtreft, is dc kans op het goed antwoord
op item i gelijk aan (i,. Als dit niet het geval is, is dc kans op ccn goed antwoord a., met a. < P,..
Dit betekent dus dat ook als de persoonsparameters dc itemparameters niet in alle dimensies
overtreffen, cr toch ccn (kleine) kans a. is dat de persoon het item goed maakt. Er wordt ccn
schattingsmethode voor dc itemparameters 6,, a, cn p. voorgesteld, die gebmik maakt van de
veronderstelling dat dc persoonsparameters per dimensie uniform verdeeld zijn. Ook hier wordt
verder weer verondersteld dat dc dimensies onafhankelijk zijn.

In hoofdstuk 4 wordt opgemerkt dat het een manco van het hiervoor beschreven model is dat
dc kans op ccn juist antwoord niet afhankelijk is van dc afstand tussen dc positie van ccn item
5. cn de positie van ccn persoon 0^,. Daarom wordt voorgesteld de kans op ccn juist antwoord als
volgt tc modelleren. Stel dat het model twee dimensies heeft. Dan wordt dc kans dat persoon v
ccn goed antwoord geeft op item i gegeven door

met = min - 6.,), -5^)). Dus is het minimum over dimensies van dc afstand tu.ssen
dc itcmcoördinaat cn dc pcrsoonscoördinaat. Van Lceuwc laat zien dat dit ccn redelijke verta-
ling van het deterministische conjunctieve model in stochastische termen is. Verder wordt dc
veronderstelling ingevoerd dat dc persoonsparameters cn onafhankelijk cn nomiaal ver-
deeld zijn, met gelijke varianties. Vervolgens wordt cr ccn grootstc-aanncmclijkhcids-
schattingsproccdurc uitgewerkt. Met ccn aantal simulatiestudies wordt aangetoond dat het voor
de schattingsprocedurc ontwikkelde computerprogramma DISCON bevredigend werkt. In
hoofdstuk 5 laat dc auteur verder zien dat dc schattinsproccdurc redelijk robuust is tegen schen-
ding van dc veronderstelde verdeling van persoonsparameters: dc rangorde van dc itemparameters
op dc dimensies wordt mcc.stal goed gereproduceerd. Verder blijken schendingen van het model
goed tc dctcctcrcn met behulp van dc bekende chi-kwadraat toct.scn.

-ocr page 184-

178 Boekbesprekingen

In paragraaf 5.3 presenteert de auteur de disjunctieve versie van het model. Verder wordt
getoond dat het zelfs mogelijk is om een model te postuleren waarin de relatie tussen sommige
dimensies conjunctief en tussen andere dimensies disjunctief is.

In Hoofdstuk 6 wordt aan de hand van een aantal analyses op reële data getoond dat het met
behulp van DISCON mogelijk is te toetsen of het conjunctieve dan wel het disjunctieve model
op de data van toepassing is.

Als kanttekening bij het proefschrift zijn de volgende opmerkingen te maken. Enerzijds is het
proefschrift een waardevolle bijdrage aan het inmiddels omvangrijke bouwwerk van itemrespons-
theorie. Door deze bijdrage wordt de inzetbaarheid van itemrespons-theorie op haar typische
toepassingsgebieden, zoals toetsconstructie, het equivaleren van toetsen, longitudinaal onder-
zoek en onderzoek naar constructen en processen, vergroot. Anderzijds is het voorgestelde
model behoorlijk restrictief door de combinatie van de exponent min ((9,,^ -5,-^), 9^2 ^et

postuleren van gelijke varianties van de twee vaardigheidsdimensies. Als men bijvoorbeeld de
standaarddeviatie van de eerste dimensie verdubbelt, verdubbelt ook de afstand - 5-^) zodat
de minimum-functie een geheel andere betekenis krijgt. Enerzijds is de restrictieve aard van het
model geen echt bezwaar omdat een onjuiste modelspecificatie tot uitdrukking komt in een
slechte modelpassing. Anderzijds is het wel gewenst om alternatieve modellen ter beschikking
te hebben. Zo zou men de varianties van de beide dimensies vrij kunnen laten. Dit is equivalent
met het fixeren van de beide varianties en het introduceren van K^j = min (X., Xj

Dit betekent dat men het gewicht van de beide dimensies als te schatten parameter invoert. Het
aanpassen van de schattingsprocedure aan deze uitbreiding is op zich niet moeilijk. Het is echter
niet onmogelijk dat het gegeneraliseerde model moeilijk schatbaar is. hier zou verder onderzoek
op zijn plaats zijn. Een andere interessante uitbreiding van het model is het introduceren van
covariantie tussen de twee vaardigheidsdimensies. Tenslotte dient nog te worden opgemerkt dat
de eigenschappen van het model en zijn generalisaties verdere studie behoeven. Zo is nog niets
bekend over de existentie en uniciteit van de parameterschattingen, er zijn nog geen uitdrukkin-
gen voor de betrouwbaarheidsintervallen van de schauingen afgeleid en het instrumentarium
voor het evalueren van modelpassing is nog erg beperkt. Dit alles laat echter onverlet dat het
proefschrift van Jan van Leeuwe een waardevolle aanzet is die verdere uitwerking verdient.

Kees Glas
CITO

Postbus 1034
6801 MG Arnhem

LITERATUUR

Boekkooi-Timminga. E. (1989). Models for Computerized Test Construction. Proefschrift, Universiteit Twente.

Engelen, R.J.H. (1989). Parameter Estimation in the Logiuic hem Response Model. Proefschrift, Univer-
siteit Twente.

Glas, C.A.W. (1989). Contributions to Estimating and Testing Rasch Models. Procfschrif, Universiteit Twente.

Hoijtink, H.J.A. (1990). PARALLA. Measurement of Latent Traits by Proximity hems. Proefschrift, Rijks-
universiteit Groningen.

Kelderman, H. (1987). Quasi-Loglinear Models for Test and hem Analysis. Proefschrift Universiteit Twente.

Sijtsma, K. (1988). Contributions to Mokken's Nonparameteric Item Response Theory. Proefschrift, Rijks-
universiteit Groningen.

-ocr page 185-

BULLETIN

ORGAAN VAN DE VERENIGING
VOOR ONDERWIJSRESEARCH

Rcdactie-adres
Dr. P.J.J. Stijnen, Open Universiteit,
Postbus 2960, 6401 DL Heerlen.

tel. 045-762293

Jrg. 15, nr. 2

Oktober 1991

Inhoudsopgave

Onderwijsonderzoek in verandering

180

Verslag VOR-ledenvergadering 16 mei 1991

183

De fmanciön van de VOR in 1989 en 1990

185

Overzicht inkomsten cn uitgaven per 31-12-1989

186

Overzicht inkomsten en uitgaven per 31-12-1990

188

Verslag van de kascommissie over 1989 cn 1990

190

Toelichting bij agendapunt over dc divisies

191

-ocr page 186-

180 VOR Bulletin 15, 2

Onderwijsonderzoek in verandering

Toespraak ORD'91 op 16 mei 1991 te Amsterdam

van prof.dr. G. Kanselaar als voorzitter van de Vereniging voor OnderwijsResearch

Dames en Heren,

Namens de VOR (Vereniging van OnderwijsResearch) wil ik de organisadecommissie van de
ORD'91 bijzonder danken voor de inspanning die zij geleverd heeft om deze ORD weer mogelijk
te maken. Vooral de secretaris, dr. Ewoud Roede, verdient hierbij een eervolle vermelding.
Gegeven onze ervaring met Ewoud als penningmeester van de VOR heb ik er alle vertrouwen in
dat deze ORD goed zal verlopen. Ook de universiteit van Amsterdam dank voor het leveren van
deze bijdrage aan de wetenschappelijke forumfiinctie.

Ieder jaar weer neemt een universiteit de taak op zich om de onderwijsresearchdagen le
organiseren. Volgend jaar is dal de Universiteit Twente die van 22 tot 25 juni een internationale,
Engelstalige ORD organiseert in hel kader van Europa 1992.

Behalve deze jaarlijkse organisatorische inspanning blijkt de Nederlandse onderwijsresearch
ook ieder jaar weer voldoende nieuw onderzoek le kunnen presenteren om 500 tol 600
belangstellenden te trekken.

Naast waardering voor de kwaliteit van de Nederlandse onderwijsresearch is er echter ook
bezorgdheid over de omvang van hel onderwijsonderzoek door teruglopende middelen. In het
voorwoord van het programmaboek schrijft de voorzitter van de organisatiecommissie, Meijnen.
dal het ministerie van O&W slechts 0.07% van zijn budget aan onderzoek besteedt. Hel betreft
hier onderzoek op hel vakgebied van het ministerie van O&W. Ik denk dat ieder bedrijf met een
omzet als die van MOW weinig overievingskansen heeft als zij ook minder dan 0.1% aan
research zou besleden.

In de afgelopen paar jaren is alleen al hel onderzoeksgeld dal via art. 73 van de WOV (wel op
de onderwijsverzorging) door O&W besleed werd aan onderwijsonderzoek mcl ruim 5 miljoen
gulden terug gelopen. Dc uilwerking van de bezuinigingen op dc onderwijsverzorging die in de
Tussenbalans werden aangekondigd is nog niel bekend, maar zullen niel voorbij gaan aan de
onderwijsresearch.

De discussie over de onderwijsrc.search dient echter principiëler le zijn dan over de hoogte
van het onderzoeksbudget. Veel meer ter discussie dienen dc criteria le staan die gehanteerd
worden bij de bezuiniging. In de discu.ssie over de bezuinigingen worden twee criteria genoemd.
Dil zijn onderwijsnabijheid en vraagzijde. Onderwijsnabijheid wil zeggen dat gefinancierd
wordl wal nuttig blijkt te zijn voor school X in plaats Y. Vraagzijde wil hier zeggen dal de
afnemer bepaalt wal onderzocht moet worden. Indien deze klantgerichtheid het enige criterium
is voor de financiering van de onderwijsresearch leidt dil tol een aantal negadeve effccien.
Indien alleen de vraagzijde gestimuleerd wordl cn niel de aanbodzijde leidt dit tot korte termijn
denken en korte termijn onderzoek. Een wezenlijke bijdrage van de onderwijsresearch dient le
liggen op het lange termijn denken over onderwijs en op theorie-onlwikkeling die de specifieke
situatie van school X in plaats Y overstijgt. Bovendien zijn dc ervaringen uit de zevcniigcr jaren
van verschillende activiieiten die mei hei woord schoolnabij t»cgonncn niet onverdeeld gunstig.
Natuurlijk dient onderzoek In hel onderwijs plaats tc vinden en moei er samengewerkt worden
met mensen in de onderwijspraktijk. Maar dal is iels anders dan alleen ddi onderzoek financie-
ren waarbij dc vraag geformuleerd wordl vanuit de onderwijspraktijk. Het moeilijkste in onder-
zoek is het formuleren van ccn goede probleemstelling. Onderwijsonderzoekers die hiervoor
zijn opgeleid, worden niel of nauwelijks bij het proces van probleemformulering betrokken.
SVO probeert binnen hel kader van de WOV zijn laak in het vcrcdelingsproccs van de
onderzoeksvraag onder grote tijdsdruk waar le maken. Er is waardering voor dc manier waarop
zij dil doel. Dit neemt niet weg dal cr iets fundameniccl foul zit in het systeem als de formule-

-ocr page 187-

 VOR Bulletin 15. 2 181

ring van de onderzoeksvraag gemonopoliseerd wordt door de WOV erkende instellingen buiten
de onderzoekers.

M.i. dienen de criteria onderwijsnabijheid en vraagzijde slechts voor een deel van het
onderzoeksbudget gehanteerd te worden en dient er voldoende ruimte te zijn voor lange
termijnonderzoek en voor theoriegericht onderzoek.

Naast het leveren van kritiek op de WOV en de bezuinigingscriteria wordt ook op andere
manieren geprobeerd deze situatie te verbeteren. Binnen het bestuur van de SVO wordt de
laatste maanden geprobeerd het principe "U vraagt en wij draaien" voor een deel om te buigen
in de richting van het bereiken van consensus over onderwerpen voor onderzoeksprogramma's
waarbij onderzoekers meer ruimte hebben in de uitwerking van de vraagstellingen.

Daamaast is de VOR bezig met de vakgroepen onderwijskunde om als organisatorische
eenheid voor interdisciplinaire onderwijsresearch bij NWO ccn grotere erkenning te krijgen. Er
dient o.i. ook onderzoeksgeld beschikbaar tc zijn waarbij groei in wetenschappelijke kennis van
de onderwijswetenschap het doel is. Dit niet vanuit het idee van wetenschappelijk onderzoek als
ccn ivoren toren, maar met Lcwin's uitspraak in gedachte, dat niets zo praktisch is als ccn goede
theorie.

Behalve dat dc bezuinigingscritcria ecn gevaar inhouden voor het wetenschappelijke aspect
van de onderwijsresearch, zit cr misschien ook ccn gemeenschappelijk belang in. Ik kan mij
voorstellen dat dc staatssecretaris met zijn cliëntgerichte benadering naa.st het zoeken van geld
om te bezuinigen hiermee ook kritiek op dc verkokering in dc verzorgingsstructuur levert. Het
stimuleren van educatieve faculteiten waarin begeleiding, opleiding, nascholing cn onderzoek
samenwerken, is hiervoor ook ccn indicatie. Natuurlijk hebben allerlei organisaties cn instellingen
in dc verzorgingsstructuur ieder een eigen functie. Vanuit dc onderwijsresearch gezien heeft
deze verkokering echter ook ccn nadeel. Voor het leveren van ecn bijdrage aan de verbetering
van het onderwijs op dc langere termijn is het samengaan van research and dcvelopmcnt vaak
nodig. Dc internationaal goede positie van Nederland op het gebied van het Iccs- cn het reken-
wiskundeonderwijs is hiervan ccn voorbeeld. Het gaat hierbij om R cn D activiteiten die al
gestart waren aan universiteiten voor dc verkokering van R en D zich in dc zeventiger jaren
doorzette. Ik denk dat het ccn goede zaak zou zijn als deze verkokering meer doorbroken zou
kunnen worden door dc SLO cn het CITO voor ccn deel van hun activiteiten ook ecn makclaarsrol
tc geven, zoals dc SVO die heeft. Zij zouden meer gebruik kunnen maken van dc expcni.sc van
o.a. onderzoekers door het uitzetten van contractactiviteiten voor ccn dccI van hun taken. Het is
echt niet wezensvreemd aan onderzoek om onderzoek tc doen door ccn situatie in tc richten
vanuit bepaalde verwachtingen om het cffcct daarvan tc onderzoeken. In dergelijk onderzoek
gaan ontwikkeling cn onderzoek hand in hand. Ondcrwijsrc.scarch heeft ook ecn ondcrwijs-
ontwerpfunctic in het kader van zowel theorievorming als onderwijsverbetering. Ontwerp van
structuur cn organisatie cn van onderwijsinhoud. Wij doen niet alleen onszelf als onderzoekers
tekort als wij ons beperken tot het beschrijven cn evalueren van wat anderen bedacht hebben cn
doen. De ruimte die cr voor onderwijsresearch overblijft tussen ontwikkeling aan dc ene kant
(dc SLO) cn evaluatie cn toetsing (het Cito) aan dc andere kant is tc gering. Er zijn voorbeelden
van samenwerking, zoals bijv. bij PPON. Meer stmcturelc maatregelen om dc verkokering
tegen tc gaan, lijken mij cchtcr gewenst. Het inzetten van ccn dccI van dc middelen van SLO cn
Cito in dc vorm van contractactivitcitcn zouden ccn aanzet kunnen geven tot meer samenwerking
in ontwikkeling, onderzoek cn toetsing.

Centraal in mijn bijdrage totnutoe heeft gestaan bezorgdheid over dc bezuinigingscritcria cn
over dc tc geringe spcclmimtc die dc onderwijsresearch in dc WOV krijgt om ccn goede bijdrage
tc leveren aan dc verhoging van dc kwaliteit van het onderwijs.

Er is cchtcr ook venrouwen, vertrouwen in de kwaliteit van dc onderwijsresearch. Als voor-
beeld noem ik dc evaluatie van het onderwijsvoorrangsbeleid. Maar ook het feit dat dc jury voor
dc VOR-prijs dit jaar twee VOR-prijzcn voor dc beste di.sscrtatic heeft uitgereikt. Vertrouwen in
de bijdrage die aio'crs cn oio'crs aan het onderwijsonderzoek kunnen leveren. Morgenmiddag
organiseert dc VOR ccn bijeenkomst met hen op dc ORD om dc informaticuitwisscling tus.scn
aio's tc bevorderen.

-ocr page 188-

182 VOR Bulletin 15, 2

Verder gaat de VOR door met de versterking van de interne structuur door het oprichten van
divisies. Op de vergadering zo dadelijk om 1 uur wordt voorgesteld 7 divisies in oprichting in te
stellen: curriculum en organisatie; leren en instructie; onderwijs en samenleving; methodologie
en onderwijsevaluatie; leraarsgedrag en lerarenopleiding; hoger onderwijs en bedrijfsopleidingen.
De eerste divisies geven een deel van de structuur van het wetenschapsgebied weer, terwijl de
laatste divisies de verbreding naar bepaalde beroepsvelden aangeven.

Gisteren las ik in de krant dat de staatssecretaris van onderwijs graag een stempel op deze tijd
wil dmkken. Als vereniging voor onderwijsresearch willen
wij helpen bevorderen dat
onderwijsonderzoekers in staat gesteld worden om zowel in betrokkenheid het onderwijs mede
vorm te geven als met kritische distantie het onderwijsbeleid te evalueren. Want educatie,
onderwijs en opleiding zijn het waard om voor te werken.

Dank voor uw aandacht.

-ocr page 189-

VOR BuUetin 15. 2 183

Verslag VOR-ledenvergadering 16 mei 1991

Aanwezig: de leden T. Batenburg, H. Brandma. J. Claessen, B. Creemers, L. de Klerk, W. van
der Linden, G. Meijnen, M. Mulder, R. Smulders. R. de Tempe.
de bestuursleden Kanselaar (voorzitter). De Glopper (penningmeester). Van Hout.
Scheerens, Verloop, Van der Werf (secretaris), Stijnen.

1. Opening/mededelingen

De voorziuer opent de vergadering om 13.00 uur.

Hij deelt mede dat de volgende ledenvergadering zal plaatsvinden op 12 december 1991 om
14.00 uur.

2. Verslag van de VOR-ledenvergadering van 18 december 1990

Naar aanleiding van pagina 2 van het verslag wordt gevraagd waar bijlage 2 is. Medegedeeld

wordt dat deze bijlage zal worden opgenomen in TOR. nr. 1, 1991.

Onder dankzegging aan de secretaris wordt het verslag ongewijzigd vastgesteld.

3. Jaarrekening 1989 en 1990

Zoals aangekondigd worden de stukken ter vergadering uitgereikt (zie dc bijlage met de
financiën van de VOR in 1989 cn 1990 cn het verslag van de kascommissie).
De penningmeester geeft ccn toelichting.

Naar aanleiding van ccn opmerking van Creemers inzake dc begroting cn dc uitgaven
voor TOR van ƒ 5.000.- doet Van Hout dc suggestie in dc toekomst ccn balans van activa cn
passiva tc maken per 1 januari van elk jaar. Het voordeel is dat dan ook ccn helder inzicht
ontstaat in dc verplichtingen die cr bestaan.

Dc ledenvergadering stelt vervolgens dc jaarrekening van 1989 cn 1990 ongewijzigd vast.
Door dc voorzitter wordt toegezegd in 1992 ccn toelichting tc geven op dc jaarrekening 1991
wat de achtergestelde inkomsten in 1990 betreft.

De kascommissie geeft in haar verslag over punt 7b het bestuur in overweging het over-
schot (op de balans over 1989) een specifieke bestemming tc geven.

Van der Linden suggereert dat het, in zo'n situatie, niet ongebruikelijk is grotere bedragen
in een fonds tc storten.

Dc voorziuer stek voor dit punt nader in het bestuur te bekijken. Uit dc vergadering wordt
opgemerkt dat cr in dc toekomst nog extra kosten komen in verband met ledenwerving cn dc
oprichting van divisies. Bovendien kan dc VOR-prijs niet geheel uit dc rente van dc SOR-
rekcning betaald worden. Ook dit fonds dient op peil te blijven.

4. Decharge kascommissie

Onder dankzegging worden Drs. H.M. Jurrius-Frans.sen cn Drs. F. Riemersma (als vervanger
van Drs. K. Mcycrs) gedechargeerd als leden van dc kascommissie.

Instellen nieuwe kascommissie

P. Span heeft zich desgevraagd bereid verklaard lid van dc nieuwe ka-scommissic tc blijven.
M. Voeten en J. Claessen zijn bereid bevonden tot de ka.scommissic toe tc treden. Dc leden-
vergadering stelt dc kascommissie in deze samenstelling in.

6. Verkiezing nieuwe secrclaris

G. van der Werf wordt bedankt voor het feit dat zij gedurende viereneenhalf jaar het
secretarisschap zo voorbeeldig heeft uitgeoefend.

Stijnen wordt voorgesteld als nieuwe secretaris. De vergadering gaat hiermee akkoord.

-ocr page 190-

184 VOR Bulletin 15, 2

7. Voorstellen inzake instelling van divisies

Zoals aangekondigd wordt schriftelijke informatie uitgereikt (zie de bijlage 'Toelichting bij
agendapunt over de divisies op de ledenvergadering van de ORD'91). Na een toelichting
door de voorzitter wordt door l5e Klerk gevraagd of het niet beter is de divisies 5 en 6 samen
te voegen tot een nieuwe divisie 'Bedrijfsopleidingen en volwasseneducatie'. Van besmurszijde
wordt gesteld dat de indeling een (reeds bestaande) pragmatische keuze is op grond van
bestaande groepen. Bovendien is deze indeling reeds in de vorige ledenvergadering aan de
orde geweest.

De ledenvergadering verklaard zich akkoord met de voorstellen die zijn opgenomen in het
uitgedeelde stuk. Het bestuur kan op de ingeslagen weg doorgaan.

8. Wat verder ter tafel komt

Er komt verder niets ter tafel.

9. Rondvraag en sluiting

Van de rondvraag wordt geen gebruik gemaakt.

De voorziner sluit - onder dankzegging - de vergadering om 13.45 uur.

-ocr page 191-

 VOR Bulletin 15. 2 185

De financiën van de VOR in 1989 en 1990

Het verslag over 1989 en 1990 bestaat uit twee delen:

a. rekening, verantwoording en balans over 1989

b. rekening, verantwoording en balans over 1990.

Voor 1989 en 1990 zijn voorde verschillende posten begrote en feitelijke bedragen weergege-
ven.

Door de sterk verlate contributie-inning in 1990 en het daarmee gepaarde uitstel van be-
paalde betalingen vertoont het betreffende jaaroverzicht veel lege plekken. Bij de toelichting is
aangegeven welke inkomsten en uitgaven betreffende 1990 zich in 1991 inmiddels voorgedaan
hebben of op korte termijn te verwachten zijn. Door deze informatie verandert het jaarverslag in
eigenlijke zin niet. Wel wordt het inzicht in de financiële toestand van de VOR er door vergroot.

-ocr page 192-

186 VOR Bulletin 15, 2

Overzicht inkomsten en uitgaven per 31-12-1989

Begroot 1989 Feitelijk 1989 Begroot 1990

Inkomsten

100 Contributie

110 Leden 45.150,— 44.082,— 45.150,-

120 Student-leden 500,— 400,— 500,—

130 IJER 4.000,- 2.852,- 3.375,—

500 SOR bijdrage 1.000,— _ 1.000,—

700 Royalties 1.800,- — 1.500,—

800 SVO subsidie

810 TOR 5.000,- 10.000,— 5.000,—

820 IJER

821 Abonnement 2.000,— — 3.375,—

822 Ling, editing 2.500,— — 2.500,—

900 Diversen

910 Rente 600,- 478,45 600,—

920 Overig — 284,28 —

Totaal in 62.550,— 58.096,73 63.000,—

Uitgaven

400 Activiteiten

410 Ledenwerving 1.000,— — 1.000,-

440 Colloquia 1.500.— 500,— 1.500.-

450 ORD progr. bock 1.500,— 2.320.— 1.500.-

500 Tijdschriften

510 TORA'OR bulletin

511 Abonnementen 38.925,— 33.711.93 37.600,-

512 Redactie 4.000.— 4.500.— 4.500.-
515 VOR bulletin 1.500.— — 500.-

520 IJER

521 Abonnementen 6.000,— 4.755.75 6.750.-

522 Ling, editing 2.500,— — 2.500.-

600 Bestuur 2.000.— 782.88 2.000.-

700 VOR-prijs 1.000.— , I.OOO.— 1.000.-

800 Lcdcnadtnin. 2.000.— 1.172.18 2.875,-

900 Diversen 625.— 145,- 450.-

Totaal uit 62.550,— 48.887,74 63.000.—

-ocr page 193-

_VOR Bulletin 15. 2_187

Balans per 31-12-1989

Saldi 31-12-1988 31-12-1989

Postgirorekening VOR 3.320.63 12.051,17

Sterrekening VOR 8.044,75 8.476,58

Plusrekening VOR 3,71 3.87

Renterekening VOR 1.548.63 1.595.09

Toelichting 1989

INKOMSTEN

110 Hoewel de betaaldiscipline van sommige leden nog wel te wensen overlaat, stemmen de

120 contributie-inkomsten vrij nauw met de begrote inkomsten overeen.

130 De in 1989 ontvangen garantiesubsidie van SVO dekt het exploitatie-tekort niet af (zie
(uitgaven 130).

500 Hier bestaat een vordering op de SOR ter grootte van ƒ 1.000.—.

700 Over 1989 zijn geen royalties over TOR ontvangen. Een verzoek daartoe is gedaan aan
Swets.

810 Van SVO is subsidie van ƒ 10.000.— ontvangen o.v.v. 1987/1988. Naspeuring in de boe-
ken en navraag bij SVO leert dat dit bedrag betrekking dient tc hebben op 1988 en 1989.
Over 1987 cn 1986 is in respectievelijk 1988 cn 1987 subsidie ontvangen.

820 Van SVO is geen subsidie voor IJER ontvangen. Een verzoek daartoe is, onder verwijzing
naar de bestaande afspraken, gedaan aan SVO.

UITGAVEN

440 Bijdrage aan TU Twente, bijeenkomst over studievaardigheden.

450 Afrekening ORD-programmaboek Leuven. 1988.

511 Betaling aan Swets voor abonnementen TOR/VOR-bullctin.

512 Redactiekosten TOR.

521 Betaling aan Pergamon voor abonnementen IJER.

600 Vnl. kosten vergaderingen bestuur.

800 Administratiekosten betaald aan SCO.

-ocr page 194-

188 VOR Bulletin 15, 2

Overzicht inkomsten en uitgaven per 31-12-1990

Begroot 1990 Feitelijk 1990 Begroot 1991

Inkomsten

100 Contributie
110 Leden
115 Aio's
120 Student-leden
130 IJER

45.150,—

500,—
3.375,—

44.280,—

265,—
1.250,—

49.500,—
2.450,—
600,—
3.825,—

500 SOR bijdrage

1.000,-

1.000.—

700 Royalties

1.500,—

1.500,—

800 SVO subsidie
810 TOR

820 IJER

821 Abonnement

822 Ling, editing

5.000,-

3.375,—
2.500,-

5.000,—

2.875,—
2.500.—

900 Diversen
910 Rente
920 Overig

600,—

518,48
400,—

600,—
150,-

Totaal in

63.000,-

16.713.48

70.000,—

Uitgaven

400 Activiteiten
410 Ledenwerving
440 Colloquia
450 ORP progr. boek

1.000,—
1.500.—
1.500,-

1.000,-
1.500,—
1.5(K).—

500 Tijdschriften

510 TOR-VOR bulletin

511 Abonnementen

512 Redactie
515 VOR bulletin

520 IJER

521 Abonnementen

522 Ling, editing

37.600,-
4.000,—
1.500,—

6.000,-
2.500,—

10.012,50

44.175,—
4.000,-
500,—

6.750.—
2.500,—

600 Bestuur

2.000,—

1.060.—

2.000,-

700 VOR-prijs

1.000,—

793.-

1.000.—

800 Ledenadmin.

2.000.—

2.875,—

900 Diversen

625,-

2.200.—

Totaal uit

62.550.—

12.974,50

70.000.—

-ocr page 195-

 VOR Bulletin 15. 2 189

Balans per 31-12-1990

Saldi 31-12-1989 31-12-1990

Postgirorekening VOR 12.051,17 15.299.60

Sterrekening VOR 8.476,58 8.966.95

Plusrekening VOR 3,87 . 4,05

Renterekening VOR 1.595,09 1.595,09»

*rente is ontvangen in eerste week 1991

Toelichting 1990
INKOMSTEN

110 Het betreft hier voorlopig resultaten van de contributie-inning over 1990. Tot aan eind

120 maan 1991 is reeds een verdere ƒ 20.000.— aan inkomsten ontvangen.

130

920 Opbrengsten uit verkoop adresbestanden tbv APC en PEDON.
UITGAVEN

511 le gedeelte betaling aan Swets voor abonnementen [2c gedeelte van ƒ 10.0(X) eveneens in
1990 betaald, vanuh vermogen SOR (zie betreffend jaaroverzicht). Restant rekening be-
taald in 1991).

600 Vcrgadcrkostcn bestuur cn bcstuurscten bij afscheid lid.
700 Betaling VOR-prijs 1988.

Feitelijke cn verwachte inkom.stcn cn betalingen m.b.t. 1990 in 1991:

Ontvangen contributies tot eind maan 20.000,—
Tc verwachten contributies 9.000.—
Tc ontvangen SVO-subsidie TOR 1990 4.500,—
Tc ontvangen SVO-subsidie IJER 1990 3.375.—
Tc goed van dc SOR 5.770,15
Tc goed royaltics Swets

779

Betaling Swets 15.250.55

Betaling IJER 6.750.—

Betaling redactiekosten TOR 4.500,-

Tc betalen administr. SCO 559,—

Tc betalen SOR 10.100.—

-ocr page 196-

190 VOR Bulletin 15, 2

Verslag van de kascommissie over 1989 en 1990

1. De kascommissie heeft de financiële overzichten over 1989 en 1990 gecontroleerd.

2. De kascommissie had bij haar werkzaamheden de beschikking over de documenten die in de
taakomschrijving van de commissie zoals opgenomen in het VOR-jaarboek 1979 worden
genoemd.

3. De controle geschiedde zoals in de onder 2 bedoelde taakomschrijving is aangegeven. Er
werd steekproefsgewijze gecontroleerd. De controle geschiedde in aanwezigheid van dc
penningmeester.

4. De commissie stelt vast dat op inzichtelijke wijze financieel verslag is gedaan.

5. De penningmeester heeft zich naar behoren van zijn taak gekweten.

6. Terzake van de rekening en de verantwoording vestigt dc commissie de aandacht op de
volgende zaken:

a. Geconstateerd wordt dat de verlate contributie-inning in 1990 cn het daarmee gepaarde
uitstel van inkomsten cn uitgaven ccn onvolledig beeld over 1990 tot gevolg heeft. Dc
commissie beveelt aan dat bij de behandeling van de jaarrekening over 1991 va.stgestcld
wordt welk deel van de inkomsten cn uitgaven 'ovcrioop' uit 1990 betreft.

b. Aanbevolen wordt de inkomsten van SVO cn Swets & Zeitlinger (royalties) met meer
regelmaat dan in het vericden te innen.

7. Terzake van de balans vestigt dc commissie dc aandacht op het volgende:

a. Het verdient aanbeveling dat dc tegoeden van dc VOR aan dc SOR cn van dc SOR aan dc
VOR in dc loop van 1991 gcncutrali.seerd worden. (In dit verband merkt dc commi.ssic op
dat het voorschot vanuit dc SOR t.b.v. de betaling van abonnementen beter via de VOR
dan rcchtstrccks naar Swets & Zeitlinger had kunnen lopen.)

b. Dc balans over 1989 bevat ccn belangrijk positief saldo. De commissie geeft het bestuur
in overweging voor aanzienlijke overschotten ccn specifieke bestemming tc zoeken.

8. Ter zake van de SOR beveelt dc commissie aan dat het bestuur nagaat op welke wijze
voorkomen kan worden dat door dc jaarlijk.sc toekenning van dc VOR-prijs ingeteerd wordt
op het vermogen van de SOR. Wellicht valt ccn jaariijk.sc bijdrage aan het vermogen van dc
SOR tc overwegen.

9. De kascommissie stelt voor dc jaarrekening over 1989 cn 1990 goed tc keuren. Eén van dc
leden van dc commi.ssic geeft in overweging dc rekening over 1990, in verband met dc
'overloop' van inkomsten cn uitgaven eerst aan het einde van het boekjaar 1991 vast tc
stellen.

Amsterdam. 15 mci 1991 Drs. H.M. Jurrius-Fransscn

Drs. F. Riemersma
Prof.Dr. P. Span

-ocr page 197-

 VOR Bulletin 15. 2 191

Toelichting bij agendapunt over de divisies op de
ledenvergadering van de ORD'91

Historie

In 1990 is een enquête onder de leden gehouden naar hun belangstelling om lid te zijn van één of
meer divisies van de VOR. Op grond daarvan is op de ledenvergadering van 18 december 1990
besloten door te gaan met het vormen van divisies, maar de besluitvorming over het instellen
van divisies uit te stellen tot de volgende vergadering nadat met de verschillende relevante
groepen overleg gevoerd is over een inweving in een VOR divisiestructuur.
In de afgelopen periode zijn gesprekken geweest met personen en besturen om tot een divisie-
indeling te komen. Op grond van deze gesprekken stellen wij voor 7 divisies in oprichting in te
stellen. Hierbij moet bedacht worden dat het mogelijk zal zijn SIG's (special interest groepen)
te vormen op bepaalde gebieden, bijv. voor Beleid, Bestuur en Beheer of voor Informatietech-
nologie. Op termijn kunnen SIG's evt. uitgroeien tot een divisie. De eerste vier divisies sluiten
meer aan bij de cognitieve structuur van het wetenschapsgebied en de laatste drie meer bij
bepaalde maatschappelijke sectoren.
Voorgestelde divisies i.o.:

1. Curriculum en Organisatie

2. Leren en Instructie

3. Onderwijs en Samenleving

4. Methodologie en Evaluatie

5. Hoger onderwijs

6. Bedrijfsopleidingen

7. Lerarenopleiding cn Leraarsgedrag.

Voorstel voor deze vergadering

Het bestuur vraagt dc Icdcn in tc stemmen met het voorstel deze divisies in tc stellen in oprich-
ting cn het VOR-bestuur te machtigen ccn vooriopig bestuur per divisie in te stellen tot de
ORD'92.

Deze voorlopige besturen krijgen tot taak dc volgende punten voor dc najaarsvergadering uit tc
werken:

- precieze naamgeving van dc divisie

- inhoudelijke afbakening te maken van het aandachts- of onderzoeksgebied

- bclcids, c.q. activiteitenplan voor dc eerst komende periode m.bt. dc ORD, nieuwsvoorziening,
publikatie-activitciten. ctc.

- ccn bijeenkomst tc organiseren van (potentiële) Icdcn van ccn divisie tussen nu en dc najaars-
vergadering van I2dcccmbcr 1991 om 14.00 uur

- voorstellen tc doen over dc organisatievorm: bestuurssamenstelling, relatie divisie - VOR-
bestuur; wijzigingen van VOR-statutcn cn reglementen voor zover nodig;

- eisen aan lidmaat.schap, contributic(hoogte) cn evt. relaties uitwerken met groepen die actief
zijn op een overeenkomstig gebied met ccn gedeeltelijk overiappcnd ledenbestand.

Het VOR-bc.stuur doet voorstellen aan cn/of heeft overleg met dc divisies i.o. met betrekking tot
tic laatste twee punten om dc ontwikkelingen in dc vcrschilicndc divisies op elkaar af tc stem-
men.

Toekomst tot najaarsvergadering

Voor de najaarsvergadering worden besluiten voorbereid m.b.t.:

a. het wijzigen of aanvullen van dc statuten cn reglementen van dc VOR; waaronder voorstellen
voor procedures voor het instellen cn ontbinden van divisies cn SIG's;

b. het instellen van de daarvoor in aanmerking komende divisies cn voor zover aan dc orde een
nieuwe bestuurssamenstelling voorstellen. Afhankelijk van dc snelheid van het proces kun-
nen besluiten hierover genomen worden op dc najaarsvergadering of op dc ORD'92.

-ocr page 198-

Ethnic Minority
Languages and
Education

ETHNIC
MINORITY
LANGUAGES

AND
EDUCATION

KOENJASFAERT
SIAAK KROON
(EDITORS)

K. Jaspaen, S. Kroon (Eds.)

All countries in which minority lan-
guages are used, are forced to
adopt some form of language
policy. They have to decide what
language can be used for what
purpose and under which circum-
stances. This volume contains a
number of papers commenting on
the position of minority languages
in education. Most of the contribu-
tions in this volume were pre-
sent^ al the First International
Conference on Maintenance and
Loss of Ethnic Minority Lan-
guages, held in the Netberiands.
In addition some leading scolars in
this field were invited to write on
selected topics. One of the most

Important points that is discussed,
is the function the minority lan-
guage should or can have In the
educational process. That discus-
sion focuses on the maintenance of
the minority language and on the
effect of maintenance on both the
group and the individual. All in all,
the contributions in this volume
deal with 26 minority languages In
15 different countries. This broad
spectrum of experiences can serve
as important background Informa-
tion for the debate on the place of
minority languages In education,
and policy-makers may use it to
learn from the successes and fail-
ures of others.


ISBN 90 265 1054 3
f 45,00,198 blz.

verkrtjgtjaai'In de t>oekhandol

S&z

SWETS & ZEITLINGER B.V.

Heereweg 347, 2161 CA Lisse, Tel. 02521-35111

-ocr page 199-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 3, pp. 193-168

Onderwijseffectiviteit: overwegingen voor een
programma van onderzoek

Bert P.M. Creemers' en Jaap Scheerens^

'RION, Instituut voor Onderwijsonderzoek, Rijksuniversiteit Groningen

^Vakgroep Onderwijsorganisatie en Management, Faculteit Toegepaste Onderwijskunde,

Universiteit Twente

ABSTRACT

Educational cffcctivcncss, a combination of school and instfuciional cffcctivcncss, is an important
field in educational research. Considerations for a program of research are outlined. The criteria for
effectiveness need aiteniion especially bccausc in rccent publications other criteria than academic
results arc suggested: the .socallcd 'multiple criteria'. A program for rcscarch should start with a
theory about student's learning. Such a theory should include cffeclivcncss enhancing characteristics
of the instructional process, teacher behaviour, the material and the organization of ihc classroom.
Al school level curricular and organizational conditions for educational effectiveness should be
examined. Preferably, these multiple levels of cffeclivcncss enhancing conditions should be included
in comprehensive models of educational cffeclivcncss. In a final paragraph considerations about
research within such a program are formulated.

INLEIDING

In tegenstelling lot de Verenigde Stalen waar de aandacht voor het effecticvc scholenonderzoek
afneemt, is die in Nederland consiani of neemt zelfs nog loc cn is de a.andachi verbreed loi
cffcctiviicil van het onderwijs, ccn combinatie van effeciievc insinictie en cffcciicvc scholen.
Op hei onderzoek is conceptucel-inhoudclijk cn mcthodologisch-icchnisch kritiek uit ic oefe-
nen. In toekomstig (Nederlands) onderzoek zouden deze tckonkomingen ondervangen moeten
worden. In deze bijdrage wordl ccn eerste aanzei daanoc gegeven.

Eerst zal nagegaan worden wal hcl belang van ondcrwijseffcciiviieiisondcrzock is binnen hei
geheel aan onderwijsonderzoek. Daaruit zal ccn aanial problemen afgeleid worden die zich in
het onderwijsonderzoek op hei terrein van ondcrwij.scffcclivitcil voordoen cn wel dc verhouding
tussen effcctcn cn effcclivileit. de ihcorciischc inzichten op dil icrrcin, cn ten slotte dc
methodologisch-technische problemen. Daarop zal in de volgende paragrafen worden ingegaan.

EFFECTIEVE SCHOLEN: EEN TACHTIGER JAREN TREND?

De vraagstelling vervat in dc litcl van dc/.e paragraaf zou bevestigend beantwoord kunnen
Worden, wanneer uitsluitend naar de congressen van dc 'American Educalional Rc.scarch
Association' (AERA) wordt gekeken.
School effectiveness was promincni in dc programma's in
de jaren lachiig aanwezig, maar hci aantal prc.scntatics over dil onderwerp ncemi dc afgelopen
jaren geleidelijk af.

In Nederland is hei cffcciicvc scholenonderzoek laicr op gang gekomen. Wel waren cr
voorlopers zoals hcl schoolloopbanenonderzoek cn dc cvalualic van ondcrwijsvcmieuwingcn
(zie Creemers & Lugihan, 1989). Vanaf 1985 is een grooi aantal publikaties verschenen over

' Postbus 1286, 9701 BG Groningen.
^ Postbus 217, 75(K) AE Enschcdc.

-ocr page 200-

194 B.P.M. Creemers en J. Scheerens

onderzoek naar effectieve scholen, waarbij het terrein langzamerhand verbreed werd naar effec-
tieve instructie en contextinvloeden op effectiviteit, soms te vatten onder de term onderwijs-
effectiviteit.

In Nederland is het schooleffectiviteitsgezichtspunt binnen het onderwijsonderzoek duidelijk
aangeslagen. Daarvoor is ecn aantal redenen aan te voeren.

1. In onderwijsonderzoek gaat het om toetsing van theorieën over oorzaak-gevolg relaties en
van middel-doel relaties in de onderwijspraktijk. Het gaat altijd om de effecten van onderwijs,
'school effects', zoals Good en Brophy (1986) dit preciseren; dit is de toegevoegde waarde
van het naar school gaan voor de leerprestaties, zoals vastgesteld op een bepaald tijdstip
(bijv. het eind van de opleiding).

2. Een tweede argument is dat het niet alleen gaat om het vaststellen van effecten, maar ook om
de aspiratie dat de effecten van onderwijs verhoogd kunnen worden. Daarbij gaat het zowel
om factoren die veel verklaren maar nauwelijks te manipuleren zijn, zoals bijvoorbeeld het
merendeel van de factoren in het produktiviteitsmodel van Walberg (1984), als om factoren
die weinig variantie verklaren maar wel tc beïnvloeden zijn (zie Ellemcrs, 1976). Soms gaat
het schooleffectiviteitsonderzoek verder door de kostprijs van effectiviteitsbevordcrendc
maatregelen in beschouwing te nemen. Dit leidt tot efncicncy-vraagstukkcn en dc beantwoording
daarvan in onderwijsonderzoek.

3. Aanvankelijk niet bij het opsporen van kenmerken die effectieve van niet-cffccticve scholcn
onderscheiden of bij het opstellen van het zogenaamde vijf factormodel, maar wel in ccn
latere fase is sprake van het zoeken in onderwijsonderzoek naar ccn meer samenhangend,
integraal model waarin variabelen zijn opgenomen die onderwijseffectiviteit of cffccticvc
scholcn zouden kunnen verklaren. Dit leidde tot dc constructie van ccn 'mastcr-modcr of
'mastcr-theory' voor schooleffectiviteit waarin meerdere factoren op meerdere niveaus van
het onderwijs zijn opgenomen (vgl. Schecrens & Creemers. 1989). De ontwikkeling van ccn
daarbij behorende analysetechniek heeft dit proccs nog versneld.

4. Dc laatste jaren is binnen dc cffccticvc scholcnbcweging sprake van ccn zekere thcorcti.schc
fundering. Dit kwam voort uit het inzicht dat ondcrwijscffcctivitcitsondcrzock in dc afgelo-
pen dcccnnia tot ontwikkeling is gekomen binnen betrekkelijk ge.scheidcn onderzoekstradities
(vgl. Schecrens. 1989) cn dat integratie ccn voorde hand liggende volgende stap zou moeten
zijn. Eén voorbeeld van deze systeemscheiding is het onderzoek naar instructicproccsscn
versus onderzoek naar leerprocessen (zie bijvoorbeeld dc kritiek van Creemers & Van der
Werf. 1988 op dit verschijnsel in ccn van dc EARLI Ncwslcttcrs). Ecn tweede voorbeeld zijn
dc tot voor kort gcschcidcn werelden van 'research on teaching' cn curriculumonderzoek.
Als ccn van dc grootste 'vondsten' werd bijvoorbeeld door Roscn.shinc (1983) ccn aantal
jaren geleden gesteld dat dc resultaten van 'rc.scarch on teaching' ondcrgcbracht zouden
moeten worden in dc ontwikkeling van methodes cn curricula in dc Verenigde Staten (dit
laatste is overigens nog steeds niet gebeurd). Ten slotte dient gewezen tc worden op dc
chronische verwaarlozing van het primaire onderwijsproces cn dc opbrengsten daarvan bin-
nen het schoolorganisatic-ondcrzock (zie bijv. Boyd & Crowson. 198.'5; Schccrcns & Stoel.
1987). Dc. in onze ogen gunstige, invloed van het schoolcffcctivitcitsondcr/.ock op dc be-
studering van schoolorganisaties is ccn vergrote belangstelling voor organisaticconditics.
welke ccn succc.svollc inrichting van instructicproccsscn kunnen facilitcrcn.

Aanzetten tot het slcchtcn van dc (sub)disciplinairc schcidswandcn. gecombineerd met ccn
multi-niveau optiek komen onder meer tot uitdrukking in integrale of 'mastcr'-modcllcn van
onderwijseffectiviteit (Schccrcns & Stoel. 1987; Schccrcns, 1989; Oakes. 1989; Schccrcns &
Creemers. 1989).

Mis.schicn is dit laatste argument wel de belangrijkste reden dat binnen onderwijsonderzoek ccn
blijvende cn voondurcnde belangstelling is voor schoolcffcctiviteit. uitgebreid tot onderwijs-
effectiviteit. Het gaat cr uiteindelijk om. gebruikmakend van het mcthodisch-tcchnischc arsenaal
dat thans beschikbaar is. het verschil in opbrcng.stcn in het onderwijs tc verklaren cn zo moge-
lijk tc beïnvloeden. Daarmee is ondcrwijscffcctivcit ccn belangrijk programma voor onderzoek

-ocr page 201-

Onderwijseffectiviteit: overwegingen voor onderzoek 195

en van wezenlijk belang voorde verdere ontwikkeling van de onderwijskunde. Zo'n programma
vormt in feite de kern van de onderwijskunde als toegepaste wetenschap.

Onderwijseffectiviteit heeft in de afgelopen periode de onderwijspraktijk beïnvloed, nadat in
studies van onder andere Brookover et al. (1979) en Edmonds (1979) de pessimistische visie op
de invloed van verschillen tussen scholen en leerkrachten op de resultaten van leerlingen was
ontzenuwd. Er is een wisselwerking ontstaan tussen de belangstelling voor de opbrengsten van
effectiviteitsonderzoek en de verbetering van de onderwijspraktijk. Voor de noodzakelijke
theoretische ontwikkeling en de empirische validering was dit niet altijd een voordeel; hiervoor
is meer rust en distantie gewenst, een gunstig neveneffect van de huidige, minder prominente
aandacht voor onderwijseffectiviteit.

In het voorafgaande zijn bij het geven van de argumenten voor het programma voor onderzoek
op dit terrein al een aantal zaken genoemd die verdere aandacht verdienen, omdat ze continue
problemen zijn. niet alleen voor het programma van onderwijseffectiviteitsonderzoek. maar
voor onderwijsonderzoek in het algemeen. Dat betreft de vraag naar effectiviteitscriteria. Wat
zijn de belangrijke effecten waarop onderwijsonderzoek zich als outputmaat zou moeten oriënteren?
Wat is de status van het theoretisch kennisbestand dat op dit moment beschikbaar is en op welke
wijze kan dit vergroot worden? Een derde probleem is de verdere ontwikkeling van de methcdologie
die op het terrein van onderzoek naar onderwijseffectiviteit noodzakelijk is.

ONDERWIJSEFFECTEN

Wanneer gecontroleerd wordt voor aanvangsverschillen komt onderzoek in de Verenigde Staten,
onder andere van Stringfield cn Tcddlic (1988). Tcddlic et al. (1989) cn in Nederland, onder
andere van Brandsma cn Knuver (1989) cn van Van de Grift (1990), tot dc conclusie dat pim.
10%. maximaal 14%. van dc variantie door school- cn klasvcrschillcn kan worden verklaard cn
daarvan slechts ccn (klein) gedeelte door dc onderzochte .school- cn klasscvariabclcn. Lockheed
cn Longford (1989) vonden in ccn secundaire analyse van lEA-gcgcvcns uit Thailand aanvan-
kelijk grotere vcrschillcn die terug tc voeren waren op .school- cn klasvcrschillcn. Wanneer
cchtcr gecontroleerd werd voor aanvangsverschillen zakte dc variantie ook in dit onderzoek tot
Plm. 10%. Het lijkt erop dat wc ons voorshands tevreden moeien stellen met deze (relatief
kleine) hoeveelheid variantie die door het school- cn klasnivcau gevonden wordt. Echter zoals
onder andere door Bosker cn Schccrcns (1989) is iKtoogd cn ook blijkens analyses van Stoel
(1980) ten aanzien van dc cffcctcn van kla.sscproottc op zittenblijven kunnen relatief kleine
ycrschillcn grote praktische implicaties hcblKn. Zo kunnen nivcauvcrschillcn tussen leeriingen
in leerprestaties oplopen tot bijna ccn jaar voorsprong of achterstand. Het iKtreft hier dc resul-
taten op landelijk gcnornjccrdc toetsen voor taal. lezen, rekenen cn wiskunde.

Nu zijn cr ook andere opbrengsten van onderwijs tc formuleren. Nog sterker, cr is altijd wel
een cffcct. lict gaat cr cchtcr om of dit vanuit het standpunt van (ondcrwijs)bclcid ccn zinvol
effect is. ccn cffcct dal maatschappelijke l>cickcnis hccfl. Reynolds (1990) bctoogi dat ook
andere maicn zoals tevredenheid van participanten met school of onderwijs belangrijk zijn.
Irinnen het .schoolcffcciivitciisondcr/ock is van oudsher voornamelijk gekozen voor leerwinst
bij voornamelijk cognitieve doelen. In dc analyse van criicriumkcu/.cs binnen (.schooI)orga-
"isaiorischc thcoricCn (zie Schccrcns. 1989; Schccrcns & Creemers. 1989). zoals satisfactie van
nicdcwcrkcrs cn het verwerven van voldoende aantallen instromende leerlingen, is l>cargumcntccrd
dat deze niet tot dc primaire doelen van ccn school behoren maar wel eventueel als ondersteunend
'cn opzichte van dc/c primaire doelen beschouwd zouden kunnen worden. Er wordt op deze
•'"rikte cn duidelijke opstelling nogal eens afgedongen.

In ccn onlangs versehenen studie van Levine cn Lezotte (1990) wordt gepleit voor het
hanteren van fonnaticvc toetsen (criterium gcrichtc) naast dc landelijk vastgestelde genormeerde
'octscn bij dc evaluatie van onderwijs in achtcrstandsituatics. Op deze toetsen is. zoals wc onder
andere weten op grond van dc ervaringen tnct het project OSM. wel meer succes tc behalen,
vooral wanneer men dan volstaat met het vaststellen van bereikte .scores (Slavenburg & Peters.

-ocr page 202-

196 B.P.M. Creemers en J. Scheerens

1989). Criterium georiënteerde toetsen hebben het voordeel dat ze dichter staan bij datgene wat
geleerd is in de klas en in de school, dan de normtoetsen die gebaseerd zijn op de eisen over wat
in de school of in de klas geleerd zou moeten worden. In tegenstelling tot criterium georiën-
teerde toetsen geven normtoetsen echter een duidelijker beeld van de resultaten die klas en
school behalen c.q. zouden moeten behalen in relatie tot 'de omgeving' (c.q. de landelijke
eisen). Bij onderwijsvoorrangsprojecten zou 'transfer' bevorderd kunnen worden door formatieve
toetsen en het onderwijsleermateriaal af te stemmen op deze landelijk genormeerde toetsen. In
feite wordt gemakkelijk gedacht over de didactische operationalisering van onderwijsdoelstellingen
en wordt de nadruk teveel gelegd op de dekkingsproblematiek in de evaluatie (zie De Groot,
1986) terwijl er aan de afstemming tussen wat getoetst en geleerd wordt weinig aandacht wordt
besteed. De operationalisatie van doelstellingen in toetsen ten behoeve van de evaluatie van het
onderwijs is een sterk technisch-instrumentele taak, de keuze van adequate leerstof, de dekking
van de doelstellingen via de gekozen inhoud en daardoor tevens van de toetsinhoud is vaak veel
lastiger omdat er veel meer keuzemogelijkheden (lijken te) zijn en de validiteit van de inhoud
veel moeilijker is vast te stellen (zie Creemers, 1987; Hoeben. 1987). Voor onderwijsvernieuwingen,
zoals het onderwijsvoorrangsbeleid, houdt dit in dat in een zo vroeg mogelijk stadium de
eindtermen in de vorm van toetsitems aan school en klas bekend zouden moeten zijn en zo
mogelijk ook het kemcurriculum, waarbinnen voldoende marges voor decentrale, verdere ont-
wikkeling en uitvoering aanwezig zijn (zie ook Van der Linden, 1989).

Een tweede probleem heeft betrekking op het benadrukken van niet-cognitieve vaardighe-
den. De benadrukking van 'multiple outcomes', is onder andere te vinden bij Levine cn Lezotte
(1990), cn Reynolds (1990). In deze publikaties wordt betoogd dat naast dc cognitieve doelen
ook effecten op niet-cognitieve doelen, zoals sociale ontwikkeling cn welbevinden, moeten
worden vastgesteld. Uit de correlaties vermeld in het onderzoek van Brandsma cn Knuver
(1989) blijkt dat effecten van effectief onderwijs op sociaal-emotioneel terrein niet dezelfde
hoeven tc zijn als op het terrein van cognitieve en instrumentele vaardigheden (zie ook Bosker,
elders in dit nummer). Dit zou een argument kunnen zijn ook andere effectmaten tc hanteren.
Zeker vanuit het odium waarmee dc effectieve .scholenbcweging is omgeven (dc school als ccn
'ouderwetse' leerfabriek), is cr ccn argument te putten om ook de effecten op nict-cogniticvc
doelen na te gaan. De prioriteitenstelling moet daarbij echter niet uit het oog vcriorcn worden.
Het bereiken van cognitieve doelen cn het verwerven van instnimcntclc vaardigheden blijft dc
voornaamste doelstelling van de school. Het behalen van die doelen gaat bovendien gepaard met
een gevoel van welbevinden bij leerlingen, zoals uit onderzoek van Stoel (1980) is gebleken.
Ook het motivatie-onderzoek geeft aanleiding om tc veronderstellen dat dc positieve rcinforcc-
mcnt, uitgaande van goede schoolcijfers, positieve cffcctcn heeft op houding cn motivatie cn
daarmee dc inzet voor toekomstige leertaken bcvorden. Dit pleit ervoor om in ccn model voor
leren op school ook sociaal-cmotionclc factoren zoals welbevinden op tc nemen als facilitcrcndc
condities ten opzichte van leerprestaties (via motivatie en/of zelfregulatie) cn als (secundair)
resultaat van onderwijs, dat weer ccn (indirect) cffcct op dc onderkenning van het belang van
leerresultaten heeft.

Ditzelfde geldt voor ccn derde probleem, namelijk het benadrukken in het kader van 'multiple
outcomes' van andere c.q. nieuwe doelen die voor het onderwijs in dc jaren negentig zouden
gelden (zie o.a. Reynolds. 1990). Ook eventuele nieuwe doelen, die in verband met maat.-ichappclijkc
ontwikkelingen cn dc opkomst van dc informatietechnologie in dc komende tijd voor het onderwijs
gesteld zullen worden, veronderstellen dat de basisvaardigheden als lezen, taal. .schrijven, rekenen
cn wiskunde, cn cognitieve doelen op het terrein van biologie cn natuurkunde door leerlingen
bereikt worden. Dit wordt ondersteund door dc ervaringen in het onderwijs aan volwassenen,
dat erop gericht is deze volwassenen ccn (nieuwe) positie op dc arbeidsmarkt tc doen verwerven.
Telkens opnieuw blijkt daar dat juist tekorten in dc bisisvaardighcdcn ccn belemmering voor
een redelijke maat.schappelijke carrière zijn (cn niet dc spccifickc beroepsoriënterende kwalificaties)
(zie bijv. Camcvalc. Gainer & Mcltzer. 1990).

Naast ondcrwij.sopbrcngstcn in de vorm van leerresultaten, zoals in het voorafgaande is
aangegeven, wordt van onderwijs doorgaans verwacht dat het compcnsccn voor aanvangs-

-ocr page 203-

Onderwijseffectiviteit: overwegingen voor onderzoek 197

verschillen tussen leerlingen. Dit geldt zeker binnen de effectieve scholenbeweging die haar
oorsprong heeft in het onderwijs aan leerlingen in achterstandsituaties. In onderzoek zal dan
ook steeds disaggregatie voor etnische herkomst, sekse en sociaal milieu dienen plaats te vinden.
Op basis van onderzoeksresultaten van Brandsma en Knuver (1989) en Reezigt en Weide (1989)
zijn er geen positieve conclusies te trekken over het zogenoemde compenserend vermogen van
het onderwijs (er zijn zelfs aanwijzingen uit Engels onderzoek, met overigens een kleine steekproef,
waaruit bleek dat het verschil tussen groepen leerlingen juist groter wordt, het zogenaamde
'Matthew effect' (Walberg, 1988), ook wel aangeduid met de term 'fan spread': 'the rich get
richer'.

De problemen voor kinderen in achterstandsituaties beginnen in een vroeg stadium, dus een
op effectiviteit gerichte schoolverbetering zal reeds in een vroeg stadium moeten beginnen. De
effectieve school zal echter ook gerealiseerd moeten worden in de hogere leerjaren van het
primair onderwijs en in het secundair onderwijs. Zoals Bosker en Van der Velden (1989) onder
andere nog eens hebben vastgesteld, doet ongelijke participatie voor sekse en sociaal-econo-
misch milieu zich ook in het secundair onderwijs voor en worden eindposities voor een belangrijk
deel ook nog in het secundair onderwijs bepaald.

FACTOREN DIE EFFECTIVITEIT BEVORDEREN:
NAAR EEN ONDERWIJSEFFECTIVITEITSTHEORIE

Op grond van verschillen tus.sen resultaten van onderzoek in de Verenigde Staten cn Europa is
geconstateerd dat dc factoren voor effectieve scholen niet zo gemakkelijk reizen van het ene
land naar hel andere. Dit heeft onder andere geleid loi de roep om beierc theorievorming en de
ontwikkeling van modellen die kunnen verklaren
waarom bepaalde faciorcn kunnen bijdragen
loi de prcslaiies van leerlingen en loi een toename van dc belangstelling voor vergelijkend
schoolcffeciiviicitsondcr/.ock in verschillende culturele cn socialc conicxtcn.

Mei gaal bij dergelijke theoriconiwikkclingcn nicl om volstrekt nieuwe ihcoricën, cr kan
namelijk ook vooruitgang geboekt worden door hei samenvoegen van deeltheorieën op diverse
terreinen. Via convergcniic van dergelijke theorieën kan ook voor theorievorming misschien het
inmiddels befaamde synergic-cffcci bcrciki worden doordat de componcnicn van dc ('master'-)
theorie meer verklaren dan dc componcnicn afzonderlijk (zie Creemers, 1991; Schccrcns, 1991).

Een dergelijke ihcoric siart mcl ccn theorie voor hel leren op school. Hei model van Can^oll
(1989) is aantrekkelijk, omdat het naa.st factorcn als doorzcningsvemiogcn. algemene begaafdheid
en aanleg voor het vak op individueel (leerling) niveau, ook wijst op de faciorcn op .school- cn
klasscnivcau. zoals dc tijd besteed aan hcl Ieren cn de kwaliteit van hei leerproces.

'Effcciicvc leertijd' cn •gelegenheid loi leren', de eerste direct en de iwccdc indircci mcl dit
ondcrwij.sIccrmodcl verbonden, hebben de afgelopen jaren in onderzoek, zoals hcl onderzoek
naar hel bchccrsingslercn (Bloom. 1984). het onderzoek naar de effeciivitcii van het
'cerkrachiengcdrag (bijv. dc Beginning Tcachcr Evaluation Study) cn hcl intemalionaal verge-
lijkend ondcr/.ock van dc lEA (Iniemalional Association for the Evaluation of Educalional
Achievement) veel aandacht gekregen en hun waarde als concepties bewezen. Hierbij moet
borden aangetekend dai in de latere uitwerkingen •gelegenheid loi Ieren' anders dan in Carroll's
oorspronkelijke formulering (1963) is opgeval als de overccnkomsi lussen dc aangeboden en de
geiocisic Iccrsiof (vgl. Pclgnim. 1989).

Tijd is ccn belangrijke variabele in hcl onderwijs; onderzoek hccfl duidelijk gemaakt hoeveel
t'jd op school vcrkwisi wordt cn niet icn goede komi aan hei leren van de leerlingen en daarmee
hei behalen van Iccrrcsuliaten. Anderzijds blijfi de leertijd, toegewezen of bcsiccd. een lege
huls. Er dient uiteraard in de lijd beschikbaar voor leren ook kwalitatief goed onderwijs le
borden gegeven.

Hei gaat er didactisch gezien om dai in dc leertijd aan de leerlingen zoveel mogelijk gelegenheid
toi Ieren geboden wordl. waannce dc leerling lecntsultaicn (de doelen. Iccrwinsi) kan bereiken.
Deze leertijd cn gelegenheid lot leren worden door een aantal componenten in de klas bepaald.

-ocr page 204-

198 B.P.M. Creemers en J. Scheerens

namelijk: de methode, de groeperingswijze en het handelen van de leerkracht, naast datgene wat
leerlingen natuurlijk zelf aan het leren bijdragen. Aan de methode c.q. het leermateriaal blijkt
onder andere op grond van onderzoek (Van den Akker, 1988) een aantal belangrijke factoren te
kunnen worden onderscheiden die het leerproces kunnen sturen binnen de beschikbare tijd. Dat
zijn onder meer:

- de hiërarchisering van de doelen, waarmee wordt bedoeld de wijze waarop leerdoelen in
volgorde bereikt worden teneinde einddoelen te bereiken;

- de gestructureerdheid van het materiaal overeenkomstig deze doelen;

- de duidelijkheid van het materiaal.

Naast het onderwijsleermateriaal wordt de effectiviteit van de instructie ook beïnvloed door de
wijze waarop de leerlingen in de klas gegroepeerd worden. Wanneer we het model van Carroll
als uitgangspunt nemen voor de opbouw van de theorie voor effectieve scholcn, dan komen
vooral groeperingsvormen in aanmerking waarin met name de tijd gevarieerd wordt c.q. het
toebedelen van leertijd plaatsvindt naar gelang de leeriingen daar behoefte aan hebben. Dit
betekent dat het beheersingsleren of daarvan afgeleide modellen de voorkeur verdienen. Daarbij
dient echter erop gelet te worden dat kenmerken, zoals toetsing, monitoring cn correctief onderwijs
gebaseerd op de toetsresultaten, bewaard blijven (Kulik & Kulik, 1989).

Uit onderzoek van Reezigt cn Weide (1989) blijkt dat de verschillende groeperingsvormen
niet leiden tot significant betere prestaties dan kla.ssikaal onderwijzen. Ze wijzen er in dc
bespreking van de resultaten op dat het onderwijsleermateriaal veelal ontbreekt, hetgeen ccn
verklaring voor de tegenvallende resultaten zou kunnen vormen.

In het onderzoek naar het gebruik van methoden (Porter & Brophy, 1988) blijkt dat ccn groot
gedeelte van het gedrag van de leerkracht niet door dc methode wordt bepaald. Het onderzoek
naar de relatie tussen het gedrag van leerkrachten cn de prestaties van leerlingen heeft ccn aantal
effectief gebleken gedragingen opgeleverd. Dc effecten worden met name in Nederlands onderzoek
niet altijd teruggevonden (zie recentelijk Westerhof, 1989). Ander (Ncdcriands) onderzoek
(Veenman et al., 1986; Van der Werf & Weide, elders in dit nummer) vormt ccn duidelijke
bevestiging van effectieve instructicgcdragingcn. Dit zijn onder meer:

- duidelijke ordening van doden door dc Iccrkracht in dc klas;

- het gebruik van advancc organizers;

- dc gestructureerdheid van dc aanbieding;

- dc helderheid van uitleg;

- het stellen van vragen;

- het inachtnemen van wachttijd (tussen vraag en antwoord);

- het evalueren van leeriingresultaten;

- het geven van feedback;

- het verschaffen van corrccticf onderwijs;

- het houden van tempo in het onderwijs;

- handhaving van ccn ordelijke cn ru.stigc omgeving inde klas.

Er zijn ondcrwijsaanpakkcn ontwikkeld die dc afzonderlijke cffccticf gebleken karakteristieken
combineren, zoals het actieve of dircctc onderwijzen (Roscn.shinc, 1983). Verder komen bij
leermateriaal, groeperingsvormen cn Iccrkrachtcngcdrag soms overeenkomstige factoren naar
voren die tot dc cffcctivitcit van het ondcrwij.s bijdragen. Dc cffcctivitcit is tc vergroten door
deze elementen cn onderdelen van het instructicproccs beter op elkaar af tc stemmen cn ccn
configuratie of arrangement van cffccticf gebleken factoren in ondcriingc samenhang samen tc
stellen. Dit principe is gedeeltelijk al uitgewerkt in het programma van Slavin 'Succcss for AH',
dat volgens dc cciste evaluatieonderzoeken inderdaad succesvol is (Slavin ct al.. 1989) cn -
overigens weinig gcstructurccrd - in dc Amerikaanse brochure 'What works', die ccn Neder-
landse vcnaling cn aanpassing voor het ondcrwij.svoorrangsbclcid heeft gekregen (Meijnen e.a.,
1991).

Wanneer dc cffcctivitcit van ecn dergelijke configuratie is vastgesteld kan. via dc methode
van
backward elimination waarbij telkens dementen verwijderd worden of via modus operandi

-ocr page 205-

Onderwijseffectiviteit: overwegingen voor onderzoek 199

waarbij achteraf gereconstrueerd wordt hoe en wat werkt, nagegaan worden welke kenmerken
meer/minder/niet bijdragen tot de effecten.

Op schoolniveau kunnen condities gecreëerd worden waardoor het onderwijsleerproces op klas-
niveau kan worden bevorderd. Een aantal elementen is hierbij van belang.

1. Het curriculum op schoolniveau - het schoolwerkplan - heeft over het algemeen weinig
invloed op datgene wat in de school en in de klas gebeurt, laat staan op de onderwijsresultaten
zoals uit onderzoek van Van der Werf" (1988) blijkt. Zij geeft in haar slotbeschouwing aan dat
het schoolwerkplan en de inhoud ervan meer in overeenstemming met de uit het schooleffec-
tiviteitsonderzoek naar voren gekomen factoren gebracht zouden moeten worden. Daarvoor
zijn een aantal belangrijke elementen te noemen.

- De opbouw van het onderwijs door de schooi over de leerjaren heen; de onderwijsdoelen
van de diverse leerjaren zouden naadloos bij elkaar moeten aansluiten.

- De wijze waarop dc leerlingen in het onderwijs gegroepeerd worden, qua niveau, tempo of
belangstelling.

- De wijze waarop de prestaties van de leerlingen gevolgd worden, 'het evaluatiebeleid'.

- De wijze waarop feedback cn correctief onderwijs worden verzorgd.

- Dc accenten, prioriteiten die dc school stelt in het onderwijs cn dc wijze waarop men die
wil bereiken.

2. Een andere belangrijke conditic die op het niveau van dc school kan worden gerealiseerd is
dc organisatie gericht op dc bevordering van het onderwijs in dc klas. In de Verenigde Staten
is dit sterk opgehangen aan het onderwijskundig leiderschap van dc directeur. In Engeland
(Mortimore et al.. 1988) blijkt dc adjunct weer van meer belang tc zijn voor de effectiviteit
van dc school. Wat belangrijker is. is dat cr professionele collegialiteit cn samenhang in het
team is, waarin aan dc bevordering van de condities voor effectief onderwijs op klasnivcau
cn ovcrdc klassen heen op schoolniveau kan worden gewerkt; dat het tot dc opdracht van dc
school gerekend wordt dat leerresultaten bereikt worden cn dat iemand of allen dat tot zijn/
haar of hun verantwoordelijkheid rekenen. Zeker in het secundair onderwijs, waar
vakgcbondcnhcid ccn grote rol speelt cn daarmee ook dc vaksecties van grote importantie
zijn. is dit ccn belangrijke conditionele factor.

Zowel schoolwerkplan al.s schoolorganisatie worden gezien als conditionele factorcn. Zij
kunnen het onderwijs in dc klas cn ovcrdc klassen heen bevorderen, zij bepalen het niet. In
deze interpretatie wordt dc relatieve autonomie van dc school (cn daarbinnen van subsystemen
als scctics. Icrarcntcams) erkend. Dit is bij alle aanwijzingen die worden gegeven in dc vorm
van eindtermen cn kcrncurriculum van belang omdat het dc verantwoordelijkheid voor on-
derwijs. voor het Ieren cn dc leerprestaties van dc leerlingen terugbrengt bij dc school cn bij
dc klas, het schoolteam cn dc afzonderlijke leerkracht,

3. Verder van dc school verwijderd zijn nog andere factorcn tc onderscheiden die weer in
relatie staan tot dc determinanten op school- cn klasnivcau. zoals het l>cnocmingsl>cIcid van
het bestuur, dc ondersteuning van het onderwijs op factorcn als cindtcnncn of dc ontwikke-
ling van ccn kcrncurriculum. dc formulering van toetsmateriaal, training in effcciicf
leerkrachtengedrag cn ontwikkeling van leerlingvolgsystemen.

Ook in dit geval kan het verschaffen van autonomie aan dc school, management op lokaal
niveau, scholen dc mogelijkheid geven om doclgcricht die condities tc realiseren cn tc kiezen
die voor dc effectiviteit van dc school cn dc klas het meest beloven. Dc configuratie voor
effectief onderwijs wordt dan in iKlangrijkc mate door dc school zelf bepaald.

Schoolkenmerken op mcso-nivcau (organisatie cn schoolcurriculum) zijn voor het cffcc-
«ivitcitsondcr/ock dus vooral interessant als onderdeel van causale nnilti-nivcau modellen waarin
ondcrwijsopbrcngstcn op Iccrlingnivcau dc criteriumvariabele vormen. Dc thcoricvonning met
betrekking tot dergelijke complexe modellen heeft vooralsnog ccn sterk eclectisch karakter.
Voor vcrschilicndc onderdelen cn sub-scts van relaties wordt ccn bcriwp gedaan op bestaande

-ocr page 206-

200 B.P.M. Creemers en J. Scheerens

aanzetten tot theorievorming. Voor een overzicht van dergelijke partiële theorieën binnen het
kader van wat ook wel wordt aangeduid als de 'nested layers' metafoor van schooleffeaiviteit
(Purkey & Smith, 1983) zij verwezen naar Scheerens (1991). Hier zal alleen kort aandacht
worden besteed aan twee conceptuele bijdragen die betrekking hebben op de werking van
organisatiecondities bij schooleffectiviteit. Respectievelijk gaat het daarbij om coördinatiemodellen
en de zogenoemde
'public choice theory'.

Coördinatie is, naast decompositie, oftewel de opdeling van werk en gezag binnen organisaties,
één van de twee centrale organisatiebegrippen. Uit de resultaten van schooleffectiviteitsonder-
zoek komt met een zekere regelmaat naar voren dat factoren als consensus binnen het school-
team, samenwerking en groepscohesie een positief verband hebben met onderwijsopbrengsten.
Even regelmatig blijkt overigens zo'n effect ook weer niet aangetoond te kunnen worden. Het
ligt voor de hand om, zoals in het voorafgaande reeds is aangegeven, de effectiviteit van de
bewust gecreëerde samenhang (coördinatie) binnen schoolorganisaties afhankelijk te stellen
van aanvullende condities. Met andere woorden, samenwerking en consensus op zich maken
een school niet effectief, terwijl het wel aannemelijk is dat consensus over een prestatiegerichte
missie van de school een positieve invloed zal hebben op de onderwijsopbrengsten. Ook is
aannemelijk dat er sprake kan zijn van een 'teveel' aan coördinatie en ondersteunende activiteiten
(bijv. overieg) ten opzichte van samenwerking en cohesie omdat de tijd en energie die daarvoor
wordt uitgetrokken afgewogen moet worden ten opzichte van de tijd en energie welke rechtstreeks
in het primaire proces c.q. het geven van onderwijs geïnvesteerd wordt.

Vanuit een praktisch en beleidsmatig oogpunt is het aanuekkelijke van effectiviteit«;bevorderende
condities op organisatieniveau, dat de beïnvloeding ervan, in vergelijking met bijvoorbeeld het
doceergedrag van leerkrachten, eenvoudiger is. Daarbij is dan nog wel ccn open vraag of
schoolverbetering via bijvoorbeeld een training van schoolmanagers ook effectiever is dan
bijscholing van alle leerkrachten. Ook hierbij zal de aard en de inhoud van dc inspanningen
gericht op een betere coördinatie bepalend zijn voor het vertrouwen dat men kan hebben in het
succes ervan. Dc vraag is nu in hoeverre bc.staandc concepties van coördinatie binnen school-
organisaties meer inzicht kunnen bicden in dc vermoedelijke effectiviteit van bepaalde varian-
ten. In dit verband zijn onder meer relevant het zogenoemde 'vuilnisvatmodcl' (garbage can
model) van organisatorische besluitvorming (Cohen, March & Olsen, 1972). het construct van
de schoolorganisatie als 'losjes gekoppeld' systeem (Wcick. 1976) cn het beeld van de school
als professionele bureaucratie (Mintzberg. 1979; Van Vilsteren. 1984). Van deze drie modellen
onderscheidt het eerste (het garbage can mcxlel) zich qua formali.scring gunstig van dc andere
twee. Het garbage can model is uitgewerkt als ccn computersimulaticmodcl, waaruit ccn groot
aantal specifieke hypothesen over de inwerking van organisaticconditics op besluitvormings-
processen kan worden afgeleid. Voortgezet simulatie-onderzoek met varianten van het garbage
can model, dat te beschouwen is als ccn model van volledig stuurloze besluitvorming, zou meer
inzicht kunnen bieden in dc verbetering die in de coördinatie optreedt bij condities als
hiërarchiscring cn verhoging van dc kennis van de panicipantcn aan dc besluitvorming.

In het concept van lo.sjcs gekoppelde systemen ligt de grondgedachte besloten dat eenheden
binnen schoolorgani.satics, hoewel niet volstrekt onalliankclijk. ccn grote mate van autonomie
hebben. Dit geldt niet alleen voor de samenwerking tussen personen, maar ook voor dc relaties
tus.scn algemene en specifieke doelstellingen, tussen dc leerstof die in algemene termen is
aangeduid in ccn .schoolcurriculum cn dc inhouden die daadwerkelijk in dc klas worden over-
gebracht. tussen dc aangeboden cn getoetste leerstof, ctc. Wcick wijst erop dat 'loose coupling'
binnen schoolorganisaties naast de meer voor dc hand liggende nadelen ook veel voordelen
heeft. Voordelen zijn ondermeer dc lage coördinatiekosten, dc flexibiliteit van deelsystemen om
zich aan tc passen bij omgevingsveranderingen cn dc arbeidssatisfactie die samengaat met een
hoge mate van zelfbepaling. Het construct van 'loose coupling' inspirecn dus tot onderzoek met
meer toegespitste vraag.stcllingcn omtrent coördinatie, namelijk naar dc optimale hoeveelheid
coördinatie, zoals gelokaliseerd in dc relaties binnen verschillende combinaties van subsy.stcmcn.

Het beeld van de .school als professionele bureaucratie is sterk relativerend ten opzichte van
dc mogelijkheden van bewuste cn doelgerichte coördinatie binnen scholen. Dc 'lijn' die scholen

-ocr page 207-

Onderwijseffectiviteit: overwegingen voor onderzoek 201

als organisaties bijeenhoudt, bestaat veeleer uit de gemeenschappelijke opleiding en encultiu-atie
van de beroepsbeoefenaren.

De conceptie van de school als professionele bureaucratie levert dus de nulhypothese die
gesteld kan worden tegenover de opvatting dat betere coördinatie de effectiviteit van scholen
kan verhogen. Deze nulhypothese kan ook worden geformuleerd als de leerkrachtseffectiviteits-
hypothese (zie Bosker, elders in dit nummer): de effectiviteit van een school wordt uitsluitend
bepaald door de effectiviteit van de afzonderlijke leerkrachten. Tevens levert het beeld van de
scholen als professionele bureaucratie het begin van een fenomenologie van de leerkracht als
professional. Dergelijke inzichten kunnen van pas komen bij pogingen om via veranderingen in
de beloningsstructuur van de beroepsbeoefenaren de effectiviteit van de organisatie te verhogen
(zie de verhandeling over de public choice theory, hieronder).

De bovengenoemde conceptuele bijdragen op het vlak van de coördinatie binnen school-
organisaties leveren een aantal aandachtspunten voor verder onderzoek binnen het school-
effectiviteitsonderzoeksprogramma, bijvoorbeeld:

- onderzoek naar optimale coördinatie-investering in verschillende soorten schoolorganisaties
(waarbij dus de gedachte verlaten is dat meer geïntegreerde schoolorganisaties simpelweg
beter zijn);

~ onderzoek naar de doelmatigheid van verschillende typen coördinatie, waarbij verondersteld
mag worden dat doelcoördinatie (het op één lijn brengen van de doelstellingen van dc
organisatieleden) binnen scholen doelmatiger is dan geformaliseerde planning of structurele
ingrepen);

- onderzoek naar de doelmatigheid van coördinatie binnen relatief autonome sub-systemen
(bijv. vaksecties in het voortgezet onderwijs) versus overall coördinatie;

- onderzoek naar de invloed van managementinformatiesystemen en output-evaluatic op dc
onderlinge afstemming binnen schoolorganisaties, waarbij verondersteld wordt dat output-
sturing beter werkt dan proces-sturing.

De economische theorie van politieke proccs.scn. meestal aangeduid als 'public choicc theory'
hc.schouwt de uitvoering van overheidsbeleid als een geheel van onvolkomen ruilmechanismen.
waarbij het erom gaat in h(x:verre dc burgers van dc overheid krijgen wat zc ervan verwachten.
Eén van de hoofdonderdelen van deze theorie is gericht op het functioneren van
organisaties in
de publieke sector. De kcmthcse is dat dergelijke organisaties inefficiënt werken, omdat de
beloning.sstnicturcn voor managers en medewerkers verkeerd zijn. Niskanen (1971) heeft aan-
getoond dat managers uit zijn op maximalisatie van hcl budget van dc eigen organisatie en op
Vergroting van de omvang van de dienstverlening (ook wanneer daar niet direct bchocfic aan
beslaat). Andere auteurs, zoals Downs (1967). Licbcnstein (1978). cn Breton cn Winirobe
(1982) hebben nader uitgewerkt op welke wijze de ondoelmatigheid van overheidsorganisaties
zich manifesiccrt. Zc wijzen daarbij op factorcn als hcl crct'ren Vcin werk voorclkaar('makcwork'
-- zie ook Masuch & Verhorst. 1987). hcl .streven naar macht, allerlei marges waarin ruimte
^ordt geboden om persoonlijke dwlcindcn na tc streven, hcl zichzelf gemakkelijk maken. etc.
De bron van alle kwaad is dai overheidsorganisaties niet onderhevig zijn aan controle via het
iiarktmechanisme. Voor zover de analogie mci een markt opgaat, is er sprake van grote onvol-
komenheden. Dc omgeving van ovcrhcidsorganisalics biedt onvoldoende prikkels om aan tc
Zetten tol een doelmatige uitvoering van dc primaire missie. In cvaluaiicmcchanismcn als sub-
stituut voor hel markimcchanismc. hchl>cn dc aanhangers van dc public choice theorie evenmin
Veel vertrouwen. Zc wijzen erop dal cr meestal te weinig geld cn deskundigheid beschikbaar is
Voor ccn grondige 'monitoring' en dat organisaties bovendien allerlei mogelijkheden hebben
Om zich tc immuni.scrcn ten opzichte van cxicmc controle. Auteurs als Michaelsen (1977),
Mann (1981). cn Boyd cn Crowson (198.'») zijn van mening dai stellingen van de public choicc
theorie over overheidsorganisaties ook opgaan voor onderwijsinstellingen. Dil worili ondermeer
gestaafd mei bevindingen uit .schoolorganisatie-onderzoek waaniit blijkt dai .schoolleiders van
openbare scholen veel meer lijd besteden aan allerlei ondcrsicuncndc (•mainlcnancc')lakcn dan
aan hei insiruciicprogramma en strategische beleidsvoering.

-ocr page 208-

202 B.P.M. Creemers en J. Scheerens

De betekenis van de 'public choice' benadering van overheidsorganisaties voor het verwer-
ven van inzicht op het gebied van het verschijnsel schooleffectiviteit is dat er een verklaringsbron
wordt gegeven voor effectiviteitsverschillen tussen scholen. Het duidelijkst correspondeert deze
verklaringsbron met de bevindingen uit de vergelijking tussen 'private' en 'public' onderwijs.
De globale remedie die deze theorie in petto heeft voor overheidsorganisaties, namelijk meer
gaan lijken op winstgerichte ondernemingen lijkt, gezien de uitkomsten van het onderzoek naar
private/public onderwijs, ook voor scholen te werken.

Wil de 'public choice' theorie het onderzoek naar schooleffectiviteit werkelijk kunnen sti-
muleren, dan zou er echter subtieler te werk gegaan moeten worden. Daarbij doen zich vier
belangrijke aandachtspunten voor: de werking van incentives voor schoolleiders en onderwijs-
gevenden, het functioneren van evaluatiemechanismen, de invloed van (bewustere) onderwijs-
consumenten en de autonomisering van onderwijsinstellingen.

ENKELE OPMERKINGEN OVER ONDERZOEK

In het voorafgaande zijn aanzetten gegeven tot de onderbouwing van een onderzoeksprogramma
op het terrein van onderwijseffectiviteit. Overwegingen ervoor en elementen ervan zijn aan de
orde geweest. In voorstellen voor SVO in het kader van het programma voor fundamenteel
strategisch onderzoek en voor NWO in het kader van de aandachtsgebieden kan verdere uitwerking
plaatsvinden voor onderzoek op meer fundamenteel niveau. Daamaast is onderzoek op het
terrein van onderwijseffectiviteit mogelijk en van belang binnen het opdrachtonderzoek. Daar
gaat het veelal om de evaluatie van vormgeving van de onderwijspraktijk op basis van kennis
over effectief onderwijs. Ten slotte zullen nog enkele opmerkingen over onderzoek binnen een
dergelijk programma gemaakt worden.

- Theorie- cn modclontwikkcling ten aanzien van schooleffectiviteit zijn nog in ontwikkeling
en op dit moment wordt op - soms tc - geïsoleerde deelgebieden onderzoek uitgevoerd. Dat is
overigens geen probleem. Snow (1972) merkt op dat de meeste theorieën verdwijnen, niet
omdat ccn bepaald onderdeel niet onderzocht is, maar omdat cr helemaal niets van is getoetst.
Toch zullen we in dc toekomst op meer aspecten (factoren, determinanten) gericht moeten
zijn. De technische uitru.sting daarvoor is ondermeer in technieken van multi-niveau analyse
voorhanden.

- Het zal daarbij in het bijzonder gaan om de interface tussen de diverse niveaus, klas-school,
school-context, leeriing-klas, etc. Het is daarbij van belang dc causale relaties te toetsen,
waardoor de empirische verificatie van schooleffectiviteitsmodellen tot stand komt.

- Daartoe zullen, naast uitbreiding van het technisch arsenaal ook opzet cn uitvoering van
experimentele studies nodig zijn, zoals Van de Grift (1990) cn Snippe (1991) op deelterreinen
hebben gedaan.

- In verband met de constatering in het voorafgaande dat factoren niet algemeen geldig lijken
te zijn, zullen internationale vergelijkende studies cn secundaire analy.scs op lEA- cn NAEP-
materiaal moeten plaatsvinden.

- Op het terrein van onderwijseffectiviteit blijven meer funderende studies relevant, waarin
gekeken wordt naar de stabiliteit van .schooleffcctcn. Ten aanzien van dc gcncralisccr-
baarheidsvraag is onderzoek naar eventuele context-spccificiteit van modellen en onderzoek
naar sub-groep gebondenheid van modellen ('differential effectiveness', vgl. Nuttall ct al.,
1989) tc noemen.

- In het kader van theorievorming zijn, zeker wanneer het terrein zo brec'd is als in het vooraf-
gaande geschetst, kwalitatieve .studies nodig, waarin processen van onderwijseffectiviteit
nader worden beschreven en geanalyseerd. Ook al kan men sceptisch zijn over dc (validiteit,
betrouwbaarheid en vooral de generalisccrbaarheid van) opbrengsten van outlier studies, in
het kader van factfinding kunnen zc ccn belangrijke bijdrage aan theorievorming leveren.

- Vanwege de mogelijke dynamiek van cffcctivitcit is het nuttig om scholcn 'in dc overgang'
te onderzoeken (van niet-cffccticf naar effectief cn van effectief naar niet-effecticO- Naast

-ocr page 209-

Onderwijseffectiviteit: overwegingen voor onderzoek 203

inzicht in effeaiviteitsdeterminanten zelf kunnen de resultaten van dit onderzoek inzicht
verschaffen in de factoren die van invloed zijn op stijging, respectievelijk daling in effectiviteit
en daarmee een bijdrage vormen aan inzichten in schoolverbeteringen en onderwijsvemieuwing.
Het zal duidelijk zijn dat de klemtoon bij al deze onderdelen niet alleen op de processen ligt,
maar met name op de relatie tussen processen en resultaten. Veel schoolvemieuwingen zijn
nog steeds processen op zoek naar een doel.

LITERATUUR

Akker, JJ.H. van den (1988). Ontwerp en implementatie van natuuronderwijs. Lisse: Swets & Zeidinger.

Bloem, B.S. (1984). The 2 sigma problem: the search for methods of group insmiction as effective as one-
to-one tutoring.
Educational Researcher, 47,4-16.

Bosker, R.J. & Scheerens, J. (1989). Criterion definition, effect size and stability, three fundamental questions
in school effectiveness research. In B. Creemers, T. Peters & D. Reynolds (eds.).
School Effectiveness
and School Improvement. Proceedings of the Second International Congress Rotterdam 1989 (p.
241-253).
Amsterdam: Swets & Zeitlinger.

Bosker, R J. & Velden, R.K.W. van der (1989). The effects of secondary schools on the educational careers
of disadvantaged pupils. In B. Creemers, T. Peters & D. Reynolds (eds.).
School Effectiveness and
School Improvement. Proceedings of the Second International Congress Rotterdam 1989 (p. 141-
157).
Amsterdam: Swets & Zeitlinger.

Boyd, W.L. & Crowson, R.L. (1985). The changing conception and practice of public school administration.
Review of Research in Education. 9, 311-373.

Brandsma, H.P. & Knuver, J.W.M. (1989). Organisational differences between Dutch primary schools and
their effect on pupil achievement. In D. Reynolds, B.P.M. Creemers & T. Peters (eds.).
School
Effectiveness and Improvement. Proceedings of the First International Congress London 1988 (p.
199-213).
Groningen/Cardiff: RIONAJniversity of Wales.

Breton, A. & Winuobe, R. (1982). The logic of bureaucratic conduct. Cambridge: Cambridge University Press.

Brookover, W.B., Beady, C., Flood, P., Schweitzer, J. & Wisenbaker, J. (1979). School social systems and
student achievement: schools can make a difference.
New York: Praeger.

Camevalc, A.P., Gainer, L.J. & Meluer, A.S. (1990). Workplace Basics. San Francisco: Jossey-Bass.

Carroll, J.B. (1963). A model of school leaming. Teachers College Record, 64, 723-733.

Carroll, J.B. (1989). The Carroll Model, a 25-year reUospcctive and prospective view. Educational
Researcher, 18.
26-31.

Cohen, M.D., March, J.G. & Olsen, J.P. (1972). A garbage can model of organizational choice. Admini.urative
Science Quaterly, 17,
1-25.

Creemers, B.P.M. (1987). Gemakkelijke cn moeilijke evaluatie. Enkele kanttekeningen bij A.D. de Groot:
Begrip van evalueren. In W.K.B. Hofstee (red.).
Evaluatiemethodologie (p. 113-119). Lisse: Swets
& Zeidinger.

Creemers, B.P.M. (1991). Effectieve instructie: een empirische bijdrage aan de verbetering van hel onderwijs
in de klas.
Den Haag: SVO.

Creemers, B.P.M. & Werf. G. van der (1988). Relationships and discrepancies between scicncc of education
and research on leaming and instruction.
Newsletter of the European Association for Research on
Learning and Instruction, 6, 12-16.

Creemers, B.P.M. & Lugthart, E. (1989). Schcx)l effectiveness and improvement in The Netherlands. In D.
Reynolds, B.P.M. Creemers & T. Peters (eds.).
School Effectiveness and Improvement. Proceedings
of the First International Congress London 1988 (p. 89-103).
Groningen/Cardiff: RION/University
of Wales.

Downs, A. (1967). Inside Bureaucracy. Boston: LitUe, Brown.

Edmonds, R. (1979). Effective schools for the urban poor. Educational Leadership, 37, 1. 15-24.

Ellcmcrs, J.E. (1976). Vecl kunnen verklaren of iets kunnen veranderen: krachtige versus manipuleerbare
variabelen.
Beleid en Maatschappij, 3, 281-290.

Good, T.L. & Brophy. J.E. (1986). School Effccts. In M.C. Wittrock (ed.). Handbook of research on teaching
(p. 570-602).
New York: McMillan Inc.

Grift. W. van dc (1990). Educational leadership and academic achievement in elementary education. School
Effectiveness and School Improvement, I,
26-41.

Groot, A.D. dc (1986). Begrip van evalueren. 's-Gravenhage: VUGA.

-ocr page 210-

204 B.P.M. Creemers en J. Scheerens

Hoeben, W.ThJ.G. (1987). Onderwijs: evaluatie en effectiviteit. Een nabeschouwing. In W.K.B. Hofstee
(red.).
Evaluatiemethodologie (p. 9-23). Lisse: Swets & Zeitlinger.

Kulik, J.A. & Kulik, C.C. (1989). Meta-analysis in education. International Journal of Educational Re-
search. 13.
223-340.

Levine, D.U. & Lezotte, L.W. (1990). Unusually effective schools: a review and analysis of research and
practice.
Madison: National Center for Effective Schools.

Liebenstein, H. (1978). On the basic proposition of x-efficiency theory. American Economic Review
Proceedings. 68,
328-334.

Linden, WJ. van der (1989). Een pleidooi voor het leren voor de toeis. In J. Scheerens (red.). Evaluatie: om
de kwaliteit van het onderwijs (p. 3-7).
Amsterdam/Lisse: Swets & Zeitlinger.

Lockheed. M.E. & Longford. N.T. (1989). A multilevel model of school effectiveness in a developing country.
Washington D.C.: The World Bank.

Mann, D. (1981). Education policy analysis and the rent-a-troika business. Washington. D.C.: ERIC.

Masuch, M. & Vcrhorst. R. (1987). Over schadelijke organisaties. Sociologische Gids, 34,176-195.

Meijnen, G.W. (1986). Ongelijke onderwijskansen en effeciievc scholen. In J.C. van der Wolf & J J. Hox
(eds.).
Kwaliteit van het onderwijs in het geding. Lisse: Swets & Zeitlinger.

Meijnen, G.W., Smink, G.W., e.a. (1991). Schoolvoorbeelden: effectief onderwijs aan kinderen uit
achterstandsmilieus.
Meppel: Edu'Aclief.

Michaelsen, J.B. (1977). Revision, bureaucracy and school reform. School Review. 85, 229-246.

Mintzberg, H. (1979). The structuring of organizations. Englewood Cliffs: Prenlicc Hall.

Mortimore, P., Sammons. P., Stoll. L. ci al. (1988). School matters: the junior years. Wells: Open Books.

Niskanen, W.A. (1971). Bureaucracy and representative government. Chicago: Aldinc-Aihcrton.

Nutlall, D.L.. Goldstein. H.. Prosser, R. & Rasbash, J. (1989). Differential school effectiveness. In B.P.M.
Creemers & J. Schccrcns (eds.).
Developments in school effectiveness research. Special issue of
the
International Journal of Educational Research. 13, 7, 769-776.

Oakes. J. (1989). What educalional indicators? The case for assessing the school conicxL Educational Evaluation
and Policy Analysis,
/ƒ. 2. 181-199.

Pclgrum. WJ. (1989). Educational assessment: monitoring, evaluation and the curriculum. Dc Lien Aca-
demisch Boeken Centrum.

Porter. A.C. & Brophy. J. (1988). Synthesis of research on good leaching: insights from Ihe work of Ihc
Insliluic for Research on Teaching.
Educational Leadership, 45, 74-85.

Purkey. S.C. & Smith. M.S. (1983). Effective schools: a review. The Elementary School Journal, 83, 427-
452.

Reczigl. G.J. & Weide. M.G. (1989). Effecten van differentiatie: resultaten survey-onderzoek. Groningen:
RION.

Reynolds, D. (1990). School effectiveness research in 1990's. Paper prcsenled at the third Iniemalional Congrcs.s
on School Effeciiveness and Improvcmcni, Jerusalem 1990. Cardiff: University of Wales, College
of Education.

Rosenshine, B.V. (1983). Teaching functions in instructional programs. The Elementary School Journal, 3,
335-351.

Scheerens, J. (1989). Wat maakt scholen effectief?: .samenvatting en analyses van onderzoeksresultaten.
's-Gravcnhagc: SVO.

Scheerens, J. (1991). School effectiveness: theory, research and practice. Cassell Publishers (in press).

Scheerens, J. & Stoel, W.G.R. (1987). Conceplucle en meihodalogischc problemen bij onderzoek naar de
effcciivilcil van schoolorganisaties. In J. Schccrcns & W.G.R. Siocl (red.).
Effectiviteit van
onderwijsorganisaties.
Lisse: Swels & Zciilinger.

Schccrcns, J. & Creemers, B.P.M. (1989). Conceptualizing school cffeclivcncss. In B.P.M. Crccmen & J.
Schccrcns (eds.).
Developments in school effectiveness research. Special issue of ihc International
Journal of Educational Research. 13,
7,691-704.

Slavenburg, J.H. & Peters, T.A. (eds.) (1989). Het project Onderwijs en Sociaal Milieu: een eindbalans.
Roltcrdam: Rollcrdamsc School Advies Dicnsi.

Slavin, R.E., Karweit, N.L. & Madden, N.A, (1989). Effective programs for students dt risk. Necdham Heighis,
Mass.: Allyn & bacon.

Snippe, J. (1991). In-service training voor leerkrachten: een studie naar het effect van in-service training
op de implementatie van een curriculum en op de leerprestaties.
Groningen: RION.

Snow, R.E. (1972). Coniemporary models of leaching. In R.M.W. Travers (cd.). Second handbook of re-
search on teaching.
Chicago: Rand McNally.

Stoel. W.G.R. (1980). De relatie tussen de grootte van scholen in het voortgezet onderlijs en het wel-
bevinden van leerlingen.
Haren: RION.

-ocr page 211-

Onderwijseffectiviteit: overwegingen voor onderzoek 205

Stringrield, S. & Teddlic, C. (1988). A time lo summarize: six years and three phases of the Louisiana
School Effectiveness Study.
Educational Leadership, 46, 43-49.

Tcddlie, C.. Kirby, P. & Stringfield, S. (1989). Effective vs. ineffective schools: observable differences in
the classroom.
American Journal of Education, 97, 221-236.

Veenman, S. et al. (1986). Onderwijs in combinatieklassen. Den Haag: SVO.

Vilsteren, C.A. van (1984). Dc school als profcssioncel-burcaucratischc organisatie. Handboek School-
organisatie en Onderwijsmanagement.
Alphen aan den Rijn: Samsom

Walberg, H.J. (1984). Improving the productivity of America's schools. Educational Leadership, 41,19-27.

Walberg, HJ. (1988). A perspective from the USA. International Journal of Educational Research. 12.
571-576.

Wcick, K. (1976). Educational organizations as loosely couplcd systems. Administrative Science Quaterly.
21,
1-19.

Werf, M.P.C. van der (1988). Het schoolwerkplan in het basisonderwijs: ontwikkeling, implementatie en
opbrengst.
Amsterdam: Swets & Zeitlinger.

Wcsterhof, KJ. (1989). Effectiviteit van leerkrachtgedrag: een empirische studie naar leerkrachtgedrag en
de samenhang met leerwinst.
Groningen, dissertatie.

Manuscript ontvangen 4-7-1991

Definitieve versie ontvangen 6-9-1991

-ocr page 212-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 3, pp. 206-168

De consistentie van schooleffecten
in het basisonderwijs^

Roel J. Bosker*

Faculteit Toegepaste Onderwijskunde, Vakgroep Onderwijsorganisatie en -management.
Universiteit Twente

ABSTRACT

Are excellent schools excellent all the ume, independent of the criterion that is applied, and independent
of the grade in which this effect is assessed? Reanalyzing research in this area gives some support to.
what might bc called, the teacher effectiveness hypothesis: School effects might in fact bc tether
effects. In this study it is investigated whether pupils from two different grades of the same primary
schools perform alike according to the intra school between grades correlation using eight different
succcss criteria. The results of the multidcvcl analyses on the data of almost 5,000 pupils from 300
classes in 150 schools suggest some support for the teacher effectiveness hypothesis, but the results
might bc explained by other factors as well. Therefore it is furthermore investigated whether pupils
from different classes but in the same grades of the same primary schools perform alike. The results
from the analysis of the data of almost 500 pupils from 48 classes in 24 schools clearly support the
school effectiveness hypothesis. Some suggestions for further research arc given to isolate those
school factors that cause tcachcrs of the same school to bc equally succcssfull.

INLEIDING

In reviews van onderzoek naar schooleffectiviteit wordt vaak gewezen op het feit dat bevindin-
gen vaak tegenstrijdig (Good & Brophy. 1986; Purkey &. Smith. 1983; Lugthart ct al., 1989;
Scheerens. 1989) en soms nauwelijks tc rcpliccrcn zijn (Knuver. 1989). Als oorzaken worden
onder andere genoemd: inferieure onderzoeksopzetten cn inadequate stati.stischc modellen (e.g.
Cuttancc. 1980; Ralph & Fenne.scy. 1983; Kreft. 1985; Aitkin & Longford. 1986). voorts dc
vaak sterk vcrschilIcndc opcrationali.scringcn van schoolkenmerken, dc culturclc cn structurele
verschillen tussen dc onderwijssystemen van dc landen waar dit soon onderzoek plaats vindt
(e.g. Schccrcns'ct al., 1989; Lockheed & Longford. 1991).cn scctor vcrschillcn tu.sscn bijvoorbeeld
dc primaire cn secundaire cyclus van het onderwijs (Bosker ct al.. 1989). Ecn nog meer voor dc
hand liggende verklaring voor deze tegenstrijdige bevindingen zou gevonden kunnen worden in
dc vaak sterk verschillende maten die als criterium voor schoolcffcctiviteit worden gehanteerd.
Eén van dc vragen die uit deze bedenkingen voortvloeit is. of meer rcspccticvclijk minder
succesvolle scholcn consequent meer respectievelijk minder succesvol zijn.

Ecn tweede opvallende aspcct van het schoolcffcctivitcitsondcrzock betreft het niveau van
dc cffcctivitcitsbcvordcrcndc factoren. Oakes (1987) stelt voor proccsindicatorcn voorde kwa-
liteit van scholcn tc zoeken op dc domeinen "acccss". "press" cn "professionalism". Bij speci-
ficatie blijkt het hier cchtcr tc gaan om instructiekenmerken. Zo verwijst "acccss" naar dc
gelegenheid om tc leren, ofwel het onderwijsaanbod cn dc beschikbare leertijd. "Press" heeft
betrekking op dc positieve verwachtingen ten aanzien van dc leeropbrengsten, alsmede vcrwij.st
het naar dc primaire gcrichthcid op bereiking van dc cognitieve leerdoelen. "Professionalism"
tcnslonc heeft betrekking op dc instructicvaardigchcden van de Iccrkracht. Alhoewel deze
kenmerken ook pendanten op schoolniveau hebben - men kan hierbij denken aan dc aggrcgatics

' Faculteit der Toegepaste Onderwijskunde. Universiteit Twente. POSTBUS 217. 7500 AE Enschcdc; E-
mail: T0B0SKER@HENUT5.

-ocr page 213-

De consistentie van schooleffecten in het basisonderwijs 207

van deze variabelen tot het teamniveau - ontstaat de indruk uit het overzicht van Scheerens
(1989), dat het toch in eerste instantie leerkracht- en instructiekenmerken zijn die bepalen of een
school effectief is. In Bosker et al. (1990) wordt aangegeven dat het, althans in MAVO-scholen,
inderdaad microvariabelen zijn die mesoverschillen in uitkomsten verklaren. Het zijn met an-
dere woorden instmctie- en leerkrachtkenmerken die verschillen
tussen scholen in hun op-
brengsten verklaren, en niet zozeer verschillen tussen leerkrachten
binnen scholen in de op-
brengsten van hun onderwijs. De conclusie die daamit getrokken kan worden is, dat er kennelijk
toch een schoolfactor werkzaam is. Een dergelijke factor leidt er bijvoorbeeld toe, dat leerkrachten
op dezelfde school in gelijke mate gericht zijn op prestaties.

In dit artikel zal worden nagegaan of een dergelijke schoolfactor ook in het basisonderwijs
aangetoond kan worden. Daarvoor zal een zwakke en een sterke bewijsvoering gepresenteerd
worden. De zwakke bewijsvoering betreft het antwoord op de vraag of leekrachten die op
dezelfde school les geven aan verschillende jaargroepen even succesvol zijn. De sterke bewijs-
voering betreft het antwoord op de vraag of leerkrachten die op dezelfde school aan dezelfde
jaargroep lesgeven dezelfde opbrengsten hebben. Het onderscheid 'zwak' versus 'sterk' heeft,
zoals zal blijken, betrekking op het aantal mogelijke ontsnappingsclausules waarmee tegenval-
lende resultaten verklaard kunnen worden. Bij de zwakke bewijsvoering zijn dat er aanzienlijk
meer dan bij de sterke bewijsvoering. Eerst zal echter nader ingegaan worden op de keuze van
een te hanteren effectmaat.

CRITERIUMMATEN IN SCHOOLEFFECTIVITEITSONDERZOEK

In de praktijk van het schoolcffcctiviteitsondcrzoek komt men, wanneer het blikveld gericht
wordt op leerdoelen dc cognitieve konc termijn betreffend (d.w.z. vastgesteld aan het eind van
dc onderzochte instmcticpcriode). vier verschillende operationele definities van het begrip
schooleffect tcgcn:^

1. het cffcct van de .school is dc gemiddelde ongecorrigeerde prcstaticscorc van dc leerlingen.
Het gaat met andere woorden om ccn
bruto prestatieniveau. De legitimering van deze spc-
cifickc operationalisering kan men ontlenen aan de di.scussic over cindtcmicn c.q. ccn minimum
beheersingsniveau. Hierbij gaat het om het door dc leerlingen behaalde congiticvc peil ongeacht
hun achtergrond respectievelijk initiële vaardigheden.

2. het cffcct van ccn .school is dc gemiddelde mate van 'ovcrachicvcmcnt' van dc leeriingen. Bij
deze opcrationali.scring wordt ccn voorspelling gedaan van dc leerprestaties van leerlingen.
Deze voorspelling is gebaseerd op achtergrondkenmerken van dc leeriing als milieu van
herkomst, .sexe cn nationaliteit cn indicatoren voorde begaafdheid van dc leeriing (dc facto
I Q.-toctsscorcs). Dc gemiddelde mate van afwijking van deze voorspelling vomit dan het
schooleffect. Dit is de meest gcbmiktc operationalisering in het onderzoek naar schooleffcc-
tcn.

het cffcct van dc school is dc gemiddelde leerwinst die leerlingen in ccn bepaalde tijdsperiode
boeken. Hier staat dc
bruto leerwinst dus centraal. In dc praktijk werkt men niet met
vcr.schilscorcs. vanwege hun intrinsieke onbetrouwbaarheid, maar met het verschil tussen dc
op basis van initiële prestaties voorspelde cn dc feitelijk geobserveerde prcstaticscorc. Het
probleem bij deze operationalisering is dat crccn zekere periode afgebakend moet worden.
Dc keuze valt meestal op ccn schooljaar.

het cffcct van ccn school op haar leerlingen is dc gemiddelde leerwinst die deze leerlingen
boeken, althans voor zover deze leerwinst niet tcmg te voeren is op a.scripticvc leerling-
-kenmerken cn dc iKgaafdhcid van dc leeriing. Het gaal met andere woonlcn om dc
netio
Iccrwin.u die dc leerlingen gemiddeld b(Kkcn.

^'•kc definitie heeft zijn voonj cn tcgcns. Formeel gesproken is dc enige juiste definitie van ccn
"choolcffcct dc leerwinst die leerlingen in acht jaren basisonderwijs boeken. Het constmercn
^an instmmcntcn die het prestatieniveau bij cnircc in cn bij het verlaten van dc school kunnen

-ocr page 214-

208 R.J. Bosker

vaststellen, is echter ten principale onmogelijk. Gewerkt wordt echter aan een benadering van
dit principe middels het vaststellen van groeicurves van leerlingen met behulp van een volgens
item respons theorie geconstrueerd leerlingvolgsysteem (Moelants et al., 1990; Bosker & Scheerens,
1991; Raudenbush, 1989; v.d. Bergh & Kuhlemeier, 1991). Vooralsnog zal in schooleffectiviteits
onderzoek echter in hoofdzaak gewerkt moeten worden met de vier genoemde maten.

Naast deze verschillende operationaliseringen moet bovendien nog het onderscheid naar
kennisdomeinen worden gemaakt. Zowel in het primair als het secundair onderwijs bestaat er
een voorkeur voor onderzoek naar effecten op het gebied van reken- respectievelijk wiskunde-
prestaties enerzijds en de (moeder)taalprestaties anderzijds. De effecten van basisscholen op
rekenprestaties blijken over het algemeen twee keer zo groot te zijn als de effecten op taaiprestaties.
Het voordeel van de rekenprestaties is dus empirisch gezien te rechtvaardigen doorde verwijzing
naar het feit dat het hier kennelijk om een schoolse vaardigheid gaat. Het voordeel van de meer
door de thuissituatie beïnvloede taaivorderingen is echter, dat het hier een kennisdomein betreft
dat als voorwaardelijk gezien kan worden voor de vorderingen in de overige schoolvakken.

In het onderhavige consistemie-onderzoek zullen acht effectmaten naast elkaar gehanteerd
worden: twee kennisdomeinen en vier verschillende manieren van operationalisering.

EERDER ONDERZOEK NAAR CONSISTENTIE VAN SCHOOLEFFECTEN
IN HET BASISONDERWIJS

Onderzoek naar het bestaan van een schoolfactor omvat verschillende aspecten. Enerzijds be-
treft dit de stabiliteit van schooleffecten in de tijd (verschillende leerjaren, verschillende uit-
stroomlichtingen). Anderzijds betreft het de equivalentie van schooleffecten zoals bepaald bij
verschillende groepen leeriingen^ van een zelfde lichting of zoals bepaald met behulp van ver-
schillende vakspecifieke operationaliseringen van het concept 'schooleffect'. De begrippen
'stabiliteit' en 'equivalentie' kunnen gevat worden onder het meer algemene begrip 'consistentie'.
In eerder onderzoek naar consistentie van effecten in het basisonderwijs zijn verschillende
aspecten aan de orde gesteld.

In een onderzoek van Van Batenburg (1990) komt de vraag aan de orde of effecten van
basisscholen over een aantal jaren gemeten, dus bij verschillende uit.stroomlichtingen, stabiel
zijn. Gemeten over drie opeenvolgende jaren bleken dc bruto schoolcffectcn voor rekenen, taal
en informatieverwerking te correleren tus.sen de .59 (informatieverwerking 1986-1987) tot .68
(rekenen 1986-1987).

Blok & Eiting (1988), die de PPON-data heranalyseerden, onderzochten de vraag of het
uitmaakt welke aspect van taal als criteriummaat in onderzoek naar schooleffecten gekozen
wordt. Ze presenteren correlaties van .60 en hoger tussen dc bruto .schoolgemiddelden voor
schrijven cn lezen, maar eveneens correlaties van .35 cn lager tussen diverse toetsboekjes met
het taakaspect constant. Uit het reeds eerder aangehaalde onderzoek van van Batenburg 0990).
die eveneens bruto schooleffectmaten analyseerde, komen samenhangen (i.c. Pearson product-
moment correlaties) tussen diverse vakgebieden (informatieverwerking, rekenen cn taal) naar
voren die systematisch boven de .80 liggen. Wanneer de data die van Batenburg presenteert
gebruikt worden om één, van tijd en vakgebied onafhankelijke, schoolfactor op te sporen met
behulp van een factoranalyse, dan verklaan een dergelijke bruto schoolfactor 69.6 percent van
de variantie in bruto .schooleffecten. Bosker (1990). die netto Iccrwinstmaten analyseerde. liet
voor diverse criteriumvariabelen (non-cognitief, cognitief en loopbaanvariabelen) zien. dat dc
ware correlaties op schoolniveau tussen deze drie domeinen uitermate zwak cn soms zelfs
negatief zijn. Met name de vecl gcuitte veronderstelling dat .scholen die het op het affecticvc
domein goed doen dezelfde zijn als die scholen die op het cognitieve domein hoog .scoren (cf.
Rutter et al., 1979) blijkt dus op drijfzand te berusten. Mandeville cn Anderson (1987) rappor-
teerden correlaties tussen netto leerwinstmaten voor rekenen en taal van .60 voor jaargroep 2.
eveneens .60 voor jaargroep 3 en .63 voor jaargroep 4. Bij dichotomisering in extreem goede

-ocr page 215-

De consistentie van schooleffecten in het basisonderwijs 209

scholen versus de rest blijken de overeenstemmingscoëfficiënten kappa voor taal en rekenen
echter minder gunstig uit te vallen (.33 tot .53).

Dezelfde auteurs hebben eveneens onderzoek verricht naar de consistentie van schooleffecten
over de leeijaren één tot en met vier heen. Met mediane correlaties tussen de diverse leerjaren
van .06 voor lezen cn .13 voor rekenen vormen de resultaten echter een ernstig bewijs tegen de
schooleffect hypothese. Als verklaring bieden deze auteurs echter de schoolspecifieke
curriculumopbouw. Volgens deze hypothese leggen sommige scholen in de eerste lectjaren ecn
zwaar accent op leesvaardigheid, waama de instmctie in dit vak daarna geleidelijk een normale
positie in de curriculumopbouw inneemt. Bij andere scholen zou dit accent in latere leerjaren
gelegd worden. In ecn vervolgonderzoek is Mandeville (1988) nagegaan in hoeverre de neno
leerwinsteffecten van verschillende leerjaren over de tijd consistent zijn. In principe zou, wan-
neer de veronderstelling over de curriculumopbouw correct is, de consistentie in de tijd daar
niet onder dienen te lijden. Deze resultaten zijn inderdaad meer in overeenstemming met de
gedachte van een achteriiggende schoolfactor, al blijven sommige correlaties met .35 toch
uitermate laag.

Tenslotte hebben Mortimore c.s. (1988) resultaten gepresenteerd, waamit direct nagegaan
kan worden in hoeverre parallelklassen van eenzelfde school even effectief zijn. Bosker &
Scheerens (1989) becijferden ware correlaties van .46 voor rekenen in leerjaar 2 tot .93 in
leerjaar 3 voor lezen.

De resultaten samenvattend, is cr zeker empirische evidentie voor ecn 'schoolfactor'. Toch is
cr genoeg mimte voor ecn alternatieve hypothese, dc leerkracht cffectiviteits hypothese: dat
basisscholen verschillen wordt veroorzaakt door uitzondcriijke goede Iccrkrachtcn. In principe
is er maar één dergelijke cxcclIcntc leerkracht in ccn basisschool nodig om het schooleffect, als
gecumuleerd effect van het onderwijs van acht jaargroep-docenten, positief tc laten afwijken
van het gemiddelde. Deze hypothese lijkt zeker ondersteund tc worden door de mimtc die dc
intra-class correlaties berekend op basis van het Monimore onderzoek tc zien geven (.07 tot .54)
voor kla.scffccten binnen ccn leerjaar binnen ccn school.

ONDERZOEKSVRAGEN

Aangezien dc resultaten van het onderzoek naar dc consistentie van schooleffcctcn niet eenduidig
zijn. en wellicht vcnckcnd door dc culturclc cn stmcturclc kenmerken van het Amerikaanse cn
Britse onderwijssysteem, zal nader onderzoek naar deze materie in dit artikel gepresenteerd
worden. Daarbij staan de volgende onderzoeksvragen centraal:

1. In hoeverre komen jaargroepen van ccn zelfde basisschool overeen in hun effectiviteit?

2. In hoeverre komen parallclklasscn van ccn zelfde jaargroep van ccn zelfde basisschool overeen
in hun cffcctivitcit?

3. In hoeverre vcrschillcn dc antwoorden op dc bovengenoemde ondcrzock.svragcn al naar
gelang het gehanteerde cffcctivitcitscritcrium?

DE ONDERZOEKSOPZET

Steekproef cn variabelen

Een a-scicctc steekproef van 250 scholcn voor basisonderwijs vormt dc onderzoeksgroep.
Leerlingen uit dc jaargroepen 6 cn 8 van deze scholcn kregen ccn voor- (aan het eind van groep
5 rcspccticvclijk groep 7) cn ccn jaar later ccn natoets (aan het eind van groep 6 rcspccticvclijk
groep 8) voor taal cn rekenen. Bovendien werd van deze leeriingen bepaald:

- dc verbale cn non-verbalc intelligentie

- dc sociaal-cconomischc status

- het geslacht

- dc nationaliteit

-ocr page 216-

210 R.J. Bosker

Voor nadere details over de operationalisering van de variabelen, hun betrouwbaarheid en
validiteit zij verwezen naar Reezigt & Weide (1989).

In deze groep bleken er 150 scholen aanwezig waarvan van meerdere leerlingen uit de
jaargroepen 6 en 8 alle gegevens bekend waren. Op deze groep zal de vraag naar de consistentie
van schooleffecten over jaargroepen heen onderzocht worden. Daarnaast bleken er 24 scholen te
zijn met parallelklassen (16 in groep 6 en 8 in groep 8), waarvan van meerdere leerlingen per
klas eveneens alle gegevens bekend waren. Op deze groep scholen zal de vraag onderzocht
worden in hoeverre schooleffecten consistent zijn over parallelklassen heen. Alle variabelen
zijn per jaargroep getransformeerd naar z-scores (met gemiddelde O en variantie 1).

Een drie-niveau model voor onderzoek naar consistentie

Uitgangspunt voor de statistische analyse is, dat er een drietraps steekproef is getrokken (scho-
len, daarbinnen klassen en daarbinnen leerlingen). Weliswaar zijn de tweede en derde trap
(leerjaren of klassen respectievelijk leerlingen) niet echt a-select getrokken, maar dit kan dan
als een steekproef in de tijd beschouwd worden: het onderzoek had ook twee jaar later uitgevoerd
kunnen worden bij andere lichtingen en/of bij andere jaargroepen. Als gevolg van de drietraps
steekproeftrekking zijn de onderzoek.seenheden statistisch gezien niet onafhankelijk van elkaar,
er is sprake van een natuurlijke clustering van de data (c.f. Aitkin et al., 1981). Leerlingen die in
dezelMe klas zitten lijken op elkaar, aangezien ze hun leerkracht gemeenschappelijk hebben;
leerlingen die op dezelfde school zitten maar in verschillende klassen lijken op elkaar omdat ze
hun schoolomgeving delen. Juist deze afhankelijkheid van de waamemeningen vormt de basis
voor het te hanteren statistisch model (c.f. Aitkin & Longford, 1986; Goldstein, 1987; Raudenbush
& Bryk. 1986). Dit model kan als volgt uitgeschreven worden (onderstreepte symbolen indiceren
random variabelen of random coëfficiënten):

waarbij

: de toets .score van leeriing i in klas j van school k
ßflj^ : het klasspecifieke intercept

: de klasspecifieke coëfficiënt voor de regressie van y op X
Xj.^ : een predictor variabele op leeriingniveau (de voonoets bijvoorbeeld)
: het residu op leerlingniveau mei variantie a]

Voorts
waarbij

: het schoolspecifieke intercept
Uoji : het residu op klasniveau mei varianiie o^^

en tenslotte

(3)ßook = ßooo + Jiook
waarin

: de grand mean
v^ : hel residu op het schoolniveau mei variantie o^^

-ocr page 217-

De consistentie van schooleffecten in het basisonderwijs 211

Analoog aan (2) en (3) kunnen klas- en schoolspecieke residuen en varianties voor de random
coëfficiënt onderscheiden worden. Voor onze definitie van consistentie zijn echter alleen
^uo ®vo benodigd. Deze parameters geven achtereenvolgens weer hoeveel van de onver-
klaarde variantie moet worden toegeschreven aan de klas (of jaargroep) en de specifieke school
waar een leerling zich bevindt. De consistentie wordt vervolgens gedefinieerd als de tussen-
klassen binnen-scholen correlatie p, welke parameter aangeeft of de school danwel de klas (of
jaargroep) de belangrijkste determinant van het leerlingfunctioneren is:

Met behulp van (1) tot en met (4) kunnen puntschauingen gegeven worden voor de
consistentieparameters. Er zijn echter steeds slechts twee klassen per school op basis waarvan
CT^o geschat moet worden. In het parallelklassen-onderzoek zijn er bovendien slechts 24 scholen
op basis waarvan aj^ geschat moet worden. Deze schattingen zullen dus met een redelijk grote
standaardfout gepaard gaan. Om deze reden zullen ook 90% betrouwbaarheidsintervallen ge-
construeerd worden voor de consistentieparameter p. Daarvoor moet de standaardfout voor (5
berekend worden. De geschatte variantie van ^ is te bepalen met behulp van de delta-methode
(Bishop et al.. 1975, 486 e.v.):

^uO

(5)

_4
öuO

1

SEol, +

jG^o+o^o) (a^o+CT^o)'

waarin SEa^ en SEo;^ de geschatte varianties zijn van respectievelijk ojg en b]^.*

RESULTATEN

Consistentie tussen leerjaren

Allereerst wordt ingegaan op dc vraag in hoeverre jaargroepen van dezelfde school overeenkomen
'n hun onderwijsopbrengsten. Voor de volledigheid wordt informatie over dc regressiegewichten
gegeven, zodat men voor dc cffcctivitcitsmatcn 'ovcrachicvcmcnt' cn 'netto Iccrwin.st' kan
nagaan voor welke covariaten effecten zijn uitgezuiverd. Bovendien wordt dc grootte van dc
varianticcomponcntcn vermeld, op basis waarvan immers dc consistcniicparamctcrs geschat
moeten worden. Tenslotte wordt eveneens aangegeven in hoeverre cr sprake is van heterogene
binncngrocpsrcgrc.ssics (verschilt het cffcct van ccn covariaat van groep lot groep). Weliswaar
zijn deze gegevens niet benodigd voor hel antwoord op dc door ons gestelde vragen, maar het
illustreert in elk geval dat ccn cffcclicvc school niet voor clkc leeriing even cffccticf hoeft tc
zijn (cf. Kreft & dc Leeuw, 1991).

Ten aanzien van dc rekenprestaties blijken bij dc cffectmatcn waar correctie voor de invloed
Van covariaten plaats vindt alle voorspellers in het model opgenomen tc kunnen worden, met
uitzondering van dc nationaliteit van dc leerling (zie Talwl 1). Dc 'ovcrachicvcmcnt' school-
cffccimaat bijvoorbeeld, meet dus het cffcct van dc school op dc leerling voor zover dit niet
nicer is tc herleiden op het geslacht, het milieu van herkomst cn het I.Q. (pcrformaal zowel als
Verbaal) van die leerling. Bovendien blijkt het cffcct van meerdere covariaten tc verschillen
tus.scn dc 3(X) onderzochte klassen: dc grootte van het cffcct van dc school op de leeriing hangt
niet andere woorden af van bijvoorlKcId diens .score op dc voonoets. Opvallend is voorts dat
een kwan van dc variantie in rekenprestaties zich bevindt tu.s.scn klassen. Van dit kwan wordt
ongeveerde helft verklaard doordc factor 'school' (zie Tabel 2).

Dc voor dc populatie gc.schattc consistcnticparameters wijken aanmerkelijk af van dc door
Mandeville (1988) gevonden inconsistenties. Voorts blijkt, dal dc consistentie van dc .school-
effecten afneemt naarmate cr ccn meer stringente definitie van het cffcctivitcitsbcgrip gchan-

-ocr page 218-

212 R.J. Bosker

Tabel 1. Regressiegewichten en geschatte varianties voor rekenprestaties in twee verschillende leerjaren
(aantal leerlingen: 4658; aantal klassen: 300; aantal scholen: 150).

bruto

'over-

leer-

netto

effect

achiev.'

winst

leerwinst

predictoren:

sexe

-.08

-.08

nationaliteit

milieu

.15

.10

I.Q.-verbaal

.24

.15

I.Q.-performaal

.30

.18

voortoets

.57

.40

variantie-componenten

leerling

.75

.49

.50

.42

leerjaar

.11

.07

.07

.06

school

.15

.09

.06

.05

random effecten

voortoets

.004

.002

sexe

.015

.010

milieu

.010

I.Q.-performaal

.008

covarianties

voortoets'leerjaar

-.016

-.011

sexe* leerjaar

-.005

-.002

milicu'lecrjaar

-.009

I.Q.-perf* leerjaar

-.003

Tabel 2. De consistentie van vier verschillende schooleffecten voor rekenen over leerjaren heen: de tussen

leerjaren binnen scholen correlatie.

standaard-

betrouwbaarheids-

fout

interval (90%)

bruto schooleffect

.58

.07

< .46 ; .69>

'overachicvement'

.57

.07

< .45 ; .69>

leerwinst

.46

.08

< .34 ; .59>

netto leerwinst

.47

.08

< .34 ; .59>

teerd wordt. Alvorens nader in te gaan op deze bevinding zal eerst worden onderzocht in
hoeverre de resultaten voor taal corresponderen met die voor rekenen.
Bij taal zijn dezelfde covariaten benodigd als bij rekenen (zie Tabel 3). Dcleerwinst' school-
effectmaat bijvoorbeeld, meet dus het cffcct van dc school op de leerling voor zover dit niet
meer is te herleiden op het geslacht, het milieu van hcrkom.st, het I.Q. (performaal zowel als
verbaal) cn dc score op de voortoets van die leerling. En ook nu blijkt dc grootte van het
schooleffect te variëren met kenmerken van dc leerling. Er zijn echter twee afwijkingen icn
opzichte van dc analyses met betrekking tot de rekenprestaties. Ten eerste is dc variantie die
zich tussen kla.sscn bevindt kleiner dan bij rekenen (ccn zesde voor taal versus ccn kwart voor
rekenen). Voons valt op dat dc voortoets voor taal meer verklaan dan dc voortoets voor rekenen.

-ocr page 219-

De consistentie van schooleffecten in het basisonderwijs 213

Tabel 3. Regressiegewichten en geschatte varianties voor taaiprestaties in twee verschillende leerjaren
(aantal leerlingen: 4658; aantal klassen: 300; aantal scholen: 150).

bruto

'over-

leer-

netto

effect

achiev.'

winst

leerwinst

predictoren:

sexe

.11

.05

nationaliteit

milieu

.18

.10

I.Q.-verbaal

.42

.17

I.Q.-performaal

.19

.07

voortoets

.73

.58

variantie-componentcn

leerling

.83

.53

.38

.34

leerjaar

.06

.05

.05

.04

school

.13

.03

.02

.01

random effectcn

voortoets

.008

.010

I.Q.-pcrformaal

.004

covarianties

voortocts*lcerjaar

-.018

-.015

I.Q.-perf leerjaar

-.009

Tabel 4. De consistentie van vier verschillende schooleffcctcn voor Uial over leerjaren heen: de tussen

leerjaren binnen scholen corrclatic.

0

standaard-

betrouwbaarheids-

fout

interval (90%)

bruto .schooleffect

.69

.07

<.57;.81>

'overachievcment'

.42

.09

< .28 ; .57>

leerwinst

.28

.09

<.13;.43>

netto leerwinst

.26

.10

<.10;.43>

Maar ook na correctie blijkt sicchts ccn zesde deel van dc variantie zich tussen klassen te
bevinden. In principe zal het dus lastiger worden hier consistentie van .schooleffcctcn tc vinden.

Uitgaande van het bruto schooleffect, blijken dc twee leerjaren van elke school relatief
gezien redelijk overeen tc .stemmen in hun cffcctivitcit (zie Tabel 4). Dit cchtcr wordt groten-
deels veroorzaakt, zo blijkt bij dc andere schoolcffcctmatcn, door overeenkomsten tussen dc
leerjaren binnen dc scholcn qua achtergrondkenmerken cn het instapnivcau van dc leerlingen.
Ook nu blijkt, dat naamiatc dc definitie stringenter is. dc consistentie van het schooleffect sterk
afneemt. Maar anders dan bij Mandeville (1988). is cr kennelijk KKh ccn duidelijke schoolfactor
aanwezig.

De resultaten laten zien dat zowel voor rekenen als taal dc leerkracht cffcctivitcits hypothese
meer ondersteund wordt dan dc school cffcctivitcits hypothese. Zoals bij dc inleiding echter
reeds gesteld, kan ccn dccI van dc inconsistentie mogelijk tcnig gevoerd worden op dc school-
spccifickc curriculumopbouw. Scholcn die tot cn met groep 6 reeds vccl vorderingen geboekt
hebben op het gebied van taal cn/of rekenen kunnen daarna met ccn relatief rustiger tempo
volstaan. Daar kan bovendien ccn tweede verklaring aan worden toegevoegd. Deze heeft tc

-ocr page 220-

214 R.J. Bosker

maken met het feit, dat in de meer stringente schooleffectmaten correcties voor verschillen in
instroomniveau plaats vinden. Wanneer scholen duidelijke standaarden stellen zijn inconsistenties
in dat geval te verklaren uit variaties in de instroom. Zo zal bijvoorbeeld een jaargroep met een
gemiddeld laag I.Q. meer 'overachievers' te zien geven dan een jaargroep met een gemiddeld
hoger I.Q., althans wanneer dezelfde standaarden voor beide groepen worden nagestreefd. An-
ders gezegd: scholen koersen volgens deze hypothese aan op hetzelfde eindprodukt ongeacht
het leerlingpotentieel. In dit geval zal het bruto effect consistenter moeten zijn dan gecorrigeerde
effecten. Dat nu is, zo laten de bevindingen zien, inderdaad het geval.

Consistentie tussen parallelklassen

Bij het onderzoek naar de consistentie van schooleffecten over leerjaren heen, waren er enkele
verklaringen voor de opgetreden inconsistenties. Bij een onderzoek naar de overeenkomsten
tussen parallelklassen van eenzelfde school zijn dergelijke alternatieve verklaringen minder
voor de hand liggend. In principe zullen parallelklassen in hetzelfde tempo door het curriculum
heen gaan. Een verschil in na te streven doelen ligt eveneens niet voor de hand. Verschillen
tussen parallelklassen binnen een school vormen dus een uitermate sterk bewijs voor de leerkracht
effectiviteits hypothese. Overeenkomsten daarentegen vormen een corroboratie van de school
effectiviteits hypothese.

Ook nu wordt voor de volledigheid informatie gegeven over regressiecoëfficiënten, varian-
tiecomponenten en eventueel optredende heterogene binnengroepsregressies.

De covariaten in het model zijn wederom met uitzondering van de nationaliteit van de
leerling allen significante voorspellers van rekenverschillen tussen leerlingen (zie Tabel 5). De

Tabel 5: Regressiegewichten cn geschatte varianties voor rekenprestaties in twee verschillende klassen van
hetzelfde leerjaar (aantal leerlingen: 485; aantal klassen: 48; aantal scholen: 24).

bruto 'over- leer- nctlo

effect achiev.' winstv. leerwinst

predictoren:

scxc -.15 -.12
nationaliteit .

milieu .19 .14

I.Q.-verbaal

.23

.13

I.Q.-performaal

.26

.17

voortoets

.56 .40

variantie-componenten

leerling

.75

.54,

.52 .44

klas

.05

.03

.03 .(M

school

.23

.13

.10 .08

Tabel 6. Dc consistentie van schoolcrfccicn voor rekenen over Parallelklassen heen: dc tussen klassen

binnen scholen correlatie.

t>

siandaard-

betrouwbaarheids-

*

'foui

interval (90%)

bruto schoolcffcct

.81

.16

<.55; 1.00>

'ovcrachicvcmcnt'

.80

.18

<.51 : 1.00>

leerwinst

.80

.19

<.48; I.00>

nctlo leerwinst

.69

.20

<.36: i.oo>

-ocr page 221-

De consistentie van schooleffecten in het basisonderwijs 215

netto schooleffectmaten beschrijven dus het effect van de school op de rekenprestaties van de
leerling, voor zover deze niet zijn te herleiden op het geslacht, etc. De regressies zijn allemaal
homogeen, hetgeen dus duidt op een schooleffect dat voor alle leerlingen binnen een school
even groot is.' De variantiecomponenten leveren echter duidelijk een ander beeld op dan bij het
leerjaren onderzoek. Nog steeds is een kwart van de variantie gelegen tussen klassen, maar nu is
ruim drie kwart van deze variantie aan de factor school toe te schrijven.

De consistentieparameters nemen nog steeds af naarmate de definitie stringenter is, maar
blijven verder onverminderd hoog (zie Tabel 6). Ook de betrouwbaarheidsintervallen indiceren
dat hier echt een schoolfactor werkzaam moet zijn. Ook nu wordt getracht deze resultaten eerst
voor het vakgebied taal te repliceren, alvorens de uitkomsten nader besproken zullen worden.

De analyses voor taal monden in hoofdlijnen in hetzelfde resultaat uit als bij het leerjaren
onderzoek (zie Tabel 7). Maar wezenlijk anders zijn de schattingen voorde variantiecomponenten,
hetgeen ook tot wezenlijk andere schattingen voor de consistentieparameters zal leiden.

De consistentieschattingen voor het taaidomein (zie Tabel 8) zijn nagenoeg onovertrefbaar
hoog: twee parallelklassen van eenzelfde school lijken sterk op elkaar in hun onderwijsoutput
ongeacht de gehanteerde effectmaat.

Zowel voor taal als voor rekenen zijn de bevindingen een duidelijker bewijs voor de veron-
derstelling van een werkzame schoolfactor dan uit de resultaten die uit het onderzoek van
Mortimore c.s. (1988) afgeleid zijn blijkt. Men zou natuurlijk kunnen veronderstellen dat de
parallelklassen sterke overeenkomsten vertonen juist dankzij het vastgelegde curriculum, of
juist dankzij vastgelegde streefdoelen, of omdat de betreffende leerkrachten regelmatig onder-
ling overleggen. Maar dat zijn verklaringen die erop wijzen dat een factor op het schoolniveau,
dat wil zeggen een niveau hoger dan het niveau van de individuele leerkracht, ertoe leidt dat
leerkrachten hetzelfde bereiken.

Tabel 7. Rcgressiegcwiclitcn cn gcsctiattc varianties voor taalprestatics in twee verschillende klassen van
hetzelfde leerjaar (aantal leerlingen: 485; aantal klassen: 48; aantal scholen: 24).

bnito

'ovcr-

leer-

netto

cffcct

achicv.'

winst

leerwinst

predictoren:

.sexe

.15

.06

nationaliteit

milieu

.18

.11

l.Q.-vcrbaal

.41

.13

I.Q.-pcrformaal

.19

.08

voortoets

.75

.62

variantic-componcntcn

.37

.34

leerling

.87

.56

klas

.00

.00

.00

.00

school

.14

.08

.04

.04

Tabel 8. De consistentie van schoolcffcctcn voor taal

over Parallelklassen heen: de tussen klassen binnen

.scholcn corrclatic.

0

standaard-

betrouwbaarheids-

fout

interval (90%)

br\ito schooleffect

1.00

.00

<1.00

; 1.00>

'ovcrachicvcmcnt'

1.00

.00

<1.00

; 1.00>

leerwinst

.99

.28

<.53;

; 1.00>

ncuo Iccru'inst

.33

<.43;

; 1.00>

-ocr page 222-

216 R.J. Bosker

DISCUSSIE

In dit artikel is de vraag gesteld of schooleffecten de facto geen leerkrachteffecten zijn. Door te
onderzoeken in hoeverre verschillende groepen (jaargroepen, parallelklassen) van een zelfde
school in hun opbrengsten op elkaar lijken of juist van elkaar verschillen is getracht deze vraag
te beantwoorden.

Alhoewel bleek dat verschillende jaargroepen van een zelfde school qua effecten overeen-
komsten vertonen, zijn de aanwijsbare verschillen groter. Voor zover er overeenkomsten zijn
wijst dit op het bestaan van een schoolfactor. De vraag is echter waar de verschillen op terug
gevoerd kunnen worden. Daarvoor zijn plausibele verklaringen gegeven: de curriculumopbouw
die van school tot school verschilt, het streven van scholen leerlingen tot bepaalde minimum
eindtermen te leiden, en verschillen in instroomniveau tussen verschillende lichtingen leerlingen.
De conclusie is echter eenduidig: wil men schooleffectiviteits onderzoek verrichten dan kan
men niet volstaan met een meting bij een willekeurige jaargroep. De meting van het effect zal
gesitueerd moeten worden aan het einde van het basisonderwijs. Dit is immers het cumulatief
effect van alle voorgaande jaren. Lastig is alleen de vraag welke van de vier voorgestelde
effectmaten dan gehanteerd moet worden. Leerwinst in het laatste jaar zegt immers niets over
het cumulatieve totale effect. Een voortoets meting bij entree in groep 1 is vooralsnog niet
uitvoerbaar. Blijft slechts de mogelijkheid van de 'overachievement' benadering over. De ver-
onderstelling is dan echter (cf. Madaus et al., 1980), dat I.Q. een stabiele persoonseigenschap is.
Meijnen (1984) heeft echter laten zien dat het I.Q. schoolgevoelig is. Dat pleit dus voor een zo
vroeg mogelijke afname van de I.Q.-toetsen. Onderzoekers moeten dan echter wel over een zeer
lange adem beschikken, alvorens ze tot een beantwoording van hun vragen kunnen geraken.
Daarnaast blijft er natuurlijk het probleem van de eindtermen: leerlingen met een laag I.Q.
kunnen 'overachievers' zijn zonder dat ze voldoen aan de standaarden. Tussen deze Scylla en
Charibdus zal echter gevaren moeten worden.

De sterkste bewijsvoering voor het be.staan van een schoolfactor aan de hand van het aanto-
nen van overeenkomsten tussen de opbrengsten van twee parallelklassen van eenzelfde school
resulteerde in een positief resultaat. Pogingen deze consistente schooleffecten weg te verklaren
resulteren impliciet of expliciet in een onderstreping van de gedachte dat er een schoolfactor
werkzaam is. Een volgende stap in het onderzoek zou hieruit kunnen bestaan, dat schoolkenmerken
worden aangeduid die deze consistent positieve of juist negatieve schooleffecten zouden kunnen
verklaren. Kenmerken weinig effectieve scholen zich juist hierdoor, dat de leerkrachten op hun
geheel eigen, autonome wijze omgaan met hun klas, terwijl op zeer effectieve scholen een
zekere mate van standaardisering van het instructiegedrag plaats vindt? Of is het wellicht zo, dat
op de minder effectieve scholen alle leerkrachten bijvoorbeeld minder hoge verwachtingen van
hun leerlingen hebben? De teleurstellende bevindingen van het jaargroepen onderzoek bieden
echter eveneens aanknopingspunten voor onderzoek naar op schoolniveau gelegen conditione-
rende kenmerken: welke organisatiekenmerken leiden ertoe dat op sommige scholen de jaargroepen
meer op elkaar gelijken dan op andere? Zijn dat inderdaad'kenmerken van het curriculum, de
werking van standaarden, de intensiteit van het teamoverleg cn het onderwijskundig leiderschap
van de schoolleider?

NOTEN

1. Het hier gerapporteerde onderzoek kwam tot stand dankzij ccn subsidie van het instiiuui voor onderwijs-
onderzoek, SVO te Den Haag (project 0337). Met dank aan Hennie Brandsma, Anja Knuver, Gerric
Reezigt cn Marga Weide van het RION, instituut voor onderwijsonderzoek van de Universiteit Gronin-
gen, die hun data voor deze studie ter beschikking stelden, aan Marleen van Blanken die de data gereed
maakte voor dc analyses en aan Sebic Oosterloo die dc formules afleidde benodigd voor dc consUuctie
van de bctrouwbaaihcidsinicrvallcn rond de intraclass correlatie.

2. Overigens is het natuurlijk even goed mogelijk analoge effectmaten voor lange termijn doelen en/of
affectieve doelen ic formuleren.

-ocr page 223-

De consistentie van schooleffecten in het basisonderwijs 217

3. Psychometrisch gesproken, zijn de leerlingen eigenlijk de items van de schooleffectschaal (cf. Rowan et
al., 1991).

4. Toepassing van de deltamethode maakt het mogelijk deze standaardfouten te berekenen uit de uitvoer
van het software pakket VARCL, namelijk als 2 * sigma " (standard error for sigma). Het software
pakket ML3 geeft direct de standaardfouten voor de variantiecomponenten.

5. Dit is overigens, gelet op de eerdere analyses, gedeeltelijk artificieel: het aantal leerlingen en klassen in
de steekproef is met 500 respectievelijk 48 le klein om lot significantie le kunnen besluiten.

LITERATUUR

Aitkin, M.. Anderson, D. & Hinde, J. (1981). Statistical Modelling of Data on Teaching Styles. The Journal
of the Royal Statistical Society, Series A (General) 144,
419-461.

Aitkin, M. & Longford, N. (1986). Statistical Modelling Issues in School Effectiveness Studies. The Jour-
nal of the Royal Statistical Society, Series A (General) 149, Part 1,
1-43.

Batenburg, Th. A. van Ó990). Variatie in schoolgemiddelden op de Cito-cindtocts basisonderwijs. Tijdschrift
voor Onderwijsresearch, 15,
362-369.

Bergh, H. van den & Kuhlemeier, H. (1991). On the stability of school effectiveness and effects of social
economic background (Occasional paper presented at ETS, Princeton).
Utrccht/Amhcm.

Bishop, Y.Y.M., Fienberg, S.E. & Holland, P.W. (1975). Discrete multivariate analysis: theory and practice.
Cambridge, Mass.: MIT Press.

Blok, H. & Eiting, M.H. (1988). Dc grootte van schooleffcctcn: Hoc verschillend pre.stcrcn leerlingen van
verschillende scholcn?
Tijdschrift voor Onderwijsresearch, 13, 16-30.

Bosker, R.J. (1990). Theory development in schoolcffcctivcness research: in search for stability of effccts.
In: P. van den Eeden, J. Hox & J. Hauer (Eds.):
Theory and model in multilevel research: conver-
gence or divergence?
Amsterdam: SISWO.

Bosker R.J., Guldemond. H.. Hofman, R.H. & Hofman, W.H.A. (1988). Kwaliteit in het voortgezet onder-
wijs.
Groningen: RION.

Bo.sker. RJ.. Guldemond. H.. Hofman, R.H. & Hofman. W.H.A. (1988). Dc stabiliteit van .schoolkwaliteit.
In: J. Schccrcns & J.C. Verhoeven (Eds.),
Schoolorganisatie, beleid en onderwijskwaliteit. Lisse:
Swets & Zeitlinger.

Bosker. R.J.. Kremers. E J J. &. Lugthart, E. (1990). School and instfuction cffccLson mathematics achievement.
School Effectiveness and School Improvement, I, 233-248.

Bosker. R.J. & Scheerens, J. (1989). Lssues in the interpretation of the cffccLs of school effectiveness
tcscarch. International Journal of Educational Research. 13, 7, 741-751.

Bosker. R.J. & Schccrcns, J. (1991). A .self-evaluation procedure for schools u.sing multilevel modelling.
Cardiff: Paper 4ih ICSEI-Congrcss.

Brandsma. H.P. & Knuver, J.W.M. (1988). Organi.satorischc verschillen iu.ssen basisscholen cn hun cffcct
op Iccrlingprcsiatics.
Tijdschrift voor Onderwijsresearch, 13. 4, 201-212.

Cuttance. P. (1980). Post hoc rides again: a methodological critique of 'Fifteen Thousand Hours: Secon-
dary Schools and their effects on children'.
Edinburgh: CES.

Goldstein. H. (1987): Multilevel models in educational and social research. Londen: Charles Griffin & Co.

Good. T.L. & Brophy. J.E. (1986). School effccLs. In: M.C. WittrcKk (Ed.): Handbook of research on teaching.
New York: McMillan Inc.

Kreft. I. (1985). Enige aantekeningen bij ecn empirisch ondcr/ock in het lager onderwijs tc Amsterdam.
Tijdschrift voor Onderwijsresearch, 10. 4. 189-194.

Kreft. G.G. & Leeuw. J. dc, (1991). Model based ranking of .schools. International Journal of Educational
Research,
/5, / . 45-60.

Knuver. A. (1989). Schoolkenmerken en Iccrlingfunctioncrcn; ccn rcplicatic-ondcrzock. Tijdschrift voor
Onderwijsresearch. 14. 6.
329-337.

Lockhccd, M.E. & Longford. N.L. (1991). School cffccus on mathematics achicvcn.cnt gain in Thailand. In:
S.W. Raudenbush & J.D. Willms (Eds.):
Schools, classrooms, and pupils: international stMÜesof
schooling from a multilevel perspective.
New York: Acadcmic Press.

Lugthart. E.. Rocdcrs, P.J.B.. Bosker, R.J. & Bos. K.T. (1989). Effectieve schoolkenmerken in het voortge-
zet onderwijs: een literatuuroverzicht.
Groningen: RION.

Madaus. G.F.. Airasian. P.W. & Kellaghan. Th. (1980). Schoolcffcctivcness. A reassessment of the cvidcn-
ce.
New York: McGraw Hill.

Mandeville. G.K. & Anderson, L.W. (1987). The stability of scho<iI effectiveness indices across grade
levels and subject areas.
Journal of Educational Measurement. 24.3. 203-216.

-ocr page 224-

218 R.J. Bosker

Mandeville, G.K. (1988). School effectiveness indices revisited: cross-year stability. Journal of Educatio-
nal Measurement. 25.4.
349-356.

Meijnen, G.W. (1984). Van zes tot twaalf. Harlingen: SVO.

Moelants, F., Mommers, C. & Oud, H. (1990). Leerlingvolgsystemen verklaard en vergeleken. School en
Begeleiding, 26,
19-28.

Mortimore, P., Sammons, P., Stoll, L., Lewis. D. & Ecob, R. (1988). The junior school project. Somerset: Open
Books.

Mortimore, P.. Sammons, P., Stoll. L.. Lewis. D. & Ecob, R. (1988). The junior school project; technical
appendices.
London: ILEA, Research and Statistics Branch.

Oakes, J. 0987). Conceptual and measurement problems in the construction of school quality (AERA-
paper).
Washington.

Purkey, S.C. & Smiüi M.S. (1983). Effective schools: a review. Elementary School Journal, 4, 427-452.

Ralph, J.H. & Fennesey. J. (1983). Science or reform: some questions about the effective schools model. Phi
Delta Kappan. 64.
689-694.

Raudenbush, S.W. (1989). The analysis of longitudinal, multilevel data. International Journal of Educa-
tional Research. 13. 7.
721-740.

Raudenbush, S. & Bryk, A.S. (1986). A hierarchical model for studying school effects. Sociology of Edu-
cation. 59,
1-17.

Reezigt, G J. & Weide, M.G. (1989). Ejfecten van differentiatie. Resultaten survey-onderzoek; deelrapport
IV.
Groningen: RION.

Rowan, B.. Bossart. S.T. & Dwyer, D.C. (1983). Research on effective schools. A cautionary note. Educational
Researcher, april,
24-31.

Rowan, B., Raudenbush. S.W. & Kang, S J. (1991). School climate in secondary schools. In: S.W. Raudenbush
& J.D. Willms (Eds.):
Schools, classrooms, and pupils: international studies of schooling from a
multilevel perspective.
New York: Academic Press.

Rutter, M., Maughan, B., Mortimore, P. & Ouston, J. (1979). Fifteen Thousand Hours. Secondary schools
and their effects on children.
Somerset: Open Books Publishing Ltd.

Scheerens, J. (1989). Wat maakt scholen effectiep Den Haag: SVO.

Scheerens, J., Vermeulen, CJ.A.J. & Pelgrum, WJ. (1989). Generalizability of instructional and school
effectiveness indicators across nations.
InternationalJournal of Educational Research. 13. 7. 789-
800.

Willms, J.D. & Raudenbush, S.W. (1989). A longitudinal hierarchical linear model for estimating school
effects and their stability.
Journal of Educational Measurement. 26.3. 209-232.

Manuscript ontvangen 2-7-1991

Definitieve versie ontvangen 3-9-1991

-ocr page 225-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 4, pp. 219-230

De contextgebondenheid van
effectiviteitsbevorderende schoolkenmerken

Hennie Brandsma1 en Anja Knuver2

* Onderzoek Centrum Toegepaste Onderwijskunde, Universiteit Twente
** RION, Instituut voor Onderwijsonderzoek, Rijksuniversiteit Groningen

ABSTRACT

Using a random sample of some 200 primary schools in the Netherlands, a secondary analysis was
carried out in order to determine whether characteristics of effective schools arc the same or diffe-
rent between socio economic contexts. Based on the contingency approach it is expected that there is
no one best way to organize a school. This means that school organizational factors that arc effective,
with respect to pupil learning can vary between different contexts (e.g. educalional systems; countries;
schooldistricts; schooltypes; private or public schools; level of urbanisation and mean socio economic
status). In these analyses four groups of schools, that vary in their level of effectiveness (high or
low) and level of mean socio economic status (high or low) arc contrasted with rcspcct to organizational
factors. In this outlier type of research it was analyzed whether organizational school factors for
these four groups of schools arc different. It was concludcd that the contingency approach is a valid
way lo look al school cffcctivcncss theory.

AANLEIDING TOT HET ONDERZOEK

In 1986 is op hcl RION, Instituut voor Onderwijsonderzoek van de R.U. Groningen, een groot.schalig
empirisch ondcr/.ock gestart op 250 Nederlandse basis.scholen. In dit onderzoek .stond de volgende
vraag centraal:

'Beslaan er verschillen lussen basisscholen wat betreft hel functioneren van leerlingen, wanneer
rekening gehouden wordl mcl hun achtergrondkenmerken. Zo ja, welke school- en klas-
kenmerken kunnen deze verschillen in cffcclivitcii lussen .scholen dan verklaren?'

Uit het onderzoek is naar voren gekomen dat er duidelijke verschillen in effectiviteit tussen
.scholen beslaan. Indien er op individueel leeriingniveau stadsdsch gcconirolcerd wordl voor
belangrijke leerlingachlergrondkcnmcrkcn, die van invloed zijn op hel individueel leerling-
funclionercn, zoals sociaal milieu, performaal I.Q., einiciteil en sekse blijken er tussen scholen
toch nog grote verschillen le beslaan in gemiddeld leerlingfunctioneren. Deze voor achter-
grondkenmerken gecontroleerde gemiddelde school.score wordl gedefinieerd als de kwaliieiis-
dimensie van schooleffectivilcil. Deze verschillen in kwaliteit zijn voor taal en rekenen res-
pectievelijk 8 en 12 procent van de totale variantie in leeriingfunciioneren. Leeriingen mei een
vergelijkbare achtergrond presteren dus op de ene school beter dan op de andere. Deze verschillen
tussen scholen zijn voor rekenen groter dan voor taal. Dit betekent dat de schoolse invloed op
rckcnpreslalics groter is dan op laalprcsiatics cn dat ook dc marges voor de verbetering van
rekenprcsiaties groter zijn dan voor laalprcsiatics.

Met betrekking tol de tweede dimensie van schoolcffectiviieil. het compenserend vermogen
van scholen, zijn dergelijke lussenschoolse verschillen niet gevonden. Het compenserend vermogen

1  OCTO, Posibus 217, 7500 AE Enschede.

2 RION. Postbus 1286. 9701 BG Groningen.

-ocr page 226-

220 H. Brandsma en A. Knuver

betreft de sterkte van de binnenschoolse relatie tussen leerlingachtergrondkenmerken en de taai-
en rekenprestaties. Dit verband is over het algemeen even sterk voor alle scholen. Dit betekent
dat er in het algemeen geen scholen zijn die in staat zijn om voor een ongunstige startpositie van
leerlingen te compenseren. De verbanden tussen de belangrijke achtergrondkenmerken enerzijds
en de taal- en rekenprestaties anderzijds zijn voor alle basisscholen even sterk. Met andere
woorden, de voor elke school apan bepaalde beta-coëfficienten, welke de sterkte van het verband
tussen leerlingachtergrond en leerprestaties uitdrukken, verschillen niet significant van elkaar.
Voor een nadere uitwerking van de hierboven genoemde twee effectiviteitsdimensies wordt
verwezen naar Brandsma en Knuver (1988).

De kwaliteitsverschillen die er bestaan tussen scholen kunnen vooral worden toegeschreven
aan contextuele factoren en organisatiekenmerken van scholen. (Brandsma en Knuver, 1989c).
Echter van een aantal kenmerken waarvan op grond van voorgaand onderzoek effecten verwacht
mocht worden is in dit onderzoek geen invloed gevonden. In Noordamerikaans schooleffectivi-
teitsonderzoek wordt bijvoorbeeld een sterk positief effect van onderwijskundig leiderschap
gerapporteerd. In het Nederlandse onderzoek wordt dit effect niet teruggevonden (vgl. v.d.
Grift, 1988 Brandsma en Knuver, 1989 b). Blijkbaar kan de Amerikaanse situatie in dit geval
niet zonder meer vertaald worden naar de Nederlandse: de rol van de schoolleider verschilt in
beide landen. Een ander opvallend resultaat van dit onderzoek is de invloed van een aantal
contextuele factoren op de kwaliteit van scholen. Deze betreffen vooral de levensbeschouwelijke
richting en de milieusamenstelling van scholen. Zo blijken scholen met een Rooms-Katholieke
signatuur iets effectiever te zijn dan Protestant-Christelijke en Openbare scholen. Uit een ver-
gelijking tussen scholen van deze drie richtingen blijkt dat RK-scholen iets meer dan de andere
twee denominaties effectiviteitsbevorderende kenmerken bezitten en juist minder effecti-
viteitsverlagende kenmerken (Van Batenburg en Brandsma, 1990). Echter ook de (gemiddelde)
milieu- en etnische samenstelling van een school blijkt een verklarende factor te zijn voor de
mate van schooleffectiviteit. Dit is verwonderlijk omdat er bij de bepaling van de effectiviteit
van scholen expliciet rekening is gehouden met de milieu-achtergrond van de individuele leer-
ling. Er is hier blijkbaar sprake van een extra effect van de context waarin de school moet
werken, op de mate van effectiviteit.

THEORETISCH KADER

De drie hierboven genoemde voorbeelden wijzen alle in de richting van de contingentietheorie,
of beter gezegd,
conüngcmicbenadering. Het is mogelijk om deze context-effecten te begrijpen
vanuit een contingentiebenadering. Hierin wordt gesteld dat dc effectiviteit van een organisatie
afhankelijk is van de context waarin deze organisatie opereert. In het geval van de hierboven
genoemde voorbeeld van de invloed van onderwijskundig leiderschap betreft het contextvcr-
schillen tussen landen cq. onderwijssystemen met andere regelgevingen. In dc andere twee
voorbeelden betreft het verschillen tussen denominatie cn de sociaal economische context van
de school. Dit laatste is waarschijnlijk een uitvloeisel van de sociaal economische status van de
buurt waarin de school zich bevindt. Met andere woorden: cr is geen sprake van 'één optimale
organisatiewijze'. De optimale structuur van een organisatie is in dc contingentie visie (mede)
afhankelijk van dc situatie waarin de organisatie zich bevindt. Volgens Scheerens (1989a) is cr
echter sprake van ccn nogal heterogene verzameling van situatickenmcrkcn. Deze con-
tingentiekenmerken kunnen zowel de omgeving van dc organisatie betreffen, als ook dc gehan-
teerde (productie) technologie (in het onderwijs dc vormgeving van het instructieproces), maar
ook kenmerken zoals omvang en ouderdom. (Mintzberg. 1979, De Leeuw 1982). De kritiek die
gegeven kan worden op deze benadering betreft dan ook onder andere de onduidelijke status van
deze 'beïnvloedende' contingentiefactoren. Een contingentiefactor zoals land van vestiging van
de organisatie is van een geheel andere orde dan de 'technologie' van dc organisatie. Van ccn
contingentiefactor kan eigenlijk pas gesproken worden als deze als het ware 'boven' dc organi-
satie ligt. De contingentiefactor kan logi.sch gezien wel de organisatie beïnvloeden, (recht-

-ocr page 227-

Effectiviteitsbevorderende schoolkenmerken 221

streeks via regelgeving dan wel indirect of randvoorwaardelijk via historisch en cultureel be-
paalde grenzen), maar kan omgekeerd niet beïnvloed worden door de organisatie. In die zin zijn
contingentiefactoren, zoals gebruikte technologie (in engere zin) en de grootte van de organisa-
tie, eerder inherente en door de organisatie te beïnvloeden kenmerken dan contingentiefactoren.
Alhoewel over de definiëring van het begrip contingentie, cq. welke aspecten tot contingentie-
factoren kunnen worden gerekend, over het algemeen nogal onduidelijkheden bestaan, is het op
logisch niveau wel duidelijk op welke wijze contingentiefactoren van invloed kunnen zijn op de
organisatie. Deze invloed van contingentiefactoren (zowel op de structuur als op de output van
een organisatie) kan in drie algemene modellen worden weergegeven (Kickert.1979) (zie fi-
guur 1).

In model 1 is er sprake van een intermediërend effect van de context op de structuur van de
organisatie. Hierbij kan men denken aan onderzoek waarbij de structuur en de output van
(landen met verschillende) onderwijssystemen met elkaar worden vergeleken. In model 2 is er
sprake van een interactie-effect. De relatie tussen structuur en output kan verschillen per context.
In het vervolg van dit artikel zal dit het achterliggende denkmodel zijn. In model 3 wordt er
uitgegaan van een onafhankelijk effect van zowel de structuur als de omgevingsfactoren op de
output. Zo wordt in het onderzoek van Brandsma en Knuver (1989b) naast de invloed van een
aantal organisatiekenmerken een
extra effect gevonden van een aantal contingentiefactoren van
scholen (denominatie en schoolmilieusamenstelling) op de voor achtergrond gecorrigeerde ge-
middelde leerprestaties van scholen.

Als we deze modellen terugkoppelen naar het terrein van theorie en onderzoek van
onderwijsorganisatie, met name naar schooleffectiviteitsonderzoek.blijkt dat dit inzicht in te-
genspraak is met het idee dat er sprake is van één algemeen geldend (.school-) effectiviteitsmodel
dat in alle situaties toepasbaar zou zijn.

Deze contingentie-benadering is met betrekking tot schooleffectiviteit nog slechts weinig
empirisch onderzocht. In Firestone & Herriott (1982) worden verschillen tussen basisscholen cn
scholen voor voongezet onderwijs met betrekking tot effectieve kenmerken onderzocht. Hun
conclusie is dat cffccticvc basisschoolkcnmcrkcn niet zonder meer kunnen worden toegepast op
scholen voor voortgezet onderwijs. Ook uit Ncdcriands onderzoek is gebleken dat er vcrschillcn
zijn in cffectivitcitsbcvordcrcndc schoolleidcrskcnmcrkcn tussen schooltypen (LBO cn MAVO)
in het Voortgezet Onderwijs (Brandsma. 1988).

In ccn vergelijking tussen ondcrwij.ssystcmcn in 17 landen op lEA-gcgcvcns vonden Schccrcns
e.a. (1989) dat een tweetal effcctiviteit.skcnmcrkcn (namelijk 'hoge verwachtingen' cn 'gelegenheid
tot leren') consi.stcnte en sterke relaties met leerprestaties in wiskunde laten zien. Andere
cffcctivitcitskenmcrkcn komen minder sterk cn niet consistent naar voren. Tcddlic e.a. (1989)
benadmkken in navolging van Hallingcr & Murphy (1986) cn Miller & Ychon (1987). dc
milieu- (SES) samenstelling van scholen als een contcxtkcnmcrk dat van invloed kan zijn op dc
relatie tussen organisatiekenmerken cn schoolcffcctivitcit. Zij concluderen dat er ccn aantal
cffcctivitcitskenmcrkcn zoals het va.stlcggcn van duidelijke schooldoclstcllingcn, ccn ordelijke
leeromgeving, een hoge 'time on task' cn regelmatige evaluatie van Iccrlingvordcringcn. min of

Model I Model 11 M»>del III

context context context

structuur output structuur output structuur output

Fig. 1. Overzicht van contingentiemodellen.

-ocr page 228-

222 H. Brandsma en A. Knuver

meer uniform geldig zijn voor scholen, ongeacht de gemiddelde milieusamenstelling. Daamaast
worden ook verschillen in effectieve kenmerken tussen scholen met een bepaalde milieu-
samenstelling gerapporteerd. Zij stellen dat effectieve scholen, afhankelijk c.q. onder invloed
van de milieusamenstelling andere strategieën hanteren. Deze hebben volgens de autetu-s te
maken met verschillen in leerkrachtverwachtingen, schoolleidersgedragingen, beloningsstructutu-,
nadmk op basisvaardigheden, relatie met de ouders, selectie van nieuwe leerkrachten en de
ervaring van nieuwe leerkrachten. Een vergelijkbare opmerking maken Brandsma en Knuver
(1989b) bij de interpretatie van het hierboven besproken contexteffect. Uit hun modelmatige
analyse blijkt dat de milieusamenstelling van een school naast een invloed op de output ook een
effect blij^ te bezitten op de vormgeving van de organisatie. Zo blijken scholen met een
gemiddeld lagere milieusamenstelling zich al langer en intensiever bezig te houden met allerlei
onderwijskundige vernieuwingen. Dit kan verklaard worden vanuit de hierboven genoemde
idee dat scholen uit verschillende contexten als het ware gedwongen zijn om andere maatrege-
len (o.a. een sterker doorgevoerde differentiatie) te hanteren.

Op basis van deze onderzoeken kan gesteld worden dat er aanwijzingen zijn dat effectieve
schoolkenmerken op enigerlei wijze situationeel bepaald zijn. Onderzoek tussen schooltypes,
landen en scholen met verschillende milicusamcnstellingcn laat zien dat er wellicht enige overlap
is in effectieve kenmerken, maar dat er van een uniform effectiviteitsmodel niet gesproken kan
worden. Het feit dat in het Nederlands onderzoek (Brandsma en Knuver, 1989b) ecn contcxteffect
van gemiddelde milieusamcnstelling op schooleffectiviteit gevonden wordt, is mede aanleiding
geweest om dit gegeven aan een nadere beschouwing de onderwerpen.

PROBLEEMSTELLING

In het hier beschreven onderzoek wordt dc contingentiebenadering toegepast met betrekking tot
de gemiddelde milieusamenstelling van Nederlandse basisscholen. Dc vooronderstelling is, dat
er (wellicht met uitzondering van plattelandsscholcn) op Nederlandse basisscholen sprake is
van een sterke (selectieve) leerlinginstroom naar sociaal milieu. Ouders kiezen voornamelijk
basisscholen die dicht in de buurt van het ouderlijk huis gevc.stigd zijn. De bevolkingssamenstelling
van woonwijken is tevens sterk milieugebonden. Dit betekent dat dc basisscholen sterk kunnen
verschillen in hun leerlinginstroom met betrekking tot sociaal milieu. De gemiddelde school-
samenstelling is als het ware ccn afspiegeling van de milieu.samenstclling van dc wijk waarin dc
school zich bevindt.

De onderzoeksvraag die dan gesteld kan worden is of het voor scholcn met ccn gemiddeld
lage milieusamcnstelling en scholcn met ccn gemiddeld hoge milicusamcnstclling dezelfde
schoolkenmerken zijn die dc cffcctivitcit van ccn school (mede) bepalen of dat deze factoren
juist verschillen tussen dc contexten van dc school. In het eerste geval is cr als het ware sprake
van een uniformitcitshypothese cn in het tweede geval van een contingentichypothcsc.

VARIABELENKEUZE

Ter bepaling van relevante school en klaskenmerkcn die mogelijkerwijs verschillen in dc mate
van schoolcffcctiviteit kunnen verklaren is op basis van literatuurstudie (Blom e.a., 1986) ccn
groot aantal instrumenten ontwikkeld die in zes catcgoricën kunnen worden ondcrgcbracht (zie
Figuur2). Vooreen uitgebreide beschrijving cn operationalisering wordt verwezen naar Brandsma
& Knuver (1989a). Voor ccn overzicht van allc variabelen die in deze analyses zijn meegenomen
wordt verwezen naar bijlage I.

Ecologische cn contcxtfactorcn op school- cn klasniveau betreffen kenmerken die doormiddel
van intem of extern beleid moeilijk te veranderen zijn. Hieronder worden kenmerken verstaan

-ocr page 229-

Effectiviteitsbevorderende schoolkenmerken 223

School

Klas

- ecologie/context

- ecologie/conicxt

- schoolleider

- leerkracht

- schoolorganisatie

- klasorganisalie

Fig. 2. Overzicht van school- cn klaskenmcrkcn.

zoals denominatie, school- en klassegrootte, urbanisatiegraad, milieu en etnisch-culturele sa-
menstelling, teamstabiliteit, ervaring in team, leeftijdspreiding in team.

Schoolleider- cn leerkrachtkenmerken betreffen zowel persoonsgebonden aspecten, zoals
leeftijd, ervaring en sekse, als ook attitudes en gedragingen die aan personen gebonden zijn
(vemieuwingsgerichtheid, onderwijskundig leiderschap en dergelijke).

Schoolorganisatiekenmerken betreffen zowel structurele (bijvoorbeeld innovaties, evaluatie
van leervorderingen, procedures voor besluitvorming) als klimaatkenmerken (teamhomogeniteit,
leerlinggerichtheid. openheid naar de omgeving, tevredenheid, ordegerichtheid). Op klasniveau
zijn dit aspecten die de wijze van instructie meten zoals, planmatigheid, prestatiegerichtheid,
feedbackproccdures, groeperingsvormen en differentiatie in de groep.

Voorde operationalisering van deze school- en klaskenmerken zijn bij de schoolleiders en de
leerkrachten van groep 7 en 8 schriftelijke vragenlijsten afgenomen. Voor de vaststelling van
enige schoolklimaat- cn schoolorganisatiekenmerken zijn gegevens van meerdere docenten
nodig. Daarvoor zijn levens vragenlijsten afgenomen bij de leerkrachten van de groepen 5 en 6.

METHODE VAN ONDERZOEK

vSelcctie van scholen

Voor de analyses is gebruik gemaakt van een databestand van zo'n 200 basisscholen cn + 5000
leerlingen, die in twee opeenvolgende jaren (groep 7 cn 8) zijn gelest op schoolvorderingen in
taal en rekenen. Door mcl behulp van een .statistisch pakket, gebaseerd op het random-coëfficiCnl
model (VARCL) de schoolvorderingen in taal cn rekenen te controleren voor de individuele
achtergrondkenmerken van leerlingen (performalc inielligenlie sekse, milieu cn einiciteil), is
per school een effcctivileilsindex gecreèerd. Mei behulp van deze index zijn .scholen gerangordcrd
naar rato van 'over-' respeclievelijk 'onderpresieren' (gegeven hun Iccriinginstroom). De scholen
krijgen ccn score 1 toebedeeld als ze in het eersie kwaniel op deze index vallen, en een score
van 2. 3 en 4 wanneer zc in hel 2c. 3c respectievelijk 4c kwartiel vallen. Scholen die in de twee
opeenvolgende jaren en op beide outputmaten (laal en rekenen) hoog scoren op de effcctivileilsindex
(score ^ 14) worden bestempeld als 'siabiel-hoog effeciievc scholen'. Analoog hieraan worden
scholen die laag scoren op de effecliviteilsindcx (score £ 6) 'stabiel-laag effectief' genoemd.
Deze maat voor schooleffectivilcil is dus op basis van empirische lecriinggcgevens verkregen.
Om een indicatie le krijgen van de omvang van de tussenschoolse verschillen, kunnen de taai-
en reken.scores van vergelijkbare leeriingen (met betrekking toi milieu, einicileil en inielligen-
lie) worden vergeleken in een van de mccsi en een van de minst effectieve scholen in de
steekproef. Het blijkt dal deze leeriing in een ineffcciievc school bijna twee punien lager scoon
op een tien-punls schaal (4.0 t.o.v. 5.9) voor laal en bijna drie punicn lager (4.0 t.o.v. 6.8) voor
rekenen len opzichic van een leeriing in de mee.si effectieve school.

Binnen deze twee groepen hoog- en laag effectieve scholen is weer een onderverdeling
gemaakt naar scholen met een gemiddeld lage milicu-insiroom (dc 25% laagst scorende scholen)

-ocr page 230-

effectiviteit

224 H. Brandsma en A. Knuver

Y = f(x)

hoog

III

laag

hoog SES

laag SES

N = 15
N= 8
N= 6
N = 10

Groep I
Groep II
Groep III
Groep IV

laag effectief, lage SES
hoog effectief, lage SES
laag effectief, hoge SES
hoog effectief, hoge SES

Fig. 3. Schoolcffcctivitcit cn milieusamcnstclling.

en met een gemiddeld hoge milieu-instroom (de 25% hoogst scorende scholcn). Dc scholcn in
het eerste kwartiel van de school-SES-verdeling hebben alle ccn score lager dan 15 cn alle
scholcn in het vierde kwartiel hebben een score hoger dan 21 op een schaal van 4 tot 40. Op
scholen met een score 4 hebben zowel de vader als dc moeder van alle leerlingen ten hoogste
lager onderwijs genoten en verrichten ongeschoolde arbeid of zijn haanloos. Op scholcn met
een score 40 hebben de vader cn de moeder van alle leerlingen ccn HBO- of Universitaire
opleiding en beide verrichten arbeid in de hoogste beroepsgroep. In werkelijkheid komen deze
extreme scores echter niet voor. In dc laag-SES scholcn is het gemiddelde percentage allochtone
leerlingen 16 procent, cn in de hoog-SES scholen gemiddeld een procent.

Op deze wijze zijn vier groepen van scholen gecreëerd (vgl. figuur 3). Dc lijn Y = f(x) geeft
de overall invloed aan van de gemodelleerde Iccrlingachtcrgrondkcnmcrkcn op schoolprestaties.
Scholen boven deze lijn zijn 'overpresteerders' en presteren dus beter dan op grond van de
achtergrond van hun leerlingen verwacht wordt. Analoog hieraan zijn scholcn onder dc lijn
'onderpresteerders', omdat er van deze scholcn meer 'verwacht' mag worden op basis van hun
Iccriinginstroom.

Analyse

Teneinde dc centrale vraagstelling te kunnen beantwoorden worden dc vier genoemde groepen
van scholcn met elkaar geconstrastccrd op dc hierboven genoemde school- cn klaskcnmcrkcn.
Door middel van variantie-analyses kunnen zowel de overeenkomsten als dc. verschillen tussen'
de vier groepen op de school- en klaskcnmcrkcn zichtbaar gemaakt worden. Er is in dit onder-
zoek sprake van een ontwerp waarbij een viertal extreme groepen scholen ('outliers') wordt
uitgeselecteerd op basis van gebleken effectiviteit en op basis van gemiddelde milieusamcnstclling.
Hoewel het vergelijken van uitersten methodologisch gezien nogal wat problemen oplevert
(verschillen worden uitvergroot cn dc gemiddelde school blijft buiten dc analyse) (Klitgaard cn
Hall, 1974; Rowan e.a., 1983; Creemers & Scheerens. 1991). kan ccn outlicrstudie ccn effi-
ciënte methode zijn om inzicht tc krijgen in dc aard cn richting van effecten.

-ocr page 231-

Effectiviteitsbevorderende schoolkenmerken 225

Vanuit de uniformiteitshypothese wordt verwacht dat de verschillen in scores op school- en
klaskenmerken tussen groepen I en II (hoog en laag effectief - laag milieu) sterk zullen over-
eenkomen met de verschillen in deze kenmerken tussen groepen DI en IV (hoog en laag effectief
- hoog milieu). Vanuit de contingentiehypothese worden deze overeenkomsten in verschillen
juist niet verwacht en zullen het voor hoog en laag SES-scholen over het algemeen andere
kenmerken zijn die differentiëren tussen hoog en laag effectieve scholen. De analyses zijn per
subgroep (zie tabel 1) van verklarende variabelen uitgevoerd.

RESULTATEN

In een aantal eenweg variantie-analyses zijn groep I en II (laag milieu), respectievelijk groep III
en IV (hoog milieu) met elkaar gecontrasteerd om na te gaan of verschillen in school- en
klaskenmerken tussen effectieve en niet-effectieve scholen hetzelfde of juist verschillend zijn
voor laag- en hoog-milieu scholen. In totaal zijn 104 school- en klaskenmerken (zie de bijlage
voor een volledig overzicht) in de analyses opgenomen. In totaal zijn er dus 104 toetsen uitge-
voerd. Bij het door ons gekozen significantieniveau (a = .05) betekent dit dat op basis van kans
reeds 5 significante verschillen verwacht mogen worden. Omdat het doel van deze analyse
beschrijvend en niet hypothesetoetsend van aard is. en vanwege het kleine aantal scholen per
cel. is besloten om het significantieniveau niet te verlagen (volgens bijvoorbeeld de Bonferroni-
methode).

In tabel 1 staan de 19 contrasten die significant bleken in de variantie-analyse opgesomd. Op
drie kenmerken zijn de verschillen tussen hoog en laag effectieve scholen dezelfde, zowel in de
hoge als in de lage SES-groep van scholen. In de groep hoog effectieve scholen wordt vaker
volgens een vast lesrooster gewerkt cn worden dc Iccrlingprcstatics regelmatiger geëvalueerd.
Op het derde kenmerk, het aantal uren dat de schoolleider per week overwerkt, gaan de vcrschil-
lcn in de beide SES-groepcn in ccn andere richting. Op laag-SES-scholen werken de schoollei-
ders in laag-effcctievc scholen meer over. in hoog-SES-scholen is dat juist voorde schoolleiders
van hoog-effccticvc scholen het geval. Dc uniformiteitshypothese geldt dus slechts voor twee
schoolkenmerken.

Naast deze weinige overeenkomsten in cffccticvc .schoolkenmerken tussen hoog- cn laag-cffccticvc
scholen voor beide SES-groepcn. zijn cr ccn groter aantal verschillen tc constateren tussen
beide SES-groepcn.

Voor 13 variabelen worden in dc groep lagc-SES-scholcn wel significante vcrschillcn ge-
vonden tussen hoog cn laag cffccticvc scholen, die niet gelden voor dc hoge SES-groep. Het
betreft hier dc volgende kenmerken. Laag cffccticvc scholen met een lage milicusamcnstclling
zijn in grotere steden tc vinden; het pcrccntagc verwijzingen naar het S.O. is cr hoger en het zijn
relatief vaak groei.scholen. Op hoog-effccticvc, laag-SES-scholcn geeft dc schoolleider relatief
vaak zelf les en staat minder positief tegenover innovaties. Op deze scholen wordt vaker ieder
jaardc CITO-toets afgenomen, vindt vaker teamoverleg plaats, wordt minder aan ouderparticipatie
gedaan cn is meer overleg over leerstof cn leerkrachten cn doen ze minder vaak mee aan
vernieuwingsprojecten. Leeftijd cn ervaring van de leerkracht zijn hoger in dc hoog-effecticvc-
scholcn, evenals het aantal vrouwelijke leerkrachten in de onderbouw.

Op drie variabelen verschillen hoog- cn laag-cffccticvc-scholcn alleen significant van elkaar
voor de groep hoge SES-.scholcn. Op cffccticvc scholen met hoge SES worden vaker alle lessen
voorbereid cn gepland door dc leerkracht; cr worden minder strenge regels gehanteerd tijdens
instructie door dc leerkracht cn worden onderwijsactiviteiten regelmatiger geëvalueerd.

-ocr page 232-

226 H. Brandsma en A. Knuver

Tabel 1. Signincante contrasten (onderstreept) in effectieve kenmerken voor hoog en laag milieu-scholen
(a = .05). (Indien van toepassing staat tussen haakjes de range van de variabele aangegeven).

hoog milieu

laag hoog

effectief effectief

laag milieu

laag hoog

effectief effectief

Leerkracht

leeftijd
werkervaring
klasse-organisatie
% leerkrachten dat zich
houdt aan lesrooster
% leerkrachten dat regel-
matig lessen voorbereidt
regels tijdens insuuctic (1-3)
Schoolcontext
% vrouwelijke leerkrachten
groep 1-4

urbanisatiegraad (1-5)
% verwijzingen naar S.0.
% grocischolen
Schoolleider
aantal dagdelen les (1-9)
innovatie-attitude (1-4)
aantal uren overwerk per week
Schoolor|;ani.satie
% CrrO-schoIen
frequentie teamoverleg (1-5)
evaluatie onderwijs (0-6)
ouderparticipatie 0-4)
frequentie overleg leerstof-
leerkracht (1-4)

deelname aan vernieuwingspro-
jecten

regelmatige evaluatie leerling-
prestaties (0-6)

41
18

38
15


11

24
11

38%

422i
L2

mi

66%
2.9

60%

66%
2.7

242l

83%
2.8
1.0%
50%

6.5
3.0

n

50%
1.8
2J
3.0

1.7

0%

U

77%

3.3
1.4%
60%

5.4
2.8
22

70%
2.0
la

3.0
1.9
17%
12

95%
2J.

um

82%

LSâL
4û2i

12
IA

m
m

LQ
3.9
IQ

ISl

m^
u

èSl
12

622:
U
4.9
2A

U

Qi

4^

DISCUSSIE

Volgens dc uniformitcitshypothese. waarvan in het meeste schoolcffcctivitcitsondcrzock uitge-
gaan wordt, maar welke ook dc idcologischc basis vormt cn soms dc rcccptuur voor school-
vcrbctcringsprojcctcn, venvachtcn wc in hoog- cn laag-milicu-scholcn dezelfde school- cn klas-
kenmerkcn die hoog- en laag-cffccticvc scholcn ondcrschcidcn.

Uit dc resuhaten van dc variantie-analy.scs blijkt dat deze uniformitcit.shypothcsc niet bevestigd
kan worden. Zo blijken sicchts twee kenmerken cffccticf tc zijn voor zowel-hoog als laag-SES
scholcn. Deze twee kenmerken, regelmatige evaluatie van leerprestaties cn het lesrooster volgen,
zijn overigens wel kenmerken die ook in ander schoolcffcctivitcitsondcrzock naar voren komen.
13 School- cn klaskenmerkcn vcrschillcn alleen voor hoog- cn laag-cffccticvc scholcn, voor
zover het scholcn betreft met ccn lage gemiddelde milieusamen.stclling. Op deze 13 kenmerken
vcrschillcn hoog- cn laag-cffccticvc scholcn met ccn hoge gemiddelde milicusamcnstclling dus
juist niet. Voor deze groep hoog-SES scholcn differentiëren drie kenmerken tussen hoog- cn
laag-effccticvc scholcn. waarvoor geen pendanten gevonden worden in lage milicu-schoicn.

-ocr page 233-

Effectiviteitsbevorderende schoolkenmerken 227

We kunnen concluderen dat het belang van school- en klaskenmerken die verschillen voor
hoog- en laag-effectieve scholen niet hetzelfde is voor scholen van verschillende milieu-
samenstelling. Effectieve schoolkenmerken hoeven niet dezelfde te zijn voor scholen met een
verschillende leerlingbevolking. Opvallend bij deze bevinding is dat de differentiërende ken-
merken in de laag-SES groep voornamelijk context- en schoolorganisatiekenmerken zijn. In de
groep hoog-SES scholen zijn het echter juist instructiekenmerken die differentiëren tussen hoog
en laag effectieve scholen. De kenmerken die differentiëren tussen hoog- en laag-effectieve
scholen in de laag-milieu-groep zijn globaal onder te verdelen in relatief eenvoudig te veranderen
schoolorganisatiekenmerken en meer vaststaande contextfactoren. De meeste van deze kenmerken
vallen echter onder de laatste categorie, namelijk: leeftijd en ervaring van de leerkracht, het
aantal vrouwelijke leerkrachten in de onderbouw, urbanisatiegraad, verwijzingen naar het S.O.,
of een schooi de afgelopen periode is gegroeid in leerlingaantal en het aantal dagdelen dat de
schoolleider lesgeeft.

Van de eenvoudig veranderbare factoren is de causale relatie met leeriingprestaties niet altijd
duidelijk. Het valt bijvoorbeeld niel le verwachten dat de prestaties zullen stijgen, indien de
schoolleider opeens minder gaal overwerken. Variabelen waarvan wellicht voor laag-milieu-
scholen een positief effect op leeriingprestaties verwacht mag worden zijn de overlegfrequentie
van het team en deelname aan vernieuwingsprojecten. In effectieve scholen wordl wal vaker
overlegd. Ook blijkt dat (wellicht noodgedwongen) deelname aan allerlei vernieuwingsprojecten
geen garantie biedt voor het verhogen van dc effcclivileit van de laag-SES .scholen. Enige
voorzichtigheid bij het trekken van deze conclusie is wel geboden. Dc resultaten beireffcn
kleine groepen van scholen die een uitzonderingspositie innemen.

Daarnaast moei dil resultaat ook bekeken worden in hel licht van de grote hoeveelheid
andere kenmerken die in de analyses geen cffccl lieten zien op cffeciiviicil, noch in hoog- noch
jn laag-SES-scholen. In loiaal zijn 104 school- en klaskenmerken. die volgens dc literatuur van
invloed zouden kunnen zijn op schoolcffcciivilcil. opgenomen in dc varianiic-analyscs. Slechts
de waarde van in totaal 19 variabelen blijkl Ic verschillen voor hoog- cn laag cffcciicvc scholen
(van hoog of laag-SES). Voor hoog-SES-schoIcn blijven slechts 6 van de 104 variabelen over,
die gerelateerd zijn aan schooleffectivilcil. Ook in ander schooleffcctiviieil.sonderzoek blijkt hei
aantal school- cn klaskenmerken dal verschillen in schooleffectiviteit kan verklaren gering (zie
ook Schccrcns. 1989b). Bovendien zijn. zo blijkt ook uil hei hier gcprc.sentccrde onderzoek, de
kenmerken die gevonden worden nici dezelfde in verschillende conicxtcn.

Bei is duidelijk dai er geen sprake is van een uniform geldig schoolcffecliviiciismodcl. In
tockom.siig groot.schalig onderzoek dient de contextafhankelijkheid van schoolcffcciivilcil nadere
aandacht te krijgen. Op bclcidsmaiig niveau, bijvoorbeeld bij het opzeilen van school-
verbcieringsprogramma's, moei men zich bewusl zijn van dc contextafhankelijkheid.

Hoopvol is dai in hel hier bc.schrcvcn onderzoek vooral diffcrcniiëlc kenmerken voor hoog-
en laag effectieve .scholen wortlcn gevonden voor scholen mcl een lage gemiddelde milicu-
samcnsiclling. omdat eruit blijkt dat dc .school icis kan bijdragen aan dc omwikkeling van
'ecrlingcn met een minder gunstige achiergrond. Onze verwachtingen mogen echter nicl le hoog
gespannen zijn omdal slechts een zeer klein deel van de potentieel belangrijke school- cn
•«lasfactoren tc maken hccfl mcl dc effcclivileit van een school.

NOTEN

Dit ondcr/ock was mogelijk dankzij ccn subsidie van hci Instituut voor Onderzoek van hcl Onderwijs
(SVO) ie Den Haag,
SVO-projccinummcr. 6009.

-ocr page 234-

228 H. Brandsma en A. Knuver

LITERATUUR

Balenburg, Th. A. van & Brandsma, H.P. (1990). De richting en effectieve kenmerken van basisscholen. In:
P. Tesser en J.H.G.I. Giesbers (Red.).
Schoolorganisatie en curriculum. Nijmegen: ITS.

Blom, MJ.T., Brandsma, H.P. & Stoel, W.G.R. (1986). Effectieve scholen in het basisonderwijs: een
voorstudie: basisscholen als determinanten van het functioneren van leerlingen. Groningen: RION,
Instituut voor onderwijsonderzoek.

Brandsma, H.P. (1988). Onderwijskundig schoolleiderschap in het voortgezet onderwijs. Een vergelijking
tussen schoollcidcrsgedrag op scholen voor MAVO cn LBO.
Tijdschrift voor Onderwijsweten-
schappen, 18,
6,271-281.

Brandsma, H.P. & Knuver, J.W.M. (1988). Organisatorische verschillen tussen basisscholen en hun effect
op leerlingprestaties.
Tijdschrift voor Onderwijsresearch. 13. 201-212.

Brandsma, H.P. & Knuver, J.W.M. (1989a). Basisschoolkenmerken als determinanten van het functioneren
van leerlingen.
Deelrapport I: InsUumentconstructie. Groningen: RION.

Brandsma, H.P. & Knuver, J.W.M. (1989b). Basisschoolkenmerken als determinanten van het functioneren
van leerlingen.
Deelrapport II: Resultaten. Groningen: RION.

Brandsma, H.P. & Knuver. J.W.M. (1989c). Effects of school and classroom characteristics on pupils
progress in language and arithmetic.
International Journal of Educational Research. 13, 777-888.

Creemers, B.P.M. & Scheerens, J. (1991). Onderwijseffectiviteit: overwegingen voor ccn programma van
onderzoek.
Tijdschrift voor Onderwijsresearch. 16, 4, 193-205.

Firestone, W.A. & Herriott, R.E. (1982). Prescriptions for effective elementary schools don't fit secondary
schools.
Educational Leadership, 40, 51-53.

Hallingcr, P. & Murphy, J. (1986). The Social Context of Effcctivc Schools. American Journal of Education.
94.
328-355.

Klitgaard, R.E. & Hall, G.R. (1974). Arc there unusually cffcctive schools? Journal of Human Resources,
74.
90-106.

Leeuw, A.CJ. dc (1982). Organisaties: management, analyse-ontwerp en verandering. Assen: Van Gorcum.

Miller, 5. & Yclton, B. (1987). Correlates of Achievement in Affluent Effective Schools. Paper presented at
het meeting of the American Educational Rcscarch Association, Washington, D.C.

Mintzberg, H. (1979). The structuring of organizations. Englewood Cliffs: Prcnticc Hall, Inc.

Rowan, B., Bosscrt, S.T. & Dwycr, D.C. (1983). Rcscarch on Effcctivc Schools: A Cautionary Note.
Educational Researcher, 2, 4, 24-31.

Scheerens, J. (1989a). Onderzoek naar dc schoolorganisatorische effectiviteit cn dc contingentiebenadering.
In: J. Schecrcns cn J.C. Verhoeven.
Schoolorganisatie, beleid en onderwijskwaliteit. (Bijdragen aan
dc onderwijsresearch no. 21). Amsterdam: Swets & Zeitlinger.

Schcerens, J. (1989b). Wat maakt scholen effectief? Samenvatting en analyse van onderzoeksresultaten.
's-Gravcnhage: SVO.

Schcerens, J., Vermeulen. C.J.A.J. & Pelgrum, W.J. (1989). Generalizability of Instructional and School
Effectiveness Indicators Across Nations.
International Journal of Educational Research. 13, 789-
798.

Tcddlic, C.. Stringfield, S., Wimpcibcrg, R. & Kirby, P. (1989). Contextual Differences in Models for
Effective Schooling in the USA. In: B.P.M. Creemers, T. Peters and D. Reynolds (Eds.).
School
Effectiveness and School Improvement.
Amsterdam: Swct? & Zeitlinger.

Manuscript ontvangen 3-7-1991

Defmitieve versie ontvangen 23-8-1991

-ocr page 235-

Effectiviteitsbevorderende schoolkenmerken 229

BIJLAGE I

Overzicht van school- en klaskenmerken die in de analyses zijn opgenomen. De kenmerken die
over het geheel genomen een positieve relatie vertonen met schooleffectiviteit (taal- en reken-
prestaties en leerwinst gecontroleerd voor leerlingachtergrondkenmerken) zijn gemarkeerd met
een +. De kenmerken die een negatieve relatie met effectiviteit hebben zijn met een - gemar-
keerd.

Klascontext

totaal aantal leerlingen in de groep
aantal leerlingen in groep 5 of 7 resp. 6
of 8

- percentage buitenlandse leerlingen
percentage zittenblijvers
percentage meisjes

gemiddeld sociaal milieu

- combinatiegroep

Leerkracht
leeftijd
werkervaring
duobaan

aantal uren overwerk per weck
samenwerken met collega's
tevredenheid met school
participatie in dc besluitvorming
innovatie-attitude

bij- en nascholingscur.sus.scn gevolgd

Schoolcontext

leeftijdspreiding in het team
percentage vrouwelijke leerkrachten in
groep 1-4

- percentage vrouwelijke leerkrachten in
groep 5-8

+ team.stabiliteit
leeriingaantal
leeftijd schoolgebouw
urbanisatiegraad

percentage buitcnland.se leerlingen
pcrccntagc zittenblijvers
pcrccntagc verwijzingen naar het SO
gemiddeld advies voor VO
gemiddelde klassegroottc
percentage leerkrachten met aantekening
RT

percentage leerkrachten met aantekening SO
pcrccntagc leerkrachten na.scholing nu
pcrccntagc leerkrachten na.scholing
vroeger
groeischool

~ stimulcrings.school

Klasse-organisatie

bestede tijd aan oefenen rekenen
bestede tijd aan oefenen taal
minimumeisen stellen
+ zich aan het lesrooster houden
lessen voorbereiden en plannen
planmatigheid bij probleemgedrag
+ bestede tijd aan huiswerk
bestede tijd aan basisvakken
bestede tijd aan overige vakken
zelfstandigheid van dc leerlingen
regels tijdens opdrachten
regels tijdens in.structie
differentiatie bij taal
differentiatie bij rekenen
fccdback op prestaties
belang sociale vaardigheden
belang persoonlijke groei
belang cognitieve ontwikkeling
belang maatschappelijke ontwikkeling
prestatiegerichtheid

Schoolorganisatie
+ citoschool
regels op school
ordcgcrichthcid
taakdelegatie

participatie team in dc besluitvorming
frequentie teamvergaderingen
planmatigheid teamvergaderingen
mate van planmatigheid
planmatigheid van verslaggeving
evaluatie leerkrachten
evaluatie onderwijs
oudcrpanicipatic

frequentie teamvergaderingen over

Iccpitof/lccrkracht

frequentie teamvergaderingen over

leerlingen

betrokkenheid bij innovatieproject

aantal jaren bezig met vcmicuwingcn

bezig met differentiatie

bezig met uitbreiding vomiingsaanbod

bezig met integratie KO-LO

bezig met zorgverbreding


-ocr page 236-

230 H. Brandsma en A. Knuver

Schoolleider

interventies bij vernieuwingen
leeftijd
werkervaring
aantal jaren directeur
aantal dagdelen les
+ attitude bij- en nascholing
- innovatie-attitude
+ tevredenheid met school
aantal uren overwerk per week
prestatiegerichtheid
+ tijd besteed aan klusjes
tijd besteed aan beleid
tijd besteed aan begeleiding
onderwijskundig leiderschap begeleidend
onderwijskundig leiderschap inhoudelijk
onderwijskundig leiderschap totaal
belang leer- en vormingsgebieden

Schoolorganisatie (vervolg)

- aantal jaren bezig met differentiatie
aantal jaren bezig met integratie KO-LO
aantal jaren bezig met zorgverbreding
totaal aantal iimovaties

tijd OBD individuele leerlinghulp
tijd OBD onderwijsinhoud
tijd OBD onderwijsorganisatie

- externe contaaen onderwijs
externe contacten cultureel
frequentie externe contacten

+ regelmatige evaluatie leeriingprestaties.


-ocr page 237-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 4, pp. 231-230

Effectief onderwijs voor allochtone leerlingen

M.P.C. van der Werf en M.G. Weide

RION, Instituut voor Onderwijsonderzoek, Rijksuniversiteit Groningen1
ABSTRACT

In this anicle the results of an outlier study in primary education arc presented. Schools of a) high
versus low 'quality', b) high versus low 'compensating power' and c) high quality as well as high
compensating power were sclcctcd from 124 schools with a lot of cthnic minority pupils (30 - 70
pcrccnt) among their student population. In the outlier schools diffcrcnccs in insuuctional characteristics
were analyzed.

The results show that in the schools of high quality tcachcrs give more instruction directed to the
whole classroom, there is a more orderly classroom climatc, cthnic minority pupils arc more corrcctcd
for wrong Dutch language use and rcccive less separated lessons. Besides, tlicrc arc less activities
organized in order to get cthnic parents into the schools. In the schools of high compensating power
even so there is more wholc-classroom dircctcd instruction and a more orderly classroom climatc.
Besides, tcachcrs lay more emphasis on learning basic skills and use more often specific learning
materials for cthnic minority pupils. In schools that scorc high on quality as well as compensatory
power tcachcrs give more attention to the basic skills and emphasize more the cognitive goals of
education.

PROBLEEMSTELLING

Zoals genoegzaam bekend is, hebben allochtone leerlingen ccn grote onderwijsachterstand ten
opzichte van Nederlandse leeriingen. In het basisonderwijs scoren zij in alle leerjaren veel lager
op taal- cn rekentoetsen (Tesser, Mulder & Van der Wcri", 1991; Tesser & Vierke, 1990; Van der
Werf, Wcidc & Mulder, 1991). Dc achterstanden zijn het grootst in groep 8 voor het vak taal. In
het voortgezet onderwijs zijn allochtone leerlingen ovcrvcncgcnwoordigd in het LBO cn MAVO
cn ondervertegenwoordigd in het MAVO cn VWO (Mulder, 1991). Bovendien verlaten zij daar
veel vaker zonder diploma het onderwijs dan Nederlandse leerlingen (Dc Jong, 1983). Tussen
dc vcrschilIcndc groepen allochtone leerlingen zijn wel duidelijke verschillen; Marokkaanse cn
Turkse leerlingen hebben ccn grotere achterstand dan Surinaamse cn Antilliaanse leeriingen cn
^czcn hebben op hun beurt weer ccn grotere achterstand dan leerlingen uit dc Middellandse
Zeelanden cn uit dc Aziatische landen.

Vooreen deel kunnen dc onderwijsachterstanden van allochtone leerlingen worden verklaard
^oor hun ongunstige achtergrondkenmerken, zoals opleiding en beroep van hun ouders cn hun
'htclligcntic. Ook is cr ccn relatie met verblijfsduur in Nederiand. Toch verklaren deze achter-
grondkenmerken niet alles. Het maakt voor dc prestaties van allochtone leerlingen ook uit op
^elkc .school ze zitten (Van der Werf, Wcidc & Tesser, 1991; Tesser, Mulder & Van der Werf,
'^91). Dii betekent dat sonunigc scholcn cffccticvcr onderwijs realiseren voor allochtone leer-
lingen dan andere scholcn.

1 let begrip cffcctivitcit omvat twee componcntcn. In dc eerste plaats gaat het om het gemiddelde
prestatieniveau van leerlingen, nadat gccontroiccrd is voor individuele achtergrondkenmerken
van dc leeriingen. zoals sociaal milieu, ctnicitcit en intelligentie. Dc scholcn waar. na deze
controle, het gemiddelde prestatieniveau hoger ligt. zijn voor alle leerlingen de betere scholcn.
Absoluut gezien zijn allochtone leerlingen op deze scholcn 'beter af' dan op scholcn met ccn
gemiddeld prestatieniveau. Relatief kunnen allochtone leerlingen op dc betere scholcn

1  RION, Posthus 1286,9701 RG Groningen.

-ocr page 238-

232 M.P. C. van der Werf en M.J. Weide

Fig. 1. Scholen van verschillende kwaliteit en met een verschillend compenserend vermogen.

echter toch slecht presteren, dat wil zeggen in vergelijking met hun Nederlandse medeleerlingen.
Die scholen zijn dan niet goed in staat te compenseren voor de nadelige effecten van de allochtone
achtergrond van leerlingen op hun prestaties. De onderwijsachterstand van de allochtone leerlingen
blijft op deze scholen bestaan.

In schooleffectiviteitsonderzoek gaat het om het opsporen van school- cn onderwijskenmerken
die een positief effect hebben op zowel het gemiddelde prestatieniveau van dc leerlingen na
controle voor achtergrondkenmerken als op de relaties tussen de achtergrondkenmerken van
leerlingen en hun prestaties. De beschreven twee componenten van effectiviteit worden res-
pectievelijk
kwaliteit en compenserend vermogen genoemd. In Figuur 1 wordt een cn ander
geïllustreerd aan de hand van het achtergrondkenmerk sociaal milieu (vgl. Brandsma & Knuver,
1988).

De relatie tussen sociaal milieu en prestaties kan weergegeven worden dooreen regressielijn. In
Figuur 1 staan dc regressielijnen van deze scholcn getekend, school A, school B en school C.
Het punt waar de lijn de venicale as snijdt is het gemiddelde prestatieniveau van de leerlingen,
gecorrigeerd voor hun achtergrondkenmerken, ofwel de kwaliteit van een school. School B is
dus wat kwaliteit betreft de beste school. De lijn zelf zegt iets over het compenserend vermogen.
Hoe steiler de lijrl, des tc sterker is dc relatie tussen sociaal milieu cn prestaties cn des tc kleiner
is het compenserend vermogen. School B en C hebben dus ccn groter compenserend vermogen
dan school A.

Voor kinderen uit ecn laag sociaal milieu is school B dc beste school; zowel dc kwaliteit als
het compenserend vermogen zijn daar het grootst. Analoog aan Figuur 1 kan ecn soortgelijke
figuur worden getekend met als achtergrondkenmerk ctni.schc afkomst of sekse met als verschil
dat het dan gaat om dichotome variabelen (Nederlands/allochtoon; jongen/meisje). Bij dergelijk
variabelen kan compenserend vermogen direct worden uitgedrukt als het verschil in prestatieniveau
tussen groepen leerlingen.

Uit de analyses op het databestand van de evaluatie van het onderwijsvoorrangsbeleid komt naar
voren dat er met betrekking tot beide aspecten van cffcctivitcit verschillen zijn tussen scholcn.
Dc tus.scn-scholcn-variantie in kwaliteit ligt tu.s.scn dc 6% cn 16%, afhankelijk van het vak
(rekenen of taal) cn het leerjaar (rcspccticvclijk 4, 6 cn 8 van het basisonderwijs). Tusscn-
scholcn-variantic in compenserend vermogen is er alleen voor taal in groep 8 cn rekenen in
groep 4. In beide gevallen gaat het alleen om compenserend vermogen voor allochtone leeriin-
gen. Voor de Nederlandse leerlingen uit laag sociaal milieu zijn er geen verschillen tussen
scholen in compenserend vermogen (zie Van der Werf, Weide & Tesser, 1991).

Een groot deel van dc verschillen in kwaliteit tussen scholen hangt samen met het perccntagc
allochtone leeriingen dat op deze scholen zit. Ook in ander onderzoek wordt deze relatie gevonden

sociaal milieu

-ocr page 239-

Effectief onderwijs voor allochtone leerlingen 233

(Dors, 1991; Van Batenburg, 1990). Op grond van deze resultaten wordt wel geconcludeerd dat
scholen met veel allochtone leerlingen slechtere scholen zijn voor leerlingen in het algemeen en
voor allochtone leerlingen in het bijzonder. De verklaring voor de gevonden samenhang die
soms wordt gegeven is dat het algemene streefniveau lager ligt omdat het wordt aangepast aan
het niveau van de allochtone leerlingen (bijvoorbeeld Tesser, Mulder & Van der Werf, 1991;
Dors, 1991). Vreemd genoeg verklaart het percentage allochtone leerlingen niet de verschillen
in compenserend vermogen tussen scholen. Dit betekent dat de relatie tussen etnische herkomst
en prestaties en dus de verschillen in prestaties tussen allochtone en Nederlandse leerlingen niet
varieert met het percentage allochtone leerlingen op de scholen. De verklaring dat 'zwarte
scholen' hun onderwijs aanpassen aan het niveau van de allochtone leerlingen is dus niet
afdoende, omdat in dat geval op die scholen de allochtone leerlingen ongeveer op het zelfde
niveau zouden moeten scoren als Nederlandse leerlingen, of liever andersom gezegd. Neder-
landse leeriingen op hetzelfde niveau zouden moeten scoren als allochtone leerlingen. Verder is
het niet onwaarschijnlijk dat er 'goede' scholen zijn met veel allochtone leeriingen en 'slechte'
met weinig of geen van deze leerlingen.

Om meer inzicht te krijgen in wat er aan de hand is op zwarte scholen cn om na te gaan of dc
conclusie dat dit 'slechte' scholen zijn is gerechtvaardigd, zullen
binnen deze groep scholen met
elkaar vergeleken worden. Indien blijkt dat sommige scholen, ondanks een schoolbevolking, die
grotendeels kan worden aangeduid als achterstandsgroep, beter in staat zijn dan andere het
algemene prestatieniveau van hun leeriingen te handhaven en daarmee ook goed zijn voor
allochtone leerlingen, dan kan niet zonder meer worden beweerd dat het lage niveau van 'zwarte'
.scholen zuiver aan dc omvang van dc allochtone groep leeriingen ligt. Meer voor dc hand ligt
dan dc verklaring dat de betere scholen hun instructieproces voor de leerlingen anders inrichten
dan de slechtere scholen. Indien bovendien blijkt dat sommige scholen beter kunnen compcnscrcn
voor dc allochtone afkomst van ccn deel van hun leeriingen. dan kan worden nagegaan aan
welke instructiekenmerken dit is toe tc schrijven.

Dc vraagstellingen die in dit artikel beantwoord zullen worden zijn:

1. Zijn cr vcrschillcn in kwaliteit tussen scholen met veel allochtone leerlingen?

2. Zijn er vcrschillcn in compenserend vermogen tussen scholen met veel allochtone leerlin-
gen?

3. Met wclkc instructiekenmerken hangen dc eventuele vcrschillcn in kwaliteit cn compense-
rend vermogen samen?

THEORETISCH KADER

Aan het eind van dc jaren zeventig cn in het begin van dc jaren tachtig verschenen in dc
literatuur overzichten van kenmerken van scholen die. blijkens onderzoeksresultaten, effectief
zijn voor dc leerprestaties van met name leerlingen uit achterstandsgroepen (bijvoorbeeld Edmonds,
1979; Purkey & Smith. 1983). Dc onderzoeken waarop deze overzichten gebaseerd zijn kunnen
worden geplaatst in dc stroming 'cffccticvc scholen onderzoek', die in het algemeen wordt
gezien als rcactic op dc uitkomsten van eerder onderzoek van bijvoorbeeld Colcman (1966) cn
Jencks (1972). waaruit werd geconcludeerd dat .scholen cr niet zoveel toe doen als het gaat om
vcrschillcn in leerprestaties (Schccrcns. 1989). Hoewel op dc onderzoeken waarop dc conclusies
in dc reviews gebaseerd zijn nogal wat is aan tc merken, komt cr toch ccn vrij consistent beeld
uit naar voren over vijf kenmerken die 'crtoc blijken tc doen'. Dit zijn dc kenmerken: sterk
onderwijskundig leiderschap, accent op dc verwerving van basisvaardigheden, ccn ordelijk cn
veilig klimaat, hoge verwachtingen van dc prestaties van dc leeriingen cn frequente evaluatie
van dc vorderingen van dc leerlingen. Tot op heden zijn deze vijf kenmerken in Ncdcriands
onderzoek nog steeds niet bevestigd. Langzamerhand lijkt men tot dc conclusie tc komen dat het
niet zozeer gaat om kenmerken op schoolniveau, maar dat dc kenmerken van het instructie-
proces in dc klas van veel groter belang zijn voor het verklaren van vcrschillcn tussen scholen.
Daarbij gaat het deels om andere operationaliseringen van dc hierboven genoemde vijf kenmerken.

-ocr page 240-

234 M.P. C. van der Werf en M.J. Weide

Vier van deze zijn eigenlijk geen kenmerken op schoolniveau, maar veeleer kenmerken die op
klasniveau i.e. op leerkrachtniveau moeten worden gedefinieerd. Alleen het kenmerk onder-
wijskundig leiderschap is eigenlijk een schoolkenmerk (vgl. Scheerens & Stoel, 1987). Ook uit
andere reviews komen regelmatig instructiekenmerken naar voren die effectief zijn voor de
leerprestaties van leerlingen (o.a. Good & Brophy, 1986; Walberg, 1986; Creemers, 1991). Als
belangrijkste worden genoemd de hoeveelheid tijd die leerkrachten besteden aan de instructie
en het hanteren van efficiënte management- en instructiestrategieën. Deze strategieën betreffen
het maximaliseren van de leertijd en gestructureerde indeling van de lessen, het handhaven van
de orde en rust in de klas, het toedelen van bij de leerling passende leerstof (differentiatie),
regelmatige evaluatie en feed-back en het stellen van duidelijke doelen.

Al deze kenmerken zijn niet alleen effectief voor de totale bevolking van een school, maar
ook, of juist voor de leerlingen uit achterstandssituaties. Het bekende onderzoek van Edmonds
(1979) dat werd uitgevoerd op scholen die qua schoolbevolking vergelijkbaar zijn met de
onderwijsvoorrangsscholen in Nederland toonde dit reeds aan. Ook uit Nederlands onderzoek
(Meijnen, 1984; Van der Wolf, 1984; Slavenburg, 1986) blijkt dat leerlingen uit de lagere
milieus gebaat zijn bij gestructureerd onderwijs en een gerichtheid op de basisvaardigheden.
Vrij recentelijk zijn publikaties verschenen waarin een overzicht wordt gegeven van instructie-
kenmerken die met name effectief zijn voor leerlingen met achterstanden (o.a. Slavin & Madden,
1989; Levine & Lezotte, 1990; Levin, 1990). Hieruit komt wederom naar voren dat gestructureerde
onderwijsprogramma's, regelmatige evaluatie en feed-back, nadruk op cognitieve doelen en het
hebben van hoge verwachtingen van de leeriingen de prestaties van achterstandsleerlingen
duidelijk kunnen verbeteren.

Specifiek voor allochtone leerlingen zijn aan deze lijst van kenmerken nog een aantal toe tc
voegen. Aangezien allochtone leerlingen behalve hun sociaal-economische achterstand ook een
achterstand hebben in hun kennis van en vaardigheid in de Nederiandse taal is het van belang
dat extra aandacht wordt geschonken aan de ontwikkeling van hun taalvaardigheid, door bij-
voorbeeld het geven van extra instructie in de Nederiandse taal en het aanbieden van speciale
taaloefeningen en materiaal dat is aangepast aan hun niveau (vgl. Slavin & Madden, 1989). Een
laatste kenmerk waarvan een positief effect verwacht kan worden is het betrekken van dc ouders
bij de school. Deze betrokkenheid is sterk gecorreleerd met dc sociaal-cconomischc achtergrond
van leeriingen (Asher & Flaxman, 1987). Met name de betrokkenheid van allochtone ouders is
vaak minimaal. Er zijn aanwijzingen dat op achierstandsscholcn waar wel een sterke betrokkenheid
van de ouders is.Jeeriingen beter presteren (Mortimore, 1988, Levin, 1990).

Op grond van de bc.schrcvcn onderzoeksresultaten kunnen twee groepen kenmerken worden
onderscheiden die van belang zijn voor effectief onderwijs aan allochtone leerlingen. Enerzijds
zijn dit de kenmerken die kunnen worden samengevat onder de noemer ■effectieve instructie-
kenmerken' en anderzijds zijn dit de kenmerken die vallen onder dc groep 'specifieke activiteiten
voor allochtone leeriingen'. Verwacht mag worden dat scholen die hoog scoren op kwaliteit én
op compenserend vermogen zich op beide groepen kenmerken in positieve zin onderscheiden
van scholen die op beide aspecten van effectiviteit laag scoren. Scholen die alleen op kwaliteit
hoog scoren zullen meer 'effectieve instructiekenmerken' bezitten in vergelijking met dc scholen
die daarop laag scoren. Daarentegen zullen scholen die alleen op compenserend vermogen hoog
scoren, naar verwachting, meer doen aan specifieke activiteiten voor allochtone leerlingen dan
scholen die op compenserend vermogen laag scoren.

ONDERZOEKSOPZET.

Steekproef

Voor de analyses ten behoeve van de beantwoording van de vraagstellingen is gebruik gemaakt
van het datal^stand van de evaluatie OVB.

Uit dit bestand waarin ongeveer 700 scholen zijn opgenomen, zijn de scholen geselecteerd
waarop tussen de 30% en 70% allochtone leeriingen zitten. Scholen met minder of meer allochtone

-ocr page 241-

Effectief onderwijs voor allochtone leerlingen 235

leerlingen worden buiten beschouwing gelaten omdat op die scholen nauwelijks sprake kan zijn
van compenserend vermogen. Dit betekent dat de scholen die (vrijwel) uitsluitend bevolkt
worden door allochtone leerlingen niet in de analyses zijn opgenomen. De conclusies uit de
analyses zijn dan ook op deze scholen niet zonder meer van toepassing. In totaal zijn 124
scholen geselecteerd. Alle leerlingen die in het schooljaar 1988/1989 getest zijn, in het achtste
leerjaar van de basisschool, zijn in de analyses opgenomen. In totaal waren dit 1962 leerlingen,
waarvan 864 leerlingen allochtoon zijn.

De analyses zijn dus in feite verricht op klasniveau in plaats van op schoolniveau. Aangezien
er echter op de scholen - op een enkele uitzondering na - maar één groep 8 is, valt het klasniveau
samen met het schoolniveau. Het gaat in de analyses dus om verschillen tussen scholen wat
betreft de prestaties van dc leeriingen in leerjaar 8. Voor het gemak blijven we spreken van
verschillen tussen scholen.

Variabelen

Voor het bepalen van de verschillen in kwaliteit cn compenserend vermogen tussen scholen is
gebruik gemaakt van de taaiscores van de leerlingen, omdat de achterstanden van allochtone
leerlingen voor dat vak het grootst zijn. De taalprcstatics zijn gemeten met ecn door het CITO
ontwikkelde toets, bestaande uit 67 morfologische, semantische en syntactische opgaven (Van
Bergen. 1989). Er zijn twee covariaten opgenomen. Dc eerste is dc weegfactor die leeriingen
krijgen ten behoeve van dc bepaling van dc extra OVB basisformatie voor dc scholcn. Deze
weegfactor wordt door ons gehanteerd als indicator voor dc sociaal-etnischc achtergrond van de
leerling, aangezien gegevens over opleiding cn beroep van dc ouders voor ccn groot deel van dc
leerlingen (vooral van dc allochtone leerlingen) ontbreken. Controle op het herkomstland van
de allochtone leeriingen - nodig vanwege het feit dat cr nog aanmerkelijke vcrschillcn in
prestaties tussen allochtone leerlingen ondcriing zijn die samenhangen met herkomstland -
geschiedt achteraf, dat wil zeggen na scicctic van dc outlier scholcn (zie resultaten). De weeg-
factor bedraagt 1.25 voor ecn Ncdcriand.se leeriing afkomstig uit ccn laag sociaal milieu cn 1.90
voor ecn allochtone leerling uit ccn laag sociaal milieu. Dc tweede covariaat is dc .scorc van dc
leerling op het ruimtelijk inzicht dccI van dc intelligentietest die speciaal ten behoeve van dc
evaluatie OVB is ontwikkeld (Doddcma-Winscmius & Van der Wcri". 1988).

De groep instructicvariabclcn waaraan eventuele verschillen tussen scholen kunnen worden
toegeschreven bestaat uit enerzijds 'cffccticvc instructiekenmerken' cn anderzijds 'specifieke
activiteiten voor allochtone leeriingen' (zie paragraaf theoretisch kader). Ecn overzicht van alle
instructiekenmerken die in dc analyses zijn opgenomen wordt gegeven in Figuur 2.

Effccticvc instnictic Spccifickc activiteiten

Differentiatie Correctie foutief taalgebruik

Klassikaal onderwijs Aparte lessen Ncdcriands

Minimumdoclcn Speciale taalmethoden

Ordelijk klimaat Gxua taaloefeningen

Overhoren Speciaal lesmateriaal

Herhaling leerstof Leespromotie

Vaststellen vorderingen Activiteiten voor all. ouders

Registratie vorderingen
Hoeveelheid lestijd
Huiswerk

Nadruk cognitieve doelen
Lecrstofgcrichthcid

Fig. 2. Overzicht insu-uctickcnmcrkcn.

-ocr page 242-

236 M.P. C. van der Werf en M.J. Weide

De instructiekenmerken zijn gemeten met schriftelijke vragenlijsten, ingevuld door de leer-
krachten die in het schooljaar 1988/1989 les gaven aan de geteste leerlingen in groep 8. De
meeste kenmerken zijn gemeten met enkelvoudige items. Gevraagd is naar de frequentie waar-
mee gedragingen, als indicatoren voor de betreffende kenmerken, voorkomen in de klassesituatie.
De kenmerken 'differentiatie', 'klassikaal onderwijs', 'ordelijk klasklimaat', 'leerstofgerichtheid'
en 'activiteiten voor allochtone ouders' zijn gemeten met Likertschalen. De coëfficiënten alpha
van deze schalen bedragen respectievelijk .76, .59, .82, .80 en .87. Voor nadere informatie over
de inhoud van de vragen wordt verwezen naar het rapport van Van der Werf, Weide & Tesser
(1991).

ANALYSEPROCEDURE

Ter beantwoording van de vraagstellingen 1 en 2 is gebruik gemaakt van het multi-level pro-
gramma VARCL (Variance Component Analysis) van Longford (1988). Het programma verdeelt
de variantie in de afhankelijke variabele, i.c. de taaiprestaties, in variantie op leerlingniveau en
variantie op schoolniveau. Het programma houdt hierbij rekening met het feit dat op sommige
scholen meer leerlingen zitten dan op andere scholen (zie ook Bosker. 1990). De varianties
kunnen worden opgevat als een samengestelde maat van afwijkingen van het algemeen gemid-
delde. Elke school heeft een gemiddeld prestatieniveau dat van dit algemeen gemiddelde afwijkt
in positieve of negatieve zin. Dit levert variantie
tussen scholen op (intercept variantie). Deze
interceptvariantie is de maat voor verschillen in
kwaliteit tussen scholen. Daarnaast wijkt elke
leerling binnen een school weer van het schoolgemiddelde af. Dit is variantie
tussen leerlingen.
Slechts de variantie tussen scholen in gemiddelde prestaties kan worden verklaard door de
insffuctiekenmerken. De variantie tussen leeriingen kan alleen worden verklaard door kenmer-
ken van de leerlingen zelf. Daarnaast kan het programma ook analyseren of de relatie tussen een
achtergrondkenmerk van een leeriing en de prestaties van school tot school verschilt. In dat
geval wijken de regressielijnen van individuele scholen af van een 'gemiddelde' regressielijn
die de algemene relatie tussen het leerlingkenmerk en dc prestaties weergeeft. De variantie van
de regressielijn wordt hellingvariantie genoemd. Deze variantie drukt dc verschillen in
com-
penserend vermogen
tussen scholcn uit.

De VARCL-analysc is in dc volgende stappen uitgevoerd:

1. Vastgesteld is wat dc proponics tc verklaren variantie op leerling- cn schoolniveau zijn. Dit is
het zogenaamde 'lege model'.

2. Dc leerlingkenmerken intelligentie en weegfactor zijn als va.stc covariaten stapsgewijs in het
model gcspecificccrd. Aangezien het bij de variabele weegfactor gaat om ccn categorale
variabele wordt in het programma dc rcgrcssiccoëfficiënt van dc eerste categoric (gewicht
1.00) op nul gesteld cn worden dc andere categorieën (gewicht 1.25 cn 1.90) daartegen
afgezet. Wanneer ccn categoric een negatieve rcgrcssifccoëfficiënt heeft, betekent dit dat
deze categorie ccn lager pre.staticnivcau heeft dan dc eerste categorie; ccn positieve
rcgressiccoëffiënt betekent ccn hoger prestatieniveau.

3. Na opname van de lecriingvariabclen is gekeken hoeveel variantie op schoolniveau over-
blijft. Deze interceptvariantie tu.sscn scholcn geeft dc verschillen in kwaliteit tussen scholcn
weer.

4. Dc relatie tussen weegfactor cn taalprestatics is vervolgens 'variabel' in het model gespecifi-
ceerd. Indien deze relatie inderdaad significant variabel gemodelleerd' kan worden is cr
sprake van hellingvariantie cn dus van verschillen in compenserend vermogen tussen scholcn.

Ter beantwoording van vraagstelling 3 zijn vervolgens outliers gcscIcctccrd cn wel als volgt.
Voor iedere school zijn de afwijkingen van het gemiddelde prestatieniveau van dc groep leerlingen
ten opzichte van het algemeen gemiddelde berekend, na correctie voor dc invloed van dc indi-
viduele intclligcntiescorcs cn dc Icerlinggcwichtcn. Deze interceptafwijkingen zijn dc kwali-
teitsscorcs van de scholcn. Vervolgens zijn dc scholcn gerangordend op dc interceptafwijkingen

-ocr page 243-

Effectief onderwijs voor allochtone leerlingen 237

en zijn die scholen geselecteerd die meer dan één standaardafwijking hoger of lager scoren dan
het dgemeen gemiddelde. Dezelfde procedure is gevolgd voor de selectie van scholen op
compenserend vermogen. Iedere school krijgt een hellingsscore en scholen die meer dan één
standaarddeviatie afwijken van de gemiddelde helling zijn geselecteerd als outliers. Tenslotte
zijn zes groepen scholen gevormd, namelijk een groep die op beide aspecten van effectiviteit
hoog dan wel laag scoort, een groep die alleen op kwaliteit hoog dan wel laag scoort en een
groep die alleen op compenserend vermogen hoog dan wel laag scoort.

Bij de geselecteerde groepen scholen is met behulp van variantie-analyse onderzocht op
welke instructiekenmerken de leerkrachten die aan groep 8 lesgeven significant van elkaar
verschillen.

RESULTATEN

Verschillen tussen scholen in kwaliteit cn compenserend vermogen
Voor het vaststellen of scholen verschillen in kwaliteit en compenserend vermogen en in welke
mate is. zoals gezegd, gebruik gemaakt van het programma VARCL. Eerst zijn de proporties
variantie op leerling- en schoolniveau vastge.steld door een 'leeg' model te specificeren, een
model zonder leerling- en instructiekenmerken. Vervolgens zijn intelligentie en weegfactoren
als vaste covariaten in het model ingevoerd. De proportie variantie die hierna op schoolniveau
overblijft geeft het kwaliteitsverschil tu.ssen scholen aan.

In Tabel 1 worden dc proponies varianties op leerling- en schoolniveau gepresenteerd. De tabel
laat zien dat de lecrlingcovariatcn samen ongeveer ccn kwart van dc totale variantie verklaren.
Van dc verschillen tussen scholen moet bijna dc helft toegeschreven worden aan verschillen in
kenmerken van de Iccriingpopulatics van de scholen. Er blijft nog negen procent 'tussen scho-
len' variantie over. zodat een .selectie van scholen op dc kwalitcitsdimcnsic mogelijk is.

Om tc kijken of dc .scholen vcrschillcn in compenserend vermogen is dc relatie tussen dc
weegfactoren taalprc.statics vervolgens variabel gemodelleerd. Het gaat hierbij om twee hellin-
gen. namelijk die van dc regressies van prestaties op respectievelijk dc weegfactor 1.25 cn dc
weegfactor 1.90. Dc 1.25- en 1.9()-lccriingcn worden niet rechtstreeks vergeleken. Uit dc VARCL-
analyscs blijkt dat dc scholen niet vcrschillcn in hun compenserend vermogen voor 1.25-lccriin-
gcn. Dc pre.statics van deze groep vcrschillcn op alle scholen ongeveer evenveel van die van dc
1.00-lccrlingcn. Er zijn alleen vcrschillcn in compenserend vermogen voor dc 1.90-lccriingcn.
waarbij dc regressiccoéfficient van dc I .(K) cn 1.25-lccriingcn tezamen op nul is gesteld. Ook op
dc compenserend vermogen dimensie kunnen dus leerkrachten worden geselecteerd.

Voordat dc selectie is uitgevoerd is nog gekeken of het pcrccntagc allochtone leeriingen, dat
tussen scholen nog aanmerkelijk verschilt (tussen dc 30% cn 70%), nog ccn verklarende factor
is voor vcrschillcn in kwaliteit cn compenserend vermogen. Dit is niet het geval.

Tabel 1. Proporties variantie op leerling- cn schoolniveau taal, groep 8.

leeg model

model met

lecrlingcovariatcn

Iccrlingnivcau

83%

65%

schoolniveau

m

totaal

100%

74%

-ocr page 244-

238 M.P. C. van der Werf en M.J. Weide

Tabel 2. Aantallen scholen die hoog en laag scoren op kwaliteit en compenserend vermogen (taal, groep 8).

Hoog

Kwaliteit
Gemiddeld

Laag

Totaal

Hoog

10

8

-

18

Compenserend

Gemiddeld

11

-

10

21

Vermogen

Laag

-

10

5

15

Totaal

21

18

15

54

Selectie effectieve en ineffectieve scholen

Na rangordening van de scholen op de intercepten en hellingen en selectie van die scholen die
meer dan één standaarddeviatie in positieve of negatieve zin afwijken van de algemene gemid-
delden, blijkt dat geen enkele school op het ene aspect hoog en op het andere aspect laag scoort.
Wel zijn er scholen die op beide aspecten hoog dan wel laag scoren (zie Tabel 2)

In totaal zijn er 21 scholen die op kwaliteit hoog scoren en 15 die daarop laag scoren. Voor
compenserend vermogen zijn de aantallen respectievelijk 18 en 15. Van de 21 scholen die op
kwaliteit hoog scoren, scoren 10 ook op compenserend vermogen hoog. De overige 11 scoren
op compenserend vermogen ongeveer gelijk aan het algemeen gemiddelde. De resterende 8 die
op compenserend vermogen hoog scoren, scoren op kwaliteit gemiddeld. Van de 15 scholen die
op kwaliteit laag scoren, scoren 5 ook op compenserend vermogen laag. De overige 10 scoren
op compenserend vermogen gemiddeld. De resterende 10 die op compenserend vermogen laag
scoren, scoren op kwaliteit gemiddeld.

Om na te gaan of de verschillen tussen de groepen scholen .samenhangen met de herkomstlanden
van de allochtone leerlingen is nagegaan wat de nationaliteit is van de leerlingen in dc verschillende
groepen. Er blijken wel wat verschillen te zijn. De allochtone leerlingen op dc laag-effectieve
scholen zijn voor zo'n 75% van Turkse of Marokkaanse herkomst. Op dc hoog-effectievc
scholen scholen vormen zij ongeveer 40% van de allochtone Iccrlingpopulatic. Binnen deze
groep is hierin echter een aanzienlijke variatie en er bevinden zich tus.scn deze scholen ook
scholen met bijna uitsluitend Turkse en/of Marokkaanse leerlingen. Wat het gemiddelde
opleidingsniveau van de ouders van de allochtone leerlingen betreft, verschillen de groepen
scholen niet van elkaar.

Betekenis van hoog en laag erTectieve scholen voor leerlingen

Ter illustratie van wat deze hoog cn laag effectieve scholen nü eigenlijk voor de leeriingprestaties
betekenen geven we in Tabel 3 de gemiddelde prestaties van de leerlingen die in het achtste
leerjaar van deze scholen zitten. N.B. Deze gemiddelden zijn ruwe gemiddelden, dat wil zeggen
ze zijn niet gecorrigeerd voor intelligentie.

Uit de tabel is duidelijk af te lezen dat de allochtone leerlingen absoluut gezien op de scholen
met een hoge kwaliteit beter af zijn dan op de scholen met een lage kwaliteit, maar dat de
verschillen tussen de Nederlandse en allochtone leerlingen even groot zijn als het gemiddelde
verschil tussen 1.00- en 1.90-leerIingen in de hele steekproef van 124 scholen. Op de scholen
met een hoog compenserend vermogen zijn allochtone leerlingen relatief veel beter af (d.w.z. cr
is geen achterstand ten opzichte van hun Nederlandse klasgenoten) dan de allochtone leerlingen
op scholen met een laag compenserend vermogen. Absoluut gezien zijn zc ook beter af dan de
gemiddelde allochtone leerling. De Nederlandse leerlingen zijn echter iets slechter af. Het
meest duidelijk is dat de scholen die zowel op kwaliteit als op compenserend vermogen hoog
scoren de beste scholen zijn, niet alleen voor allochtone leerlingen maar ook voor de Nederlandse
leerlingen. De gemiddelde score van de allochtone leerlingen op deze scholen ligt zelfs hoger

-ocr page 245-

Effectief onderwijs voor allochtone leerlingen 239

Tabel 3.Gemiddelde taaiprestaties van de leerlingen bij de onderscheiden groepen scholen.

Kwaliteit

Compens.verm.

Kwal. én Comp. Verm.

hoog laag

hoog laag

hoog laag

Algemeen

55 44

50 51

55 44

Ned. ll'cn

57 46

50 56

56 50

All. ll'en

52 43

50 42

54 40

Gemiddelden 124 scholen: Alg. 50; Ned. 53; All. 47.
Algemeen gemiddelde 700 scholcn: 53.

dan dat van alle leerlingen op dc 700 scholcn die in de evaluatie OVB zijn betrokken. Dc
Nederlandse leerlingen op dc hoog cffccticvc scholcn scoren eveneens boven het algemeen
landelijk gemiddelde.

Op basis van de VARCL analyses kan nu per groep scholcn een schatting worden gemaakt van
de te verwachten scorcs vooreen willekeurige
Ncdcriand.sc cn allochtone leeriing. Wc doen dit
voor dc groepen die hoog rcspccticvclijk laag scorcn op beide aspecten van effectiviteit (zie
Figuur 3)

60

55
53

50

47
45

40

• Alg. Gem.
Ncd. II.

Alg. Gem.
All. II.

hoog

cffcclicvc

scholcn

laag

cffccticvc
scholcn

Ncd. II.

All. II.

Fig. 3. Schatting van de taalprcstatics op hoog cn laag cffccticvc scholcn.

-ocr page 246-

240 M.P. C. van der Werf en M.J. Weide

Het algemeen gemiddelde van alle Nederlandse leerlingen op de 124 scholen is 53. E>e
verwachte prestatiescore voor de Nederlandse leerlingen op beide groepen scholen is de som
van het algemeen gemiddelde en de interceptafwijking. Binnen de groep laag effectieve scholen
varieert de interceptafwijking van -2 tot -5. De te verwachten gemiddelden van Nederlandse
leerlingen op deze groep scholen ligt dus 2 tot 5 punten lager dan 53. Voor de hoog effectieve
scholen varieert de interceptafwijking tussen +2 en +4. De te verwachten gemiddelden voor de
Nederlandse leerlingen op deze groep scholen ligt dus 2 tot 4 punten hoger dan 53.

De verwachting voor de allochtone leerlingen op de beide groepen scholen is de som van het
algemeen gemiddelde van de allochtone leerlingen, de interceptafwijking en de hellingsafwijking.
Het algemeen gemiddelde van de allochtone leerlingen is 47. De interceptafwijking + de
hellingsafwijking op de laag effectieve scholen varieert tussen -4 en -8. De verwachte prestatiescorc
voor de allochtone leerlingen op de laag effectieve scholen ligt dus tussen de 4 en 8 punten lager
dan 47. De verwachte prestaties van de allochtone leeriingen op de hoog effectieve scholen
liggen 4 tot 6 punten hoger dan 47. Dh zijn aanmerkelijke verschillen. De allochtone leerlingen
op de hoog effectieve scholen benaderen het gemiddelde van alle Nederlandse leerlingen.

Relaties tussen instructiekenmerken en kwaliteit en compenserend vermogen
Tussen de groepen scholen zijn met behulp van variantie-analyses verschillen getoetst in de
mate waarin bij de leerkrachten die les geven in het achtste leerjaar sprake is van verschillen in
instructiekenmerken. Vanwege de kleine aantallen in elke groep is een significantieniveau van
10 procent gehanteerd. De resultaten zijn weergegeven in Tabel 4. Alleen de significante effecten
zijn opgenomen.

Er zijn enkele duidelijke kenmerken waarop de groepen scholen zich van elkaar onderschei-
den. Zowel de leerkrachten op de scholen die hoog scoren op kwaliteit als leerkrachten op de
scholen die hoog scoren op compenserend vermogen geven meer klassikaal les. Met betrekking
tot het compenserend vermogen is dit opvallend. Een tweede kenmerk dat bij beide groepen
leerkrachten in positieve zin opvalt is een ordelijk klasklimaat. Voor het compenserend vermogen
blijkt verder een leerstofgerichte atthude alsmede het gebruik van specifieke taalmethoden voor
allochtone leerlingen gunstig. Voorde kwaliteit werkt het corrigeren van foutief taalgebruik van

Tabel 4. Verschillen in instructiekenmerken van Iccrkrachtcn in dc onderscheiden groepen scholcn.

Instructiekenmerk

F-waardc

Gemiddelden

Schaalbcrcik

kwal. hoog

kwal. laag

Klassikaal werken

4.1

5.5

4.1

2-10

Ordelijk klimaat

5.9

39.6

36.1

9-45

Corr. taalgebruik

11.4

12.6

9.9

3-15

Aparte lessen

8.1

1.6

2.8

I- 5

Act. all. ouders

3.6

8.1

9.9

4-12

C.Vcrm. hoog

C.Vcrm. laag

Klassikaal werken

4.9

5.4

4.1

2-10

Ordelijk klimaat

2.9

40.3

37.9

9-45

Specifieke methoden

3.0

2.9

1.5

1- 5

Lccrstofgcrichthcid

3.4

24.9

21.5

7-35

K/C.V. hoog

K/C.V. laag

Lecrstofgcrichthcid

3.8

26.6

21.6

7-35

belang cogn.doclcn

3.7

40.6

28.0

1 -100

-ocr page 247-

Effectief onderwijs voor allochtone leerlingen 241

allochtone leerlingen positief. Opvallend is dat dit voor alle leerlingen geldt; kennelijk profite-
ren Nederlandse leerlingen hiervan mede. Vreemd genoeg werken aparte lessen Nederlands
voor allochtone leerlingen negatief voor de prestaties van de leerlingen in het algemeen, evenals
extra activiteiten om allochtone ouders bij de school te betrekken.

Kijken we nu naar de scholen die op beide aspecten van effectiviteit hoog scoren dan blijkt
dat deze zich in twee opzichten, die overigens sterk met elkaar samenhangen, onderscheiden
van de minst effectieve scholen: de leerkrachten zijn meer leerstofgericht en leggen meer nadmk
op de cognitieve doelen van het onderwijs.

CONCLUSIES

In de eerste plaats wijzen de resultaten van dit artikel uit dat scholen met veel allochtone
leerlingen niet per definitie slecht hoeven te zijn. De scholen die zowel hoog scoren op kwaliteit
als op compenserend vermogen, laten duidelijk zien dat er wel degelijk goede scholen zijn voor
allochtone leerlingen, terwijl de Nederlandse leeriingen op die scholen eveneens een hoog
prestatieniveau halen. Deze gegevens ondersteunen dc opvatting van o.a. Everts (1989). Teunissen
(1988) en Masson (1990) dat niet het pcrccntagc allochtone leeriingen op een school verant-
woordelijk is voor de lage effectiviteit van concentratiescholen, maar dat het gaat om dc kwali-
teit van het onderwijs op die scholen. Met betrekking tot die kwaliteit hebben we aanwijzingen
dat cr duidelijke verschillen zijn tus.scn 'goede' en 'slechte' scholen. Dc meest effectieve groep
scholen onderscheidt zich op twee kenmerken van dc groep scholen die als het minst effectief
voor allochtone leerlingen kan worden aangeduid. Deze twee kenmerken hebben weliswaar
beide betrekking op attitudes van leerkrachten, maar deze attitudes zijn wel een voorwaarde
voor ccn effectief instructieproces waarin veel tijd wordt besteed aan de basisvaardigheden en
waarin aan leerlingen - ook aan allochtone leerlingen - hoge eisen worden gesteld aan de
niinimumdoelen die voor deze vaardigheden bereikt moeten worden. Het is onwaarschijnlijk dat
deze attitudes ccn rechtstreeks cffcct hebben. Verwacht mag worden dat ze doorwerken in het
instructicgcdrag van leerkrachten. Het is dc moeite waard om in aanvullend observatieonderzoek
na tc gaan hoe dc positieve attitudes worden omgezet in concreet handelen. Daarbij moet dan
ook aandacht worden besteed aan dc stabiliteit van dc schoolcffectcn. Dit betekent dat moet
Worden nagegaan of dc hoog cn laag cffccticvc scholen ook bij ccn nieuw cohort leerlingen in
groep 8 hoog respectievelijk laag effectief zijn.

In dc tweede plaats moet geconcludeerd worden dat kla.ssikaal onderwijs nog steeds het
meest effectief is. niet alleen voor het algemene prestatieniveau maar ook voorliet prestatieniveau
van achterstandsgroepen. Hierbij moet worden aangetekend dat dc betrouwbaarheid van dc
schaal 'klassikaal onderwijs' iets aan dc lage kant is. Anderzijds stemmen dc bevindingen wel
overeen met dc onderzoeksgegevens van Levin (1990), waaruit blijkt dat het gunstiger is voor
achtcnstandslccrlingcn om zc - eventueel na ccn kort cn snel remediërend programma - zoveel
mogelijk gewoon mee tc laten doen met het reguliere onderwijsaanbod. Een ordelijk cn rustig
klasklimaat werkt daartoe kennelijk als ccn gunstige conditie voor het Ieren. Wanneer ccn
leerkracht cr in slaagt dc orde in dc klas tc handhaven, komt hij of zij beter toe aan het afwerken
Van het lesprogramma cn krijgen leerlingen meer gelegenheid om tc Ieren.

AI deze gegevens wijzen erop dat dc zogenaamde algemene 'cffccticvc instrtictickcnmcrkcn'
niet alleen gunstig zijn voor dc kwaliteit van .scholcn maar ook voor het compenserend vermo-
gen; Allochtone leerlingen profiteren extra van deze kenmerken. Daarnaast blijken cchtcr ook
spccifickc activiteiten voor allochtone leeriingen van belang. Op scholcn van ccn hoge kwaliteit
Wordt het foutieve taalgebruik van allochtone leerlingen vaker gccorrigcerd dan op scholcn van
ccn lage kwaliteit. Kennelijk komt dit niet alleen allochtone, maar ook Nederlandse leeriingen
ten goede. Voor het compenserend vermogen geldt dat het gebruik van spccifickc methoden
Voor allochtone leeriingen positief werkt. Dit rc.sultaat ondersteunt dc opvattingen van Slavin cn
Maddcn (1989) dat achterstandsleerlingen gebaat zijn bij het gebruik van specifiek lesmateriaal
'ijdcns het instructieproces. Aparte lessen Ncdcriands zijn daarentegen minder gunstig, niet

-ocr page 248-

242 M.P. C. van der Werf en M.J. Weide

alleen voor allochtone maar ook voor Nederlandse leerlingen. Allochtone leerlingen worden
hierdoor in een uitzonderingspositie geplaatst, waardoor ze in een neerwaartse spiraal van lage
verwachtingen - lage prestaties terecht komen (vgl. Levin, 1990). Een alternatieve verklaring is
dat het vooral gaat om aparte lessen voor neveninstromers, die uiteraard slechter presteren op de
taaltoetsen. Anderzijds is ook uit de Chapter I programma's bekend dat het vormen van aparte
groepen veelal slecht uitpakt door bijvoorbeeld tijdverlies, onvoldoende afstemming op het
reguliere programma en dergelijk (Birmin, e.a, 1987). Het negatieve effect op Nederlandse
leerlingen kan worden verklaard door het vermoeden dat ze minder snel zullen voortgaan in het
reguliere programma omdat leerkrachten bang zijn dat allochtone leerlingen door die aparte
lessen anders steeds verder achterop raken bij de rest van de klas.

Tenslotte nog iets over het betrekken van de allochtone ouders bij de school. Scholen van
goede kwaliteit doen dit minder dan scholen van lage kwaliteit. Dit is strijdig met andere
onderzoeksgegevens (Mortimore, 1988; Levin. 1990). Een verklaring ligt mogelijk in het gegeven
dat scholen die in het algemeen vooral gericht zijn op directe verbetering van de leerprestaties
wat minder actief zijn met andere stimuleringsactiviteiten.

De conclusies van het onderzoek geven vooralsnog geen aanleiding de argumenten voor
spreiding van allochtone leerlingen te ondersteunen. In de eerste plaats zijn er binnen dc groep
scholen met veel allochtone leerlingen duidelijke verschillen in kwaliteit en compenserend
vermogen. Deze verschillen hangen niet significant samen met de verschillen in percentages
allochtone leeriingen op de scholen. In de tweede plaats zijn de verschillen in kwaliteit en
compenserend vermogen tussen scholen met veel allochtone leerlingen duidelijk toe te schrijven
aan enkele, door de onderzoeksliteratuur meermalen ondersteunde, kenmerken van het
instructieproces die in principe veranderbaar zijn. In de derde plaats wijzen de resultaten uit dai
kwaliteit en compenserend vermogen heel goed samen kunnen gaan in tegenstelling tot wat
vaak wordt gedacht. Dit pleit er voor de relatie tussen het algemene onderwijsbeleid en het
onderwijsvoorrangsbeleid te versterken. Beide beleidslijnen zijn er op gericht de kwaliteit van
het onderwijs te verbeteren: het algemene beleid voor alle leerlingen, het onderwijsvoorrangs-
beleid voor achterstandsleerlingen. Aangezien de doelgroepen voor een groot deel overlappen
en de middelen - effectieve instructiekenmerken - voor alle doelgroepen positief uitwerken -
ligt het voor de hand dat in beide beleidslijnen het accent wordt gelegd op verbetering van het
instructieproces van leerkrachten.

De kwaliteit van het instructiegedrag van leerkrachten kan worden bevorderd door
opleidingsinstituten en nascholingsinstellingen. De activiteiten van het Amsterdamse EEGA
project, dat wordt uitgevoerd in concentratiescholen ( Van der Wolf. 1990) zouden in dc opleiding
en nascholing betrokken kunnen worden voor het optimali.seren van dc effectieve onderwijs-
kenmerken op schoolniveau, die als condities kunnen worden beschouwd voor dc in.siructie-
processen in de klas. Ook schoolverbeteringsprojecten - met daaraan gekoppeld evaluatie-
onderzoek in de vorm van dieptcstudies - zullen het accent moeten leggen op verbetering van
instructieprocessen. Het landelijk schoolvcrbeteringsprojcct lijkt in deze een goede stap in dc
richting (zie bijv. Osinga. 1991).

LITERATUUR

Asher, C. & Flaxman, E. (1987). Parem participation and ihe achievement of disadvanuiged .students. In
D.S. Strickland & EJ. Cooper (eds.).
Educating Black children: America's Challenge, p. 70-76,
Washington, D.C: Howard University.
Batenburg, Th.A. van (1990). Variatie in schoolgemiddelden op de CITO-cindiocLs basi.sondcrwijs.
Tijdschrift

voor Onderwiji Research. IS. 6, 362-370.
Bergen, J.B.A.M. van (1989).
Verantwoording constructie toetsen voor de evaluatie van het onderwijs-
voorrangsbeleid.
Arnhem: CITO.
Birman, B.F.. OrIand. M.E.. Jung, R.K.. Anson, R J., Garcia, G.N.. Moore. M.T.. Funkhouscr. J.E., Morrison.
D.R. Tumbull, BJ.. Rcisncr. E.R. (1987).
The current operation of Educational Research and
Improvement.
U.S. Department of Education.
Bosker, R.J. (1990).
Extra kansen dankzij de school? Nijmegen: ITS, OOMO-rccks.

-ocr page 249-

Effectief onderwijs voor allochtone leerlingen 243

Brandsma, H.P. & Knuver, J.W.M. (1989). Organisatorische verschillen tussen basisscholen en hun effect

op leerlingprestaties. Tijdschrift voor Onderwijsresearch, 13,4,201-212.
Brophy, J. & Good, T. (1986). Teacher behaviour and student achievement In M.C. Wittrock (cd.).
Second

Handboek of Research on Teaching. New York: McMillan, Inc.
Coleman, J.S. et al. (1966).
Equality of Educational Opportunity. Washington DC: US government Printing
Office.

Creemers, B.P.M. (1991). Effectieve instructie. Een empirische bijdrage aan de verbetering van het onder-
wijs in de klas.
Den Haag: SVO, Balansreeks.
Dors, H.G., Karsten. S.. Ledoux. G., Steen. A.H.M. & Meijer. P.G. (1991).
Etnische segregatie in het on-
derwijs: beleidsaspecten.
Amsterdam: SCO.
Edmonds, R.R. (1979).
A discussion of the literature and issues related to effective schooling. Cambridge:

Center for Urban Studies, Harvard Graduate School of Education.
Edmons, R.R. (1979). Effective schools for the Urban poor.
Educational Leadership, 1979, 37, p. 15-24.
Everts, H. (1989). 'Witte' en 'zwarte' scholcn: bepaalt het aandeel allochtonen de kwaliteit van ecn school?

Tijdschrift voor onderwijswetenschappen, 19, 3/4, 174-191.
Jencks. E. ct al. (1972). Inequality. New York: Basic Books.

Jong, M.J. de (1983). Wat hebben ze bereikt? Het onderwijsniveau van vijftienjarige leerlingen uit

minderheidsgroepen. Rotterdam: Erasmusuniversiteit.
Levine. D.U & Lezotte. L.W. (1990).
Unusually effective schools. A review and analysis of research and

practice. The National Center for Effective Schools Research and Development
Levin. H.M. (1990).
Accelerating the progress of at risk students. Paper presented at the 8th Rockefeller

Institute Policy Seminar, nov. 8. 1990. New York.
Longford, N. VARCL-manual. Princeton. NJ: Educational Testing Service.
Masson. K. (1990). Bespreking proefschrift J. Teunissen. Migrantenstudies, 6, 2, 68-70.
Mortimore. P.. Sammons. P.. Stoll. L.. Lewis, D. & Ecob. R. (1988). School Matters: the junior years.

Somerset: Open Books.
Meijnen. G.W. (1984). Van zes tot twaalf Den Haag: SVO.

Mulder, L. (1991). De overgang van basis- naar voortgezet onderwijs van de OVB-doelgroepcn. Nijmegen/
Groningen: ITS/RION.

Osinga, N, (1991). Lcrcn Iczcn: ccn proeve van preventieve zorgverbreding. School en Begeleiding. 8,29,59-
64.

f^urkey.S.C. & Smith, M.S. (1983). Effective schools: a review. The Elementary SchoolJournal, 83,4,427-
452.

Scheerens. J. (1989). Wat maakt scholen effectiep Samenvatting cn analyse van onderzoeksresultaten. Den
Haag: SVO. balansrccks.

Schccrcns, J. & Stoel, W.G.R. (1987). Conceptuele en methodologische problemen bij onderzoek naar de
cffcctiviteil van .schoolorganisaties.
In J. Schccrcns & W.G.R. Stoel (red.). Effectiviteit van
onderyK'ijsorgani.saties.
Lisse: Swets & Zeitlinger.
Slavenburg. J.H. (1986). Onderwijsstimulering en gezinsactivering. Den Haag: SVO.
Slavin. R.E. & Madden. N.A. (1989). What
works for students at ri.sk: a Research Synthesis. Educational
Leadership.
-^6. 5.4-13.

Tc.sscr. P. & Vicrkc. H. (1990). De schoolprestaties van allochtone leerlingen in het ha.üsonderwijs. Nijmegen:
ITS.

Tesser. p. & Mulder. L. (1990). Conccnuatie cn presuties van allochtone leerlingen in het basisonderwijs.

Migrantenstudies, 6, 2. 31-44,
Tesser. P., Mulder. L. & Werf. G. van der (1991).
De eerste fase van de longitudinale OVB-onderzoeken.

Het leerlingenonderzoek. Nijmegen/Groningen: ITS/RION.
Teunissen. J. (1988). Etnische relaties in het basi.sonderwijs 'wiuc' cn 'zwarte' scholcn in dc grote steden.

Proefschrift Rijksuniversiteit Utrecht.
Walberg. H. (1986). Ecn synthese van onderzoek naar ondcrwij.sproductivitcit. In W.J. Nijhof & E. Warries

(red.). De opbrengst van onderwijs en opleiding. Lis.sc: Swets & Zeitlinger.
^crf. M.P.C. van der. Weide, M.G. & Tcs.scr. P. (1991).
Het onderwijsvoorrangsbeleid in de school en in

de klas. De eerste meting in het basisonderwijs. Groningen/Nijmegen: RION/ITS.
^olf. J.C. van der (1984).
Schooluitval. Een empirisch onderzoek naar de samenhang tussen schoolinterne

factoren en schooluitval in hel reguliere onderwijs. Lisse Swets & Zeitlinger.
^olf. K. van der (1990).
Effectief onderwijs op kleurrijke scholen. Delft: Eburon.

^onuscript ontvangen 5-7-I991
"'finitieve versie ontvangen 6-9-I99I

-ocr page 250-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 4, pp. 244-230

Onderwijskundig leiderschap en leerlingprestaties in
het basisonderwijs

W. van de Grift en W. Akkermans^
ABSTRACT

The impact of educational leadership on pupil achievement vi'as investigated. Teacher perceptions of
educational leadership of 250 principals in Dutch elementary education were investigated by means
of a Rasch scale. A standardized achievement test was administered to pupils aged between 10 and
11 on 73 of these schools.

The results of this study show that 16% of the variance in pupil achievements is related to classroom
and school level factors. It appears that 45% of this 16% can be explained by a measure of classroom
social economic status and educational leadership together. The cffcct of educational leadership
over and above classroom social economic status amounts to 11 %.

INLEIDING

In diverse onderzoekingen naar het verband tussen onderwijskundig leiderschap en gemiddelde
leerlingprestaties is gebruik gemaakt van zelfwaarnemingen van schoolleiders (Brookover et
al.. 1978; Wellisch et al., 1978; Mortimore et al. 1988; Brandsma & Knuver, 1989; Van de Grift,
1987; 1989). In deze onderzoekingen werden zowel positieve als negatieve verbanden tussen
sommige aspecten van onderwijskundig leiderschap en gemiddelde leeriingprestaties gevonden.
Andere aspecten van onderwijskundig leiderschap bleken geen significant verband tc houden
met gemiddelde leeriingprestaties. Een ander belangrijk kenmerk van deze onderzoekingen
was. dat aspecten van onderwijskundig leiderschap, die in het ene onderzoek significante verbanden
hadden met gemiddelde leerlingprestaties, dat in ander onderzoek niet hadden. Bovendien ble-
ken de correlaties tussen de zelfpercepties van onderwijskundig leiderschap en de gemiddelde
Ieeriingprestatie.s in de Amerikaanse en Britse studies te variëren tussen de -.36 cn dc .41,
terwijl deze correlaties in Nederlandse studies veel lager zijn namelijk tussen de -.25 cn dc .18.

Voor deze verschijn.sclcn kan een aantal potentiële verklaringen worden gegeven; Op dc
eerste plaats hebben de Britse en de Amerikaanse onderzoekingen naar dc cffcctivitcit van
scholcn slechts bij een zeer beperkt aantal scholcn plaats gevonden. Het aantal scholcn lag in dc
Britse cn Amerikaanse studies tussen dc 26 cn de 71. In dc Ncderiandse studies liggen deze
aantallen scholen steeds ruim boven de 100. Dit brengt met zich mee. dat dc in dc Britse cn
Amerikaanse onderzoekingen gevonden corrclaticcoëfficiëntcn slechts uiterst magere voorspel-
lers zijn voor wat er in dc populatie het geval is. Dc betrouwbaarheidsintervallen zijn bij kleine
rcspondcntaantallcn immers bijzonder groot.

Op dc tweede plaats kan er sprake zijn van kanskapitalisatic. Er zijn bijvoorbeeld in het
onderzoek van Mortimore en zijn collega's 45 correlaties uitgerekend cn cr zijn cr slechts 10
significant op het .05 niveau. Bij zoveel correlaties vindt men puur op basis van kans wel enkele
significante correlaties.

Een derde verklaring zou kunnen zijn dat cr belangrijke verschillen zijn tussen Britse cn
Amerikaanse scholcn enerzijds cn Nederlandse scholcn andcrszijds. Het zou kunnen zijn dat
Amerikaanse en Britse schoolleiders meer invloed op dc prestaties van dc leerlingen hebben dan
dc Nederlandse. Vandaar dat dc hoogte van dc correlaties in Nederiand tegenvalt. Dc geldigheid
van deze verklaring kan alleen in internationaal vergelijkend onderzoek onderzocht worden.

' W. van dc Grift, Hcrtogcnborch 5, 3992 CE Houten.

-ocr page 251-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 245

Hierover zijn momenteel te weinig recente onderzoeksgegevens bekend om een duidelijke
conclusie te kunnen trekken.

Op de vierde plaats moeten we opmerken, dat in alle genoemde onderzoekingen is gewerkt
met een onderzoeksopzet waarin de scores voor onderwijskundig leiderschap in verband gebracht
zijn met gemiddelde leerlingprestaties. Op dit moment zijn ei analysetechnieken voor handen,
die beter zijn toegesneden op het feit, dat verbanden tussen het gedrag van schoolleiders en de
prestaties van leerlingen zich op twee niveaus - namelijk het niveau van de school en het niveau
van de individuele leeriingen - afspelen. Dit biedt ons onder meer de mogelijkheid om na te
gaan hoeveel procent van de variantie in leerlingprestaties maximaal door schoolfactoren verklaard
kan worden. Als dit maximaal mogelijke percentage betrekkelijk gering is, dan hebben we
daarmee een verklaring voor het feit dat er in Nederland regelmatig correlaties gevonden wor-
den tussen diverse aspecten van onderwijskundig leiderschap en gemiddelde leerlingprestaties,
die vlak boven of vlak onder de nul liggen.

Op de vijfde plaats kan het zijn dat het mankeert aan de kwaliteit van de gebruikte meetin-
strumenten. We moeten concluderen, dat er over de betrouwbaarheid en validiteit van de on-
derzoeksinstrumenten, die in de genoemde Amerikaanse en Engel.se 'effective schools' onder-
zoekingen gebruikt zijn, te weinig bekend is. om deze instrumenten het voordeel van de twijfel
te geven. In alle hierboven genoemde onderzoekingen is gewerkt met zelfpercepties van on-
derwijskundig leiderschap. Dit kan een aantal bezwaren met zich meebrengen. Met name de
zelfwaarnemingen van schoolleiders zouden onzuiver kunnen zijn. Het zou kunnen zijn dat
schoolleiders over hun eigen gedrag een aantal zaken scoorden, die door onderwijsgevenden
niet waargenomen worden. Aangezien het redelijk lijkt om tc veronderstellen dat de invloed van
onderwijskundig leiderschap zich via dc onderwijsgevenden uitstrekt tot dc Iccrlingprcstatics,
werd door Andrews & Bamberg (1989) cn door Van dc Grift (1990) besloten om het onderwijs-
kundig leiderschap af tc meten aan dc waamcmingcn van onderwijsgevenden. Andrews &
Bamberg (1989) stelden bij 61 Amerikaanse ba.sisscholcn aan dc hand van Iccrkrachtpcrccptics
van onderwijskundig leiderschap vast dat cr ccn significant verband was tussen onderwijskun-
dig leiderschap en Iccriingprc.staties, die overigens niet voor het milieu van herkomst van dc
leeriingen gecorrigeerd waren. In ccn Ncdcriands onderzoek bij 104 bxsisscholcn kon cchtcr
geen significante corrclatic gevonden worden tussen onderwijskundig Icidcrschap, dat afgemeten
Werd aan dc pcrccptics van onderwijsgevenden cn dc gemiddelde Iccriingprcstatics die voor het
milieu van herkomst van dc leerlingen gccorrigcerd waren (Van dc Grift, 1990). Wc kunnen nu
va.ststcllcn, dat door het werken met Iccrkrachtpcrccptics alléén het probleem van dc tegenspraak
m dc onderzoeksresultaten niet wordt opgelost.

In dit artikel doen wc twee voorstellen voor dc verbetering van dc aanpak in het onderzoek naar
dc verbanden tussen onderwijskundig Icidcrschap van schoolleiders cn Iccriingprcstatics. Deze
voorstellen betreffen dc vierde cn dc vijfde van dc hierboven genoemde mogelijke verklaringen.
Het eerste voorstel bestaat in het gebruik maken van ccn ondcrzock-sin.strumcnt. dat aan stringentere
eisen voldoet, dan dc instrumenten die door Andrews & Bamberg (1989) cn door Van dc Grift
(1990) gebruikt zijn. Het tweede voorrïtcl bestaat in het hanteren van ccn modcmcrc analy.sctcchnick
om het verband tussen onderwijskundig Icidcrschap cn Iccrlingprcstatics tc onderzoeken. Deze
heide voorstellen zijn gerealiseerd in ccn onderzoek onder scholcn in het basisonderwijs. Van
dit onderzoek doen we in dit anikcl vcr>ilag.

SCHAALCONSTRUCTIE

In zowel het onderzoek van Andrews & Bamberg (1989). als in het onderzoek van Van dc Grift
(1990), werd gebruik gemaakt van Likertschalen. die voldeden aan belangrijke eisen die in dc
klassieke testtheorie aan schalen gesteld worden. Bij dc huidige stand van psychometrische
kennis is het cchtcr mogelijk om .schalen tc ontwikkelen, die aan stringentere psychometrische
eisen voldoen. Wc kunnen daarbij denken aan ccn schaal die voldoet aan dc eisen van een

-ocr page 252-

246 W. van de Grift en W. Akkermans

itemrespons model. Dergelijke schalen hebben een aantal voordelen boven Likertschalen. Ten
eerste zijn de scores op deze schalen onafhankelijk te schatten van de gebruikte items. Verder
zijn de schaalwaarden van de items vast te stellen onafhankelijk van de toevallige groep
respondenten die de vragen beantwoord heeft. Daarnaast zijn de verkregen scores te beschou-
wen als van interval meemiveau. Tenslotte is het mogelijk om bij schalen die op een itemrespons
model gebaseerd zijn nauwkeuriger de meetfouten te bepalen dan bij meetinstrumenten die op
de klassieke testtheorie gebaseerd zijn.

Om een dergelijke schaal te vormen, moet een verzameling items voldoen aan een aantal
empirisch toetsbare assumpties. Op deze assumpties komen we nog terug. We geven eerst een
korte karakterisering van itemrespons modellen.

Itemrespons modellen

Bij itemrespons modellen worden items en personen op dezelfde dimensie geschaald. De
schaalwaarde van items wordt aangeduid met 'itemmoeilijkheid'. De schaalwaarde van de personen
wordt in het algemeen 'vaardigheid' genoemd. Itemrespons modellen zijn er in een aantal
varianten. Drie varianten genieten ruimere bekendheid. In het éénparameter logistische model
of Raschmodel hebben alle items parallelle itemkarakteristieke curves. De items verschillen
alleen in lokatie op de dimensie, dat wil zeggen in moeilijkheid. Dat betekent dat de kans dat een
persoon op een bepaald item 'ja' scoon, behalve van de moeilijkheid van het item, alleen
afhangt van de vaardigheid van de betreffende persoon. In het tweeparameter- of Bimbaummodel
hebben de items behalve een lokatie- ook een discriminatieparameter. Elke itemkarakteristieke
curve heeft in dit model een eigen hellingshoek. De kans dat een persoon 'ja' scoon op een
bepaald item, hangt in dit model behalve van de vaardigheid van de persoon en de moeilijkheid
van het item, ook af van de hellingshoek van de itemkarakteristieke curve. Tenslotte is er nog
het drieparameter model, dat de eigenschappen van het Bimbaummodel heeft en daarnaast nog
rekening houdt met het feit dat respondenten tot hun antwoord kunnen komen op basis van
raden of gissen.

In ons geval, waar het gaat om het meten van het onderwijskundig leiderschap van schoolleiders,
is dit derde model duidelijk niet van toepassing. Bij de keuze tus.sen het één- en het tweeparameter
model laten we ons leiden door praktische overwegingen. Het éénparameter model stelt welis-
waar strengere ei.sen aan de data, maar wanneer daaraan wordt voldaan, heeft dit model een
aantal voordelen boven het tweeparameter model. In het éénparameter model bestaan zeer
eenvoudige afdoende statistische grootheden voor zowel de item- als de persoonsparameters.
Het berekenen van deze parameters is daarom in dit model gemakkelijker dan in hei tweeparameter
model. De statistische grootheid voor de items in het éénparameter model is ook eenvoudiger tc
interpreteren dan de statistische grootheden voor het tweeparameier model: in hei Raschmodel
is de statistische grootheid gelijk aan het aantal positief beantwoorde items; wanneer de iiem-
karakicrisiicke curves niel parallei zijn moet het antwoord op elk item eerst nog worden gecorrigeerd
voor het verschil in discriminerend vermogen. Het is dus de'moeite waard om le onderzoeken of
de gebruikte items parallelle curves vertonen. Wanneer dat hel geval blijkl, kan worden volstaan
met het eenvoudiger Raschmodel.

Assumpties bij het Raschmodel

De ilemkarakierislieke curvcs van de items van een Raschschaal voldoen aan de volgende
formule:

= 'Ja') = IcxpOj-S,)] / [ 1 + cxp(ej-5,))

waarin de moeilijkheidsgraad is van het bcireffcnde iiem k, 6 de vaardigheid van een indi-
vidu i. en P(x. = 'ja') de kans dal een individu met vaardigheid 0j 'ja' zegl tegen hcl item mei
moeilijkheid ö^. De waarden van zowel 6 als 5 worden vastgesteld op een logaritmische schaal.

Uit deze formule volgt, wat reeds in de vorige paragraaf is gesteld: De ilemkarakierislieke
curvcs van de verschillende items van een Raschschaal verschillen alleen in lokatie en zijn dus

-ocr page 253-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 247

parallel. Een goede Raschschaal heeft nog twee andere eigenschappen. De kans op een positief
antwoord hangt bij een gegeven itemmoeilijkheid alleen af van de vaardigheid van de respondent.
Andere eigenschappen mogen geen invloed hebben op de kans op een positief antwoord. Met
andere woorden, een verzameling items moet één, en ook alleen die ene dimensie meten. Dit is
de eigenschap van de unidimensionaliteit. En tenslotte behoren de items onderling lokaal
stochastisch onafhankelijk te zijn. Daarmee bedoelen we dat binnen een groep respondenten
met gelijke vaardigheid geen correlatie mag bestaan tussen de antwoorden op twee willekeurige
items. Hieronder geven we aan hoe een verzameling items op deze drie eigenschappen kan
worden onderzocht.

Parallelliteit

Er bestaan verschillende manieren om vast tc stellen of een verzameling items parallelle item-
karakteristieke curves venoont. We bespreken twee statistische toetsen: de Anderscntocts, en de
Martin-Löftocts.

De Anderscntocts is ccn toets om de gelijkheid van itemmoeilijkheden in verschillende subgroepen
met elkaar tc vergelijken. De toets kan cchtcr ook worden gebruikt om verschillen in
discriminatieparameters op het spoor tc komen. In dat geval wordt de toets uitgevoerd op
subgroepen respondenten die van elkaar verschillen in (geschatte) vaardigheid of totaalscore. In
het éénparametcr model moeten vanwege dc parallelle itemkarakteristieke curves in elke subgroep
respondenten dezelfde schattingen voorde itcmmocilijkhcdcn worden gevonden, ook in .subgroepen
die van elkaar verschillen in vaardigheid. In het tweeparameter model daarentegen zijn de
relatieve itcmmocilijkhcdcn voor hoge cn voor lage scoordcrs niet gelijk. Immers dc item-
karakteristieke curves zijn in het twccparamctcrmodcl niet parallel cn kunnen elkaar zelfs
kruisen. Dc Anderscntocts is dus. indien toegepast op subgroepen respondenten met ecn ver-
schillende vaardigheid, gevoelig voor vcrschillcn in discriminerend vermogen van dc items. Per
item levert dc toets bij benadering ccn t-waardc op voor het verschil in moeilijkheidsgraad in dc
onderscheiden groepen; dc som van dc t^-waardcn volgt bij benadering ccn chi-kwadraat ver-
deling met k-1 vrijheidsgraden (k = aantal items) (Andcrscn, 1973).

Bij dc Manin-Lttftocts worden eveneens respondenten met gelijke gcschattc vaardigheid of
totaalscore samengenomen. Voor elk item wordt dan voor elke scorcgrocpde volgens het model
verwachte proponic personen met 'ja' berekend. Deze proponics worden vergeleken met dc
aangetroffen proporties 'ja'. Dc aangetroffen vcrschillcn per .scorcgrocp kunnen per item worden
omgewerkt naar ecn t-waardc; dc som van dc t^-waardcn voor dc gehele schaal benadert weer
ccn chi^-verdcling met (k-1) (.s-1) vrijheidsgraden (k = aantal items; s = aantal scorcgrocpcn)
(Martin-Löf. 1973).

Unidimensionaliteit

Ecn verzameling items is unidimensioneel als zij één. cn sicchts één onderliggende dimensie
nicct. Ecn dircctc toets op unidimensionaliteit bc.staat niet; het is sicchts mogelijk toetsen uit tc
voeren op consequenties van unidimensionaliteit. Wanneer ccn verzameling items ccndimcnsioncel
•s. zullen voor clkc ondcrschcidcn subgroep respondenten, bijvoorbeeld mannen cn vrouwen, of
stadsbewoners cn plattelanders, dc itcmmocilijkhcdcn gelijk moeten zijn. Dc Andcnïcntocts.
Waarvan hierboven reeds sprake was. kan worden gebruikt om itcmmocilijkhcdcn in ondcrschcidcn
subgroepen met elkaar tc vergelijken. Dc vcrschillcn worden per hem weer omgewerkt naar t-
waardcn. cn dc som van dc t^-cn volgt weer bij benadering ccn chi-kwadraat-vcrdcling met k-1
vrijheidsgraden (k = aantal items).

Lokale stochastische onafhankelijkheid

Wanneer, gegeven iemands vaardigheid, dc rcactic op ccn item onafliankelijk is van dc rcactic
op alle andere items in dc schaal, is sprake van lokale stochastische onafliankclijkhcid van de
items. Bij dc berekening van dc waarden van dc itcmparamctcrs wordt van dc as.sumptic van
•okale onafliankclijkhcid gebruik gemaakt. Er zou dus moeten worden onderzocht of dc items

-ocr page 254-

248 W. van de Grift en W. Akkermans

inderdaad lokaal stochastisch onafhankelijk zijn. Aangezien echter unidimensionaliteit lokale
stochastische onafhankelijkheid impliceert (Lord & Novick, 1968, 538), hoeft in de praktijk
meestal geen apart onderzoek naar deze derde voorwaarde uitgevoerd te worden.

De voorafgaande overwegingen brengen ons tot ons eerste onderzoeksdoel: Het construeren van
een schaal voor het meten van de leerkrachtpercepties van onderwijskundig leiderschap, die
voldoet aan de assumpties van het dichotome Raschmodel.

Steekproef

Voor dit onderzoek werd uit de 8289 Nederlandse basisscholen een aselecte steekproef getrok-
ken van 500. Op 275 van deze scholen was tenminste één leerkracht bereid de vragenlijst
'Leerkrachtpercepties van onderwijskundig leiderschap' in te vullen. Bij 25 onderwijsgevenden
was er sprake van partiële non respons. Het computerprogramma PML (Gustafsson, 1979)
waarmee wij de statistische analyses uitvoeren accepteert geen ontbrekende waarnemingen,
zodat alleen volledig ingevulde vragenboekjes kunnen worden verwerkt. Van de 275 vragenboekjes
waren er 250 volledig ingevuld. Dat betekent dat we analyses kunnen uitvoeren op 250
respondenten.

Het meten van onderwijskundig leiderschap

De items in een Raschschaal hebben een opklimmende moeilijkheidsgraad. Of anders gezegd:
de gedragingen die in de items beschreven worden geven een opbouw tc zien van relatief
eenvoudig uitvoerbare gedragingen naar gedragingen die voor mensen relatief moeilijk zijn uit
te voeren. Bij onderwijskundig leiderschap verwachten we ccn dimensie die loopt van relatief
passief schoolleidergcdrag: het openstaan voor leerkrachten tot en met zeer actief gedrag: het
begeleiden en ondersteunen van leerkrachten. Hoe hoger ccn schoolleider op dc dimensie staat,
hoe verder hij gaat in zijn gedrag ten opzichte van de leerkrachten. Een onderwijskundig sterke
schoolleider zal zich vergaand met het didactisch handelen van dc onderwijsgevenden bemoeien.
Wc kunnen dc dimensie onderwijskundig leiderschap als volgt typeren: het scheppen van on-
derwijskundige voorwaarden, waaronder leerkrachten goed cn effectief kunnen functioneren;
het informeren cn stimuleren van leerkrachten; cn het adviseren cn begeleiden van leerkrachten.
Bij het operationaliseren van het onderwijskundig leiderschap houden wc rekening met dc
bovengenoemde overwegingen die dc dimensie van onderwijskundig leiderschap h>ctreffen.
Daarnaast leggen jve expliciet de nadruk op het gedrag van schoolleiders met betrekking tot dc
prestaties van de leerlingen. Het is immers dc bedoeling om in dc traditie van dc genoemde
onderzoekingen (Brookover ct al., 1978; Wellisch ct al., 1978; Mortimore ct al. 1988; Brandsma
& Knuver. 1988; Van dc Grift. 1987; 1989; Andrews & Bamberg. 1989 cn Van dc Grift. 1990)
een meetinstrument te ontwerpen, dat ccn voorspellende waarde heeft voor dc prestaties van dc
leerlingen. Voor het meten van bijvoorbeeld dc bcgclcidingsvaardighcid van schoolleiders bij
onderwijsvernieuwingen zijn andere meetinstrumenten beschikbaar (zie Van dc Grift. 1987;
Van dc Grift & Houtvccn. 1991). Datzelfde geldt voor dc management- cn administratie-
vaardigheden van schoolleiders (zie Van dc Grift & Kurck-Vricscma, 1990).

Voor dc operationalisering van onderwijskundig leiderschap hebben wij gebruik gemaakt van
ccn vragenlijst. Deze vragenlijst is bedoeld voor afname bij leerkrachten: zij moeten aangeven
of hun schoolleider dc in de items verwoorde activiteiten al dan niet vaak uitvoeren. Het gaat
dus om percepties van onderwijsgevenden van onderwijskundig leiderschap. Wc gaan nu uitvoerig
in op de constructie van ccn Raschschaal voor onderwijskundig leiderschap. Dc vragcnlij.st
bestaat uit 18 items. De antwoordmogelijkheden van deze items lopen van 1 tot cn met 6 (1 =
nooit; 2 = bijna nooit; 3 = af cn toe; 4 = vaak; 5 = bijna altijd; 6 = altijd). Voor ccn dichotome
Raschschaal zijn items nodig met slechts twee antwoordmodalitcitcn: goed cn fout. of ja cn nee.
Daarom hebben we dc items gedichotomiseerd. Bij dichotomisering tussen dc antwoord-
mogelijkheden 2 (bijna nooit) cn 3 (af cn toe) bleken erg veel respondenten ccn heel lage scorc
tc behalen. Wij hebben daarom gekozen voor dichotomisering tussen 3 (af cn toe) cn 4 (vaak).

-ocr page 255-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 249

Parallelliteit van de itemkarakteristieke curves

In Tabel 1 zijn voor onze 18 items de geschatte itemmoeilijkheden weergegeven, en hun
standaardfout.

Tabel I. Parallelliteitsonderzock op 18 items (n = 250).

itemmoeilijkheid
met stand, fout

t-waarde t-waarde
Andersen Martin-Löf

1. Leerkrachten kunnen bij de schoolleider terecht
als zc problemen van leerlingen willen bespreken.

2. De schoolleider doet actief mee aan de keuze van
nieuwe onderwijsmethoden.

3. De schoolleider geeft leerkrachten het gevoel dat
hun werk belangrijk is.

4. De schoolleider zorgt ervoor dat teamvergaderingen
waardevolle onderwijskundige bijeenkomsten zijn.

5. De schoolleider geeft hoge prioriteit aan
onderwijsmethoden, die tot een verbetering van dc
leerresultaten van alle leerlingen kunnen leiden.

6. Dc schoolleider zorgt voor een op Ieren gericht
schoolklimaat.

7. De .schoolleider toont waardering voor leerkrachten
die hun werk goed doen.

8. Dc .schoolleider geeft leerkrachten het gevoel dat zij
ccn belangrijke bijdrage kunnen leveren aan het
verbeteren van de Iccrprcsuties van hun leerlingen.

9. De schoolleider be.spreckt tijdig de problemen die
kunnen optreden bij dc uitvoering van het werk op school.

10. Dc schoolleider informeert ons over nieuwe
onderwijsmethoden cn insiructiemateriaicn.

11. De .schoolleider loont belangstelling voor wat er in
mijn klas gebeurt.

12. De schoolleider legt ccn sterke nadruk op dc
Iccriingprc.staties bij ual cn rekenen.

13. De .schoolleider benadrukt het regelmatig peilen
van Iccrlingprcstatics.

14. Dc schoolleider sp(wrt leerkrachten aan tot aandacht
voor het verhogen van de leerprcsiatics.

15. De .schoolleider brengi ons in contact met nieuwe
ideen en benaderingen die dc Iccrlingprcstatics kunnen
verbeteren.

16. De schoolleider gccfl Iccrkrachicn advies over dc
manier waarop dc prcsuiics van zwakke leerlingen
kunnen worden vcrlKlcrd.

17. De schoolleider begeleidt cn ondcrsteunl leerkrachten
bij het verbeteren van de leerprestaties.

18. Dc schoolleider gaat in dc kla.s.sen kijken.

-2.97

.25

.90

-1.03

-2.48

.22

-.28

-.56

-1.39

.18

.78

-.68

-.50

.16

.86

.23

-.48

.16

1.31

-1.84

-.33

.16

-.61

1.25

-.21

.16

-.76

-1.07

-.17

.16

2.85*

-2.85'

.02

.16

-.37

-.88

.07

.16

1.22

.56

.07

.16

.26

-.58

.23

.15

-4.95*

8.33"

.45

.15

.33

.32

.86

.16

1.06

-1.55

.90

.16

.88

-1.53

.93

.16

.79

-.37

1.46
3.56

.16
.26

1.19
-4.17*

-.29
2.17"


chil, 57.6 chi^j 359
p = .000 p » .000

* t-waarde significant op 5%

-ocr page 256-

250 W. van de Grift en W. Akkermans

In de vragenlijst stonden de items in een willekeurige volgorde. De itemmoeilijkheden blijken
van ongeveer -3 tot +3.5 te lopen. Onderaan in de tabel zijn de chi-kwadraatwaarden vermeld
voor de toetsen van Andersen en Martin-Löf. Beide chi-kwadraten zijn veel te hoog. Daarom
hebben we in de twee laatste kolommen van de tabel de bij elk item behorende t-waarde
vermeld. De significantie van chi-kwadraat blijkt met name te worden veroorzaakt door de
items 12 en 18, en in iets mindere mate door item 8. Wanneer de toetsen worden herhaald na
verwijderen van deze drie items, zijn noch Andersen noch Martin-Löf meer significant: zij
bedragen respectievelijk 15.03 met 14 vrijheidsgraden, en 179 bij 182 vrijheidsgraden. De
resultaten staan vermeld in Tabel 2.

We kunnen uit Tabel 2 concluderen dat de 15 overgebleven items in elk geval voldoen aan de
eerste assumptie van een Raschschaal: ze hebben parallelle itemkarakteristieke curves.

Tabel 2. Itemmoeilijkhedcn en paralicliiteitsoni'crzock voor de definitieve schaal (n = 250).

ilemmoeilijkheid

l-waardc

l-waarde

mcl stand, foul

Andersen

Martin-Löf

1. Leerkrachten kunnen bij de schoolleider terecht als

ze problemen van leerlingen willen bespreken.

-2.76

.25

.66

-.66

2. De schoolleider doet actief mee aan dc keuze van

nieuwe onderwijsmethoden.

-2.31

.23

-.14

-.29

3. De schoolleider geeft leerkrachten het gevoel dat hun

werk belangrijk is.

-1.18

.18

-.29

-.54

4. De schoolleider zorgt ervoor dat teamvergaderingen

waardevolle onderwijskundige bijeenkomsten zijn.

-.27

.16

.96

.36

5. Dc schoolleider geeft hoge prioriteit aan onderwijs-

methoden, die lot een verbetering van de leerresultaten

van alle leerlingen kunnen leiden.

-.25

.16

1.09

-1.30

6. De schoolleider zorgi voor een op leren gericht

schoolklimaat

-.10

.16

-1.83

2.19

7. Dc schoolleider toont waardering voor leerkrachten

die hun werk goed doen.

.03

.16

-1.71

-.84

9. Dc schoolleider bespreekt lijdig de problemen die kunnen

optreden bij dc uitvoering van het werk op school.

.26

.16

-.20

-.28

10. De schoolleider informeert ons over nieuwe onderwijs-

methoden en instructiematerialen.

.31

.16

-1.95

.81

11. De schoolleider loont bclangslelling voor wat cr in

mijn klas gebeurt.

.31

.16

.43

.40

13. De schoolleider benadrukt hel regelmatig peilen van

leerlingpresiaiies.

.70'

.16

-.82

1.93

14. De schoolleider spoort leerkrachten aan lol aandacht

voor hel verhogen van de lecrprestaiies.

1.13

.16

-.23

-.43

15. Dc schoolleider brengl ons in conuicl mei nieuwe

idccn cn benaderingen die dc leerlingpresiaiies kunnen

verbeteren.

1.17

.16

.59

-1.24

16. De schoolleider geeft Iccrkrachtcn advies over de

manier waarop de prcsuilics van zwakke leerlingen

«

kunnen worden verbeterd.

1.20

.16

.50

-.24

17. De schoolleider begeleidt cn ondcrsieunl leerkrachten

bij hel vcrt)ctcren van dc leerprestaties.

1.76

.17

.89

.34

chi^J5.03

chi5jl79

p = .38

p«.55

♦ l-waarde significant op 5%

-ocr page 257-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 251

Unidimensionaliteit van de schaal

Nu we over een schaal beschikken met parallelle itemkarakteristieke curves, kan de tweede
assumptie worden onderzocht: de schaal moet unidimensioneel zijn. Dat betekent dat voor elke
subgroep respondenten de relatieve itemmoeilijkheden gelijk moeten zijn. Om deze onderzoe-
kingen uit te voeren, hebben wij een groot aantal kenmerken onderscheiden die de
unidimensionaliteit van de schaal zouden kunnen bedreigen. We hebben deze kenmerken inge-
deeld in vier groepen, die we hieronder achtereenvolgens bespreken. De resultaten staan in
Tabel 3.

Een aantal kenmerken heeft te maken met de situatie waarin de schoolleider zich bevindt: is
er bijvoorbeeld een adjunct schoolleider aanwezig, of een plaatsvervanger? Het zou kunnen dat
schoolleiders op scholen met een adjunct schoolleider andere eigenschappen ten toon spreiden
dan schoolleiders op scholen zonder adjunct. Evenzo zou het aantal taakvrije schooltijden dat
een schoolleider tot zijn beschikking heeft, van invloed kunnen zijn op het gemak waarmee hij
of zij bepaalde handelingen verricht. In het bovenste deel van Tabel 3 is af te lezen dat noch de
aanwezigheid van een adjunct, noch de aanwezigheid van een plaatsvervanger, noch het aantal
taakvrije schooltijden van invloed is op de relatieve itemmoeilijkheden van onze schaal.

Een tweede groep kenmerken heeft te maken met de school: schoolgrootte, signatuur,
urbanisatiegraad van de plaats waarin de school staat, of het een traditionele vernieuwings-
school is, en of de school in een onderwijsvoorrangsgebied staat. Geen van deze kenmerken
blijkt een significante invloed te hebben op de hoogte van dc itemparameters van dc schaal.

Tabel 3.Unidimcnsionalitcit.sondcrzockingcn bij dc Raschsctiaal voor ondcrwij.<ikundig Icidcrixhap.

chi^
df= 14

overschrij-
dingskans

Categorieën

Kenmerken van dc .schoolleiding

1 Aanwezigheid adjunct

2 Aanwezigheid plaatsvervanger
3a Taakvrije schooltijden

3b Taakvrije schooltijden

Kenmerken van de .school

ja/nee 11.0 .69

ja/nee 18.0 .21

<lV2clag/>lV2dag 5.4 .98

<2V2dag/>2'/2clag 8.4 .87


Signatuur

Trad. vernieuwingsschool

Urbani.satiegraad

Urbanisaticgraad

Schoolgrootte

Onderwijsvoorrangsgebied
openbaar / bijzonder 12.8 .54

4

5

6a
6h

7

8

ja / nee - -

dorp / stad 22.7 .06

kleine stad/grote .stad 17.5 .23

S 7 groepen/è 8 groepen 16.5 .28

ja/nee 13.2 .51


Kenmerken onderwijsgevenden

9 Ucfüjd

10 Sexe

11 Aantal jaren ervaring

12 Aantal erv.jaren huidige .school

Kenmerken van dc klas

13 Groepsgrootte

U Gemiddelde leeftijd leerlingen
15 Pcrc. leerlingen uit hoog milieu
•6 Aantal cumi-lecriingen

S 35 jaar / 2 35 jaar 16.8 .27

man/vrouw 20.5 .11

S8jaar/2 9jaar 19.0 .17

S 3 jaar / 2 4 jaar 31.8 .(XM»

S 24 leerl. / 2 25 IccrI. 13.4 .50

5-7 jaar/8-12 jaar 20.2 .12

5 14/^15 17.0 .25
SI/2;2


* : chi^-waarde significant op 5%
- : ccn der categoricin bevatte tc weinig respondenten

-ocr page 258-

252 W. van de Grift en W. Akkermans

Dan onderscheiden we kenmerken van de onderwijsgevenden die de vragenlijst hebben
ingevuld. Hun leeftijd, of hun sexe, zou de perceptie van het handelen van de schoolleider
kunnen beïnvloeden, evenals het aantal van hun ervaringsjaren, of de tijd dat ze reeds aan de
school zijn verbonden. In het derde deel van de tabel is te zien, dat het aantal ervaringsjaren op
de huidige school inderdaad van invloed is op de relatieve itemmoeilijkheden. In Tabel 4 geven
we daarom voor dit kenmerk de t-waarden voor de afzonderlijke items, en daar is te zien dat met
name twee items voor de significante chi-kwadraatwaarde verantwoordelijk zijn: de items 4 cn
8. Wij zijn geneigd deze significante chi-kwadraat-waarde niet al te zwaar op te vatten, aange-
zien dezelfde variabele in ccn ander onderzoek (waarover hier niet wordt gerapporteerd) geen
significante chi-kwadraat-waarde opleverde.

Als laatste hebben wc een aantal kenmerken van de klas in de unidimensionaliteitsanalyse
betrokken, en ook hier bleek (zie het laatste deel van Tabel 3) dat noch de groepsgrootte, noch
de gemiddelde leeftijd van de leeriingen in de groep, of hun sociaal-economische achtergrond
van invloed was op relatieve item.moeilijkheden.

We kunnen concluderen dat de onderzochte kenmerken van de schoolleiding, de school, dc
onderwijsgevenden en de klas waarin de onderwijsgevenden werken geen invloed hebben op de
schaalverdeling. Hieruit concluderen wc voorlopig dat de schaal unidimensioneel is. Zoals
reeds eerder opgemerkt zijn de items van een unidimensionele schaal eveneens lokaal stocha.stisch
onafhankelijk. De unidimcnsionalitcitsondcrzoekingen, waarover we in de vorige paragraaf
rapporteerden, kunnen daarom worden gezien als ccn ondersteuning voor de hypothese dat onze
verzameling items ook aan deze derde voorwaarde voldoet.

Conclusies over de Raschanalyse

We concluderen dat we erin geslaagd zijn ecn betrouwbare Raschschaal voor dc Iccrkracht-
percepties van onderwijskundig leiderschap te construeren. De items van deze schaal hebben
parallelle curves, cn dc unidimensionaliteit van dc schaal hebben we zwaar op dc proef gesteld.
De resultaten van dc toetsingen zijn zeer bevredigend.

Tabel 4. T-waarden voor vergelijking van itemparamaters bij leerkrachten met weinig cn vccl ervarings-
jaren op dc huidige school.

Itemnummer

t-waarde

21

1.54

4

. 2.52

1

-1.50

5

-.35

10

-.20

7

-1.53

6

-.82

19

1.64

16

1.78

18

1.33

13

-i.n

2

' -1.32

9

-.14

22

-.62

8

-2.68

chii 31.76

p = .0(M

-ocr page 259-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 253

In de opbouw van de schaal kunnen we de dimensie temg vinden van het verschijnsel
onderwijskundig leiderschap. De items 1 tot en met 6 betreffen gedrag van schoolleiders dat we
kunnen typeren als: het scheppen van onderwijskundige voorwaarden voor de leerkrachten. In
temen van werkwoorden gaat het om: open staan voor onderwijsgevenden, meedoen, zorgen en
prioriteren. De items 7 tot en met 10 typeren schoolleidergedrag dat we kunnen beschrijven als
iiiformeren en stimuleren van leerkrachten. De werkwoorden die in deze items gebruikt worden
zijn: waarderen, problemen bespreken, informeren en belangstelling tonen. Dit informeren en
stimuleren gaat duidelijk een stap verder dan het scheppen van voorwaarden. De items 11 tot en
met 15 markeren een volgende stap. Nu gaat het om het adviseren en begeleiden van leerkrach-
ten. In deze items staan de werkwoorden: benadrukken, aansporen, adviseren, begeleiden en
ondersteunen centraal. Het feit dat de gepostuleerde dimensie van onderwijskundig leiderschap
is terug te vinden in de opbouw in moeilijkheidsgraad van de items is evidentie voor de
constructvaliditeit van de schaal.

In Tabel 5 is de scoreverdeling van het gepercipieerde onderwijskundig leiderschap van de
250 schoolleiders weergegeven.

De frequentieverdeling is ongeveer normaalvormig. Het gemiddelde bedraagt .34 en de
standaardafwijking 1.58.

ONDERWIJSKUNDIG LEIDERSCHAP EN LEERLING PRESTATIES

Ons tweede doel is het vaststellen van dc relatie tussen dc door dc Raschschaal gemeten mate
van onderwijskundig Icidcrschap cn Iccrlingprcstaties. Daanoc hebben wc de 250 eerder ge-
noemde basisscholen gevraagd om hun leerlingen uit groep zeven een Cito-toets tc laten maken:
73 .scholen waren bereid hun leerlingen dc zogenoemde 'Entrcctocts voor het laatste leerjaar' tc
•aten maken. Hierbij waren in totaal 1586 leerlingen betrokken. Deze toets bevat drie onderde-
len: taal, rekenen, cn omgaan met informatie. Dc tc behalen scorcs op dc onderdelen taal cn
rekenen variëren van O tot 60. Bij het onderdeel omgaan met informatie is dc maximale scorc
gelijk aan 50. In Tabel 6 zijn enkele bcschrijvcndc grootheden van dc toetsscores opgenomen.

Frequentie

Ruwe .score

Gc.schatle vaardigheid
met standaardfout

_

-

6

-3.-36

1.13

II

-2.41

.87

10

-1.76

.75

II

-1.25

.68

9

-.82

.63

14

-.43

.60

17

-.08

.59

21

.26

.58

16

.60

.58

26

.95

.60

27

1.32

.63

16

1.75

.69

20

2.29

.79

20

3.11

1.06

14

_

12

Tabel 5. Verdeling van .scores op de Ra.sch.schaal vaar onderwijskundig Icidcrschap.

-ocr page 260-

254 W. van de Grift en W. Akkermans

Tabel 6. Gemiddelde en standaardafwijking van de individueel-niveau-variabelen.

Variabele

x

a

Taal

38.8

8.6

Rekenen

34.2

10.1

Omgaan met informatie

34.1

8.5

Factor leerlingprestaties

.00

.94

We willen de relatie tussen onderwijskundig leiderschap en leerlingprestaties nagaan voor de
drie toetsonderdclen apart, maar ook voor een 'algemene' lecrlingscorc. Daarom hebben we
(maximum likelihood) factorscores berekend voor één aan de drie variabelen taal. rekenen cn
omgaan met informatie ten grondslag liggende factor 'prestatie'. Gemiddelde cn standaard-
afwijking van deze factor zijn eveneens in dc tabel opgenomen.

Sociaal milieu

Leerlingprcstaties hangen sterk samen met sociaal milieu. Het is daarom van belang het moge-
lijke verband tussen onderwijskundig leiderschap en leerlingprcstaties voor dat milieu tc con-
troleren. Wij hadden niet de beschikking over dc achtergrond van clkc afzonderlijke leerling,
maar wel een schatting van dc leerkrachten van het percentage leerlingen in hun klas uit res-
pectievelijk een laag, midden en hoog sociaal-economisch milieu. Uit deze pcrccntages hebben
wij op het klasniveau ccn maat voor sociaal milieu geconstrueerd, die varieert van O tot 100. Ecn
hogere scorc duidt op ccn hoger gemiddeld milieu. De scholcn hebben ccn gemiddelde van 61.3
met standdaarddcviatie 11.5.

Analysetechniek

Bij het vast-stcllcn van het verband tussen onderwijskundig leiderschap cn Iccriingprestatics
passen we een zogenoemde multi-nivcau-analyse toe. Dit is ecn analy.setcchniek waarin rekening
gehouden wordt met het feit dat ccn deel van dc gegevens (namelijk het onderwijskundig
leiderschap) gaat over kenmerken op schoolniveau, cn dat andere gegevens (dc Iccriingprestatics)
betrekking hebben op het Iccrlingniveau (zie bijvoorbeeld Gold.stcin 1987; of het themanummer
van het Tijdschrift voor Onderwijsresearch van november 1990). De rcgrc.ssicvcrgclijking die
wc willen schatten ziet cr als volgt uit:

?.. = bo + b,OL. + b^Mj + + Uj

Hierin is P^j dc prestatie van leerling i in klas j (het kan dus gaan om reken-, taal- of
informaticprcstatic. of om dc factorscorc); b^ is het intercept van dc vergelijking; OL^ is dc scorc
die dc schoolleider van school j heeft op dc Raschschaal voor onderwijskundig leiderschap; Mj
is dc milicuscorc van klas j; b, cn b^ zijn dc (vaste) rcgrcssicco«ffici<intcn voor rcspccticvclijk
onderwijskundig leiderschap cn milieu; c^^ is het residu van kind i in klas j; u^ is het school- of
kla.sgcbondcn deel van het residu. (Wc kunnen in dit onderzoek geen ondcrscbcid maken tussen
het school- cn het klasgebonden dccI van dc variantie.) Uit deze vergelijking blijkt dat het totale
residu wordt opgesplitst in ccn school- of klasgebonden deel u^ en ecn individugebonden dccI
c . De multiniveauprogramma's zijn in staat deze beide componenten van elkaar tc scheiden.
Verder merken wc op dat alle 'verklarende' variabelen zich op het klas- of schoolniveau bevin-
den. Hier wordt duidelijk waarom het zo belangrijk is dc rcsidu-componcntcn tc kunnen schei-
den: met school- of klasvariabclcn kan men immers alleen variantie op het school- of klasnivcau
verklaren.

-ocr page 261-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 255

Resultaten

Voor alle vier onze afhankelijke variabelen, te weten taal, rekenen, omgaan met informatie, en
de factorscore, hebben we met het programma ML2 (Rashbash, Prosser & Goldstein 1988) de
hierboven besproken regressieanalyse uitgevoerd. De resultaten zijn vermeld in Tabel 7.

In deze tabel komt de term 'initiële variantie' voor. Daarmee bedoelen we wat gewoonlijk
onder variantie wordt verstaan: de variantie van dc betreffende afhankelijke variabele als zodanig,
voordat überhaupt sprake is van verklarende variabelen. Deze initiële variantie is opgedeeld in
een klasgebonden cn een individugebonden deel. We zien dat maximaal 16% van de variantie
klasvariantic is. Dat betekent dat we met onze verklarende variabelen milieu en onderwijskun-
dig leiderschap hooguit 16% van de totale variantie in leerlingprestaties zullen kunnen verkla-
ren. Na de initiële porties variantie zijn dc berekende ongestandaardiseerde regrcssiecoëfficiëntcn
vermeld (b's) met tussen haakjes hun standaardfout. De rcgressiccoëfficiënten voor milieu zijn
in alle gevallen groter dan twee keer hun standaardfout, cn dus significant; de coëfficiënten voor
onderwijskundig leiderschap zijn eveneens significant, behalve die voor rekenen. Deze coëfficiënten
zijn negatief. Op dc betekenis daarvan komen we in de discussie terug. Om ccn vergelijking
mogelijk tc maken van coëfficiënten binnen één regressievergelijking hebben we ook dc
gestandaardiseerde coëfficiënten vermeld. Nadat dc verklarende variabelen zijn ingevoerd, is dc
overblijvende variantie in leeriingprestaties berekend, en deze is opnieuw uitgesplitst naar
(school- of) klas- cn individu-niveau. Dc gevonden waarden kunnen worden vergeleken met de
initiële variantie. Wc zien dat op het individuele niveau de hoeveelheid variantie (natuurlijk)
gelijk is gebleven. Op het klasnivcau daarentegen is dc variantie aanzienlijk gedaald: wc zijn cr
bijvoorbeeld bij taal in geslaagd maar liefst 100-((4.64/9.60)100) = 52% van die variantie tc
Verklaren. Voor informatie ligt het percentage verklaarde variantie op klasnivcau eveneens in de
buurt van dc 50%; bij rekenen daarentegen komen wc slechts tot 19%. Zonder tabel vermelden
we dat dc percentages variantie die onderwijskundig leiderschap verklaart 'over and above'
milieu voor taal. rekenen, informatie cn dc factor gelijk zijn aan respectievelijk 12%, 6%. 12%
en II%.

Afhank. var. y

Taal

Rekenen

Informatie

Factorscorc

Initiële variantie van y
Individugebonden
kla.sgcbondcn
Totaal

62.78 - 87%
9.6Q- 13%
72.38

84.17 - 84%
IS.^Q» 16%
99.66

60.75 - 85%
10.37 ■ 15%
71.12

.747 -84%
.138- 16%
.885

^"»lllcu
t)

""'«rwi^liundu l"<»«mii»p

.20 (.04)
-.26 (.10)

.16 (.05)
-.25 (.15)

.20 (.04)
-.29 (.11)

.023 (.004)
-.032 (.012)

G

g-n-lKu
""^•»»ijikund.i ltKl«n(iitp

.27
-.12

.18
-.10

.27
-.14

.276
-.137

Residuele variantie van y
'ndividugcbonden
K'asgcbonden
Toüal

62.83

iM
67.47

84.10
12.61
96.71

60.70

IM

66.04

.746

sni
.821

^ verklaarde variantie
'ndiv. niveau
klasnivcau
Toual

51.7%
6.8%

18.6%
3.0%

48.5%
7.1%

45.7%
7.2%

-ocr page 262-

256 W. van de Grift en W. Akkermans

Conclusie en discussie

Het grootste deel (84%) van de variantie in leerlingprestaties op de 'Entreetoets voor het laatste
leerjaar' blijkt in onze steekproef door leerlinggebonden variabelen verklaard te kunnen worden.
Zo'n 16% van de variantie in leerlingprestaties blijkt door klas en of schoolfactoren verklaard te
kunnen worden. Van deze 16% blijkt ruim 45% verklaard te worden door het schoolmilieu en
onderwijsktmdig leiderschap van de schoolleider gezamenlijk. Het onderwijskundig leider-
schap van de schoolleider voegt aan de hoeveelheid door schoolmilieu verklaarde variantie 11%
toe. (Wanneer we voor elke leerling afzonderiijk de beschikking hadden gehad over een milieu
score was mogelijk ook de verklaarde variantie op schoolniveau nog toegenomen.) Opmerkelijk
is dat de b-coëffidënten voor het verband tussen onderwijskundig leiderschap met zowel taal,
rekenen en omgaan met informatie negatief zijn. In dit onderzoek wordt overigens niet voor het
eerst geconstateerd, dat er een negatief verband bestaat tussen gedragingen van schoolleiders en
leerlingprestaties. Brookover et. al. (1978) rapporteerden over een negatief verband tussen
schoolverbeteringspogingen van schoolleiders en leerlingprestaties bij zowel 'witte' als 'zwane'
scholen. En Mortimore et. al (1988) vonden een negatief verband tussen het door schoolleiders
zonder onderscheid aanmoedigen van inservice training voor onderwijsgevenden en leerling-
prestaties bij zowel lezen, schrijven en rekenen. In 1989 rapporteerde Van de Grift over nega-
tieve verbanden tussen diverse aspecten van onderwijskundig leiderschap en gemiddelde
leerlingprestaties met de CITO eindtoets voor het basisonderwijs. Dit betrof: betrokkenheid bij
de keuze van nieuwe onderwijsmethoden, streven naar consensus in het team, klasseobservaties
en klassebezoek, proberen om het onderwijskundig vakmanschap van het team tc verhogen en
met onderwijsgevenden in vergaderingen over hun problemen praten.

We begonnen dit artikel met de constatering dat in diverse onderzoekingen zowel positieve
als negatieve verbanden tussen bepaalde aspecten van onderwijskundig leiderschap en gemiddelde
leerlingprestaties werden gevonden. In dit onderzoek werd alleen evidentie gevonden voor een
negatief verband.

Onze voorlopige verklaring voor deze negatieve verbanden is dc volgende: het zou zo kunnen
zijn dat niet zozeer het onderwijskundig leiderschap de leeriingprestaties beïnvloedt, maar dat
andersom de leeriingprestaties aanleiding vormen voor schoolleidergedrag. Het lijkt erop dat
schoolleiders hun gedrag afstemmen op de prestaties van de leerlingen. Hiermee is uiteraard
niet aangetoond, dat een toename van onderwijskundig leiderschap bij schoolleiders niet gepaard
zou kunnen gaan^met een toename van leeriingprestaties. Dit is echter nooit in een reeks van
experimenten of een longitudinaal onderzoek nagegaan. Het zou bijzonderde moeite waard zijn
om dergelijke vormen van onderzoek op tc zetten.

Desalniettemin moeten wc ook concluderen dat slechts 16% van dc variantie in leeriingprestaties
die we in dit onderzoek met de 'Entreetoets voor het laatste leerjaar' hebben vastgesteld verklaard
kon worden door school (en klas-) factorcn. Dit resuUaat wijkt nauwelijks af van de
onderzoeksresultaten van Brandsma en Knuver (1989). Zij vonden dat 19% van de variantie in
rekenprestaties in groep 7 van het basisonderwijs verklaard kon worden door school- en klas-
factoren. Er is dan ook maar heel weinig ruimte over voor correlaties tussen onderwijskundig
leiderschap en leerlingprestaties. Bij een hoeveelheid school- (en kla.s) gebonden variantie van
16% is de maximale multiple correlatie voor school- en klasscfactoren .40. Als wc ons realise-
ren dat dit de volledige ruimte is voor alle school- cn klasscfactoren, dan is het eigenlijk
allerminst verwonderiijk dat dc correlaties tussen onderwijskundig leiderschap cn gemiddelde
leerlingresultaten in de onderzoekingen die in de inleiding van dit artikel genoemd worden zo
laag zijn. Kennelijk wordt in Nederland veruit de meeste variantie in leeriingprestaties ver-
klaard door individugebonden kenmerken. Wanneer wc ons verder reali.scren dat dc correlaties
uit de Amerikaanse en Britse studies zijn berekend voor relatief kleine steekproeven dan is
daarmee ook een verklaring gevonden voor het feit dat de gevonden correlaties de ene keer wel
en de andere keer niet significant zijn.

-ocr page 263-

Onderwijskundig leiderschap en leerlingprestaties in het basisonderwijs 257

NOTEN

1. Dr. W. van de Grift schrijft dit artikel op persoonlijke titel. Zijn correspondentie adres is: Hertogenborch
5, 3992 CE Houten. Drs. W. Akkermans is werkzaam bij Toegepaste Onderwijskunde, Twente.

LITERATUUR

Andersen, E.B. (1973). A Goodness of fit test for the Rasch model. Psychometrika, 38. 123-140.
Andrews, R.L. & Bamberg. J.D. (1989).
Teacher and Supervisor Assesment of Principal Leadership and

Academic Achievement, Washington: University of Washington.
Blom. R.H.. Brandsma, H. & Stoel, W. (1986).
Effectieve scholen in het basisonderwijs: een voorstudie.
Groningen: RION.

Brandsma, H. & Knuver, A. (1989). De invloed van school en klaskenmerken op rekenprestaties in het
basisonderwijs. In: Scheerens, J. & Verhoeven, J.C. (eds.).
Schoolorganisatie, beleid en
onderwijskwaliteit
(p. 23-37). Lisse: Swets & Zeidinger.
Brookover, W.B. & Schneider. J.M. (1975). Academic Environments and Elementary schoolachievement.

Journal of Research and Development in Education, 9 (I). 82-91.
Brookover. W.B., Schweitzer, J.H., Schneider, J.M., Beady. C.H., Flood. P.K. & Wisenbaker. J.M. (1978).
Elementary school Social Climate and Schoolachievement.
American Educational Research Journal,
15 (2), 301-318.

Brookover W.. Beady. C., Flood. P.. Schweitzer. J. & Wi.senbakcr. J. (1979). School Social Systems and Student

Achievement. New York: Praeger.
Eeden, P. van der & G.W. Meijnen (red.) (1990). Themanummer multi-niveau onderzoek: uitgangspunten

en toepassingen. Tijdschrift voor Onderwijsresearch. 15 (5). 257-333.
Fischer. G.H. (1974).
Einführung in die Theorie psychologischer Tests. Verlag Hans Huber. Wien.
Goldstein. H. (1987).
Multilevel models in educational and social research. London. Charles Griffin & Co
Ltd.

Gustafsson. J.E. (1979). PML: a computer program for conditional estimation and testing in the Rasch

model for dichotomous items. Institute of education. University of Goteborg.
Hallingcr, P.. L. Bickman & K. Davis (1990).
Modeling the Effects of Principal Leadership on Student

Achievement. Nashville: Pcabody College. Vanderbilt University (1-18).
Martin-Löf, P. (1973). Statistika Modeller Anteckningar fran seminarier lasaret 1969-1970 uiarhetade av

Rolf Sundberg. Stockholm. Institutct for forsakringsmatcmaiik och maiematist statistik.
Monimore. P. (1988).
School Matters. Sommersct: Open books.

New York State Office of Education Performance Review (1974). Schoolfaciors Influencing Reading

Achievement: a Case Study of t>^o Inner City Schools.
Rasbash, J., R. Pros.ser & H. Goldstein (1988). ML2 Software for two-level analysis, draft version l.OA.

London. Institute of Education.
Van de Grift. W. (1987).
De rol van de schoolleider bij onderwijsonderwijsvernieuwingen, VUGA uitge-
verij, 's-Gravenhagc.

Van de Grift. W. (1989). Self Perceptions of Educational Leadership and Mean Pupil Achievements In: D.
Reynolds. B.P.M. Creemers & T. Peters (eds.)
Schooleffectiveness and Improvement (p.227-242).
Cardiff/Groningcn: School of education/ RION.
Van de Grift. W. (1990). Educational Leadership and Acadcmic Achievement in Elementary Education.

School Effectiveness and School Improvement, 1(1), 26-40.
Van de Grift. W. & C. Kurck-Vric.scma (1990). Schoolleidingen in de basisschool, Swets & Zeidinger.
Amsterdam.

Van dc Grift. W. & Th. Houtveen (1991). Principals and Educational Improvement School Effectiveness and

School Improvement, 2(1). 26-40.
^cllisch. J.B.. MacQueen. A.H.. Carriere, R.A. & Duck. G.A. (1978). Schoolmanagement and Organization
in Succcsful Schools.
Sociology of education. 51(3). 211-226.

Manuscript ontvangen 1-7-1991
^ffinitieve versie ontvangen 16-9-1991

-ocr page 264-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 4, pp. 258-230

Boekbespreking

C. van Liere, Lastige Leerlingen. Een empirisch onderzoek naar sociale oorzaken van pro-
bleemgedrag op basisscholen.
Amsterdam: Thesis, 1990.

Het eerste hoofdstuk van dit proefschrift (pag. 13-18) geeft een inleiding op de probleemstelling.
De probleemstelling in het onderzoek van Van Liere is de vraag waarom sommige kinderen in
de klas zich minder 'goed' gedragen dan andere kinderen en in hoeverre vcrschillcn in
probleemgedrag kunnen worden verklaard door de sociale invloeden van leerkrachten, ouders
en leeftijdsgenoten. De vraag is relevant omdat er indicaties zijn dat, ondanks het stijgende
aantal verwijzingen naar het speciaal onderwijs, probleemgedrag in het reguliere onderwijs
toeneemt; omdat probleemgedrag de leerprestaties beïnvloedt en omdat de kans bestaat dat
gedragsproblemen op school ontaarden in criminele carrières. Ter beantwoording van de
onderzoeksvraag zijn secundaire analyses uitgevoerd op gegevens die werden verzameld in het
kader van het ZWO-project 50-208 "Sharing-groepen en aanvaarding van autoriteit". Dit heeft
voor het onderzoek van Van Liere het nadeel dat, waar geen gegevens beschikbaar zijn over
theoredsch belangrijke variabelen, gebruik moet worden gemaakt van proxy-variabclcn. Voor
de intelligentie van ecn kind wordt bijvoorbeeld de sociaal-economische status van het gezin als
proxy gebruikt!

In het tweede hoofdstuk (pag. 19-44) wordt ccn overzicht gegeven van dc internationale
literatuur van probleemgedrag in de basisschoolleeftijd. Er wordt uitgebreid verslag gedaan van
zowel soorten probleemgedrag als van de mate waarin probleemgedrag voorkomt. Dc soorten
van probleemgedrag die in de diverse onderzoeken worden genoemd, variëren van ruziemaken,
liegen, spijbelen, problematische gewoontes (zoals duimzuigcn cn nagelbijten), pcrsoon-
lijkheidsafwijkingen (bijv. vcriegenheid, nervositeit, dagdromen), slecht werkgedrag (luiheid,
gebrek aan concentratie) tot psychiatrische problemen. Dc eerste conclusie van dc auteur is dat
uit epidemiologisch onderzoek blijkt dat gedragsproblemen bij basisschoolkinderen op grote
schaal voorkomen, maar dat tevens moet worden vastgesteld dat dc mate waarin bepaalde
gedragingen als probleem worden ervaren, afhankelijk is van dc normen die ccn omgeving aan
het sociale functioneren van mensen stelt. Wat dc stabiliteit van probleemgedrag betreft, wordt
geconcludeerd dat voorde mate waarin kinderen probleemgedrag in dc klas vertonen dc leeftijd
er weinig toe doet. Ouders en onderwijzers verschillen in hun oordeel: ouders geven minder
problemen aan naarmate het kind ouder wordt. Conclusie is dat cr kennelijk sprake is van
situatic-spccifick probleemgedrag.

In het laatste deel van hoofdstuk 2 komt Van Liere tot dc kem van dc zaak. nl. probleemgedrag
in dc klas. Probleemgedrag in dc klas wordt omschreven als gedrag dat door Iccrkrachtcn als ccn
probleem wordt gezien. Probleemgedrag is het tegenovergestelde van 'goed' gedrag. Dc ideale
leerling vertoont 'goed gedrag', d.w.z. doet uit zichzelf zijn werk zonder anderen daarbij tot last
tc zijn. Kortom, van dc ideale leerling heb jc geen last. Van Licrc noemt dit ideale gedrag
rcgelcompetent gedrag. Rcgelcompctentc leeriingen weten wat van hen wordt vcriangd cn doen
dit uit zichzelf.

Vervolgens wordt in het derde hoofd.stuk (pag. 45-78) spccialc aandacht besteed aan dc
oorzaken van rcgclincompctent gedrag in dc klas. Ook hier wordt ccn uitgebreid overzicht
gegeven van onderzoek dat mogelijke verklaringen biedt voor gedragsproblemen: schooleffcctcn
(de invloed van de leerkracht op het gedrag van leerlingen); sociaal milieu; gezins- cn woon-
omstandigheden; dc peergroup (populariteit) cn biologische factoren. Dc balans opmakend
komt dc auteur tot dc conclusie dat zowel wat theorievorming als cmpirischc resultaten betreft
cr grote lacunes zijn. Eén van de weinige aanknopingspunten voor dc verklaring van gedrags-
problemen in dc klas is, dat cr sprake zou kunnen zijn van enige wisselwerking tussen slcchtc
prestaties cn slecht gedrag, waarbij kinderen uit lagere milieus ccn grotere kans lopen om tot dc
slcchtc presteerders tc horen dan kinderen uit hogere milieus. Verder zouden schoolprestaties cn

-ocr page 265-

Boekbespreking 259

regelcompetent gedrag bijdragen aan een hoge peergroupstatus van leerlingen (resp. pag 76
en 77).

De onbevredigende stand van zaken is aanleiding om in het vierde hoofdstuk (pag. 79-116)
een model te formuleren waarin expliciet aandacht wordt besteed aan de invloed die verschillende
sociale actoren op eikaars gedrag en op het gedrag van kinderen in de klas hebben. Het model
moet leiden tot een verklaring van collectieve verschijnselen als het niveau van regelcompetent
gedrag in de klas (pag 79). Uitgaande van een aantal eenvoudige assumpties en hypotheses
worden, met behulp van de methode van afnemende abstractie, meer specifieke hypotheses over
situatie- of groepseffecten afgeleid. Er worden drie soorten verbanden onderscheiden:

- algemene hypotheses (hoofdverbanden); ook wel modelhypotheses genoemd;

- specifieke hypotheses, die een groeps- of situatiespecifiek effect van een algemene hypo-
these voorspellen; ook conditionele hypotheses genoemd;

- brugassumpties, die een verbinding vormen tussen een algemene hypothese en een speci-
fieke hypothese.

Voor interacties in de klas zijn bijvoorbeeld de belangrijkste algemene hypotheses: a) naarmate
leeriingen intelligenter zijn. zullen ze beter presteren, b) naarmate de klas gemiddeld intelligenter
is, zal de leerkracht een hogere prestatiestandaard hanteren, c) naarmate de prestatiestandaard
hoger is, zal de leeriing beter presteren. Als (specifieke) hypothese wordt eraan toegevoegd dat
minder intelligente leeriingen meer zullen profiteren van een hoge prestatiestandaard dan in-
telligente leerlingen. Vanuit de leerkracht geformuleerd, wordt verondersteld dat leerkrachten
met een hoge standaard erin slagen de prestaties van leeriingen met een lage intelligentie ten
dele te compenseren.

Op dezelfde wijze worden hypotheses geformuleerd voor regelcompetent gedrag in de klas
cn de relatie tussen regelcompetent gedrag en
IQ; de standaarden van dc leerkracht, dc invloed
van rcgclcompctcntic op rcgclcompctcnt gedrag; cffcctcn van regelcompetent gedrag, milieu-
specifieke effecten van rcgclcompctcnt gedrag op gemiddelde prestaties van .schoolklassen;
Iccriinggcdrag cn de ordestandaard; cffcctcn van de dichtheid van dc oudergemecnschap, enz.
Welgeteld worden cr in totaal 14 verschillende modellen gcprc.scntcerd met elf algemene cn tien
specifieke hypothc.scs cn elf verbindende brugassumpties.

In hoofdstuk 5 (pag. 117-142) wordt dc steekproef beschreven. Het databestand van het
ZWO-project bevat gegevens die zijn verzameld bij leerkrachten, ouders cn leeriingen. Voor
twee theoretisch belangrijke variabelen moest ccn vervanging worden gezocht: sociaal milieu
vervangt dc intclligenticscorc cn het advies voor voortgezet onderwijs vervangt de leerprestatie.
Hoewel het niet ongebruikelijk is om zulke proxies tc gebruiken — dc samenhang tussen IQ-
scores cn SES varieert tussen .30 cn .40 cn tussen advies cn lecrprc.statics tus.scn .70 cn .80 —
dient een dergelijke handelwijze echter wel vanuit de te onderzoeken vraagstelling gerechtvaardigd
tc worden. Juist bij dc vraag naar sociale
oor/.akcn van probleemgedrag op basisscholen is het
van belang om na tc kunnen gaan in hoeverre de samenhang tussen sociaal milieu cn probleemgedrag
wordt wcgvcrklaard door dc samenhang tussen intelligentie cn probleemgedrag. Ook het gebruik
van het advies voor voortgezet onderwijs als indicatie voor leerprestaties heeft bij deze vraagstelling
nadelen. Bij dc totstandkoming van het advies wordt in het algemeen niet alleen met leerprestaties
rekening gehouden, maar jui.st ook met Iccriingkcnmcrken als motivatie cn sociaal gedrag.
Daarom zou dc invloed van probleemgedrag op advies naast cn bovenop het cffcct van
probleemgedrag op lecrprc.statics moeten worden onderzocht.

In hoofdstuk 6 (pag. 143-196) worden met behulp van variantie-cn multiple regrcssic-analy.scs
dc algemene cn specifieke hypothc.scs .stuk voor stuk geanalyseerd. In de laatste paragraaf van
het proefschrift worden dc conclusies uit de toetsing van 'het model' op ccn rij gezet. Van dc 21
voorspellingen over algemene cn spccifickc hypotheses worden cr 15 door dc data bcvc.stigd.
Voor dc 11 brughypothescs bleek dat er slechts één door dc bevindingen moest worden gecorri-
geerd. Uit dc toetsing van dc modclhypothcscs komt ccn (matig) sterke relatie naar voren tussen
rcgclcompctcnt gedrag cn schoolprestaties, c.q. advies. Voor kinderen uit lagere sociale milieus
geldt dat zij lagere adviezen krijgen en dat het voor hun advies niet uitmaakt of zij zich wel of

-ocr page 266-

260 Boekbespreking

niet regelcompetent gedragen. Ongeacht deze uitkomst, schrijft Van Liere dat de (theoretische)
redenering - dat regelcompetent gedrag voor kinderen uit een laag milieu een positief effect op
leerprestaties zou moeten hebben - door de gegevens wordt ondersteund, omdat op klasniveau
blijla dat voor klassen met een lage gemiddelde SES het niveau van regelcompetent gedrag in de
klas sterker positief samenhangt met het gemiddelde advies dan voor klassen met een hoog SES-
niveau.

De volgende conclusie is dat de SES-samenstelling van een klas enoe leidt dat leerkrachten
meer of minder moeite moeten doen om de orde in de klas te handhaven. Dit, omdat er een
sterke positieve relatie is gevonden tussen de hoogte van ordestandaard en het niveau van
regelcompetent gedrag in de klas. Leerlingen uit een laag sociaal milieu hebben baat bij een
hoge ordestandaard: naarmate dc ordestandaard in hun klas hoger is. neemt het gemiddelde
regelcompetente gedrag toe en worden er hogere adviezen gegeven. Dc invloed van de overige
sociale factoren, zoals structurele gezinsvariabelen en de specifieke peergroupeffecten is gering.
In de samcnvauing komt de beantwoording van de vraag wat de sociale oorzaken zijn van
probleemgedrag dan ook op de tweede plaats. De nadruk wordt gelegd op de invloed van
regelcompetent gedrag op leerprestaties. De slotconclusie is dat dc hypotheses uit 'het model'
voor het overgrote deel worden bevestigd en dat het in dit onderzoek gebruikte model geschikt
lijkt te zijn voor toepassing in vervolgonderzoek.

Het mag duidelijk zijn uit de bovenstaande samenvatting dat dit proefschrift ambivalente
reacties oproept. Er wordl enerzijds veel informatie gegeven, die niel noodzakelijk is om tot
beantwoording van de onderzoeksvraag te komen, terwijl anderzijds in de dataverzameling juist
die gegevens ontbreken om de probleemstelling wel te beantwoorden. De uitgebreide liieraiuur-
search in hoofdstuk 2 had grotendeels achterwege mogen blijven, te meer daar Van Liere in zijn
inleiding al aangeeft dat hel onderzoek zich lot probleemgedrag in de klas beperkt.

Er wordt veel moeite gedaan om een model ic ontwikkelen, maar dai model blijkt uil ver-
schillende losse modellen te bestaan die slechts fragmentarisch kunnen worden getoetst. De
resultaten van de toetsing moeten vervolgens aan elkaar worden geredeneerd om later weer van
'hel model' le kunnen spreken. Hel zou toch voor de hand liggen om de causale vraagstelling
mei een causaal model le toetsen en daarmee na te gaan of de veronderstellingen over dc
oorzaken van regelincompeleni gedrag juist zijn. Verder vindt er een verschuiving plaats van de
te verklaren variabele 'rcgclcompeicni gedrag' naar de effecten van regelcompclcnl gedrag op
'leerprcsiaiies'. Daarnaast is bij dc constniciie van 'het model' voorbij gegaan aan de verschillende
analyseniveaus van de gegevens: leeriingniveau en kla.snivcau. Hei ware wenselijk dai in een
vervolgonderzoek theoretisch en empirisch minder zijwegen worden bewandeld om een derge-
lijk relevante probleemstelling tc onderzoeken. Hel een en ander betekent echter niet dat zou
moeten worden getwijfeld aan de resultaten en conclusies van Van Liere. Op zich zijn de
redeneringen, weergegeven in algemene en specifieke hypoihe.scs cn brugassumplies. plausibel.
Dc gehanteerde werkwijze maakt echter een juisie in.schaiiing van dc relatieve bijdragen van de
socialc factoren op leeriingniveau en klasniveau aan de verklaring van probleemgedrag in de
klas niet mogelijk.

A.A. van der Hoevcn-van Doornum

Instiiuui voor Toegepaste Sociale Wetenschappen, K.U. Nijmegen

-ocr page 267-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 4, pp. 261-230

Leren en transfer: het gebruik van een leerkiem

H. Vos'

Faculteit der Elektrotechniek, Universiteit Twente
ABSTRACT

Tcachcrs in scicncc want students to learn general knowledge and skills adaptable to a large domain
of application. Transfer of leaming to future situations is facilitated when students discover abstract
similarity relations between former experience and present problems in various forms. In order to
help students to "see" these relations we developed models for what we call a "germ of learning".
This germ is an already existing cognitive structure. It is accented and developed with the aid of
three interrelated models. The concept model contains in a general form the structure of all basic
concepts involved, the action model represents the way actions can bc assessed, and the extension
model guides the development of the knowledge in die field. The germ of leaming combines the
properties of an advance organizer (Ausubcl) with the properties of a genetic germ (Davydov). The
acccntuation of the germ provides a model of itself. The germ provides for means to systematically
(rc)design the order and kind of cxerciscs and the infonnaiion presented. This germ was u.scd in our
undergraduate practicals for Network Analysis to teach students to show insight and to tackle
experiments in a .systematic way. Allihough the development of the germ was not investigated
directly, indications of developmental progress are present. The failure rate dropped from 52 % to
17 %. Transfer effects were observable.

I. INLEIDING

Leren gebeun vanzelf (Elshout. 1987). Door elke activiteit, of dat nu fietsen of lezen of het
uitvoeren van ccn opdracht is. leren wc. Leren gaat buiten ons om. De vraag is alleen wat wc
leren. Het kan zijn dat wc door veel tc lezen. Ieren beter tc lezen, maar ook dat wc ccn afkeer
krijgen van lezen. Onderwijs is mogelijk doordat cr invloed uitgeoefend kan worden op wat wc
leren.

Het onderwijs moet ccn .sturende invloed uittKfcncn op wat cr geleerd wordt. Die sturende
invloed komt tot stand door belangstelling tc wekken voor het vak. dc aandacht van dc student tc
richten op dc belangrijke details, enzovoort (verg. Salomon. 1987). Dc doccnt hamert bijvoorbeeld
op het controleren van dc uitkomst van ccn berekening. Dc student is vaak al blij als hij ccn
eindantwoord hccfl. ook al i.s dc uitkomst onzinnig groot of van ccn verkeerde dimensie. Het
doel van ons onderwijs is onder andere inzicht in het vak. Met name bij dc introductie van ccn
nieuw vak. blijken dc aanwijzingen van dc doccnt voor veel studenten niet goed tc werken
(vergelijk Elshout-Mohr. 1985; Meijer. 1988). Inzicht wordt ook vrijwel nooit bevorderd door
aanwijzingen (Elshout. 1987). Bovendien doet zich nog ccn andere moeilijkheid voor.

In dc mcc.stc vakgebieden vindt ccn explosie van kennis plaats. Dc vakgebieden worden
steeds breder. Dc .studenten moeten steeds nKcr Ictcn. Dit kan natuuriijk niet. want dc opicidingstijd
en -kosten zijn aan grenzen gebonden. Dc oplossing hiervoor ligt in ccn kwalitatieve verandering
van dc leerstof. Dc docenten willen dat wat dc studenten leren in ccn breder gebied cn op meer
situaties tocgcpa.st moet kunnen worden dan in het verleden het geval was. Het doel van het
onderwijs verschuift dan naar het leren van
meer algemene kennis cn vaardigheden. Hierbij is

ccn grotere transfer (transfer of leaming) nodig.

Transfer is inherent aan Ieren (cf. Giek e.a.. 1987) cn is altijd al ccn doel van het onderwijs
geweest, maar is moeilijk tc bereiken. Zelfs binnen ccn vak gaat het vaak al met goed: wat aan

Adres: Postbus 217. 7500 AE Enschede.

-ocr page 268-

262 H. Vos

het begin onderwezen wordt, wordt later in het vak of op het tentamen vaak niet kritisch
(genoeg) toegepast. Daarbij komt nog dat de opgedane kennis (inclusief vaardigheden) ook in
vervolgvakken en in de praktijk of thuis moeten kunnen worden gebruikt. Dit gaat niet vanzelf
(bij de meeste studenten). Het onderwijs moet hiervoor op een bepaalde manier ingericht wor-
den.

Ons onderwijs heeft een sterk hiërarchische structuur. Het is meestal zo ingericht dat infor-
matie en opdrachten (waaronder vragen, opgaven en problemen) elkaar afwisselen. Oude kennis
wordt opgehaald en met nieuwe verschijnselen gecombineerd tot nieuwe begrippen en methoden.
Elke nieuwe opdracht is op te vatten als een transfer-probleem, namelijk van ervaring uit
vroegere situaties naar de oefensituatie. Niet alleen de informatie beschikbaar bij de opdracht,
beïnvloedt de transfer, maar ook de gelijkenis tussen de vroegere leersituatie en de oefensituatie
nu. Naarmate de situaties meer op elkaar lijken, is de kans op transfer groter (Meijer et al.,
1988). De opgedane kennis is hierna echter minder wendbaar: er is een geringere overdracht
naar meer afwijkende situaties (fixatie, cf. De Leeuw en Span, 1988; Prawat, 1989). Elke
oefening kan nu opgevat worden als een transfer-probleem dat op zijn beun de transfer naar
volgende oefensituaties of naar nieuwe toepassingssituaties beïnvloedt. Als we wendbare ken-
nis willen aanbrengen moeten we de gelijkenis tussen de probleemsituaties verminderen.

We zouden dus - om fixatie te voorkomen - oefeningen willen aanbieden in de vorm van
zeer verschillende - liefst praktisch ingeklede - opdrachten. Er zijn nu drie prestatie-typen van
studenten te onderscheiden met betrekking tot transfer. Het eerste type pakt een opdracht correct
aan en heeft gevoel voor de structuur die er achter zit (inzicht). Het lijkt erop dat deze studenten
de invarianten zien die in verschillende probleemsituades optreden (Kaplan, 1990). Andere
studenten pakken wel de problemen correct aan, maar ontdekken de algemene structuur niet die
er achter zit. Er is hier sprake van een intuïtieve aanpak. Een nadere uitleg slaat niet altijd aan,
omdat men het probleem toch al kan oplossen. Weer andere studenten pakken de opdrachten
fout aan of kunnen de problemen helemaal niet oplossen. We bevinden ons hier voor twee
valkuilen. Gelet op de laatste groep zouden we meer begeleiding kunnen geven. Kiezen voor
een op laag niveau gestructureerde aanbieding (kookboek!) waar veel studenten baat bij denken
te hebben, kost echter veel docententijd en vergroot de kans dat kennis met een lage transfer-
waarde wordt geleerd (Cormier e.a., 1987). Gelet op de tweede groep zouden we de verant-
woordelijkheid om tot transfer te komen, bij de studenten kunnen leggen. Ook hiermee wordt de
kans op het bereiken van de doelstelling niet groter.

Een tussenvorm is het onderwijs op te zeuen op basis van het gebruik van wat we een
leerkiem zullen noemen. Zo'n leerkiem is een bij studenten aanwezige cognitieve stmctuur van
kennis en vaardigheden die zowel aansluit bij de voorkennis van de student als bij het vak zelf.
Daardoor kan hij in voor de student begrijpelijke termen worden geaccentueerd en bovendien
transfer bevorderen als studenten ontdekken dat diezelfde stmctuur past bij de opdrachten van
het vak. Het is natüurlijk de bedoeling dat ze die cognideve stmctuur ook feitelijk ontwikkelen
(verg. Voss, 1987). Dit gebeurt aan de hand van modellen die het leren op een hoog niveau
stmctureren.

In het onderwijs dat we hier zullen beschouwen gaat het er om dat een student leert om met
inzicht experimentele onderzoekproblemen op het gebied van de netwerkanalyse aan te pakken.
De kemwoorden zijn hier inzicht en aanpak. Deze zijn niet echt goed omschreven. Bovendien
willen we dat de student allerlei wel omschreven kennis - wel omschreven voor de docent -
verwerft die de vakinhoud betreffen. Ons onderzoek is erop gericht om enerzijds vakdidactische
ontwerpregels te formuleren voor onderwijs waarmee het ontwikkelen van inzicht en het leren
van natuurkundige begrippen op hoog niveau van abstractie, kan worden bevorderd. Anderzijds
is ons doel om concreet onderwijs ten behoeve van het practicum netwerkanalyse verder te
ontwikkelen. Eerder onderzoek (Vos, 1987) heeft geleerd dat in de netwerkanalyse abstracte
begrippen een rol spelen die nodig zijn in vervolgvakken, en dat ondanks 3e inzet van een
practicum weinig studenten het gewenste niveau verwerven.

In paragraaf 2 geven we de leertheoretische achtergrond met betrekking tot de leerkiem, zijn
eigenschappen en zijn functie. Tevens bespreken we zijn eerste ontwikkeling aan de hand van

-ocr page 269-

Leren en transfer 263

modellen. Daama geven we als voorbeeld de modellen die wij geconstrueerd hebben bij het
onderwijs waar het ons om ging, het practicum netwerkanalyse. In paragraaf 3 geven we aan hoe
de leerkiem verder ontwikkeld wordt bij de studenten en hoe we hem gebruikt hebben bij de
opbouw van de opdrachten. In paragraaf 4 beschrijven we het onderzoek, de onderwijsvorm
waarin we gebruik gemaakt hebben van de leerkiem en de resultaten. Ten slotte volgt in paragraaf
5 een discussie van de resultaten en mogelijkheden voor verdere toepassing en onderzoek.

2. EEN LEERKIEM: VERENIGING VAN ADVANCE ORGANIZER EN
GENETISCHE KIEM

Een leerkiem verenigt de eigenschappen van een advance organizer in de zin van Ausubel
(1978) met de eigenschappen van een genetische kiem in de zin van Davydov (1983).

2.1. Eigenschappen

Een advance organizer moet een brug slaan tussen wat de student al weet en wat hij moet weten
om zinvol te kunnen leren. Zo'n organizer moet aan de volgende criteria voldoen: hij moet een
hoger niveau van abstractie, van algemeenheid en van toepassingsdomein ("inclusiveness")
hebben dan de nieuwe leerstof.

Dit is dus iets anders dan een samenvatdng of een uittreksel, want die staan op hetzelfde
abstractieniveau als de leerstof en laten alleen minder belangrijke stof weg (Ausubel, I.e.). Het
ontwikkelen van zo'n advance organizer - er zijn ook andere organizers van lager niveau - stelt
hoge eisen aan de docent. De docent moet vorm geven aan het gemeenschappelijke in zijn eigen
vak, de voorafgaande leerstof en de toepassingen. Dit vergt een grondige vakdidactische analyse
die over de grenzen van het vak heengaat.

De leerkiem bevat de kem van het vak en wordt in een algemene (abstracte) vorm weergegeven.
Deze vorm representeert een structuur die ook in de voorkennis te vinden moet zijn. Daardoor is
de vorm herkenbaar voor de studenten: zij kunnen de kem van het vak begrijpen - in termen van
hun voorkennis, nog niet in de betekenis die de docent eraan geeft -. De modellen aan de hand
waarvan de leerkiem wordt ontwikkeld activeren relevante voorkennis en stmctureren voorkennis
doordat zij relevante relaties accentueren.

Als cognitieve structuur heeft de leerkiem twee functies. Hij verschaft via die structuur
ankerpunten voor nieuwe kennis (organiseert de nieuwe kennis, Prawat, 1989), en hij relateert
voorkennis aan nieuw te leren stof. Hiermee laat hij twee specifieke voorbeelden van het meer
abstracte zien, namelijk de voorkennis en de nieuwe stof Hierdoor kan begrip ontstaan voor het
meer abstracte en wordt verdere generalisatie mogelijk. De ontwikkeling van de leerkiem start
bij de introductie van het vak vanuit de bestaande cognitieve structuur, door accentuering van
delen daarvan met behulp van modellen.

2.2. De accentuering van de leerkiem met behulp van modellen

Op basis van de eerder genoemde vakdidactische analyse worden modellen voor een leerkiem
geconstrueerd. Aangezien het in het vak niet alleen over kennis - vastgelegd in begrippen -
maar ook over vaardigheden - uit handelingen bestaande - gaat, hebben we een leerkiem nodig
in drie vormen. De eerste vorm gaat over vakinhoudelijke begrippen. Dit noemen we een
begripsmodel. De tweede gaat over de methoden van het vak. Dit noemen we een handelingsmodel.
Het is de bedoeling dat de kennis van de student zich voortdurend uitbreidt. De vorm waarin we
aangeven hoe de vakkennis en de inhoud van het vak uitgebreid kunnen worden, noemen we het
uitbreidingsmodel. Hiermee krijgen de verdere ontwikkeling van de vakkennis en die van het
vak zelf een ankerpunt in de leerkiem.

De specifieke modellen, die al algemeen van vorm zijn (zie paragraaf 2.3) stellen zelf iets
nog algemener voor (de "algemene vorm" van Davydov, I.e.). Bij de introductie van de vakinhoud
wordt dit algemenere zoveel mogelijk benadmkt, door tekeningetjes als tussenvorm te gebruiken,
en de modellen ook verbaal te omschrijven. Op grond van de modellen worden de leerinhoud en

-ocr page 270-

264 H. Vos

de leerdoelen zo geformuleerd dat ze in termen van voorafgaande ervaringen van de student
begrepen kunnen worden. Aangezien we - anders dan Davydov - ook een model voor handelin-
gen gebruiken, heeft dit als consequentie dat de introductie gebaseerd moet zijn op wat studenten
zelf gedaan hebben - met de bijbehorende context en gevoelens -.

De introductie van de modellen vindt plaats als illustratie bij concrete voorbeelden uit de
ervaring van de student. De leerkiem ontstaat doordat de set van modellen de juiste begrippen en
relaties in de bestaande cognitieve structuur accentueert, en uitlokt tot het leggen van sommige
nieuwe relaties die noodzakelijk zijn maar er nog niet waren. De introductie draagt zo bij tot
persoonlijke integratie van de voorafgaande stof en ervaring. Hierbij is sprake van creatieve
stappen. De introductie vindt dan ook plaats aan de hand van levende ervaringen van de studenten.
Gehoord of gelezen hebben over een apparaat of methode die in de introductie wordt genoemd,
is niet voldoende om te begrijpen wat de bedoeling is (verg. Pea, 1987). De vorm van de
leerkiem wordt hiermee een drager van gevoelsmatige associaties met eerdere ervaringen: schema's,
symbolen en woorden krijgen een gevoelsmatige "lading". Onderzoek heeft geleerd dat dit de
benodigde vakinhoudelijke creativiteh kan stimuleren (Wolters, 1987).

2.3. Geconstrueerde modellen en hun gebruik

We zullen eerst het begripsmodel en het uitbreidingsmodel bespreken. Vervolgens bespreken
we het handelingsmodel. We zullen hier niet de behandeling volgen zoals die in ons onderwijs
aan de orde komt - dat zou te specialistisch worden (zie Vos 1990a) - maar geven een vereen-
voudigd bespreking die de essentiële kenmerken in zich heeft. Deze essentiële kenmerken zijn
al ingewikkeld genoeg, omdat voor de ontwikkeling van de leerkiem met behulp van de modellen,
de modellen zelf gebruikt worden.

2.3.1. Het begripsmodel en de accentuering van de algemene vorm

In Figuur 1 is het basismodel voor de begrippen van het vak gegeven. Hiermee wordt in de
opdrachten verder gewerkt. Elektrische stroom of spanning meten, gedrag van de componenten
bepalen, berekeningen uitvoeren, enz.

Dit model is behoorlijk gecompliceerd van vorm en kan niet vereenvoudigd worden zonder
incompleet te worden. Het wordt daarom stapsgewijs opgebouwd waarmee tegelijkertijd de
leerkiem wordt geaccentueerd.

Er wordt gestart met een elementair netwerk zoals weergegeven in Figuur 2. Dit bestaat uit
een passieve component A (bijvoorbeeld een walkman) en een spanningsbron B (bijvoorbeeld
een batterij), die elk twee aansluitpunten bezitten en op die punten met elkaar zijn verbonden.

1

u

B

-•-

-> p = u.i

«

Fig. 1. Het begripsmodel voor netwerkanalyse. Elk netwerk is op te delen in twee componenten (A en B)
die via geleiders op elkaar zijn aangesloten (de dikke stippen). Samen met dc begrippen stroom (i),
spanning (u) en vermogensovcrdracht (p) vormt het begrip netwerk een onlosmakelijke eenheid
voor netwerkanalyse.

-ocr page 271-

Leren en transfer 265

Fig. 2. Een elementair netwerk. Een elementair netwerk bestaat uit een (spannings)bron B en een passieve
component A die elk twee aansluitpunten bezitten en op die punten met elkaar zijn verbonden.

De punten zijn de aansluitcontacten van de batterij. De getekende lijnen van de figuur hebben
hier geen fysische betekenis. De verbindingslijnen van de figuur zijn niets anders dan verleng-
stukjes van het verbindingspunt, die een structuur accentueren. De vorm van het model kan
creatieve gedachten uitlokken. Hij kan tot - vaak spontane - vragen leiden zoals: Mag je A en B
ook verwisselen? Mag je de verbindingslijnen ook anders tekenen? Mag je elk elektrische
apparaat (hier component genoemd) aansluiten op elke andere component? Mag je de walkman
aansluiten op een elektrische kacheltje? Dat laatste mag inderdaad, er gebeurt dan niets, de
walkman speelt niet en het kacheltje brandt niet. Als we echter een batterij aansluiten op het
stopcontact ontstaan er vonken.

In de vorm zitten allerlei van dergelijke "tegenstellingen" opgesloten. Het verwoorden en
oplossen van mogelijke tegenstellingen vormen krachtige middelen om het denken op gang te
brengen. Hiermee wordt de algemene vorm waarvan het model een representant is, geaccentu-
eerd.

2.3.2 Het uitbreidingsmodel en de opbouw van het basismodel

De bovenstaande figuur geeft de meest eenvoudige elektrische stroomkring die we kennen.
Uitbreiding tot meer ingewikkelde netwerken vindt plaats door nieuwe componenten in serie of
parallel aan te sluiten (zie Figuur 3).

Op deze wijze kunnen steeds ingewikkelder netwerken gemaakt worden. Vanuit het elemen-
taire netwerk wordt met behulp van het uitbreidingsmodel stap voor stap toegewerkt naar het
basismodel. In dit kader worden verschillende soorten bronnen onderscheiden naar het gedrag
van het netwerk bij een ingreep van buitenaf. Bij een wisselspanningsbron (bijvoorbeeld het
stopcontact) maakt het niet uit voor het netwerk of je de aansluitpunten verwisselt (de stekker
andersom in het stopcontact steekt). In andere gevallen moet de correcte wijze van aansluiten

-ocr page 272-

266 H. Vos

aangegeven worden door plusjes en minnetjes. De conceptvorming wi5^e/spanning versus
ge/j/7:spanning vindt hier plaats via handelingen die de lezer op elk moment zelf kan controleren
doordat de eigen waarneming of herinnering wordt ingeschakeld.

Componenten die de sterkte van de elektriciteit blijken aan te geven, kunnen als meet-
instrument gebruikt worden door ze toe te voegen aan een bestaand netwerk (een uitbreiding).
Ze kunnen dan gebruikt worden om eigenschappen van het netwerk te meten. In serie wijzen ze
iets anders aan dan parallel. Er is dus blijkbaar verschil. Wat in serie wordt aangewezen,
noemen we stroom, parallel meten we spanning. We kunnen verder bijvoorbeeld nagaan dat de
stroom in een serie-stroomkring overal even groot is. De logisch volgende stap is dan om
stroom- en spanningsmeting te combineren (een tweede uitbreiding).

We hebben nu stap voor stap een methode geconstrueerd om de stroom i en de spanning u in
voorkomende gevallen te bepalen. Elke stap bouwt voort op al bekende zaken en kan door de
lezer zelf gecontroleerd worden aan de hand van een ingreep in een netwerk en waarneming van
de gevolgen: hij construeert zijn eigen leerkiem. Pas op dit moment is het volledige basismodel
van Figuur 1 opgebouwd. Hierna is een mathematische benadering mogelijk die de relatie met
de fysische werkelijkheid vasthoudt.

We kunnen nu immers voor elke component afzonderlijk zijn stroom- en spanningsgedrag
nagaan. Stroom en spanning zijn aan elkaar gekoppeld tot een bepaalde relatie. De bij elkaar
behorende meetwaarden van stroom en spanning kunnen we in een grafiek of in een formule
weergeven. Zo kunnen we bijvoorbeeld de wet van Ohm vinden voor bepaalde typen weerstan-
den. In het laatste geval hebben we een lineair verband gevonden. Op grond van dergelijke
verbanden kunnen we berekeningen uitvoeren.

2.3.3 Het handelingsmodel

In ons practicum gaat het om een handelingsmodel voor onderzoek. De kern van wat de student
moet leren, is hier dat de uitkomsten van de meting en de berekening met elkaar moeten kloppen
(binnen de vereiste nauwkeurigheid). Het model is weergegeven in Figuur 4.

-ocr page 273-

Leren en transfer 267

In de Figuur stelt het netwerk een structuur van componenten voor (vergelijkbaar met Figuur 1
in uitgebreidere vorm) waarvan allerlei gegevens bekend zijn maar bijvoorbeeld de stroom nog
onbekend is. Deze kunnen we aan de ene kant berekenen (of soms ook theoretisch beredeneren),
aan de andere kant meten (of anderszins waarnemen). Als meting en berekening met elkaar
kloppen zijn we klaar. We hebben dan een kloppend kwartet.

Deze aanwijzing is zo algemeen dat onderwijs hier op gebaseerd weinig effect heeft: de
studenten wisten dit eigenlijk al (vergelijk Vos, 1990b). Het gaat er juist om wat zij moeten
doen als de resultaten niet kloppen. Daarom is ons handelingsmodel veel verder uitgewerkt in
een vijftigtal deelhandelingen (zie Vos, 1990a). Als de uitkomsten niet kloppen kunnen studenten
nagaan welke deelhandelingen mogelijk is vergeten of niet goed uitgevoerd. Het meetinstrument
kan bijvoorbeeld een grotere of kleinere afwijking hebben (ijken) of de waarde die het instrument
aanwijst kan anders zijn dan de waarde die er zou zijn zonder meetinstrument in het netwerk
(corrigeren, of ander meetinstrument selecteren). Deze detaillering is vergelijkbaar met de
detaillering in substrategieën die nodig is voor effectief onderwijs in oplos-strategieën, zoals al
eerder is aangetoond, onder andere door Schoenfeld voor de wiskunde (De Leeuw en Span,
1988).

Zo'n detaillering in subhandelingen van meten is echter niet voldoende. Het verschil zou
immers kunnen liggen aan andere oorzaken dan de meting: het kan ook aan het netwerk zelf
liggen (bijvoorbeeld aan een verkeerde component) of aan de berekening (een rekenfout of een
berekening gebaseerd op een door de fabrikant opgegeven waarde die iets kan afwijken). Voor
alle deelhandelingen van het berekenen hebben we eveneens een model uitgewerkt (zie Vos,
1990c). Het opsporen van de mogelijke oorzaken van verschillen bevordert de integratie van het
handelingsmodel met het begripsmodel.

In feite wordt het handelingsmodel al gebruikt bij de introductie van het begripsmodel
(paragraaf 2.3.1). Daar werden immers mogelijke "tegenstellingen" verwoordt tussen het
basismodel en de betekenis daarvan in de werkelijkheid. De ene handeling is daar het waamemen
van de werkelijkheid - vaak in de herinnering -, de andere het redeneren over het begripsmodel.
Het verzoenen van de tegenstellingen daar is dan in wezen hetzelfde als het kloppend maken van
het handelingsmodel hier. De introductie van de modellen vormt, met andere woorden, een
model van zichzelf (vergelijk Johnson-Laird, 1989).

Een goede ontwikkeling van een leerkiem lokt uit tot initiatief en het leggen van relaries, en
draagt bij tot persoonlijke integratie van de stof De ontwikkelde begripsstructuur kan bijdragen
tot toepassing van de geleerde vaardigheden bij een andere inhoud (generalisatie), de ontwikkelde
handelingsstructuur tot aanpassing van de geleerde handelingen aan andere omstandigheden
(adaptatie). Deze adaptatie is vaak nodig als de student vast zit. De geleerde vaardigheden
voldoen dan niet. In zo'n geval leidt actieve en creatieve constructie van kennis - die regelmatig
voorkomt - vaak tot fouten (Futnam, 1987). De leerkiem moet beperkingen opleggen aan de
manieren waarop studenten hun procedures repareren of vemieuwen wanneer ze vast zitten. De
modellen induceren dus enerzijds creatieve ideeën maar leggen anderzijds beperkingen op aan
nieuwe procedures. De verdere ontwikkeling vain de leerkiem wordt hierdoor voorbereid.

3. HET VERDER ONTWIKKELEN VAN DE LEERKIEM

De accentuering van de leerkiem is nog maar het begin van het onderwijs. Het is een voorberei-
ding op het eigenlijke leren dat plaats vindt door de leerkiem systematisch te ontwikkelen aan de
hand van opdrachten, vraagstukken, oefeningen e.d. Het uitvoeren van de opdrachten noodzaakt
tot een specificatie van begrippen en daarmee samenhangend kan een differentiatie van
handelingsmogelijkheden plaats vinden. Tevens willen we dat verhoging van het abstractieniveau
plaats vindt. We lichten dit toe.

-ocr page 274-

268 H. Vos

3.1 Specificatie en differentiatie

De begrippen in het begripsmodel van netwerkanalyse verwijzen naar materiële objecten (de
componenten), naar gedragseigenschappen van die componenten (bijvoorbeeld de wet van Ohm)
en naar gedragseigenschappen van het netwerk als geheel (stroom en spanning). Als een student
dit begrijpt, kan het begripsmodel gezien worden als een externe representatie van een inteme
stand van zaken met betrekking tot het inzicht in de begrippen (= cognitieve structuur).

In de loop van het onderwijs worden verschillende concrete voorbeelden van nieuwe objec-
ten gegeven, met nieuwe gedragseigenschapp)en die in de leerkiem passen. De student moet hier
"zien" dat het nieuwe voorbeeld in feite hetzelfde is als wat hij al weet en dat het derhalve past
in de algemene structuur. Het nieuwe concrete voorbeeld is gewoon een nieuwe
specificatie van
de algemene vorm en kan daaraan worden "aangehaakt". Dit kan hij alleen maar zelf doen want
het gaat om zijn eigen cognitieve structuur.

In de vakinhoudelijke informatie en de opdrachten worden begrippen gespecificeerd. Door
hiermee verder te oefenen ontstaat een
differentiatie van het begrippen- en handelingennetwerk
van de student. Een eenvoudig voorbeeld.

Het gaat om het onderscheiden van verschillende soorten bronnen naar hun uitwendig gedrag
(verdere differentiatie door specificatie). Als we de batterij in de walkman omdraaien, doet hij
het niet meer of kan zelfs kapot gaan. Als we de stekker uit het stopcontact halen en hem er
omgedraaid weer insteken, blijft de lamp gewoon branden. Een batterij heet daarom een
gelijkspanningsbron, het stopcontact een wisselspanningsbron. De correcte wijze van aansluiten
is derhalve van belang bij gelijkspanningscomponenten en -bronnen en wordt aangegeven met
plusjes en minnetjes. (Zie Figuur 1).

Er is hier sprake van specificatie: de nieuwe voorbeelden worden "aangehaakt" bij de alge-
mene structuur. Er wordt een differentiatie in één van de begrippen aangebracht: er worden twee
soorten bronnen onderscheiden, gelijkspannings- en wisselspanningsbron. Deze differentiatie
hangt samen met een ingreep in het netwerk die het verschil tussen beide aantoont. Als er nu
verder mee wordt geoefend, worden ook de handelingsmogelijkheden met deze twee begrippen
nader gedifferentieerd en daarmee uitgebreid. Tegelijkertijd roept het voorgaande weer nieuwe
vragen op, bijvoorbeeld: mag B ook op zijn kop getekend worden waarbij de lijnen elkaar
snijden?

De student moet dus zelf relaties zien, zelfde voorbeelden aan de modellen relateren, hetgeen
daarna kan leiden tot een eigen inidadef op grond van het verworven inzicht. Het vertonen van
eigen initiatief is daarmee een signaal dat de cognitieve structuur van de student zich een stapje
verder heeft ontwikkelt, dat er integratie heeft plaats gevonden. Omgekeerd kan eigen activiteit
- het nemen van initiatief - ook leiden tot het zien van relaties en daarmee integratie van kennis
bevorderen (Van Parreren, 1988).

We nemen aan dat de persoonlijkheidsstructuur van de student hier invloed heeft: de ene
student zal liever eerst relaties zien (denken) en dan initiatief vertonen (doen), de andere doet
liever eerst iets, en ziet dan wel verder. In het laatste geval bestaat de mogelijkheid dat de
student het wel "in zijn vingers" krijgt, maar de cognitieve strucmur "in zijn hoofd" niet ontwikkelt.
De onderwijsvorm moet er voor zorg dragen dat beide ontwikkelingen - motorische en cogni-
tieve - plaats vinden en geïntegreerd worden.

Voor het ontwikkelen van de cognitieve structuur is het dus van belang dat zowel het zelf
leggen van relaties als het nemen van initiatief wordt uitgelokt. Beide dragen bij tot een persoonlijke
integratie, en daarmee tot transfer. Immers, bij nieuwe taken zal via de ontwikkelde algemene
vorm gemakkelijk onderkend worden of er een begripsstructuur is die past bij de taak zodanig
dat de
bijbehorende handelingsmogelijkheden bijdragen tot de voltooiing van de taak. De bij-
behorende handelingsstructuur is geïntegreerd met deze begripsstructuur en zal dus ook snel
geactiveerd worden.

De cognitieve structuur moet boven het geleerde, maar ook boven de toepassing uitgaan:
transfer hangt samen met niveauverhoging. Door verschillende specifieke simaties te introduceren,
leert de student verschillende concrete gevallen te onderscheiden, maar vooral
het algemene in
het specifieke te herkennen
(Davydov, I.e.).

-ocr page 275-

Leren en transfer 269

3.2 Niveauverhoging

Een moeilijkheid hierbij is dat modellen ook concrete dingen zijn. Zij bestaan uit schema's en
symbolen, en representeren de algemene vormen. Net zoals een materieel elektrisch netwerk
door verschillende elektrische schema's kan worden voorgesteld, en een specifiek elektrisch
schema in verschillende materiële elektrische netwerken kan worden gerealiseerd, zo zou ook
eenzelfde cognitieve structuur door verschillende concrete modellen kunnen worden voorgesteld,
en een concreet model naar verschillende cognitieve structuren kunnen verwijzen.

De "tegenstellingen" zoals die eerder zijn gesignaleerd, worden in de hand gewerkt doordat
materiële netwerken geabstraheerd worden tot begrippen en handelingsmogelijkheden, en de
abstractie daarna weer vorm krijgt in modellen die gematerialiseerd zijn tot schematische netwerken.
Deze tegenstellingen moeten door de analyse van de vakinhoud aan het licht gebracht worden.
Door speciale opdrachten wordt er verder voor gezorgd dat studenten deze tegenstellingen die
in het algemeen in iedere abstractie besloten liggen, ook zien en als dilemma ervaren. Confrontatie
met de materiële werkelijkheid - waarin mogelijke tegenstellingen al opgelost zijn - moet ertoe
bijdragen dat de student de tegenstellingen in zijn cognitieve structuur eveneens verzoent.

Indien dit lukt is niveauverhoging tot stand gebracht. De specifieke modellen worden dan als
voorbeelden van iets algemener gezien. Belangrijk hierbij is dat de symbolen niet meer objecten
zijn waarmee gerekend moet worden, maar uitkomsten van waarnemingen, metingen of andere
berekeningen. De symbolen (modellen, schema's enz.) kunnen dan net zo goed door andere
symbolen vervangen worden, zonder dat de student in de war raakt. Omgekeerd denken we te
bevorderen dat studenten op een hoger niveau komen door vraagstukken aan te bieden in een
andere vorm dan gebruikelijk: andere symbolen, andere betekenis van de symbolen, andere
behandeling dan gewoonlijk van bekende symbolen. In al deze gevallen moet de uiterlijke vorm
onderscheiden worden van de betekenis in termen van handelingsmogelijkheden.

Het doel van ons onderwijs is de studenten bij te brengen dat metingen en berekeningen altijd
moeten kloppen. De strategie die ontwikkeld moet worden om dit systematisch en doelgericht te
bereiken, is nieuw. Hierbij gaat het tevens om nieuwe abstracte begrippen uit het vak netwerk-
analyse die toegepast moeten worden. De metingen zijn eveneens nieuw.

3.3. Specificaties en opbouw van de opdrachten

De studenten moeten laten zien dat ze een strategie geleerd hebben om het verschil tussen
berekening en meting te reduceren, door
open opdrachten uit te voeren. Open onderzoeksop-
drachten zijn gericht op de aanpak en het systemadsche opzetten van een experimenteel onderzoekje.
Een voorbeeld is de opdracht om te onderzoeken welke van een stel uitgereikte componenten
het beste voldoet aan een gegeven relatie tussen stroom en spanning. In zulke gevallen moeten
de studenten met de probleemstelling zelf worstelen: ze moeten het probleem scherper formuleren
en operationaliseren, ze moeten een criterium opstellen op grond waarvan ze berekeningen over
en metingen aan de componenten met elkaar kunnen vergelijken, ze moeten deelproblemen
afsplitsen enz. De student is hier bezig zelf tegenstellingen te ontdekken en op te lossen.

In ons geval was een taakanalyse niet nodig omdat via vakdidaktische analyse en literatuur-
onderzoek het gedrag van de expert voldoende is blootgelegd (zie het handelingsmodel en de
detaillering daarvan). Hieruit blijkt dat zo'n open opdracht via allerlei methoden en elke methode
op alleriei manieren (via allerlei procedures) uitgevoerd kan worden. Met behulp van het resultaat
van de analyse van de vakinhoud zou het mogelijk zijn om studenten een methode en een
procedure aan te reiken om de nieuwe taken uit te voeren (kookboek-pracricum). Wij hebben
daar niet voor gekozen omdat dat weinig garantie biedt dat studenten een flexibele cognitieve
structuur ontwikkelen. Onze bedoeling is dat studenten zelf zo'n procedure kunnen samenstel-
len (een oriënteringsbasis van de derde soort ontwikkelen, Gal'perin, 1980). In het begin-
stadium van de studie zijn veel studenten daar nog niet zelfstandig toe in staat, zeker niet als
zowel de metingen als de berekeningen nieuw zijn.

Ons uitgewerkte handelingsmodel stelt de student in staat na te gaan welke handelings-
mogelijkheden er zijn, deze tegen elkaar af te wegen, een keuze te maken en dergelijke. De
student moet zelf deelhandelingen selecteren, concretiseren en in de juiste volgorde uitvoeren.

-ocr page 276-

270 H. Vos

Hij moet de relaties tussen opeenvolgende vragen en opdrachten steeds zelf leggen. De opbouw
is zo ontworpen dat de stappen niet te groot zijn. De samenhang tussen de stappen en tussen de
verschillende onderdelen van het vak worden al in de introductie in zo algemeen mogelijke
vorm aangegeven. Dit draagt ertoe bij dat de kennis en vaardigheden bij elke nieuwe stap in het
leerproces verbonden worden. Op deze manier kan de student doorkrijgen waar het om gaat
- wat op zich motiverend werkt -.

Oefening in het uitvoeren van de open opdracht leidt dan tot integratie van de deelhandelingen
en begrippen, waardoor de gewenste cognitieve structuur wordt versterkt. Het uitgewerkte
handelingsmodel geeft bijvoorbeeld aan dat de informatie nodig om de deelhandelingen uh te
kunnen voeren, door de student zelf verzameld moet worden. Om dit te oefenen hebben we de
benodigde informatie gescheiden van de opdrachten.

De open opdrachten zijn voor onze studenten zo complex dat vaak een voorafgaande oefening
nodig is van deelhandelingen. We hebben daarom
voorbereidingsopdrachten ingevoerd. Bij zulke
voorafgaande opdrachten wordt de handeling zoveel mogelijk geoefend in een andere vorm dan
waarin hij later nodig is. Hiermee wordt beoogd om de gedachtengang of methode los te maken
van de gebruikte woorden of symbolen en van de gebruikte context. Voorbereidingsopdrachten
dienen er dus toe om een nieuw type gedachtengang of een nieuwe methode te activeren als
voorbereiding op een meer complexe open opdracht. In een voorbereidende theorievraag krijgt
de student vaak in algemene termen een probleem aangereikt, dat hij in symbolische vorm moet
oplossen. In de volgende concrete opdracht wordt de student gevraagd zelf iets te specificeren.
Speciale aandacht wordt hierbij gegeven aan het berekenen van de invloed van de meting zelf op
het te meten gedrag.

In een voorbereidend meetprobleem gaat de student na dat een ongespecificeerd gedrag ook
via een meting gespecificeerd kan worden. Dergelijke meetopdrachten zijn bedoeld om parameters,
signalen of relaties tussen grootheden te meten. Het vergelijken van twee of meer verschillende
meetmethoden op nauwkeurigheid dient om kritisch te leren omgaan met meetuitkomsten en
met de meting zelf (reflectie op het handelen) en is eigenlijk al een open opdracht. Nieuwe
begrippen geven hierbij vaak problemen.

Met een nieuw begrip uit de werkelijkheid, een nieuw verschijnsel of een nieuw apparaat
moet eerst ervaring opgedaan worden. Deze kennismaking vindt plaats in aparte
illustrerende
opdrachten.
(Vergelijkbaar met: "Steek de stekker eens andersom in het stopcontact", zie boven).
In deze opdrachten vindt een nieuwe ervaring plaats die moet kloppen met de gegeven beschrijving.

De student krijgt allerlei nieuwe vakinhoudelijke informatie, zoals gezegd gescheiden van de
opdrachten. Hij moet kunnen nagaan of hij al deze specificaties heeft begrepen. Daartoe geven
we telkens
verwerkingsvragen die uitsluitend op grond van de verschafte informatie beantwoordt
moeten kunnen worden. (Vergelijkbaar met: "Mag je A en B ook verwisselen?", zie boven). De
student gaat hier na pf de opgeroepen ervaringen kloppen met de nieuwe manier van beschrijven.
De student moet ook nieuwe elektrische stroom- en spanningssignalen, die zelf onzichtbaar zijn,
kunnen maken met behulp van speciale bron-apparatuur. Ook de netwerken moet hij kunnen
maken, en tevens moet hij kunnen waarnemen wat daarin gebeurt: hij moet aansluhingsproblemen
tussen meetinstrumenten en netwerken kunnen oplossen. De genoemde vaardigheden zijn absoluut
noodzakelijk voor het succesvol doorlopen van het practicum. De apparatuur is in een eerder
practicum al geïntroduceerd maar nog niet op geavanceerde manier gebruikt. Daarom hebben
wij
voorkennisopdrachten ingevoerd die ervoor moeten zorgen dat de benodigde kennis en
vaardigheden worden opgehaald en op niveau gebracht.

Tenslotte zijn er nog de niveauverhogende opdrachten. Hierin wordt een tegenstelling aan-
gereikt. De opdracht lijkt in eerste instantie niet te kunnen, of een oppervlakkige uitvoering van
de opdracht leidt tot tegenstrijdige resultaten. Tijdig invoeren van zo'n opdracht helpt fouten
later voorkomen.

Bovenstaande ideeën hebben we toegepast bij de verbetering van ons practicum.

-ocr page 277-

Leren en transfer 271

4. ONDERZOEK EN RESULTATEN BIJ EEN PRACTICUM

In het cursusjaar 1986/87 is een vernieuwing van het practicum netwerkanalyse uitgevoerd. We
beschouwen de oude situatie als controle, en de nieuwe situatie als een experiment waarin onze
ideeën worden getoetst. We geven hier kort een beschrijving van het practicum, we geven aan
hoe onze ideeën zijn geïmplementeerd bij de verandering, en we bespreken de onderwijsresultaten
en de onderzoeksresultaten. Meer informatie over het practicum is te vinden in de literatuur
(Tattje et al, 1989; Vos 1990a).

4.1 Het practicum netwerkanalyse

Het vak netwerkanalyse is een centraal vak in de Elektrotechniek, en wordt gegeven in het
tweede trimester van het eerste jaar. Drie onderwijsvormen lopen parallel. In het hoorcollege
worden de nieuwe, formele begrippen aangereikt. In het werkcollege worden berekeningen
geoefend. Op het practicum leren studenten de formele eigenschappen te meten en passen ze de
berekeningen toe. Uit opmerkingen van studenten blijkt dat ze op het practicum doorkrijgen
waar het vak netwerkanalyse eigenlijk over gaat.

In de netwerkanalyse wordt nagegaan hoe de werking van een elektrisch netwerk op alle
mogelijke bronspanningen en -stromen beschreven kan worden. Doel van het practicum is die
beschrijving toe te passen en te onderzoeken. Het practicum bestaat uit negen middagen en valt
in drie delen van elk drie middagen uiteen: deel 1. inleidende metingen, deel 2. tijdgebied en
deel 3. frequentiegebied. Tijdens het eerste deel (inleidende metingen) ligt de nadruk op wat er
eigenlijk moet gebeuren op een practicum: nadenken over de aanpak van het experimentele
probleem, meten, berekenen, de uitkomsten kritisch vergelijken. In deel 2 gaat het om stroom-
en spanningssignalen als functie van de tijd. De beschrijving van het netwerk vindt dan eveneens
plaats in het tijdgebied. In deel 3 gaat het om een beschrijving in het frequentiegebied. Deze is
geheel anders van karakter dan deel 2.

Over elk deel houdt iedere smdent een joumaal bij. Op het eerste journaal krijgen de studenten
halverwege het practicum terugkoppeling, op de andere twee aan het eind of na afloop van het
practicum. De prestaties van de studenten worden gemeten via de beoordehng van de joumaals.
Het eindcijfer is een gemiddelde van de beoordeling van de laatste twee joumaals, waarbij het
eerste joumaal en de inzet van de student de afronding beïnvloedt. De studenten werken in
tweetallen. Per jaar doen ongeveer 150 studenten het practicum. Zij worden begeleid door vier
student-assistenten, die ook de joumaals nakijken.

4.2 Het onderwijsexperiment

De vier jaargangen studenten voor de vemieuwing worden als controlegroep beschouwd, de
vier jaargangen ema als de experimentele groep. Om het leereffect van de maatregelen te
kunnen beoordelen werd deel drie van het practicum (frequentiegebied) niet veranderd. In elke
groep werden bij wijze van steekproef in één jaargang vragenlijsten aan de studenten voorgelegd,
en intensieve observaties uitgevoerd waarin alle studenten en alle assistenten alle middagen
werden geobserveerd.

We geven nu een korte beschrijving van de nieuwe shuatie op ons practicum. De inhoud van
het practicum is vrijwel hetzelfde gebleven, de randvoorwaarden voor het onderwijs eveneens
(feitelijke studietijd, plaats in het curriculum, verroostering, begeleidingstijd). Dh houdt ook in
dat de inhoud van het hoorcollege en het werkcollege niet zijn veranderd. De vemieuwing heeft
plaats gevonden binnen de normale tijdsbesteding van de verantwoordelijke prakticumleider
(nominaal 180 uur per jaar) en vergde twee jaar voorbereiding.

De eerste middag moeten in een korte toets van 15 minuten twee metingen van een vorig
practicum herhaald worden. De studenten die nog in staat zijn dit vlot te doen, krijgen vrijstel-
ling van een herhalingsopdracht, de anderen moeten de oude vaardigheden ophalen. Tevens
krijgen alle studenten een opdracht die het niveau van de voorkennis moet veriiogen. Deze
opdracht lijkt op het eerste gezicht makkelijk, maar is niet uit te voeren door zomaar aan de
knoppen te draaien. Dit komt niet zozeer doordat elk apparaat een twintigtal knoppen bezit.

-ocr page 278-

272 H. Vos

maar meer doordat het gebruik van een paar knoppen weloverwogen afgewisseld dient te wor-
den. Wij reiken een functionele beschrijving van de apparatuur aan (in hoofd- en deelfuncties,
op drie bladzijden informatie). De systematiek van de oplossing zit er in dat de functies van het
ene en van het andere apparaat op een correcte wijze worden afgewisseld. Deze systematiek
komt in drie verschillende aspecten van de opdracht terug (dat wil zeggen met steeds andere
functieknoppen).

De studenten wordt aangeraden de introductie en de verdere informatie thuis door te lezen.
De introductie geeft het algemene kader voor het hele vak: hij is helder, compact en volledig en
omvat een totaalbeeld van het vak. Hier wordt de leerkiem geaccentueerd zoals in paragraaf 2
geschetst. Het handelingsmodel is al eerder geïntroduceerd, in de Algemene Prakticumhandleiding
EL. Het wordt hier in een aparte paragraaf gedetailleerder beschreven om een leerkiem voor
onderzoek te ontwikkelen. De leerdoelen - waaronder het leren van een aanpak, een strategie -
worden hiema zo geformuleerd dat ze voor de student begrijpelijk zijn (awareness, verg. Prawat,
1989).

Voor de volgende middagen (behalve die van het derde deel natuurlijk) staat per middag
duidelijk aangegeven wat er van de studenten verwacht wordt. De voorbereiding wordt niet
apart gecontroleerd maar moet wel in het journaal worden opgenomen.

Om de opdrachten uit te kunnen voeren is veel informatie nodig, die logischerwijs uit de
introductie volgt. Aparte paragrafen zijn gewijd aan deze vakinhoudelijke informatie. Het is
niet zo dat de informatie achter elkaar doorgelezen kan worden: de onderwerpen staan enigszins
door elkaar.

4.3 Resultaten

Het resuUaat van de verbetering is als volgt. Het doel van het practicum - dat de studenten een
aanpak van experimentele onderzoekproblemen leren - wordt nu voor meer studenten bereikt:
het slaagpercentage direct na het practicum is gestegen van 48 % naar 79 % (gemiddeld over
vier jaar, zie Tabel 1).

Hierbij moet opgemerkt worden dat de slaagpercentages gebaseerd zijn op het aantal studen-
ten dat in het begin van het practicum op de deelnamelijst stond. Een aantal hiervan vertrekt
tussentijds (staking van de studie, omzwaaien, uitstellen) waardoor de slaagpercentages ongun-

Tabel L De studieresultaten in het praktikum netwerkanalyse. Vermeld zijn aantallen studenten en, waar
aangegeven, percentages.

resultaat in • 83 84
cursusjaar: 82/83 83/84

85
84/85

86 =>
85/86

87
86/87

88
87/88

89
88/89

90
89/90

RESULTATEN DIRECT NA HET PRAKTIKUM

op deelnamelijst 146 131

155

134

110

176

186

134

aantal voldoendes 73 74
in % 50 56

73
47

53
40

90
82

148
84

130
70

104
78

TOTALEN NA AANVULLING in het derde trimester van hetzelfde jaar

aantal voldoendes 78 83
in % 53 63

95
61

88
66

110

82

153
87.

145
78

113
85

BEGINTOETS
voldoende in %

4

?

44

30

23

-ocr page 279-

Leren en transfer 273

stig beïnvloedt worden. Studenten die een onvoldoende hebben kunnen in een volgend trimester
aanvullende opdrachten uitvoeren. We zien in de tabel dat niet alleen het slaagpercentage direct
na het practicum is gestegen, maar dat dit slaagpercentage boven het vroegere totale slaag-
percentage (61 %) is uitgekomen.

Uit interviews met de assistenten blijkt dat de ontwikkeling van de leerkiem langzaam op
gang komt. In het begin hebben de studenten de grootste moeite met het gebruik van het
uitgewerkte, gedetailleerde handelingsmodel. Na teruggave van het eerste joumaal gaat het veel
beter. Uit de journaals blijkt dat de meeste studenten pas aan het eind van het practicum een
systematische aanpak van onderzoekproblemen volgen. Uit observaties blijkt dat de interactie
tussen de studenten tijdens het practicum zeer groot is, vroeger zowel als nu. In de oude situatie
had dit echter geen effect. In de nieuwe situatie zijn in alle prakticumgroepen studentenparen
waar te nemen die als informatiecentrum optreden. Anderen halen hier informatie vandaan of
gaan - indien ze vastlopen - na hoe die studenten het doen. Overschrijven vindt hierbij niet
plaats, en is trouwens ook weinig zinvol door de vele mogelijkheden voor afhandeling van een
opdracht.

Meer dan de helft van de studenten werkt de informatie en de voorbereidingsvragen van te
voren door, de anderen doen dat later. De studenten gaan nu vrijwel allemaal zelfstandig en met
inzicht te werk. Studenten hebben ook door wat het leerdoel is: een zelfstandige aanpak van
onderzoekproblemen leren. De begeleiding door de assistenten, die vroeger nogal hectisch
verliep, is nu vrijwel beperkt tot het nakijken van de joumaals. Wel blijkt dat assistenten soms
moeite hebben aan de studenten duidelijk te maken hoe ze het handelingsmodel moeten gebmiken
bij het joumaleren.

Een onderdeel van de aanpak is het verzamelen van informatie ten behoeve van een onderzoekje.
In het derde - onveranderde - deel van het practicum (frequentiegebied) waren er altijd aanslui-
tingsproblemen tussen practicum, hoor- en werkcollege. Deze zijn in de nieuwe situatie nog
verslechterd door een andere verroostering. Toch kunnen de studenten deze aansluitingsproble-
men nu zelfstandig oplossen. Zij Ieren dus zelf informatie te verzamelen.

De bovenstaande kwalitatieve gegevens worden ondersteund door kwantitatieve. In Tabel 2
presenteren we de ontwikkeling van de resultaten van de studenten per prakticumgroep voor het
afgelopen studiejaar 1990/91.

In dit studiejaar zijn er minder studenten dan gebruikelijk. De aantallen per prakticumgroep
zijn de overgebleven studenten, in de kolom "weg" wordt aangegeven hoeveel studenten tussentijds
zijn afgehaakt. Groep 6 bestaat voor een gedeelte uit herkansers van vorig jaar.

Tabel 2. Ontwikkeling van de prestaties tijdens het prakticum.

Weergegeven worden het aantal onvoldoendes per prakticumgroep. N is het aantal overgebleven deelne-
mers per prakücumgroep. Het aantal afhakers staat onder de kolom "weg". Vermeld is voorts welke assis-
tent de journaals heeft beoordeeld cn wat het gemiddelde eindcijfer per prakticumgroep was.

Aantal onvoldoendes bij:

groep

N

Toets

journ.1

journ.2 journ.3

eindcijfer

weg

assist.

gem.

1

20

18

10

4

11

9

1

P/A

5.6

2

21

12

11

6

1

2

1

P/A

6.6

3

19

14

9

5

4

2

5

P/A

6.5

4

21

12

6

1

1

1

4

H

7.3

5

18

14

10

5

2

2

0

M

6.6

6

6

1

3

1

0

0

5

P/A

6.8

Totaal:

105

71

49

22

19

16

16

-ocr page 280-

274 H. Vos

We zien dat de aantallen onvoldoendes voor de achtereenvolgende journaals afnemen, bij
alle prakticumgroepen op een na (groep 1). Deze groep kan het duidelijk niet bolwerken: na het
tweede deel van het practicum volgt een inzinking in het derde deel. Het eindgemiddelde van
deze groep is 5,6. Bij groep 4 zien we een ander groepseffect. Hierin zitten een aantal zeer goede
studenten (het gemiddelde is 7,3) waardoor het aantal onvoldoendes vanaf het begin lager is en
verder zeer snel afneemt.

Duidelijk is te zien dat de studenten na het eerste journaal doorkrijgen wat de bedoeling is.
De resultaten blijken niet erg af te hangen van de assistent die beoordeelt. We zien dat assistenten
P en A, die beiden de helft van een groep beoordelen, hetzelfde gemiddelde krijgen als assistent
M, behalve voor de groep met de inzinking aan het eind. Assistent H heeft vanaf het begin een
betere groep, wat blijkt uit de resultaten voor de toets (die over alle assistenten verdeeld werd
beoordeeld).

Ongeveer 30 % van de studenten slaagt voor de begintoets. In de oude situatie had dit tot
consequentie dat er gedurende het gehele practicum moeilijkheden waren met het gebruik van
de apparatuur, die studenten en assistenten veel tijd kostten. De herhalingsopdracht en de
niveauverhogende opdracht kosten een middag prakticumtijd, maar hebben tot gevolg dat er
geen apparatuurmoeilijkheden meer optreden.

De normen veranderden vrijwel niet doordat steeds oude assistenten de nieuwe assistenten
inwerkten. De normen komen er op neer dat studenten bij hun aanpak de nieuwe stof kunnen
toepassen en metingen kunnen uitvoeren, beide met inzicht.

Tenslotte: de tijdsbesteding van studenten voor het practicum is iets verminderd, de resultaten
bij andere vakken zijn niet veel veranderd.

5. CONCLUSIES EN DISCUSSIE

Onze conclusies betreffen de onderwijsresultaten, met name transfer, het leerproces en het
onderwijs zelf, en vervolgens de ontwerpaanwijzingen voor onderwijs gericht op inzicht en
transfer.

5.1 Transfer cn onderwijs

In het eerste deel van het practicum (inleidende metingen) staat de benodigde informatie in de
prakticumhandleiding, in het tweede deel (tijdgebied) gedeeltelijk in de prakticumhandleiding
en gedeeltelijk in het hoorcollegedictaat. Het laatste deel (frequentiegebied) betreft een heel
ander onderdeel van het vak, en de benodigde informatie staat voornamelijk in het hoor-
collegedictaat. Studenten zijn nu beter in staat dit onveranderde deel van het practicum zelfstandig
uit te voeren. Wij beschouwen dh als transfer van het eerste deel van het practicum naar het
laatste deel.

Er treedt ook nog een andere vorm van transfer op. Het practicum doet immers een sterk
beroep op eerder geleerde vaardigheden. In het verleden was de transfer van deze voorkennis
gering. In de nieuwe situatie wordt in één middag de voorkennis opgehaald en op zodanig
niveau gebracht dat ook geheel nieuwe functies van de apparatuur gebruikt kunnen worden. Wij
kunnen dit als transfer van het vroeger geleerde naar het practicum beschouwen. Het belang van
voorkennisopdrachten schuilt erin dat de docent vaak niet in de gaten heeft dat bepaalde handelingen
die hij zonder teken van nadenken verricht, moeilijk zijn voor sommige studenten.

We denken dat meer studenten een aanpak ontwikkelen die bij vervolgvakken gebruikt en
verbeterd kan worden, dus dat zij
leren probleemoplossen. De transfer naar latere vakken is
echter nog onduidelijk. In een recent onderwijs experiment bij een vervolg-practicum moesten
acht studenten als groep een gecompliceerde ontwerpopdracht uitvoeren. De begeleidende assistent
beperkte zich tot begeleiding van hun functioneren als groep, en beantwoordde vragen met
wedervragen. Hun werk vertoonde een duidelijk gestructureerde aanpak.

Door onze opzet van het practicum komen de verschillende typen studenten (zie inleiding)
beter aan bod. Uitleg aan de student die er zelf uit komt, is overbodig, maar uitleg door die

-ocr page 281-

Leren en transfer 275

student aan andere studenten kan hem helpen zijn eigen leerkiem te vinden en weer te geven, en
is dus zinvol om generalisatie te bevorderen. Voor de studenten die er wel uitkomen maar
gewoonlijk intuïtief werken zijn de open opdrachten en de niveauverhogende opgaven ingevoerd,
die op een intuïtieve manier niet op te lossen zijn. Zo worden ze gedwongen hun cognitieve
structuur te ontwikkelen: ze moeten expHciet nadenken. De studenten die er zelf niet uitkomen
kunnen alle informatie nog eens bestuderen, of informatie verzamelen bij andere studenten.
Zolang ze maar niets overschrijven, zal blijken of ze het echt begrepen hebben of niet. De
functie van het joumaliseren is dat studenten hun gedachten onder woorden brengen, daarmee
hun handelen in gedachten nog eens nagaan en zodoende hun leerkiem ontwikkelen.

Het ene doel, een verbetering van het onderwijs op het practicum netwerkanalyse, is dus
bereikt. De verandering bij het practicum netwerkanalyse leidde tot een hogere produktiviteit en
aanzienlijk efficiënter onderwijs. Een mogelijke "verschoolsing" van het vak door het structu-
reren van de doelen - weliswaar op hoger niveau, maar toch - wordt gecompenseerd doordat
meer diverse en moeilijkere opdrachten kunnen worden uitgevoerd: ook open opdrachten komen
nu in aanmerking.

Het andere doel was ontwerpregels voor onderwijs waarin transfer bereikt wordt, op te
stellen.

5.2 Ontwerpregels: modellen construeren

De ontwerpregels concentreren zich op het ontwikkelen van een model voor de leerkiem, en de
opbouw van de opdrachten en de informatie. De leerkiem betreft de essentie van de vakinhoud.
Wij achten deze het meest essentiële voor verbetering van het leerproces.

Het model voor de ontwikkeling van de leerkiem bestaat in drieën. Het begripsmodel (Figuur
1) is het basismodel voor de vakinhoud: elk netwerk uit het vak kan tot dit model gereduceerd
worden. Het geeft dus een mogelijkheid tot representatie van problemen uit het vakgebied. Het
uitbreidingsmodel (Figuur 3) maakt het mogelijk de kennis van de student en de vakinhoud uit
te breiden. Hiermee kan hij kennis construeren. Omgekeerd geeft het model mogelijkheden tot
reductie van een ingewikkeld netwerk tot het basismodel. Het handelingsmodel (Figuur 4) geeft
aan hoe de handelingen bij onderzoek samenhangen. Het geeft een mogelijkheid om te contro-
leren of de uitkomsten van een nieuwe handeling juist zijn.

De modellen die wij ontwikkeld hebben zijn veel abstracter van karakter dan de modellen die
Mayer (1990) bespreekt. Onze modellen zijn geen fysische verklaringsmodellen, maar geven
relaties in de cognitieve structuur weer binnen netwerkanalyse. Het begripsmodel geeft de
systemen weer waar het om gaat: de objecten, de relaties daartussen, en de eigenschappen van
het totale systeem. Het handelingsmodel geeft aan hoe door handelingen betrouwbare kennis
kan worden geconstrueerd.

Het relationele begrip dat we zo willen aanbrengen gaat hiermee erg ver: relationele concepten
omvatten naar ons idee niet alleen ordeningsrelaties (Dijkstra, 1990) maar ook andere meer
algemene, structurele relaties. Tevens gaat het bij ons niet alleen om relaties tussen objecten
(waaronder begrippen) maar ook om relaties tussen handelingen (vaardigheden, skills) en om
relaties die nieuwe constructies mogelijk maken (uitbreidingsrelaties).

Onze modellen helpen de studenten om relaties te "zien" en om te "zien" wat de bedoeling
eigenlijk is van het leren. Studenten worden nu minder afgeleid door irrelevante details en de
belangrijke details worden nu meer geaccentueerd. Het gaat er daarbij om dat het algemene, het
abstracte, in de werkelijkheid ge"zien" wordt. Deze verhoging van het abstractieniveau komt tot
stand doordat we uitgaan van concrete ervaringen en schematische modellen, en stap voor stap
het "zien" van het meer algemene mogelijk maken. De keuze en de volgorde van de opdrachten
is hierbij belangrijk. De karakteristieken van de opbouw van de opdrachten in verband met een
systematische niveauverhoging hebben we aangegeven in paragraaf 3.

Deze opbouw hebben we feitelijk in miniatuurvorm al toegepast bij het op niveau brengen
van de voorkennis en bij de accentuering van de leerkiem (zie paragraaf 2). Het meten is daar
waamemen, het berekenen is daar redeneren. De uitkomsten van waarneming en beredenering
moeten steeds kloppen want het gaat over het gedrag van de werkelijkheid. Bij elke nieuw

-ocr page 282-

276 H. Vos

begrip (één tegelijk!) wordt de student gevraagd iets te doen met een concreet netwerk, of zich
een voorstelling te maken van een concreet netwerk uit zijn ervaring. Naast de waarneming of
voorstelling van die specifieke situatie wordt een redenering opgezet die de belangrijke details
accentueert. De ingreep in het netwerk, waarneming en redenering moeten steeds met elkaar
kloppen, en eventuele tegenstellingen moeten verzoent worden. Pas wanneer een tegenstelling
is opgelost, wordt overgegaan tot de volgende stap. Het begrip komt stap voor stap tot stand als
een keten van kloppende kwartetten: een systeem in de werkelijkheid (object van onderzoek),
waarneming, redenering en "gedrag". De (expliciete) accentuering van de leerkiem in de introductie
vindt dus plaats door het (impliciet) herhaald gebruik van de opbouw van de opdrachten, die
gebruikt wordt om de leerkiem verder te ontwikkelen.

5.3 Discussie

Het centrale probleem met het practicum zou achteraf als volgt geformuleerd kunnen worden.
Ondanks de intensieve begeleiding door student-assistenten (1200 uur per jaar) haakten veel
studenten af. Zij konden niet volgen waar het eigenlijk om ging in het practicum: leren zelfstandig
te experimenteren. Tegelijk leren experimenteren, nieuwe apparatuurproblemen oplossen en
nieuwe theorie toepassen was teveel. In de nieuwe situatie kunnen de meeste studenten dit wel
aan.

We hebben dus gewoon goed onderwijs geconstrueerd, en daarbij gebruik gemaakt van een
leerkiem. Uiteraard zijn er ook op andere wijze onderwijsverbeteringen mogelijk. Ook zijn er
andere verklaringen mogelijk voor de effecten die wij gevonden hebben. De verklaring die wij
hebben gegeven benadrukt de samenhang van de maatregelen die leiden tot groter inzicht in de
vakinhoud en die welke leiden tot groter inzicht in het
leren van de vakinhoud.

Het vinden en representeren van de leerkiem, dat wil zeggen het construeren van de model-
len, is moeilijk (Reigeluth en Curtis, 1987, Ausubel l.c.) maar levert ook veel op. De modellen
bevatten eigenlijk geen nieuwe informatie vergeleken met de kennis van een goede docent. Een
docent vergeet echter vaak begrippen of relaties uit te leggen die voor hem vanzelf spreken,
maar voor de student niet. Dit leidt tot gaten in de leerstof (Jochems, 1980). De modellen zijn
dus ook een hulpmiddel om de uitleg volledig te maken. De leerkiem voldoet daarmee aan een
van de eisen van een theoretische redenering (vergelijk Vos, 1990b).

Het karakteristieke van het begripsmodel is daarbij dat het een model vormt van de systemen
waar het om gaat in het vak. Het bevat de objecten, de structurele relaties tussen de objecten en
de eigenschappen van het systeem als geheel (stroom en spanning in dit geval). Het
uitbreidingsmodel bevat de eigenschappen van de structurele relaties die het mogelijk maken
om objecten toe te voegen aan het systeem. Het handelingsmodel bevat de validering van
nieuwe kennis. De drie modellen vormen hiermee een voorbeeld van de manier waarop
kennisconstructie gemodelleerd kan worden. In hoeverre dit in andere vakken toegepast kan
worden, wordt onderzocht.

We hebben gezegd dat leren vanzelf gaat. Bewust leren, gericht op een bepaald doel, gaat
echter niet vanzelf. Daar is onderwijs voor nodig. Het ging ons hier om het ontwerpen van
concreet onderwijs met het doel inzicht en transfer te bevorderen. Dit doel is naar onze mening
bereikt. We hebben niet echt aangetoond dat een leerkiem bij studenten ontwikkeld werd, maar
op grond van theoretische overwegingen en de bereikte resultaten is dat wel plausibel. Verder
onderzoek hiemaar is aan de gang.

Het zoeken en vinden van een leerkiem en representeren daarvan in modellen is een activiteit
die docenten^ veelal stimulerend en zinvol vinden. Het raakt de kern van hun vak. Tevens
kunnen de modellen helpen het onderwijs doelgericht te verbeteren, zoals aangegeven bij de
opbouw en de soort van de opdrachten. Wij denken dat onze modellen een voorbeeld zijn van
een hulpmiddel om inzicht in de vakinhoud om te zetten in leerstof.

-ocr page 283-

Leren en transfer 277

NOTEN

1. Met vermelding van de BegripsOntwikkelingsGroep van het Onderwijskundig Centrum van de Univer-
siteit Twente (A. Pilot, F. Pothof, C. Pouw, C. Terlouw en de auteur) vanwege de vele discussies over de
achtergrond van dit stuk.

2. Met dank aan de stafleden van de vakgroep Informatie-, Communicatie- en Systeemtheorie van de
faculteit der Elekü-otechniek aan de Universiteit Twente, die steeds bereid waren hun vak en hun expertise
uit te leggen.

LITERATUUR

Ausubel, D.P., Novak, J.D. & Hanesian, H. (1978). Educational Psychology: a cognitive view. New York:
Holt (2nd ed.).

Cormier, S.M. & J.D. Hagman (eds) (1987). Transfer of Learning: Contemporary research and applications.

Academic Press, San Diego, Calif.
Davydov, V.V. (1983). In: Haenen, J. & Oers, B. van.
Begrippen in het onderwijs: De theorie van Davydov.
Amsterdam: Pegasus.

Dijkstra, S. (1990). The description of knowledge and skills for the purpose of instruction. In: S. Dijkstra,
B.H.A.M. van Hout Wolters & Sijde, P.C. van der (eds).
Research on instruction: design and effects.
Englewood Cliffs NJ: Educational Technology Publications.
Elshout, J.J. (1987). Probleemoplossen als context voor leren probleem oplossen.
Nederlands Tijdschrift voor

de Psychologie, 42, 344-353.
Elshout-Mohr, M. & van Daalen-Kapteijns, M.M. (1985). Het leren van begrippen, in het bijzonder in het

eerste stadium van het hoger onderwijs. Pedagogische Studiën 62, 459-470.
Gal'perin (1980). In: Parreren, C.F. van, en Carpay (red).
Sovjetpsychologen over onderwijs en ontwildeling.
Groningen: Wolters.

Giek, M.L. & K.J. Holyoak (1987). The cognitive basis of knowledge transfer. In: Cormier, S.M. & J.D.

Hagman (eds). Tranter of Learning: Contemporary research and applications. Academic Press,
San Diego, Calif., 9-46.
Jochems, W. (1980).
Leerstof analyse. Delft: Delftse Universitaire Pers.

Johnson-Laird, P.N. (1989). Mental models. In: M.I. Posner (ed), Foundations of cognitive science. Cambridge,
MA: MIT Press.

Kaplan, C.A. & H.A. Simon (1990). In search of insight. Cognitive psychology, 22, 374-419.

Leeuw, L. de, & Span, P. (1988). Probleemoplossen in het onderwijs. Pedagogische Studiën, 65, 3-15.

Mayer, R.E. (1990). Models for understanding. Review of Educational Research, 59, 43-64.

Meijer, J., Perrenet, J.Chr. & Riemersma, F. (1988). Leren probleemoplossen in het wiskundeonderwijs.

Pedagogische Studiën, 65, 16-31.
Parreren, C.F. van (1988).
Ontwikkelend onderwijs. Leuven: Acco.

Pea, R.D. (1987). Socializing the knowledge transfer problem. International Journal of Educational Re-
search, 11,
639-663.

Prawat, S. (1989). Promoting access to knowledge, sü-ategy, and disposition in students: a research synthesis.

Review of Educational Research, 59, 1-41.
Putnam, R.T. (1987). Mathematics knowledge for understanding and problem solving. InternationalJournal

of Educational Research. 11, 687-705.
Reigeluth, C.M. & Curtis, R.V. (1987). Learning situations and instructional models. In: R.M. Gagné, (ed.).

Instructional technology: Foundations. Hillsdale NJ: Lawrence Erlbaum.
Salomon, G. & T. Globerson (1987). Skill may not be enough: the role of mindfulness in leaming and

ti-ansfer. International Journal of Educational Research, 11, 623-637.
Tattje, H.E.P. & Vos H. (1989).
Prakticum Netwerkanalyse in ontwikkeling: efficienter leren, leren leren.

Intern rapport nr. 080-IR-8901, vakgroep CIS. Enschede: Universiteit Twente, fac. Elekü-otechniek.
Vos, H. (1987). Abstiactieniveaus in de ontwikkeling van het begrip elektrische sti-oom.
Tijdschrift voor
didactiek van de beta-wetenschappen. 5.
121-142.

Vergelijk: Vos, H., Abstractieniveaus in de ontwikkeling van het natuurkundig begrip "druk".
Pedagogische Studiën 1987,64. 285-294.
Vos, H. (1990a).
Efficienter onderwijs: efficiënter leren en leren leren op een prakticum. OC-doc 90-28.

Enschede: Universiteit Twente, Onderwijskundig Cenü-um/ Faculteit der Elektrotechniek.
Vos, H. (1990b). Intuïtieve, empirische en theoretische redeneringen.
Tijdschrift voor Onderwijs Research.
15.
123-136.

-ocr page 284-

278 H. Vos

Vos, H. (1990c). Naar een oriënteringsbasis voor probleemoplossen in het vak Netwerkanalyse, (paper
ORD'89, OC-doc 90-10). Enschede: Universiteit Twente, Onderwijskundig Centrum/ Faculteit
der Elekü-otechniek.

Voss, J.F. (1987). Learning and transfer in subject-matter learning: a problem solving model. International

Journal of Educational Research, 11, 607-622.
Wolters, B.J. & Wolters, M.A. (1987). De rol van intuïtie in het creatieve denkproces.
Handelingen, 1, 39-
54.

Manuscript ontvangen 25-9-1991
Definitieve versie ontvangen 11-9-1991

-ocr page 285-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 279-296

Een foutencategorieën-systeem en zijn toepassing in
een computer-gestuurde remediële rekentraining

Miriam W.J. Baltussen en Emest C.D.M. van Lieshout
Instituut voor Orthopedagogiek, KU Nijmegen1

ABSTRACT

This article contains two studies. In the first study the validity of an error classification system,
developed for use in a remedial arithmetic training program, is tested. In comparison with scoring
according to a thinking aloud protocol the classification system appears valid. In the second study a
CAI-training procedure using the classification system to tune the kind and amount of help to the
error made by the child (CSV) was compared with a training procedure in which the child always
had to follow the same steps solving the problem (CS). In a pretest posttest controlgroup design 11
leaming disabled and 28 mildly retarded children received training according to one of the two
training conditions. The mildly retarded children performed better in CS Uian in CSV. The learning
disabled children performed equally well in both conditions. Only 7% of the children's errors,
however, could be scored within the classification system. The adjustment of the classification
system and its use in a training procedure arc discussed.

INLEIDING

Hoewel in de afgelopen tijd veel onderzoek is verricht op het gebied van gecomputeriseerde
foutendiagnose bij optel- en aftrekopgaven, is deze kennis nog niet op grote schaal toegepast in
trainingssituaties (Brown & Burton, 1978; Marshall, 1980; Brown & VanLehn, 1982; Burton,
1982; Attisha & Yazdani, 1983; Mannaerts, 1987). Van Lehn (1983) maakte aannemelijk dat
kinderen vooral systematische rekenfouten maken op basis van misvattingen of ontbrekende
kennis. Het rekendomein lijkt zich daardoor uitstekend te lenen voor een systematische fouten-
analyse. Het diagnostiseren van foutieve antwoorden zou in een trainingsprogramma richting
kunnen geven aan de remediering. In onderhavig onderzoek willen wij nagaan of een
computergestuurde training, waarbij gegeven hulp afgestemd wordt op de aanwezigheid van de
gewenste deelvaardigheden bij de leerling, effectiever is dan een training waarbij een kind
onafhankelijk van zijn antwoord steeds de gehele oplossingsroute moet doorlopen.

In een eerder onderzoek bleek een computergestuurde remediële rekentraining, zoals in het
laatste geval bedoeld, beperkt effectief; alleen hèt oplossen van de opgaven gepresenteerd op
het beeldscherm van de computer verbeterde. Er trad geen transfer op naar het oplossen van
opgaven op papier (Baltussen & van Lieshout, 1990). Het oplossen van opgaven op papier en op
de computer lag voor de kinderen mogelijk zo ver uit elkaar dat het oplossen van opgaven op de
computer als heel verschillend werd ervaren van het oplossen van dezelfde opgaven op papier.
De transfer zou mogelijk vergroot kunnen worden door in de training al toe te werken naar het
oplossen van opgaven op papier. Hiertoe zou enerzijds de lay-out van de opgaven aangepast
kunnen worden aan de
'paper-and-pencil-situatie'. Anderzijds zou een fase ingebouwd kunnen
worden waarin de kinderen net als op papier zelfstandig en zonder tussentijds ingrijpen de
opgaven moeten oplossen. Het maken van opgaven op papier en op de computer zou hierdoor
meer vergelijkbaar kunnen worden. Daarnaast bestond het idee dat de training verbeterd zou
kunnen worden door aan te sluiten bij het kennisniveau van het kind.

1  Instituut voor Orthopedagogiek, Postbus 9103,6500 HD Nijmegen.

-ocr page 286-

280 M.WJ. Baltussen en E.C.D.M. van Lieshout

Om dit laatste te verwezenlijken diende bij het oorspronkelijke trainingsprogramma een
foutencategorieën-systeem ontwikkeld te worden waarmee de antwoorden van de kinderen
gediagnostiseerd konden worden op de aanwezigheid van bepaalde deelvaardigheden, zoals
kennis van het positiestelsel of inwisselen. Het diagnostiseren van fouten kan plaats vinden op
basis van product- en/of procesinformatie. Procesinformatie geeft inzicht in de oplossingswijze
van een kind. Het verzamelen van deze informatie met de computer vereist programmatuur, die
de oplossingsprocessen op een adequate manier zichtbaar maakt zodat de oplossingsmethode
van de leerling stap voor stap gevolgd en geïnterpreteerd kan worden. Aan de ontwikkeling van
een dergelijk systeem wordt momenteel gewerkt (zie O'Shea, Evertsz, Floyd, Fox & Elsom-
Cook, 1988). Dit type programmatuur moet geavanceerder zijn dan programmatuur waarbij
alleen het product in beschouwing wordt genomen. Het verzamelen van productinformatie, het
antwoord, heeft als voordeel dat het gemakkelijk uitvoerbaar is, maar draagt het risico in zich
dat het weinig zegt over de manier waarop het antwoord is bereikt.

Centraal in ons onderzoek stond de ontwikkeling van een computergesmurde remediële
rekentraining waarbij de vaardigheden van de kinderen uitgangspunt zouden zijn voor de soort
en de hoeveelheid hulp die zij zouden ontvangen. Indien kinderen systematisch fouten maken,
kan met een foutencategorieën-systeem waarin de meest voorkomende afwijkingen van de
gewenste oplossingsprocedure op basis van het antwoord beschreven worden, waarschijnlijk
dezelfde conclusie getrokken worden als met een diagnostische consultant zoals bijvoorbeeld in
het te ontwikkelen systeem van O'Shea e.a. (1988). Wij veronderstelden derhalve dat een
foutief antwoord voldoende informatie zou opleveren om een goede remediering te starten. Dit
vormde ook tevens een onderzoeksvraag: in hoeverre is er sprake van verlies aan informatie
relevant voor remediering als uitgegaan wordt van analyse op basis van enkel het antwoord.
Brown en Burton (1978) en Brown en VanLehn (1982) onderscheiden in hun foutencategorieën-
systeem zeer nauwkeurig allerlei verschillende fouten, waarvan niet vaststaat of deze verschil-
len ook zinvol zijn als het doel remediëring is. Wij achtten een grovere indeling voor dit doel
verantwoord. Hiervan uitgaand werden de fouten gegroepeerd in subcategorieën, vermoedelijk
ontstaan uit eenzelfde foutenbron. Dit resulteerde in minder specifiek omschreven categorieën
die wel een breder scala aan fouten besloegen. Wij verwachtten zo voldoende fouten van kinderen
te kunnen categoriseren.

Het kunnen categoriseren van fouten zegt nog weinig over de juistheid van een dergelijke
scoring. Verondersteld wordt dat uitspraken over de oplossingsstrategie van het kind gebaseerd
op een analyse van het antwoord, niet goed kunnen weergeven hoe het kind in werkelijkheid de
opgaven heeft opgelost (O'Shea e.a., 1988). Toch is deze veronderstelling niet door middel van
onderzoek getoetst. Indien met foutenanalyse op basis van het antwoord voldoende dicht aangesloten
kan worden bij het werkelijke oplossingsgedrag van het kind in termen van het overeenstemmen
met respectievelijk afwijken van de geïnstmeerde gedragswijze — cijferend rekenen —, lijkt
het ons verantwoord om een dergelijk foutencategorieën-systeem in te zetten in een remediële
rekentraining. Voorafgaand aan het vergelijkend onderzoek tussen de twee eerder genoemde
trainingsvormen, wilden wij eerst vaststellen of binnen een foutencategorieën-systeem op basis
van het antwoord voldoende foutieve antwoorden te scoren waren (70% of meer categoriseerbaar)
en daamaast of de overeenstemming tussen de fout zoals gescoord voldoende goed overeen
kwam met de werkelijk gemaakte fout (Cohen's kappa = > .060; Popping, 1983). Hiertoe zou de
foutenscoring zoals deze later in de computer geïmplementeerd zou worden vergeleken worden
met de scoring volgens een hardopdenkprotocol. Naarmate deze scoringen meer vergelijkbare
resultaten opleveren, is het minder waarschijnlijk dat door alleen het antwoord in beschouwing
te nemen, relevante informatie verloren gaat.

Het foutencategorieën-systeem gaat uit van een cijferende aanpak bij het oplossen van verticaal
aangeboden rekenopgaven. Daarom werd vooraf nagegaan of kinderen ook inderdaad cijferend
oplossingsgedrag vertoonden.

In een tweede onderzoek is het foutencategorieën-systeem opgenomen in een computer-
gestuurde rekentraining waarbij de gegeven hulp afhankelijk is gemaakt van de gecategoriseerde
fout.

-ocr page 287-

Toepassing van een foutencategorieën-systeem 281

ONDERZOEK 1

Methode

Proefpersonen

Voor het onderzoek werden 53 leerlingen (39 jongens, 14 meisjes; gemiddelde leeftijd 11;3
jaar) uit het speciaal onderwijs geselecteerd die volgens de leraar minder dan 80% van de aan te
bieden cijferopgaven, optellen en aftrekken tot 100, goed zouden oplossen. De onderzoeksgroep
bestond uit 47 leerlingen uit het LOM-onderwijs (34 jongens, 13 meisjes; gemiddelde leeftijd
11;3 jaar,
sd = 0.97) en 6 leerlingen van een school voor spraak-taalgestoorden (5 jongens, 1
meisje; gemiddelde leeftijd 11;3 jaar,
sd = 0.52).

Materiaal

Foutencategorieën-systeem

Aan de hand van literatuuronderzoek en analyse van eerder verzamelde empirische data omtrent
het oplossen van optel- en aftrekopgaven tot 100, werd een categorieënsysteem ontwikkeld
bestaand uit hoofd- en subcategorieën voor het scoren van rekenfouten in termen van overeen-
stemming met of afwijking van de gewenste oplossingsprocedure op basis van het antwoord.
Het systeem zou door een computer gebruikt moeten kunnen worden (zie ook Baltussen & van
Lieshout, 1989, 1990; Gildhuis & van de Ven, 1989) (zie Figuur 1). Binnen de repairtheorie
wordt ervan uitgegaan dat met name systemadsche fouten ("bugs") zinvol zijn om te onderscheiden
(VanLehn, 1983). Een categorieën-systeem dat ingezet wordt bij remediëring moet echter op
alle mogelijke fouten kunnen inspelen. Kinderen maken fouten door misconcepties ("bugs")
maar ook door concentratiestoomissen ("slips"). Een subcategorie als 'optellen in plaats van
aftrekken', een typische "slip", is binnen een remediële training zinvol om te onderscheiden.

De categorie telfouten werd ondanks het feit dat deze later, vanwege de slechte afbakening
ten opzichte van o.a. inwisselfouten, niet in de computerversie opgenomen zou kunnen worden,
onderscheiden omdat op deze manier een inschatting gemaakt kon worden van de aard en
omvang van de fouten in de restcategorie. In het hardopdenkprotocol konden telfouten wel
eenduidig aan de hand van observaties vastgesteld worden.

Zoals eerder vermeld is getracht de fouten zo te groeperen en categoriseren dat een koppeling
naar de vermoedelijke oorzaak van de fout gelegd werd en aanwijzingen voor remediade gegeven
zouden kunnen worden. Verschillende fouten werden derhalve binnen één subcategorie gescoord.
Bijvoorbeeld de volgende twee fouten werden allebei als "optellen van ongelijke waarden"
gescoord. De remediëring zou voor beide fouten gericht kunnen worden op het verschil in
waarde van tientallen en eenheden.

42 42

±1 ±1
112 119

Voor de scoring in subcategorieën werden strikte regels opgesteld. Eenzelfde foutief antwoord
kan echter in sommige gevallen verschillende oorzaken hebben. Dit probleem kan niet geheel
met het huidige foutencategorieën-systeem ondervangen worden. Kon op basis van het ant-
woord geen keuze tussen subcategorieën gemaakt worden, dan werd het antwoord gescoord in
een zogenaamde twijfelcategorie. Uit bestaand onderzoek (Baltussen & van Lieshout, 1990)
bleek dat de omvang van dit probleem beperkt was.

Hardopdenkonderzoek

Om na te gaan of bij het diagnostiseren van een fout, enkel op basis van statische gegevens - het
antwoord -, informatie belangrijk voor remediëring verioren zou gaan, werd de scoring zoals
die door een computer verricht zou worden vergeleken met een vollediger informatie-
verzamelingsmodel. Hardopdenkonderzoek is een methode die toegang geeft tot het

-ocr page 288-

282 M.W.J. Baltussen en E.C.D.M. van Lieshout

definitie en subcategorieën:

Foutencategorieën:

1. operatiefout

2. inwissel/leenfout:
2.L inwisselfout (optellen):

2.2. leenfout (aftrekken):

3. telfouten

4. positiestelsel-fout

5. O-probleem

6. Herhalen van het eerste
of het tweede getal

7. twijfel- en restcategorieën
toepassen van een verkeerde bewerking, o.a.

- aftrekken in plaats van optellen:
68 8-3 i.p.v. 8 + 3

±21
85

niet inwisselen van getallen of een verkeerd ge-
tal opschrijven o.a.

- niet inwisselen:

57 7 + 6 = 13, 13 wordt
+26 opgeschreven, er
713 wordt niet ingewisseld

verkeerd of geheel niet lenen o.a.

- bij opgaven met tientaloverschrijding worden
aftrektal en af te trekken getal omgedraaid en
wordt dus niet meer geleend (smaller-from-
larger).

64 4-7 kan niet, dan
-27 maar 7-4 = 3
43

bij het uittellen van het antwoord wordt een fout
gemaakt; verschilt +1 of —1 van de goede uit-
komst:

8 + 4 = 8,9, 10, 11

verwarren van positiewaarde van eenheden en
tientallen o.a.

- bij elkaar optellen of aftrekken van ongelijke
waarden:

34 de 3 tientallen en
±1 en 5 eenheden
84 worden bij elkaar opgeteld

verkeerd optellen of aftrekken zodra een nul in
de som voorkomt o.a.
-0 + N = 0ofN + 0 = 0
40 0 + 2 = 0
±12
50

het eerste of tweede getal
uit de opgave wordt onveranderd overgenomen:
56
=22
56

niet of niet eenduidig scoorbare fouten


Fig. L Een beknopte weergave van het foutencategorieën-systeem zoals gebruikt in onderzoek L

-ocr page 289-

Toepassing van een foutencategorieën-systeem 283

oplossingsproces (Short, Cuddy, Friebert & Schatschneiders, 1990). Het antwoord, eventueel
opgeschreven onthoud- en splitsgetallen en de verbalisaties van de kinderen, aangevuld met de
observaties van de proefleidster vormden tezamen dit vollediger informatieverzamelingsmodel.

Rekentoets

De proefpersonen werd een rekentoets voorgelegd, die bestond uit 30 verticaal genoteerde
opgaven: 15 optel- en 15 aftreksommen onder de 100 (zie Bijlage 1). De niveau-indeling berustte
op een rationele taakanalyse (zie van Luit, 1987). Met uitzondering van de twee eenvoudigste
niveaus bij het rekenen tot 100, waren de overige niveaus vertegenwoordigd zodat het domein
van optellen en aftrekken tot 100 vrijwel compleet omvat werd. Voor de remediële training zou
een grovere niveau-indeling gehanteerd gaan worden: optellen zonder, aftrekken zonder, optellen
met en aftrekken met tientaloverschrijding. De toets werd afgenomen om het categorieën-
systeem te kunnen beoordelen. Uitgaand van de veronderstelling dat kinderen opgaven binnen
hetzelfde niveau op een consequent zelfde wijze oplossen, bleef het aantal opgaven per niveau
beperkt. Door de toets bij 53 kinderen af te nemen zou een beeld verkregen worden van de
verscheidenheid aan foutieve oplossingen.

Om een zo gevoelig mogelijke toets te creëren, werd nagegaan of elke foutencategorie kon
optreden. Hiertoe werd per opgave gescoord welke potentiële fouten gemaakt zouden kimnen
worden. In de geselecteerde serie toetsopgaven konden alle onderscheiden foutencategorieën
meerdere malen voorkomen. Daarnaast waren de opgaven zo ontworpen dat het goede antwoord
op een opgave cijferend enkel via de juiste oplossingsprocedure bereikt kon worden. Een en-
kelvoudige fout bij het cijferen zoals bijvoorbeeld het niet inwisselen of het omkeren van
getallen bij aftrekken, kon nooit tot een goed antwoord leiden.

Procedure en scoring

Bij de kinderen werd individueel de rekentoets afgenomen. Per som moesten de kinderen eerst
het antwoord opschrijven. Ook werd de kinderen gevraagd splits- en onthoudgetallen op te
schrijven als ze die gebruikten. Het antwoord werd achteraf gescoord op basis van het ontwik-
kelde foutencategorieën-systeem. Verder werd meteen na het opschrijven van het antwoord
door de kinderen mondeling toegelicht hoe ze hieraan kwamen. Dit hardopdenken werd op een
band opgenomen. Tevens werden observaties (vingers tellen, knikken met het hoofd) genoteerd.
Werden de verbalisaties tegengesproken door de observaties, dan gingen de observaties voor bij
het categoriseren. De proefleidster scoorde zowel de hardopdenkprotocoUen met observaties als
de eerder genoemde "kale" antwoorden in het ontwikkelde foutencategorieën-systeem. Om de
onafhankelijkheid van de twee scoringen door dezelfde proefleidster te bevorderen, is de scoring
op basis van het antwoord "blind" gebeurd; dat wil zeggen zonder de naam van het kind en de
observaties te kennen. In verband met de interbeoordelaarsbetrouwbaarheid werden alle antwoorden
en steekproefsgewijs het hardopdenkprotocol, ditmaal zonder observaties, nogmaals gescoord
door een tweede beoordelaar.

Op basis van het hardopdenkprotocol werd ook de gebruikte strategie per som gescoord. Bij
de scoring werden een aantal hoofd- en subcategorieën onderscheiden (zie figuur 2).

Resultaten

Scoring foutencategorieën

Hoewel het foutencategorieën-systeem uitgaat van de gedachte dat alle opgaven cijferend opge-
lost worden, bleek dat in 25.3% van de opgaven een andere oplossingsstrategie gebruikt werd.
Van zowel de cijferend als de op andere manieren opgeloste opgaven konden voldoende fouten,
bijna 90%, gescoord worden in het ontwikkelde foutencategorieën-systeem (zie Tabel 1). Ook
indien de telfouten die als categorie niet in de remediële training opgenomen zouden kunnen
worden, werden verwijderd, was nog 71% van de fouten categoriseerbaar.

Op basis van de moeilijkheidsgraad van de opgaven, proportie goed, (zie Bijlage 1), blijkt de

-ocr page 290-

284 M.W.J. Baltussen en E.C.D.M. van Lieshout

De onderscheiden strategieën:

kolomsgewijs optellen en aftrekken op een
gestandaardiseerde wijze

de addend of de minuend wordt geheel tellend
toegevoegd resp. eraf gehaald

de structuren van de gehele getallen en de be-
werkingen worden "handig benut":
bijv. 25 hoofdrekenend:

+19 (25 + 20) - 1 = 34
cijferend:
(5 + 10) - 1 = 14

het uitvoeren van rekenkundige bewerkingen op
een "flexibele" manier in tegenstelling tot het
gestandaardiseerd oplossen zoals dh bij cijferen
gebeurt.

substrategieën (zie Mannaerts, 1987)

a. 10-10 methode

b. 10 -1 methode

c. g - 10 methode

1. cijferend rekenen

2. tellen

3. handig rekenen

4. hoofdrekenen

Fig. 2. De scoring van de sü-ategieën.

later in de training te hanteren volgorde van moeilijkheidsgraad niet geheel onderbouwd te
kunnen worden: optellen zonder tientaloverschrijding: gemiddelde proportie goed: 0.983;
sd =
0.262, aftrekken zonder tientaloverschrijding: 0.789; sd = 0.281, optellen met tientaloverschrij-
ding: 0.839;
sd = 0.301 en aftrekken met tientaloverschrijding 0.533; sd = 0.382. Aftrekken
zonder tientaloverschrijding lijkt moeilijker dan optellen met tientaloverschrijding.

Tabel 1. Frequentie van voorkomen van foutencategoriegn.

categorie

abs.

opera tiefout

47

-

13

inwisselfout (optellen)

17

5

inwisselfout (afrekken)

96

27

telfouten

62

17

positiestelsel-fout

31

9

O-probleem

64

18

herhalen leof2e getal

3

1

twijfelcategorie/rest

42

12 .

Totaal ^

362

Noot: totaal aantal antwoorden: 1590, totaal aantal goed: 1228

-ocr page 291-

Toepassing van een foutencategorieën-systeem 285

Bij de nu volgende analyses zijn alleen de opgaven die door een kind via een cijferende
methode zijn opgelost in beschouwing genomen.

Interbeoordelaarsbetrouwbaarheid

De overeenstemming in scoring van de antwoorden op basis van het ontwikkelde categorieën-
systeem tussen de twee beoordelaars kan substantieel genoemd worden; Cohen's kappa (gecor-
rigeerd voor overeenstemming op grond van toeval) bedroeg .62 (Landis & Koch, 1977 in
Popping, 1983). De overeenstemming tussen de hardopdenkprotocollen met en zonder observa-
ties was slechts matig (Cohen's kappa = .51).

Scoringsbetrouwbaarheid foutencategorieën-systeem

Om te bepalen of de scoring op basis van het antwoord afweek van de scoring op grond van het
uitgebreide hardopdenkprotocol (met observaties) is eveneens Cohen's kappa berekend. Deze
bedroeg .68 en kan derhalve als substantieel aangemerkt worden. De subcategorieën "optellen
in plaats van aftrekken" (hoofdcategorie operatie-fouten), en alle subcategorieën van leenfouten
werden door de twee beoordelaars afwijkend gescoord.

Discussie

De vooraf gemaakte aanname dat verticaal genoteerde opgaven cijferend opgelost zouden worden,
is door dit onderzoek niet onderbouwd. De opgaven werden voor het merendeel cijferend opgelost.
In 25% van de gevallen werd echter een andere oplossingsstrategie gekozen. Het foutencategorieën-
systeem kan mogelijk verbeterd worden door een uitbreiding van het systeem met fouten als
gevolg van een hoofdrekenende aanpak; hoewel ook nu de meerderheid van de foutief gegeven
antwoorden (71%) al binnen het categorieënsysteem gescoord kon worden.

Uit de resultaten van het onderzoek blijkt verder dat de productscoring volgens het ontwik-
kelde foutencategorieën-systeem voldoende goed overeenkomt met de uitgebreide processcoring
in het hardopdenkprotol. Toch leidt het wegvallen van verbalisaties en observaties in een aantal
gevallen tot informatieverlies zodat foutieve antwoorden in verschillende categorieën gescoord
gaan worden. De productinformatie schiet tekort om bijvoorbeeld telfouten van andersoortige
fouten te onderscheiden. Voor een eenduidige scoring van deze fouten is procesinformatie
noodzakelijk. Daamaast leveren foutencategorieën die negatief omschreven zijn (o.a. leen-
fouten) problemen op met de scoring omdat ze niet voldoende afgebakend kunnen worden van
andere fouten. Er waren twee overwegingen om de verschillende foutencategorieën niet heel
verfijnd te detailleren en als aparte categorie positief te beschrijven. Allereerst zou het vermoedelijk
moeilijker zijn om fijne variaties in fouten te ontdekken dan ze toe te wijzen aan een grotere
subcategorie gebaseerd op een bepaalde afwijking van de gewenste oplossingsroute. Ook ver-
onderstelden wij dat voor het verkrijgen van geschikte informatie voor remediatie het voldoende
zou zijn de subcategorie te kennen; bijvoorbeeld "lenen indien onnodig". Door het negatief
omschrijven van fouten (bijv. "verkeerd lenen") yverd echter onduidelijk wat de precieze eigen-
schappen van deze categorieën waren (een tiental te veel afgetrokken? een tiental van het
onderste in plaats van het bovenste getal afgetrokken?). Om het foutencategorieën-systeem te
verbeteren is het wellicht beter alle fouten in hun fijne nuances te beschrijven zoals bij Brown
en Van Lehn (1982) om pas daarna fouten te gaan groeperen rond mogelijke oorzaken en
aansluitende remediatie.

In het onderzoek was als uitgangspunt genomen dat een hardopdenkprotocol alle relevante
informatie zou bevatten. Als correctie op onbetrouwbare uitspraken van kinderen was vooraf
gesteld dat indien observaties en verbalisaties niet met elkaar overeen zouden stemmen, de
observaties bij de scoring zwaarder zouden wegen. Deze correctie bleek noodzakelijk: de
hardopdenkprotocollen met en zonder observaties stemden slechts matig overeen. Hierdoor was
de overeenstemming tussen de scoringen op basis van het hardopdenkprotocol met observaties
en het foutencategorieën-systeem (Cohen's kappa = .68) groter dan de overeenstemming tussen
de scoringen volgens de hardopdenkprotocollen met en zonder observaties (Cohen's kappa =
•52). Verkeerde verbalisaties leidden, bij scoring volgens het hardopdenkprotocol zonder ob-

-ocr page 292-

286 M.W.J. Baltussen en E.C.D.M. van Lieshout

servaties, mogelijk tot scoringen die verder afstonden van de werkelijkheid dan de scoringen op
basis van alleen het antwoord. De (te) zware werkgeheugenbelasting van verbaliseren voor
zwakke rekenaars kan hierbij een rol hebben gespeeld (Breuker, Elshout, van Someren & Wielinga,
1986). Uit deze resultaten zou afgeleid kunnen worden dat gegevens verkregen uit hardop-
denkonderzoek voorzichtig gehanteerd dienen te worden en zo mogelijk een extra informatiebron
zoals observatie ter controle behoeven.

De resultaten overziend lijkt het foutencategorieën-systeem geschikt voor toepassing in een
remediële training. Rond 70% van de fouten kon binnen het systeem ondergebracht worden. Bij
dit resultaat is echter enige terughoudendheid op zijn plaats. Het globaler maken van de
foutencategorieën kan ertoe geleid hebben dat er meer fouten gescoord konden worden; de
zinvolheid van de categorieën moet nog blijken in het trainingsexperiment.

Ook aan de extra eis die wij aan het foutencategorieën-systeem stelden, voldoende overeen-
stemming tussen de zogenaamde computerscoring en de opgetreden fouten in de werkelijkheid,
werd voldaan. Bij de scoring op basis van het product werd het proces waarschijnlijk voldoende
recht gedaan. Enkele verfijningen in het systeem zijn echter bij de toepassing in een remediële
training wel nodig. Ook zal de volgorde van aanbieden van opgaventypen flexibel gemaakt
moeten worden. Optelopgaven blijken in het algemeen gemakkelijker dan aftrekopgaven. Kin-
deren die een bepaald type opgaven al beheersen, zouden deze moeten kunnen overslaan.

ONDERZOEK 2

In een tweede studie is het onderzochte foutencategorieën-systeem opgenomen in een computer-
gestuurd remedied trainingsprogramma. Zoals eerder gesteld, was het doel van het onderzoek
de extra bijdrage van de diagnostische component te onderzoeken. Is een computergestuurde
training waarbij de gegeven hulp afgestemd wordt op de vaardigheden van de leerling in termen
van overeenstemming met respectievelijk afwijking van de geïnstrueerde oplossingswijze,
effectiever dan een training waarbij een kind onafhankelijk van zijn antwoord steeds de gehele
oplossingsroute moet doorlopen? Wij verwachtten een specifiek trainingseffect voor lom- en
nil-kinderen. Uit onderzoek is gebleken dat kinderen met leermoeilijkheden minder hulp nodig
hebben dan moeilijk lerende kinderen om nieuwe taken goed uit te voeren. Ml-kinderen hebben
moeite met de ordening van informatie. Aangeboden organisatieprincipes leren zij goed toepas-
sen; de generalisatie naar nieuwe taken blijft echter beperkt. Ml-kinderen zijn minder goed in
staat hun kennis te generaliseren naar andere taken dan lom-kinderen (Campione, Brown &
Ferrara, 1982). Gezien deze gegevens vermoedden wij dat het variëren van de hoeveelheid hulp
afhankelijk van het tekort in vaardigheden, zodat de hulpprocedure steeds verschilt, ml-kinderen
zal verwarren. Deze instructie-vorm vereist dat kinderen de overeenkomst in de aangeboden
oplossingsprocedure zien, zonder dat deze voortdurend expliciet uhlegd wordt. Omdat ml-
kinderen hun kennis slecht kunnen structureren, verwachtten wij voor hen meer effect van een
training waarbij zij steeds met een zelfde methode stapsgewijs opgaven leren oplossen. Lom-
leerlingen lijken hun gedrag beter te kunnen reguleren dan ml-leerlingen (Wolters, 1990). Zij
hebben daardoor waarschijnlijk meer baat bij een training die ruimte biedt voor deze zelfregu-
lade en hulp geeft waar dit nodig is dan bij een niet-flexibele-trainingsvorm. Te veel hulp werkt
demotiverend voor betere leerlingen (Lohman, 1990). Wij verwachtten in het onderzoek derhalve
een interactie-effect tussen het schooltype en de trainingsvorm aan te treffen.

Methode

Selectie

Voorafgaand aan het onderzoek werd een selectietoets afgenomen. Deze bestond uh negen
optel- en negen aftrekopgaven tot en met 10 en 20 optel- en 20 aftrekopgaven tussen 10 en 100
waarvan de ene helft met en de andere helft zonder tientaldverschrijding. Voor selectie kwamen
enkel kinderen in aanmerking waarvan de leraar inschatte dat de rekenachterstand tenminste een

-ocr page 293-

Toepassing van een foutencategorieën-systeem 287

jaar bedroeg en dat ze tevens vertrouwd waren met het cijferend rekenen. De kinderen moesten
minimaal 50% van de opgaven tot en met 10 goed maken terwijl ze maximaal 60% van de
opgaven tot 100 goed mochten hebben. Voor het lezen van de feedbackteksten op de computer
was een AVI-leesniveau 3 vereist. Uit praktische overwegingen werd gekozen voor een lom-
mlk-school verdeling van twee tegenover vijf. Per school werden -indien mogelijk- zes leerlingen
geselecteerd.

Proefpersonen

De totale proefgroep bestond uit 39 kinderen met rekenproblemen (11 lom-leerlingen waarvan 7
jongens en 4 meisjes; gemiddelde leeftijd: 9;7 jaar,
sd = 0.96 en 28 ml-leerlingen waarvan 11
jongens en 17 meisjes; gemiddelde leeftijd: 10;9 jaar,
sd = 1.4). De lom- en ml-kinderen ver-
schilden qua leeftijd en IQ sigificant van elkaar (F(l,33) = 10.71 ,p < .01) resp. (F(l,24) = 11.43,
p < .01). Het gemiddelde IQ voor de lom-leerlingen bedroeg 93.2 {sd = 10.5), voor de ml-leer-
lingen 76.5
{sd = 9.8). Het AVl-niveau en het niveau op de basislijntoetsen verschilden niet
voor de beide groepen (F(l,30) = 0.61, ns) resp. (F(l,33) = 0.87, ns).

Apparatuur

Het trainingsprogramma werd ontwikkeld op een Apple II gs en geschreven in TML-pascal. In
de training werd gebruik gemaakt van een Apple II gs micro-computer gekoppeld aan een
aanraakscherm (Philips VP 120). In twee trainingscondities konden kinderen via aanraken op
het scherm hun antwoord kenbaar maken. In de derde trainingsvorm verliep dit via het sturen
van en "klikken" met de muis.

Design en procedure

De kinderen werden getraind in een pretest-posttest-controlgroup design (Cook & Campbell,
1979). Het onderzoek omvatte twee trainingsvormen:

(a) een Computergestuurde Strategietraining (CS) waarin kinderen steeds eenzelfde oplossings-
route volgden; antwoorden werden ingevoerd via aanraken van softkeys op het scherm;

(b) een Computergestuurde Strategietraining waarin Verkortingen aangebracht werden in de
oplossingsroute (CSV) afhankelijk van eerste antwoord van het kind; antwoorden werden ingevoerd
via aanraken van softkeys of via "klikken met de muis" op de softkeys.

De vergelijking van de conditie CSV met conditie CS maakte een uitspraak mogelijk over de
meerwaarde van het geven van hulp afhankelijk van het antwoord van het kind.

Bij de verdeling van de kinderen over de trainingsgroepen zijn de "muis"- en "aanraak"-
versie van conditie CSV als twee aparte groepen beschouwd. Om het schooleffect zo veel
mogelijk te beperken werden zo mogelijk van elke school twee leerlingen in een trainingsgroep
geplaatst. Dit resulteerde in vier lom- en tien ml-leerlingen per conditie. Conditie CS V-muis
week wat dit betrof af Deze groep bestond uit drie lom- en acht ml-leerlingen. De leerlingen
afkomstig van eenzelfde school werden, om het rekenniveau tussen de groepen vergelijkbaar te
maken, op basis van matching toebedeeld aan een trainingsvorm. Van deze procedure werd
enkel afgeweken om tussen de trainingsvormen ook de gemiddelde leeftijd zo vergelijkbaar
mogelijk te houden. De drie condities verschilden niet van elkaar qua intelligentie, leeftijd,
A Vl-niveau en niveau op de basislijntoetsen: resp.
{F{ 1,24) = 0.97, ns), {F{ 1,33) = 1.94, ns), (F(l ,30)
= 0.08, ns), (F(l,33) = 0.80, ns).

In alle fasen van het onderzoek werd individueel met de kinderen gewerkt. De training werd
per school door een vaste trainer/-ster (allen orthopedagogen) uitgevoerd. Het design was op-
gebouwd uit verschillende fasen:

Voormetingen

Het trainingsonderzoek werd gestart met een basislijnperiode waarin de kinderen gedurende zes
meetsessies een basislijntoets voorgelegd kregen. De basislijntoets bestond uit vijf optelopgaven
zonder en vijf met tientaloverschrijding en vijf aftrekopgaven zonder en vijf met tiental-
overschrijding. Het antwoord en de oplossingstijd werden geregistreerd. Op basis van deze

-ocr page 294-

288 M.W.J. Baltussen en E.C.D.M. van Lieshout

gegevens werd bepaald met welk van deze somtypen het kind de training zou beginnen. De
opgaven in de basislijn werden op papier opgelost.

Daamaast werd een strategietoets afgenomen waarmee getracht werd te achterhalen hoe
kinderen opgaven met en zonder tientaloverschrijding oplosten. Via hardopdenkonderzoek werd
de gebruikte strategie vastgesteld. Bij de scoring werden een aantal sub- en hoofdcategorieën
onderscheiden (zie Figuur 2).

Instructie

Na de basislijn werden de kinderen in twee instmctiesessies vertrouwd gemaakt met respectie-
velijk het werken met de computer en de aan te leren oplossingsmethode. Via model-leren werd
in de eerste instmctiesessie aan de hand van voor het kind bekende opgaven het gebmik van de
"softkeys" op het computerscherm uitgelegd. In de tweede instmctiesessie werd eveneens via
model-leren de oplossingsmethode van het voor training geselecteerde type som uitgelegd. Eén
som werd hierbij geheel voorgedaan door de proefleidster. Twee opgaven maakten de proefleidster
en de leerling gezamenlijk. De rest van de sessie maakte het kind de opgaven zoveel mogelijk
zelfstandig. De proefleidster greep m als de feedback die de computer gaf voor het kind onvoldoende
bleek.

Training

De training, die daarop volgde, bestond uit 18 trainingssessies van ongeveer een half uur. Het
kind ontving training in het geselecteerde somtype, waarbij opgaven eerst op materieel niveau
aangeboden werden: de opgaven werden met 'getekende' MAB-blokken opgelost. Voortgang
van oplossen met materiaal naar cijfermatig oplossen en overgang naar een moeilijker type som
was mogelijk, doordat de computer steeds bijhield of het kind een bepaald vaardigheidscriterium
bereikte. Doordat het aansluiten bij de kennis van het kind in CSV vereiste dat het kind eerst de
opgave zelfstandig oploste, leek de cijferfase in CSV al veel op de 'paper-and-pencil'-situatie;
qua lay-out: een opgave werd aangeboden zoals op papier en qua procedure: het kind maakte de
som zonder tussentijds ingrijpen. In CS was een aparte trainingsfase nodig voor verbeteren van
de transfer, de zogn. transferfase. In deze fase werd op een zelfde manier als in CSV toegewerkt
naar het oplossen van opgaven op papier.

Voor de overgang van een blokken naar een cijferfase moesten in allebei de trainingsvormen
zes van tien opeenvolgende opgaven goed gemaakt worden. Voor de overgang in conditie CS
van de cijfer- naar de transferfase was het criterium acht van tien opeenvolgende opgaven goed.
De overgang naar een nieuw somtype kon in zowel CS als in CSV pas gemaakt worden als 10
van 12 opeenvolgende opgaven correct opgelost werden. Bij overgang maar een nieuwe fase
kregen de kinderen eerst een instmctiesessie aangeboden. Deze was qua vorm vergelijkbaar met
de eerder beschreven tweede instmctiesessie. Tijdens de training werden de oplossingstijd en
-route geregistreerd.

Het computergestuurde rekenprogramma omvatte het aanleren van het cijferend optellen en
aftrekken tot 100: optellen zonder en aftrekken zonder en optellen met en aftrekken met tiental-
overschrijding. De volgorde van aanbieden van de somtypen kon afhankelijk van het kennisniveau
van het kind variëren. Aan het trainingsprogramma lag een drietal uitgangspunten ten grondslag
(Baltussen & van Lieshout, in dmk). Allereerst werd gewerkt van concreet naar abstract. Training
van een nieuw type som begon steeds met materiaal. Pas als een bepaald vaardigheidscriterium
werd bereikt, werd overgegaan naar het cijfermatig oplossen van opgaven.

Een tweede uitgangspunt vormde de stapsgewijze aanpak. Kinderen leerden opgaven oplossen
met een zogenaamd stappenlijstje (zie Figuur 3), waarin de stappen stonden beschreven die het
kind moest afleggen voor het tot een goede oplossing kon komen. In conditie CS werkte het kind
bij elke som alle stappen van het stappenlijstje één voor één af. Alleen in de transferfase mocht
het kind eerst de opgave zonder stappenlijstje maken. Lukte dit dan mocht het doorgaan naar de
volgende som. Werd de opgave verkeerd opgelost dan moest het kind de som opnieuw met het
stappenlijstje oplossen. In CSV werd om beter aan te kunnen sluiten bij de kennis van het kind,
steeds gewerkt zoals in de transferfase van CS. Na een eerste foutief antwoord stapte een kind

-ocr page 295-

Toepassing van een foutencategorieën-systeem 289

echter niet vooraan in het stappenlijstje in maar afhankelijk van de fout van het kind werd
bepaald met welke stap van het stappenlijstje het kind mocht verder gaan. Maakte het kind
bijvoorbeeld in de eerste poging een splitsfout dan mocht het kind stap 1 tot en met 3 overslaan,
en moest het vanaf stap 4, "vul aan tot 10" de som stap voor stap oplossen met de feedback van
de computer.

In CS, en in CSV na het instappen in het stappenlijstje, moest het kind steeds kenbaar maken
welke stap het wilde uitvoeren. Was de keuze juist (of werd deze na twee foutieve pogingen
voorgezegd) dan mochten de bij die stap behorende handelingen worden uitgevoerd. Hiervoor
kreeg het kind drie kansen waarbij na een fout steeds uitgebreidere feedback gegeven werd,
totdat bij de derde fout de oplossing werd voorgedaan. Bijvoorbeeld: indien een kind in de
blokkenfase (optellen) verkeerd inwisselde, 10 lossen eraf maar geen staaf erbij, was de feedback
bij de eerste foutieve poging: "je hebt 10 lossen eraf gehaald. Wat komt er dus bij?", bij een
tweede poging: "10 lossen eraf is goed. je ruilt ze voor 1 staaf." en tenslotte volgde na de derde
poging "10 lossen eraf is goed. maar er komt dus 1 staaf bij." en werd dit op het scherm
voorgedaan.

Tenslotte werd getracht zo goed mogelijk bij het niveau van het kind aan te sluiten door bij
elke stap alle potentiële antwoorden te onderscheiden en van feedback te voorzien.

De diagnose van het eerste antwoord van een kind op een opgave in CSV vond plaats aan de
hand van het ontwikkelde foutencategorieën-systeem (zie onderzoek 1). Hierin waren enkele
aanpassingen aangebracht vanuit het oogpunt dat in een gecomputeriseerd foutenanalyse-pro-
gramma het domein uitputtend en zonder overlap omschreven diende te worden. Zoals in onder-
zoek 1 aangegeven, werd de categorie 'telfouten' door de ambigue omschrijving, niet opgeno-
men. De foutencategorieën werden vervolgens positief en eenduidig omschreven. Indien een
foutief antwoord in twee categorieën geplaatst kon worden - de twijfelcategorieën uit onder-
zoek 1 - werd die categorie voorrang gegeven die uitgaand van de onderzoeksresultaten van
onderzoek 1, het meest frequent voorkwam. Gezien de resultaten van onderzoek 1 trad slechts in
een klein aantal gevallen twijfel op ten aanzien de scoring in een bepaalde categorie (maximaal
12%).

Tot slot werd, gezien de remediële aard van het programma, bij antwoorden die niet binnen
het categorieën-systeem gescoord konden worden, de restcategorie, extra informatie verzameld.
Uitgaand van de resultaten uit onderzoek 1 handelde het om maximaal 29% van de fouten:
namelijk de telfouten (17%) en de restcategorie (max. 12%). Ondanks het uitgangspunt dat
fouten alleen op basis van het antwoord gecategoriseerd diende te worden, leek het ons in een
remediële training belangrijk om zo zinvol mogelijke feedback te kunnen geven. Daarom werd
besloten om voor de restcategorieën gebruik te maken van de beschikbare procedure-informatie.
Bekeken werd of en hoe een kind inwisselde en splitste en of de eenheden en de tientallen in het
gegeven antwoord goed, fout of onbekend waren. De combinatie van deze informatie leidde tot

Optellen

Aftrekken

stap 1

erbij of eraf

stap 1

erbij of eraf

stap 2

vul de som in

stap 2

vul de som in

stap 3

moet ik inwisselen?

stap 3

moet ik inwisselen?

stap 4

vul aan tot 10

stap 4

trek eerste groepje eenheden af

stap 5

inwisselen

stap 5

inwisselen

stap 6

tel op

stap 6

trek eenheden af

stap 7

klopt het?

stap 7

trek tientallen af

stap 8

klopt het?

Fig. 3. De stappenlijstjes voor optellen en afffekken met tienlaloverschrijding.

-ocr page 296-

290 M.W.J. Baltussen en E.C.D.M. van Lieshout

specifieke feedback voor die fout. In de meerderheid van de fouten zou feedback op basis van
alleen het antwoord gegeven blijven worden.

Tussenmetingen

Voorafgaand aan elke derde trainingssessie vond een tussenmeting plaats die qua procedure en
vorm vergelijkbaar was met de basislijnmetingen. De toetsen werden, evenals in de basislijn, op
papier afgenomen omdat op deze manier het effect van de training op opgaven in een situatie
vergelijkbaar met de klassesituatie, beter zou uitkomen.

Nametingen

Na de achttiende trainingssessie werden zes nametingen verricht. Deze waren qua procedure en
vorm eveneens vergelijkbaar met de basislijnmedngen. Ook werd wederom een strategietoets
afgenomen.

Retentie-toets

Drie maanden na het beëindigen van de training werd bij alle kinderen een retentietoets afgeno-
men. Deze bestond uit 32 opgaven waarvan acht optelopgaven zonder, acht met, acht aftrekopgaven
zonder en acht met tientaloverschrijding.

Resultaten

De hypothesen werden via covariande analyses getoetst waarbij de afhankelijke variabelen
werden gecorrigeerd voor verschillen in beginniveau. Steeds werd nagegaan of voldaan was aan
de assumptie van homogeniteit van de binnen-groeps-regressielijnen. Dit bleek steeds het geval
zodat geen aparte regressielijnen voor de verschillende niveaus van de onafhankelijke variabe-
len gefit hoefden te worden.

De muis- en aanraakversie van CS werden steeds apart in de analyses opgenomen. Het
verschil tussen de twee varianten bleek alleen bij de vergelijking van de nametings- en
retentiegevens voor optellen met tientaloverschrijding significant (F(l,33) = 8.51, /? < .01).

Trainingsfasenvooruitgang

Gedurende de training hebben de kinderen verschillende somtype-fasen doorlopen. Dit betekent
dat zij binnen de training vooruitgang geboekt hebben. In een covariantie analyse met het totaal
aantal gemaakte somtype-overgangen als afhankelijke variabele, schooltype (2 niveaus) en
trainingsvorm (3 niveaus) als onafhankelijke variabelen en het gemiddeld aantal goed gemaakte
opgaven op de voormetingen als covariabele bleek het hoofdeffect voor schooltype significant
(F(l,32) = 6.08,
p < .05). De lom-leeriingen maakten vaker een overgang naar een ander som-
type (2.1) dan de ml-leerlingen (1.6).

Nametingsresultaten

Om de vragen naar de meerwaarde van het geven van hulp afhankelijk van het antwoord van de
leerling en het verschil in reactie op CS en CSV van de lom- en mlk-groep te kunnen beantwoor-
den werd een muhivariate covariantie analyse uitgevoerd met als afhankelijke variabelen het
gemiddeld aantal goed opgeloste opgaven op de nametingen (opgesplitst naar somtype). Schooltype
(2 niveaus) en trainingsvorm (3 niveaus) vormden de onhankelijke variabelen, het gemiddeld
aantal goed gemaakte opgaven op de voormetingen de covariabele. Het gezochte interactie-
effect tussen schooltype en trainingsvorm bleek multivariaat niet significant (F(4,29) = 0.79, ns).
Om een beter beeld te krijgen van de invloed van de verschillende trainingsvormen werden de
univariate gegevens bekeken. Het interactie-effect bleek voor optellen- en aftrekken zonder
tientaloverschrijding bijna of geheel significant (F(l ,32) = 1.67, p = .06, eenzijdig) resp. (F(l ,32)
= 1.98, p < .05, eenzijdig). Via analyse van de simpele effecten werd dit interactie-effect nader
onderzocht. Uit de covariantie analyses, apart voor de lom- en ml-groep en met alleen trainingsvorm
als onafhankelijke variabele, kwam naar voren dat voor de lom-groep het hoofdeffect voor
trainingsvorm multivariaat bijna significant was (F(4,4) = 5.93, p = .057) maar univariaat niet.

-ocr page 297-

Toepassing van een foutencategorieën-systeem 291

De resultaten van de lom-kinderen schenen voor optel- en aftrekopgaven zonder tiental-
overschrijding in CS en CSV niet uiteen te lopen (F(l,7) = 0.06, ns) resp. (F(l,7) = 1.16, ns). De
prestaties van de ml-leerlingen daarentegen verschilden in beide trainingsvormen significant
van elkaar voor optellen en aftrekken zonder tientaloverschrijding (F( 1,24) = 6.16, p < .02) resp.
(F(l ,24) = 3.47,
p < .05, eenzijdig). Voor de ml-kinderen voldeed CS beter dan CSV (zie Figuur
4).

Retentietoets

Om de stabiliteit van de resultaten te beoordelen, werd na drie rnaanden een retentietoets
afgenomen. In een multivariate covariantie analyse met herhaalde metiningen werd het verschil
tussen de nameting en de retentietoets nagegaan. Als binnen-subjecten factor was opgenomen
de factor tijd (2 niveaus: nameting en retentietoets), als tussen-subjecten factoren schooltype (2
niveaus) en trainingsvorm (3 niveaus) en als covariabele het gemiddeld aantal goed opgeloste
opgaven op de voormetingen. Ook na drie maanden bleek het univariate interactie-effect tussen
schooltype en trainingsvorm nog te bestaan voor optellen en aftrekken zonder tientaloverschrij-
ding (F(l,32) = 3.28,p < .05, eenzijdig) resp. (F(l,32) = 2.86,;? = .05. eenzijdig). Daarnaast was
het interactie-effect tussen schooltype en tijd multivariaat significant (F(4,30) = 2.55,
p < .05,
eenzijdig). Dit laatste effect was toe te schrijven aan optellen met tientaloverschrijding (F(l,33)
= 4.18, p < .05). Voor beide interactie-effecten werden de simpele effecten nader geanalyseerd,
apart voor de lom- en de ml-groep. De lom-kinderen presteerden in CS en CSV even goed:

•O
0)
O
O)

0)

O

a

O

—1>-

lom, +/Z

-O—

mik, +/Z

—■—

■ lom, -/z

—•—

mik. -/z

0)
2
O
■D
■D


0)
O)

trainingsvorm

Fig. 4. Het interactie-effect tussen schooltype en u-ainingsvorm.

Noot: +/z: optellen zonder tientaloverschrijding
-/z: afuckken zonder tientalovcrschrijding
+/z: optellen met tientalovcrschrijding
-/m: aftrekken met tientalovcrschrijding

-ocr page 298-

292 M.W.J. Baltussen en E.C.D.M. van Lieshout

gemiddelde proportie goed 0.61 versus 0.59 (hoofdeffect conditie: (F(4,4) = 2.20, ns)). Ook de
trainingsresultaten bleken gestabiliseerd: het hoofdeffect voor tijd was niet significant: gemid-
delde proportie goed nameting: 0.58, retentietoets: 0.61 (F(4,5) = 2.18, ns).

Voor de mlk-kinderen bleek het hoofdeffect voor trainingsvorm univariaat significant voor
de optel- en aftrekopgaven zonder tientaloverschrijding (F(l,24) = 4.22,
p = .05) resp. (F(l,24)
= 4.65,
p < .05). De ml-kinderen scoorden voor optellen en aftrekken zonder tientaloverschrij-
ding beter in conditie CS dan in CSV (gemiddelde proportie goed optellen: 0.94 versus 0.75;
aftrekken: 0.85 versus 0.62). Het hoofdeffect voor tijd was ook voor de ml-groep niet significant
(F(4,22) = 0.37, ns); de kinderen waren niet in hun prestaties achteruitgegaan (gemiddelde
proportie goed nameting: 0.54, retentietoets: 0.53). Het interactie-effect tussen tijd en schooltype
bleek in beide simpele-effect analyses niet terug te vinden.

Strategiegebruik

Aan de hand van een strategietoets werd tijdens de voor- en nametingen het strategiegebruik van
de kinderen in kaart gebracht. Traden er in de loop van de tijd verschillen op? In een multivariate
covariantie-analyse met herhaalde metingen over de factor tijd (2 niveaus: voor- en nameting)
werd dit getoetst. De tussen-subjecten factoren waren trainingsvorm (3 niveaus) en schooltype
(2 niveaus). Het gemiddeld aantal goed opgeloste opgaven op de voormetingen werd opgenomen
als covariabele. Als afhankelijke variabelen waren de frequenties van voorkomen op de voor- en
nametingen van tellen, handig rekenen of hoofdrekenen, cijferen, een onduidelijke strategie en
reen strategie opgenomen. Het hoofdeffect voor tijd bleek multivariaat significant (F(5,29) = 2.62,
^ 05). Univariaat bleek dit afkomstig uit de daling in het gebruik van de telstrategie van
gemiddeld 2.5 naar 0.7 keer in een toets met 10 opgaven (F(l,33) = 7.06,
p < .05) en een toe-
name in het cijferend uitrekenen van opgaven van gemiddeld 1.6 naar 3.8 keer (F(l,33) = 8.33,
ƒ7 < .01). Vervolgens bleek ook het interacde-effect tussen schooltype en trainingsvorm univariaat
significant voor cijferen (F(l,32) = 6.35,
p < .01). De analyse van de simpele effecten voor CS
en CSV apart, toonde aan dat in CS de lom-kinderen minder vaak een cijferstrategie gebmikten
dan de ml-kinderen: gemiddeld 1.5 versus 6.1 keer (F(l,ll) = 13.53,p < .05). In CSV was geen
verschil in het gebruik van de cijferstrategie tussen de lom- en ml-groep aanwezig: in beide
groepen werd gemiddeld 5.1 keer gecijferd (F(l,22) = 0.01, ns).

Foutencategorieën

Enig inzicht in de mate waarin het aangepaste foutencategorieën-systeem uit onderzoek 1 aan-
sloot bij de antwoorden die de kinderen in de training gaven, gaf het percentage van het totaal
aantal foutief opgeloste opgaven dat op basis van het antwoord in één van deze foutencategorieën
gescoord kon worden. Dit percentage bleek erg laag, 7.3%. In 92.7% van de gevallen kon het
antwoord van de leerling niet in het oorspronkelijke foutencategorieën-systeem gescoord wor-
den maar moest de aard van de fout met behulp van de extra informatie over de oplossingsprocedure,
afkomstig uit het inwisselen, splitsen of de ingevulde tientallen en eenheden, vastgesteld worden.

Discussie

Bij de resultaten dient aangetekend te worden dat het ondcjrzoek een enigszins exploratief
karakter heeft gekregen doordat de univariate resultaten, ondanks het niet altijd significant zijn
van de multivariate gegevens, toch geïnterpreteerd zijn. De univariate gegevens vertoonden
echter wel een consistent beeld.

Voorafgaand aan het onderzoek verwachtten wij dat het geven van hulp afgestemd op de
aanwezigheid van bepaalde deelvaardigheden bij het kind voor lom-kinderen effectiever zou
zijn dan een niet-flexibele training, terwijl ml-kinderen meer baat zouden hebben van steeds
eenzelfde hulpprocedure dan van een flexibele trainingsvorm. Deze hypothese kan met dit
onderzoek gedeeltelijk onderbouwd worden. Zowel de nametings- als de retentiegegevens wij-
zen bij een vergelijking yan CS met CSV op een beter presteren van de ml-leerlingen in CS bij
de opgaven zonder rientaloverschrijding, zelfs beter dan de lom-leerlingen. Lom-leerlingen
presteren vergelijkbaar in CS en CSV. Het verkorten van de hulpprocedure afhankelijk van het

-ocr page 299-

Toepassing van een foutencategorieën-systeem 293

antwoord van het kind heeft, in tegensteling tot de verwachting (zie o.a. Lohman, 1990), voor
hen geen meerwaarde noch worden zij aantoonbaar gehinderd door de uitgebreidheid van de
hulp in conditie CS. Zij blijven wel in prestatie achter bij de ml-leerlingen uit CS. De extra steun
van CS werkt voor de lom-leerlingen anders uit dan voor de ml-leerlingen. De moeite die ml-
kinderen hebben met conditie CSV kan mogelijk verklaard worden door een voor hen te onduidelijke
opbouw van de hulpprocedure. Na een foutief antwoord starten de kinderen met de stap in het
stappenlijstje waarin de vaardigheid wordt behandeld die nog tekort schoot. Dit leidt ertoe dat
kinderen, behalve in de instructiefase, niet de gehele oplossingsprocedure oefenen. De ml-
kinderen maken zich hierdoor wellicht in CSV moeilijker de totale oplossingsroute eigen dan in
CS, waarin de opgaven constant volgens dezelfde route aangeboden worden. Zoals ook is terug
te vinden bij Campione, Brown en Ferrarra (1982) organiseren ml-kinderen hun kennis niet
efficiënt. In CSV wordt misschien een te groot beroep gedaan op het vermogen van ml-kinderen
om stukken informatie te combineren. In een zich steeds herhalende procedure scoren ml-
kinderen aanzienlijk beter.

Uit de strategietoets blijkt dat de kinderen na de training vaker een cijferstrategie toepassen
bij het oplossen van opgaven op papier dan ervoor. Waarom de lom-kinderen uit CS weinig
cijferstrategieën gebruiken, blijft enigszins speculatief. Het is mogelijk dat zij de aangeleerde
procedure dermate omslachtig vinden dat zij liever op hun eigen manier, hoofdrekenend of
handig rekenend, de opgaven oplossen. Dit zou in de richting kunnen wijzen van een beter
aansluiten van CSV bij de instelling van de lom-leerlingen. De lom-leeriingen uit deze groep
passen vaker een cijferstrategie toe bij het oplossen van opgaven op papier. De resuUaten
verbeteren er echter niet door.

Het geheel samenvattend is voor ml-leerlingen een strategietraining waarin ze steeds via
dezelfde stappen de opgaven moeten oplossen totdat ze de opgaven beheersen, effectiever dan
een flexibele training.
Lom-leeriingen presteren in CS en CSV vergelijkbaar. Het afstemmen
van de hulp op het kennisniveau van het kind, zoals in CSV, lijkt geen meerwaarde te hebben
voor lom-leerlingen.

De generaliseerdbaarheid van de resultaten uit onderhavig onderzoek blijft enigszins beperkt
door het geringe aantal
lom-leerlingen. Daarnaast zijn door de verschillen in leertempo de
opgaven met tientaloverschrijding minder geoefend. De resuUaten van deze opgaven kunnen
hierdoor vertekend zijn. Om uitspraken te kunnen doen over de aan te raden trainingsvorm bij
deze somtypen, is verder onderzoek noodzakelijk.

ALGEMENE DISCUSSIE

In hoeverre heeft het foutencategorieën-systeem bijgedragen aan een meerwaarde van de training
in conditie CSV ten opzichte van CS? De waarde van het ontwikkelde foutencategorieën-
systeem en het daaraan gekoppelde remediërende rekenprogramma is afhankelijk van het slagen
van twee afstemmingsmomenten. Allereerst moet de door de leerling gemaakte fout correct met
het foutencategorieën-systeem gediagnostiseerd worden. Ten tweede moet de juiste remcdiatie
gestart worden; één die afgestemd is op de vaardigheden van het kind. Deze laatste afstemming
is sterk afhankelijk van de eerste. Een verkeerd gediagnostiseerde fout zal tot een niet aangepaste
remcdiatie leiden. Hoewel uit onderzoek 1 naar voren kwam dat ongeveer 70% van de fouten
binnen het
categorieën-systeem onder te brengen was, liep dit in onderzoek 2 temg tot maar 7%.
De afstemming tussen de gemaakte fout, in termen van overeenstemming met of afwijking van
de gewenste oplossingsprocedure, en het foutencategorieën-systeem was onvoldoende. Of de
remediering volgend op dit beperkt aantal, in het categorieën-systeem gescoorde, fouten goed
aansloot, kan op basis van dit geringe aantal niet vastgesteld worden.

Het verschil tussen de nagebootste computerscoring uh onderzoek 1 en de werkelijke
computerscoring uit onderzoek 2 kan door een verschil in proefgroep veroorzaakt zijn. In
onderzoek 1 waren de kinderen vertrouwd met het cijferend oplossen van opgaven terwijl dit in
onderzoek 2 in mindere mate het geval was. De kinderen uit onderzoek 2 hadden een reken-

-ocr page 300-

294 M.W.J. Baltussen en E.C.D.M. van Lieshout

achterstand van minimaal een jaar. Hun fouten kunnen kwalitatief verschild hebben van de
kinderen uit de eerste groep waardoor scoring in het categorieën-systeem bemoeilijkt werd.

Een andere verklaring kan gelegen zijn in de scoring van de proefleidsters uit onderzoek 1.
Ondanks de strikte scoringsrichtlijnen hebben zij bij de scoring van de foutieve antwoorden
wellicht meer informatie gebruikt dan alleen uit het antwoord te halen viel, bijvoorbeeld infor-
matie afkomstig uit het foutenpatroon van het kind of de proceduregegevens rondom het split-
sen en inwisselen. Gezien de voldoende scoringsbetrouwbaarheid handelde het om informatie
die door de beide proefleidsters kennelijk op een zelfde wijze werd gebruikt en geïnterpreteerd.
Afgaand op de resultaten van het tweede onderzoek lijkt bij de scoring op basis van alleen het
antwoord toch veel infomatie verloren te gaan. Aanvulling met andere informatie over de
gebruikte procedure, zoals bij de restcategorie, lijkt noodzakelijk.

Omdat in het trainingsonderzoek aanvullende procedure-informatie voor handen was, kon
binnen de remediële training toch aangesloten worden bij de oplossingsmethode van het kind.
De voorspelde meerwaarde van CSV ten opzichte van CS voor de lom-groep kon echter niet
aangetoond worden. Deze uitkomst schept onzekerheid ten aanzien van de overeenstemming
tussen de procedure-informatie en de werkelijke processen. Of wordt er toch nog essentiële
informatie gemist? In dit onderzoek werd alleen domeinspecifieke informatie met betrekking tot
het overeenstemmen met of afwijken van de gewenste oplossingsprocedure verzameld.
Domeinonafhankelijke, informatie, bijvoorbeeld planningsgedrag, bleef buiten beschouwing.
Dergelijke controle processen dragen echter wel bij aan trainingssucces (Peverly, 1991). Extra
aandacht voor diagnose van deze processen kan mogelijk tot een betere inschatting van de
vaardigheden van het kind en daardoor tot een betere remediatie leiden. Daarnaast is verder
onderzoek nodig aangaande de toepassing van de verzamelde informatie in een remediële
rekentraining. Om het trainingseffect voor de lom-groep te vergroten, is het te overwegen om in
de remediëring niet alleen zoals in dit onderzoek, per som aansluitende hulp te geven zodat de
invalshoek bij iedere volgende som kan wisselen, maar deze af te stemmen op de meest voor-
komende fouten in de vorige sessie. De diagnose vindt in een dergelijk geval voorafgaand aan
de trainingssessie plaats. Binnen de sessie kan de training dan specifiek op de geconstateerde
moeilijkheid afgestemd worden (Brown & Burton, 1978). Dit laatste heeft echter alleen zin als
kinderen enigszins consequent zijn in het (foutief) oplossen van opgaven.

NOTEN

Het tweede onderzoek werd mede mogelijk gemaakt dankzij subsidie van de Nederlandse Organisatie voor

Wetenschappelijk Onderzoek (project 59-177).

Dit artikel is een bewerkte versie van de gelijknamige bijdrage aan de Onderwijs Research Dagen 1990 in
het postersymposium "Computergestuurde diagnostiek van leerproblemen". Deze eerdere versie is tevens
opgenomen in: Aarle, E.J.M, van & Bereken, J.H.L. van den (Eds.) (1990). Computergestuurde diagnostiek
van leerproblemen. Nijmegen: ITS.

Onze dank gaat uit naar Joris Borst Pauwels, die de programmatuur voor het tweede onderzoek verzorgde,
Annemieke Gildhuis en Monique van de Ven: het eerste onderzoek is gebaseerd op de gegevens uit hun
doctoraalscriptie en de proefleid(st)ers, schoolteams en leerlingen, die dc uitvoer van het üainingsonderzock
mogelijk maften.

LITERATUUR

Attisha, M., & Yazdani, M. (1983). A micro-computer based tutor for teaching arithmetic skills. Instructional
Science. 12.
333-342.

Baltussen, M.W.J., & Lieshout, E.C.D.M., van (1989). De plaats van het splitsen in het cijferend optellen en

afu-ekken tot 100. Tijdschrift voor Onderwijswetenschappen. 20. 52-63.
Baltussen, M.W.J., & Lieshout, E.C.D.M., van (1990). Een computeriseerde training voor het optellen en
aftrekken tot 100 voor kinderen met rekenproblemen.
Tijdschrift voor Orthopedagogiek, 5, 268-276.

-ocr page 301-

Toepassing van een foutencategorieën-systeem 295

Baltussen, M.W.J., & Lieshout, E.C.D.M. van (1991). Developing a computer-assisted instruction program
for children with leaming deficiencies to solve addition and subtraction problems. In
Proceedings
of the third conference of Computers in Psychology.
Amsterdam: Swets & Zeitlinger.

Breuker, J.A., Elshout, J.J., Someren, M.W. van, & Wielinga, B.J. (1986). Hardopdenken en protocolanalyse.
Tijdschrift voor Onderwijsresearch, 11, 241 -254.

Brown, J.S., & Burton, R.R. (1978). Diagnostic models for procedural bugs in basic mathematical skills.
Cognitive Science, 2, 155-192.

Brown, J.S., & Lehn, K. van, (1982). Toward a generative theory of "bugs". In P. Carpenter, J.M. Moser, &
T.A. Romberg (Eds.),
Addition and subtraction : a cognitive perspective (p. 117-135). Hillsdale:
Erlbaum.

Burton, R.R. (1982). Diagnosing bugs in a simple procedural skill. In D. Sleeman & J.S. Brown (Eds.),
Intelligent Tutoring Systems (p. 157-183). London: Academic Press.

Campione Brown & Ferrara (1982). Mental retardation and intelligence. In R.J. Sternberg (Ed.), Handbook
of human intelligence
(p. 392-490). Hillsdale: Erlbaum.

Cook, T.D., & Campbell, D.T. (1979). Quasi-experimentation: Design & analysis issues for field settings.
Chicago: Rand Mc.Nally College Publishing Company.

Felix, E.J.H.M., Beishuizen, J.J., Beishuizen, M., & Klein, A.S. (1988). Computcrbcstuurd diagnosticeren
en remediëren volgens een genetisch model.
Paper gepresenteerd op de Onderwijsresearchdagen
1988 te Leuven.

Gildhuis, A., & Ven, M. van de (1989). Ontwikkeling van een foutencategorieën-systeem voor cijferend optellen
en aftrekken tot 100, in relatie tot een rekentraining.
Nijmegen: Doctoraal Scriptie, vakgroep
Orthopedagogiek.

Lchn, K. van (1983). On the representation of procedures in rcpairtheory. In H. Ginsberg (Ed.), The development
of mathematical thinking
(p. 197-252). New York: Academic Press.

Lohman, D.F. (1990). When good programs have bad effects on good students: understanding mathemathanic
effects in thinking skills programs. In M.J. Ippel & J.J. Elshout (Eds.),
Training van hogere orde
denkprocessen
(p. 21-30). Amsterdam: Swets & Zeitlinger.

Luit, J.E.H. van (1987). Rekenproblemen in het speciaal onderwijs. Een onderzoek naar de invloed van de
methode van zelfinstructie en een specifiek rekenhulpprogramma op de rekenvaardigheid.
Nijmegen:
Academisch Proefschrift.

Mannaerts, A.A.J. (1987). Een insUument voor de diagnose van rekengedrag. Nederlands Tijdschrift voor
de Psychologie. 42.
386-390.

Marshall, S.P. (1980). Procedural networks and production systems in adaptive diagnosis. Instructional Science.
9.
129-143.

O'Shea, T., Evertz, R., Hennesy, S.. Floyd, A. & Elsom-Cook, M. (1988). Design choices for an intelligent
arithmetic tutor. In J. Self
(Ed.), Artificial Intelligence and human learning - Intelligent computer-
aided instruction
(p. 257-275). London: Chapman and Hall.

Peverly, S.T. (1991). Problems with the knowledge-based explanation of memory and development. Review
of Educational Research, 61,
71-93.

Popping, R. (1983). Overeenstemmingsmaten voor nominale data. Groningen: Academisch Proefschrift.

Short, E.J., Cuddy, C., Friebert, S.E. & Schatschneider, C.W. (1990). The diagnostic and educational utility
of thinking aloud during problem solving. In H.L. Swanson & K. Keogh (Eds.),
Learning Disabilities.
Theoretical and Research Issues
(p. 93-109), Hillsdale: Erlbaum.

Wolters, M.A. (1990). Leerproblemen en metacognitieve ontwikkeling. In M.K. van der Heijden & J.

' Rispens (Eds.), Zorgverbreding en afgrenzing (p. 131- 141). Amsterdam: Swets & Zeitlinger.

Manuscript ontvangen 28-1-1991

Definitieve versie ontvangen 2-9-1991

-ocr page 302-

296 M.W.J. Baltussen en E.C.D.M. van Lieshout

BIJLAGE 1: DE REKENTOETS

Optellen

Aftrekken

nivo

som-

toets-

propor-

nivo

som-

toets-

propor-

type

opgave

tie*

type

opgave

tie*

3

e-i-e>

8+7=

.91

3

te-e<

86-5=

.77

4

t+t=

20+20=

.93

4

te-t<

78-20=

.76

5

te+e=

53+6=

.85

5

te-te<

64-21=

.85

6

te-i-t<

61+20=

.85

6

te-e=

37-7=

.77

7

te+te<

21+77=

.91

7

te-te=

85-25=

.79

47+52=

.93

97-7=

.79

8

te-i-e=

71+9=

.81

8

t-e>

70-4=

.57

52+8=

.85

50-8=

.57

9

te+te=

25+35=

.89

9

te-e>

44-7=

.57

68+12=

.89

76-9=

.60

10

te-i-e>

67+6=

.83

10

t-te>

50-17=

.53

37+8=

.77

90-81 =

.62

11

te+te>

17+56=

.77

11

te-te>

92-14=

.51

69+23=

.89

81-62=

.42

44+48=

.85

72-54=

.41

Noot

De opgaven in de orignele toets werden verticaal aangeboden,
e =
t =

getal bestaand uh alleen een eenheid
getal bestaand uit alleen een tiental
getal bestaand uit een tiental en een eenheid
zonder tientaloverschrijding
op het tiental uitkomend
met tientaloverschrijding

te =
< -

> =

* gemiddelde proportie goed gemaakte opgaven (= moeilijkheidsgraad)

-ocr page 303-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 297-296

Latente budget analyse en
onderzoek naar schoolloopbanen

Peter G.M. van der Heijden' en Leo J. Th. van der Kamp^

'Vakgroep Empirische-Theoretische Sociologie, Rijksuniversiteit Utrecht*

^Vakgroep Methoden en Technieken van Psychologisch Onderzoek Rijksuniversiteit Leiden

ABSTRACT

Latent budget analysis is a new method for the analysis of contingency tables. The contingency table
is transformed into a table with conditional proportions that add up to 1 for each row. Such a row
with conditional proportions is called a budget. The model estimates a number of latent budgets that
have generated the observerd budgets. In this paper the usefulness of latent budget analysis for the
analysis of school careers will be discussed. The CBS-SMVO-data will be reanalyzed.

1. INLEIDING

Het onderzoek van schoolloopbanen staat de laatste jaren sterk in de belangstelling, en daarmee
ook de methodologie van dit onderzoek. Tal van methoden en technieken zijn voorgesteld voor
de analyse van schoolloopbaanvariabelen, en de neerslag hiervan is in de onderzoeksliteratuur
terug te vinden. Zo verscheen recent in dit tijdschrift een themanummer over longitudinaal
onderzoek van schoolloopbanen, terwijl het nummer over multilevel analyse voor dit type
onderzoek eveneens van belang is'.

Een recent ontwikkelde methode waarmee schoolloopbaanvariabelen ook geanalyseerd kunnen
worden is latente budget analyse. Latente budget analyse is een methode om kruistabellen te
analyseren. De methode is oorspronkelijk voorgesteld voor de analyse van zgn. tijdbudgetten
die verzameld worden wanneer een onderzoeker geïnteresseerd is in de wijze waarin objecten of
groepen van objecten (bv. groepen van personen ingedeeld naar een bepaald kenmerk, dieren,
regio's, landen) hun tijd besteden. Deze tijdbesteding heeft betrekking op een aantal onder-
scheiden en elkaar niet overlappende activiteiten. De informatie wordt verzameld in een twee-
weg matrix met objecten als rijen en activiteiten als kolommen; elk element van de matrix geeft
aan de proportie tijd die het betreffende object aan de corresponderende activiteit besteedt. Elke
rij van een dergelijke matrix telt op tot 1.00. De rij-elementen worden ook wel de verklarende
variabelen genoemd en de kolomelementen de fesponsvariabelen.

In dit artikel wordt latente budget analyse (LBA) geintroduceerd aan de hand van een eenvoudig
voorbeeld. De belangrijkste termen worden gedefinieerd en het achteriiggende model wordt
uiteengezet. Aangegeven wordt op welke wijze de modelparameters geschat kunnen worden, en
de parameters geïnterpreteerd. Vervolgens komt de relatie aan de orde van LBA met andere
analyse-methoden voor dit type schoolloopbaanvariabelen. Algemeen kan LBA gezien worden
als een vorm van latente structuuranalyse; preciezer geformuleerd: LBA is een verbijzondering
van latente structuur analyse in de zin dat de manifeste gegevens worden opgevat als een functie
van de achterliggende latente variabelen, waarbij het gaat om kategorische variabelen. In de
toepassing van deze analyse in onderzoek naar schoolloopbanen zijn (longitudinale) kategorische
variabelen in het geding.

♦ Vakgroep Empirisch-Thcorctische Sociologie, Postbus 80.140, 3508 TC Utrecht.

-ocr page 304-

298 P.G.M. van der Heijden en L.J.Th. van der Kamp

In dit artikel wordt de relatie van LBA met bepaalde vormen van latente strucmur analyse, m.n.
latente klasse analyse en loglineaire analyse met latente variabelen aangegeven. Tenslotte wordt
aan de hand van gegevens uit het zgn. CBS-SMVO-bestand een secundaire analyse met LBA
uitgevoerd. De resultaten van deze analyse - uitgevoerd op een 4-weg matrix - zullen worden
besproken.

Tot slot van deze inleiding moet nog het volgende opgemerkt worden m.b.t. longitudinaal
onderzoek in het algemeen en onderzoek naar schoolloopbanen in het bijzonder. Enerzijds kan
dit onderzoek meer 'theory driven' zijn, anderzijds kan de modellering van de manifeste gege-
vens meer nadruk krijgen. Het laatste stelt dit artikel ten doel zonder daarbij uit te sluiten dat de
analyseresuhaten tot enig theoretisch inzicht leiden.

2. LATENTE BUDGET ANALYSE: EEN EENVOUDIG VOORBEELD

Tabel 1 is afkomstig uit het CBS-SMVO bestand. Hierin zijn gegevens te vinden over kinderen
in 1977 en 1981. In 1977 zaten deze kinderen in de zesde klas van het lager onderwijs. In 1981
werd gekeken welk niveau deze kinderen behaald hadden na vier jaar voortgezet onderwijs. De
door ons gebruikte data zijn te vinden in Meester en de Leeuw (1983).

De matrix heeft als rijen 7 klassen van individuen ingedeeld naar hun scores op een intelli-
gentie test. De gebruikte intelligentietest was de Toets voor Intellectuele Begaafdheid (TIB),
een figuur-exclusie test die bestaat uit 33 items. Deze toets schijnt overigens verloren te zijn
gegaan (zie Meester en de Leeuw (1983)). De TIB scores zijn gehercodeerd als 1 voor 1 tot 14
items goed, 2 voor 15 tot 17 items goed, 3 voor 18 tot 20 items goed. 4 voor 21 tot 23 items goed,
5 voor 24 tot 26 items goed, 6 voor 27 tot 29 items goed, en 7 voor 30 tot 33 items goed. De
kolommen van tabel 1 hebben betrekking op het behaalde eindniveau, d.w.z. op het diploma dat
in het voorgezet onderwijs is behaald. De categorieen zijn: voortijdig schoolverlaters (drop
outs), LBO, MAVO, HAVO, VWO en (M)BO. Meer over deze en andere variabelen is te vinden
in Meester en de Leeuw (1983, 1985).

In Tabel 1 staan de conditionele proporties om een bepaald eindniveau te halen gegeven dat
men een bepaalde TIB-score heeft. Alle kinderen die een bepaalde IQ score hebben worden als
het ware verdeeld over de eindniveaus. Wij noemen zo'n verdeling
een budget. De term 'bud-
get' wordt gesuggereerd door financiele budgetten, waar het totale bedrag in proporties overeen
aantal posten wordt verdeeld, of een tijdbudget, waarbij de totaal beschikbare tijd in proporties
verdeeld wordt over een aantal activiteiten. Voor elk budget tellen deze (condirionele) propor-
ties op tot 1, en daarom tellen de conditionele proporties in Tabel 1 per rij (d.w.z. per TIB-score)
op tot 1.

Tabel 1. Een 2-weg maü-ix met rijen TIB-klassen en kolommen EIND-niveau. Gegeven zijn de conditionele
proporties om een bepaald eindniveau te behalen gegeven de TIB-score.

EIND-niveau

TIB-score

Drop out

LBO

MAVO

HAVO

VWO

(M)BO

Totaal

N

1

.157

.447

.158

.061

.021

.157

1.000

805

2

.101

.387

.204

.098

.026

.184

1.000

1363

3

.078

.313

.198

.147

.065

.199

1.000

2803

4

.065

.232

.206

.184

.104

.209

1.000

3839

5

.044

.178

.204

.218

.165

.191

1.000

3821

6

.036

♦ .106

.177

.254

.249

.179

1.000

2602

7

.026

.060

.126

.266

.386

.137

1.000

1003

Totaal

.063

.226

.192

.188

.142

.189

1.000

16236

-ocr page 305-

Latente budget analyse en onderzoek naar schoolloopbanen 299

De bestudering van budgetten lijkt vooral zinvol als de kolomvariabele als afhankelijke
variabele en de rijvariabele als onafhankelijke variabele kan worden voorgesteld. In dit geval
zijn we inmiers vaak geïnteresseerd in de vraag wat de kans is op elk van de categorieen van de
aftiankelijke variabele, gegeven de waarde van de rijvariabele. De elementen van de budgetten,
de conditionele proporties, zijn schattingen van deze kansen.

Latente budget analyse dient om de bestudering van de geobserveerde budgetten te verge-
makkelijken. De vraag die bij LBA gesteld wordt is: hoe kunnen de
waargenomen budgetten van
de rij-categorieen benaderd worden door een gewogen som van
latente budgetten die bepaald
worden door de kolomcategorieen? Het idee is dat we het totale aantal waargenomen budgetten
(1 voor elke rij) vervangen door een kleiner aantal nog onbekende latente budgetten, die als het
ware de waargenomen budgetten hebben gegenereerd. Deze latente budgetten zijn dan vaak te
interpreteren als 'typische' budgetten. Het budget van elke rij is dan voor een bepaalde hoeveel-
heid uit elk van deze typische budgetten opgebouwd.

In deze zin vervult LBA als analysetechniek voor kruistabellen een vergelijkbare rol als
factor analyse of principale componenten analyse voor de analyse van kwantitatieve variabelen.
Bij factor analyse en principale componenten analyse gaat men immers ook op zoek naar
typische variabelen, namelijk de factoren, resp. de principale componenten. Alvorens de vraag
van latente budget analyse te beantwoorden en in te gaan op de bepaling van de latente budget-
ten, zal eerste de notatie aan de orde komen.

In het algemeen bevat een 2-weg tabel als tabel 1 waargenomen proporties met rijen i

(i=l,...,I) en kolommen j (j=l.....J). De grootheden Pjj/Pj^ vormen per rij een budget, en zijn

voorwaardelijke waarschijnlijkheden: in ons voorbeeld van tabel 1, gegeven een bepaalde TIB-
klasse, met welke proporties wordt een bepaald eindniveau bereikt?

Het latente budget model beoogt zonder veriies aan relevante informatie elk van de I waarge-
nomen budgetten te schrijven als een som van T latente budgetten. Er wordt een onderscheid

gemaakt tussen waargenomen budget i met elementen Pij/Pi+, het theoretische budget met ele-

B X

menten ti^jn^^ en het latente budget t met elementen tcj^ .De elementen van elk budget tellen

op tot 1.00. Het latente budget model stelt voor de theoretische budgetten

T . .

- '^jt (1)

JTi

met restrictief, Jiu^ = 1, Ij Ttft^ = 1, en O < Ku^ < 1 cn O < Ttft^ < 1. De parameters Tüu^
laten zien hoe elk theoretisch budget i, met elementen ti^jti^^, opgebouwd is uit latente budget-
ten, met elementen Tcft^. Ten gevolge van de restricties zijn de parameters te interpreteren als
waarschijnlijkheden. Nemen we aan dat de waamemingen verzameld zijn onder een product-
multinomiale verdeling, dan kan het zgn. EM-algoritme gebmikt worden voor het vinden van
maximum likelihood schatters van de modelparameters (zie voor een bespreking van de
schatringsprocedure bijvoorbeeld de Leeuw, van der Heijden en Verboon, 1990, en van der
Heijden, Mooijaart en de Leeuw, 1990).

Voor de gegevens in Tabel 1 blijkt voor T=1 G^ = 2330.20 (df = 30), T=2 G^ = 178.35 (df =
20) en voor T=3 G^ = 12.12 (df= 12). Het model met T=3 latente budgetten blijkt niet signifi-
cant te zijn en deze oplossing is dan ook acceptabel. De schattingen van de model-parameters
staan vermeld in Tabel 2.

Om een adekwate beschrijving te geven van de data uit tabel 1 in termen van het latente
budget model blijken drie latente budgetten nodig te zijn. Het model met T=3 immers wordt op
grond van de G^ = 12.12 met df = 12 niet verworpen. De waarden van de latente budgetten van
laatstgenoemde model staan in Tabel 2, in de laatste drie kolommen. We bespreken eerst de

-ocr page 306-

300 P.G.M. van der Heijden en L.J.Th. van der Kamp

Tabel 2. Latente budgetten voor T=l, 2 en 3 voor de data uit Tabel 1.

T=1

T=2

T=3

t=l

t=l

t=2

t=l

t=2

t=3

1. drop out

.063

.104

.007

.000

.173

.041

2. LBO

.226

.396

.000

.109

.565

.000

3. MAVO

.192

.212

.166

.323

.131

.000

4. HAVO

.188

.084

.327

.263

.000

.295

5. VWO

.142

.000

.330

.000

.000

.639

6. (M)BO

.189

.204

.169

.306

.130

mi

1.000

1.000

1.000

1.000

1.000

1.000

Budget grootte

1.000

.571

.429

.468

.310

.222

Proporties waarmee latente budgetten worden gebruikt:

T=1

T=2

T=3

t=l

t=l

t=2

t=l

t=2

t=3

TlB-score

1

1.000

.959

.041

.173

.665

.162

2

1.000

.927

.073

.395

.497

.108

3

1.000

.788

.212

.484

.386

.130

4

1.000

.635

.365

.552

.289

.158

5

1.000

.461

.539

.531

.230

.239

6

1.000

.270

.730

.434

.186

.380

7

1.000

.127

.873

.135

.207

.658

X

latente budget parameter schattingen TCjt . Het eerste budget is het budget van leerlingen die
vaker dan gemiddeld naar de MAVO (.323 versus gemiddeld .192), de HAVO (.263 versus
.188) en naar het (M)BO (.306 versus .189) gaan, en heeft men nog een redelijke kans om naar
het LBO te gaan (.109), al is deze kans lager dan gemiddeld (.226). Hierbij is het gemiddelde de
proporties p_|_j = jt^^^voor het model met T=l, zie de eerste kolom van tabel 2: dit zijn de
kansen om na vier jaar een bepaald eindniveau te hebben als er geen informatie over de TIB-
score zou zijn. In het tweede budget gaat men veel vaker dan gemiddeld naar het LBO (.565
versus .226 gemiddeld), is men ook vaker dan gemiddeld 'drop out' (.173 versus .063), en heeft
men ook nog een redelijk grote kans om naar de MAVO (.131) en naar het (M)BO (.130) te
gaan. Voor het derde latente budget geldt dat leerlingen aanzienlijk vaker dan gemiddeld naar
de HAVO (.295 versus .188) gaan, en ook vaker dan gemiddeld naar het VWO (.639 versus
.142). Samengevat, is het eerste budget voomamelijk het budget van het lagere algemeen vor-
mende en het beroepsonderwijs, het tweede budget is het buclget van het lagere beroepsonder-
wijs en de 'drop out', en het derde budget is het budget van het hogere algemene onderwijs. Een
globale vergelijking van het latente budget model met T=2 met dat met T=3 laat zien dat het
eerste latente budget van het model met T=2 te beschrijven is als 'lagere' onderwijsvormen, en
het tweede als 'hogere' onderwijsvormen.

Het latente budget model met meer dan een latent budget kan in deze context geinterpreteerd
worden als een MIMIC model (zie Clogg, 1981; Clogg gebruikte deze interpretatie voor de
analyse van sociale mobiliteitstabellen). In Figuur 1 is deze model interpretatie schematisch
weergegeven. De interpretatie is als volgt. Er worden T latente klassen verondersteld tussen de
verklarende en de te verklaren variabele. Elk kind heeft een bepaalde kans om in deze latente

-ocr page 307-

Latente budget analyse en onderzoek naar schoolloopbanen 301

klassen terecht te komen. Deze kansen tellen voor elk kind op tot 1, en zijn bepaald door de
categorieen van de verklarende variabele, namelijk zijn/haar TIB-score. Deze kansen zijn ge-
specificeerd door de TCjt -parameters. Gegeven dat een kind in een van deze T latente klassen
terecht is gekomen, heeft hij/zij J kansen om elk van de J eindniveuas te bereiken. Deze J kansen
tellen ook weer op tot 1 en zijn gespecificeerd door de Ttji -parameters.

Voor andere eigenschappen van LBA verwijzen we naar van der Heijden, Mooijaart en de
Leeuw (1989, 1990), de Leeuw, van der Heijden en Verboon (1990) en de Leeuw en van der
Heijden (1991).

3. LATENTE BUDGET ANALYSE EN ANDERE ANALYSEMETHODEN

LBA is nauw gerelateerd aan latente klasse analyse, loglineaire analyse met latente variabelen,
en correspondentieanalyse. We bespreken hier de relade met latente klasse analyse en loglineaire
analyse met latente variabelen. LBA is in bepaalde gevallen equivalent aan correspondentie-
analyse. We verwijzen voor de relatie met correspondentieanalyse naar van der Heijden, de
Leeuw en Mooijaart (1990) en de Leeuw en van der Heijden (1991).

Latente klasse analyse

Clogg (1981) presenteerde latente budgetanalyse als een herparametrisering van latente klasse
analyse. Hierdoor gelden allerlei eigenschappen die gelden voor LBA ook voor latente klasse
analyse. Voor een uitgebreide inleiding tot de latente klasse analyse zij verwezen naar McCutcheon
(1987) en de daarin aangehaalde literatuur.
.Definieer jt^ als de kans om in latente klasse t te vallen van de latente variabele X, definieer
als de conditionele kans om in categorie i van variabele A te vallen, gegeven klasse t van

-ocr page 308-

302 P.G.M. van der Heijden en L.J.Th. van der Kamp

BX

de latente variabele X, en definieer Ttjt als de conditionele kans om in categorie j van varia-
bele B gegeven latente klasse t. Het latente klasse model voor een twee-weg matrix definieert

ABX

dan een model voor de latente (want niet waargenomen) kansen Tljjt om in categorie i van
variabele A, categorie j van variabele B en categorie t van de latente variabele X te vallen:

^ABX X ÄX^BX

TCijt = Kt Ttit Kjt (2a)

en de latente kansen hebben de volgende relatie met de geobserveerde kansen:

T

Ttij = S (2b)

t=l

BX

Latent budget analyse en latent klasse analyse hebben de parameters Ttjt gemeenschappelijk.
De LBA parameters
tc^^ kunnen worden afgeleid van de latente klasse analyse parameters
jjX and
tjA^ met behulp van het theorema van Bayes:

,AX ^ ^^^ (3)

t=i

Latent budget analyse en latente klasse analyse zijn ook vergelijkbaar in termen van de latente
AR X^ H X

kansen jc^t. Voorbelde modellen geldt voor de kolomparameters dat Ttjt = 7t+jt/7t+ + t; de
rij parameters voor latente klasse analyse zijn gerelateerd aan de latente kansen middels
= + ^terwijl de rijparameters voor LBA gerelateerd zijn aan de latente kansen

TCjjf ^ middels Ttj^^ = In termen van de latente kansen geldt voor beide model-

len dat de geobserveerde variabelen A en B conditioneel onafhankelijk zijn gegeven het niveau
van de latente variable X. Bijvoorbeeld, uit (2a) valt af te leiden dat

/ ABX\

ABX^
+jt

ABX ABX
^i + t ^+jt

_ABC

Jti

K

ABX ABX
TCijt =7t+ + t

i + l

(4)

ABX

-ABX

Latente klasse analyse wordt meestal gebruikt in de context van kruistabellen met meer dan
twee variabelen. Hier poogt een latente variabele een verklaring te geven voor de samenhang
tussen de waargenomen variabelen (zie bijvoorbeeld Goodman, 1974). Er is relatief weinig
aandacht geweest voor latente klasse analyse van twee-weg kruistabellen, met als uitzondering
de theoretische bijdragen van Good (1969), Gilula (1979,1983,1984), Clogg (1981), Goodman
(1987), en de Leeuw en van der Heijden (1991), en het werkrin sociale mobiliteit en marketing
van Marsden (1985), Grover (1987), Grover en Srinivasan (1987) en Luijkx (1987). Voorzover
wij weten is de herparametrisering in (1) alleen gebruikt door Clogg (1981) en ons eigen werk
(zie de referentielijst).

Een keuze voor ofwel LBA ofwel latente klasse analyse behoort af te hangen van de
onderzoeksvraag. Als deze onderzoeksvraag geformuleerd is in termen van een verklarende
variabele en een respons variabele, dan lijkt LBA meer geeigend. Als de onderzoeksvraag
geformuleerd is in termen van relaties tussen variabelen, dan lijkt latente kla'sse analyse meer
geeigend. In deze zin is het onderscheid tussen LBA en latente klasse analyse vergelijkbaar met
het onderscheid tussen het (multinomiale) logit model en bet loglineaire model. Wij zullen nog
laten zien dat het onderscheid tussen verklarende en responsvariabelen specifieke typen model-
len suggereert die niet in de kontekst van latente klasse analyse worden beschouwd.

-ocr page 309-

Latente budget analyse en onderzoek naar schoolloopbanen 303

Het latente budgetten model kan ook worden gepresenteerd als een gerestricteerde versie van
het simultane latente klasse analyse model met slechts een manifeste variabele (zie van der
Heijden, Mooijaart en de Leeuw, 1989) of als een speciaal geval van het gemengde Markov
latente klasse model met een variabele gemeten op een tijdstip (zie van de Pol en Langeheine,
1990). Deze relaties laten zien hoe bestaande software voor simultane latente klasse analyse en
het gemengde Markov latente klasse model te gebruiken zijn om schattingen te verkrijgen voor
het ongerestricteerde latente klasse model.

Relatie met loglineaire analyse

Formule (4) laat zien dat LBA ook op te vatten is als een loglineair model met een latente
variabele:

logTCijt =A + Ai +/.j +A,it +A,jt (5)

(zie ook Haberman, 1979; Hagenaars, 1990). Dh model toont dat er een directe relatie is tussen
A en X, tussen B en X, maar dat A en B niet gerelateerd zijn gegeven X. Deze representatie van
LBA is een ingang om verdere restricties op te leggen aan de parameters van het latente budget
model. Deze parameters kunnen verder gerestricteerd worden door de parameter verder

te restricteren. Esn voorbeeld hiervan wordt gegeven in sectie 4. Technische derails zijn te
vinden in van der Heijden, Mooijaart en de Leeuw (1990).

Het voordeel van latente budget analyse

LBA kan gebruikt worden in verschillende

situaties. Ten eerste als de onderzoeksvraag daar
aanleiding toe geeft, bijvoorbeeld indien men geïnteresseerd is in de conditionele proporties (de
geobserveerde budgetten), en men aanneemt dat deze gegenereerd zijn door een kleiner aantal
latente budgetten. Deze latente budgetten zijn dan vaak te interpreteren als typische verdelin-
gen. Ten tweede, indien men geïnteresseerd is in de samenhang in de kruistabel, en men inzicht
wil verkrijgen in de samenhang tussen de rij- en de kolomcategorieen. Hier zijn natuurlijk meer
methoden voor, maar LBA heeft (met latente klasse analyse) het grote voordeel dat de parame-
ters van het model zo eenvoudig te interpreteren zijn. Hierdoor heeft LBA het voordeel dat zij
ook tamelijk eenvoudig aan niet-statistisch geschoolden uit te leggen is. Dit is bijvoorbeeld veel
moeilijker voor technieken als correspondentie-analyse, loglineaire analyse of hieraan gerela-
teerde modellen zoals het RC-associatiemodel. Het onderscheid tussen latente budget analyse
en latente klasse analyse is hierboven reeds behandeld.

4. SOCIAAL MILIEU AND SECUNDAIR ONDERWIJS

De tweeweg kruistabel die als voorbeeld werd geanalyseerd in sectie 2 was afgeleid uit een
vierweg kruistabel verkregen door op te tellen over de twee van de oorspronkelijke variabelen,
namelijk sexe en sociaal milieu. De vierweg kruistabel is te vinden in de appendix. Het sociaal
milieu van de familie is geoperationaliseerd als het beroep van de vader, en heeft 6 categorieen:
1 is geschoolde en ongeschoolde arbeider, 2 is boer en boerenarbeider, 3 is middenstander, 4 is
lagere employee, 5 is middelbare employee, 6 is hogere employee, wetenschappers en vrije
beroepen. De variabelen geslacht en sociaal milieu worden door ons opgevat als verklarende
variabelen. Daarom worden de categorieen van sexe, sociaal milieu en TIB-score interactief
gecodeerd tot 2 x 6 x 7 = 84 rijen, en het bereikte eindniveau secundair onderwijs levert de 6
kolomcategorieen van de te analyseren matrix. De variabele sexe wordt genoteerd als A met
index i, sociaal milieu als C, met index k, TIB als F, met index p, en de respons variabele
eindniveau als B, met index j. Het latente budgettenmodel wordt dan

T

^ikpj V ...ACFX^BX

-— = ^ikpt ^jt (6)

Tlikp + t=l

-ocr page 310-

304 P.G.M. van der Heijden en L.J.Th. van der Kamp

of, als we het schrijven als een loglinear model voor de latente kansen Ttj^pj,

, ACFBX ^ A ^C -jF ,AC i AF ^ CF ^ ACF. ^B -j X
logJlikpjt =A + (A,i + A-ic + A.p + Aik +A,ip +A.kp+Aikp ) + Aj +A,t +

n AX ^ CX ^ -i FX ^ ^ ACX ^ , AFX ^ y CFX ^ . ACFX. ^ y BX

(Ait +Akt +Apt +Aikt +Aipt +Akpt +Aikpt ) + Ajt (7)

Het latente budgettenmodel met T=1 (onafhankelijkheid) is equivalent met het loglineaire mo-
del voor de geobserveerde variabelen waarbij sexe, sociaal milieu en TIB onderling afhankelijk
zijn, maar onafhankelijk van het eindniveau, d.w.z.

log TUikpj = X + (XN + + ^-ik^ + + >.kp + + (8)

Dit model levert een geschikt ondergrens: in dit model zijn de verklarende variabelen onafhan-
kelijk van de te verklaren variabele. Het model heeft een passing van G^ = 4612 voor 415
vrijheidsgraden.

In eerste instantie bepalen we het aantal latente klassen T dat nodig is om een adekwate
beschrijving van de data te geven. In Tabel 3 zijn de G ^-waarden gegeven voor de modellen met
twee, drie, vier en vijf latente klassen. Alle modellen moeten verworpen worden bij een stricte
toepassing van een
5% verwerpingsgebied. Om na te gaan of dit een gevolg zou kunnen zijn van
de specifieke vorm van ons model hebben we de residuen van het minst gerestricteerde model
(dat met vijf latente klassen) nader bestudeerd. Hierbij troffen we geen interpreteerbare patro-
nen in de residuen aan, of specieke uitbijters. Daarom nemen we aan dat de significantie van de
modellen een gevolg is van de steekproefgrootte.

De kolom parameters van het latente budgettenmodel tijj , d.w.z. de waarden van de latente
budgetten, zijn voor elk van de modellen te vinden in Tabel 4. Voor het model met twee latente
budgetten is het eerste budget het budget waar kinderen een erg lage kans, nl.. .011, hebben om
drop out te worden, zij gaan niet naar het LBO en minder vaak dan gemiddeld (zoals aangegeven
door de marginale kansen) naar het (M)BO. In plaats hiervan gaan zij vaker naar algemeen
voorbereidend onderwijs. In het tweede latente budget zijn zij vaker dan gemiddeld drop out,
gaan zij vaker dan gemiddeld naar het LBO en (M)BO, en minder vaak dan gemiddeld naar
algemeen voorbereidend onderwijs. Voor het model met drie latente budgetten gaan kinderen in
het eerste latente budget (t=l) vooral vaker naar het LBO en worden vaker dan gemiddeld drop
out. In budget 2 gaan zij vaker dan gemiddeld naar HAVO en VWO, en in budget 3 gaan zij
vaker naar MAVO, HAVO en MBO, maar niet vaker dan gemiddeld naar VWO. In het model
met 4 latente budgetten lijkt het derde latente budget erg op het tweede latente budget uit het
model met 3 latente budgetten. Vergeleken met het model met drie latente budgetten veranderen
de budgetten met Koge kansen op beroepsonderwijs: een nieuw budget, namelijk het tweede, is
gevormd, dat is afgeleid uit het eerste en het derde van het model met drie latente budgetten. Het
toont een grote kans om (M)BO te doen, en een ook nog wel grote kans om LBO en MAVO te
doen. In het model met vijf latente budgetten is het budget voor VWO nog steeds ongeveer
hetzelfde (t=2), en worden opnieuw de budgetten voor beroepsonderwijs verder gedifferen-

Tabel 3. Chi-kwadraat toetsen voor latente budget modellen.

G2

df

% afwijking
van K=1

T=1

4612

415

0.0

T=2

1113

328

75.8

T=3

441

243

90.4

T=4

226

160

95.1

T=5

116

79

97.5

-ocr page 311-

Latente budget analyse en onderzoek naar schoolloopbanen 305

Tabel 4: Latente budgetten voor T = 2, 3,4 en 5 voor eindniveau na 4 jaar secundair onderwijs.

T=

=2

T=3

T=4

t=l

t=2

t=l

t=2

1=3

t=l

t=2

t=3

t=4

1. Drop out

.011

.100

.160

.014

.011

.184

.000

.008

.042

2. LBO

.000

.392

.658

.000

.000

.692

.188

.000

.000

3. MAVO

.171

.208

.121

.090

.325

.124

.198

.059

.357

4. HAVO

.346

.073

.000

.367

.232

.000

.000

.307

.420

5. VWO

.335

.000

.000

.530

.000

.000

.000

.625

.000

6. (M)BO

.137

.228

.061

.000

.432

.000

.614

.000

.181

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

Budget grootte

.423

.577

.343

.267

.389

.266

.225

.227

.283

T=5

Onafhankelijkheid

t=l

1=2

t=3

t=4

1=5

t=T=l

1. Drop out

.190

.009

.000

.063

.025

.063

2. LBO

.809

.000

.222

.000

.000

.226

3. MAVO

.000

.099

.093

.725

.000

.192

4. HAVO

.000

.223

.000

.000

.878

.188

5. VWO

.000

.670

.000

.000

.000

.142

6. (M)BO

.000

.000

.685

.211

.097

.189

1.000

1.000

1.000

1.000

1.000

1.000

.228

.211

.188

.212

.161

tieerd. Over het geheel genomen vinden we, wanneer we van het model met drie naar het model
met vijf latente budgetten gaan, dat er altijd een budget is met een kans groter dan nul om naar
het VWO te gaan en een kans van nul om naar het LBO en het (M)BO te gaan. Als het aantal
budgetten toeneemt, wordt een meer verfijnde beschrijving gegeven van budgetten die een kans
hebben die groter is dan nul om beroepsonderwijs te doen.

Gegeven de steekproefgrootte zijn we tevreden met een beschrijving van drie latente budgetten.
Ofschoon dit model significant is, is de afwijking tussen G^ = 441 en df = 243 niet enorm, en het
model beschrijft (4612 - 44iy4612 = .904 van de afwijking van het onafhankelijke model (8).
De proportionele winst die wordt gemaakt door te kiezen voor een model met vier latente
budgetten is gering. Daarom kiezen we voor het model met drie latente budgetten, en zullen
hiervan de parameters nader interpreteren. ^ACFX

We beginnen met de bestudering van de pararneters Ttikpt . Deze parameters zijn grafisch
weergegeven, voor elke TIB-score p en geslacht i afzonderlijk. Dit levert 7x2=14 plaatjes, zie
Figuur 2. In elke plot zijn horizontaal de zes categorieen van sociaal milieu k afgezet, en
verticaal is de kans gespecificeerd om naar een van de latente budgetten t te gaan. Elk plaatje
heeft 18 punten, want kinderen uit elk van de zes sociale milieus kunnen naar elk van de drie
latente budgetten gaan. Punten die bij hetzelfde latente budget horen zijn door een lijn verbon-
den, zodat elk plaatje drie lijnen heeft. We hebben om de volgende redenen gekozen voor deze
wijze om de parameters af te beelden. Ten eerste, als sexe geen invloed zou hebben op de kans
om naar een van de latente budggetten te gaan, dan zou het plaatje links gelijk zijn aan het
plaatje rechts. Verschillen tussen het linker en het rechter plaatje geven zo dus verschillen weer
in de manier waarop jongens en meisjes naar de latente budgetten gaan. Ten tweede, als sociaal
milieu geen invloed zou hebben op de kans om naar een van de latente budgetten te gaan, dan
zouden alle lijnen horizontaal lopen. Afwijkingen hiervan zijn nu eenvoudig waar te nemen. Het
is duidelijk dat de kans om naar een latent budget te gaan in hoge mate beïnvloed zal worden
door de TIB-score, omdat de verschillende eindniveaus niet alleen verschillende typen onder-
wijs representeren (namelijk algemeen voorbereidend vs. beroeps-) maar ook onderwijs van een

-ocr page 312-

306 P.G.M. van der Heijden en L.J.Th. van der Kamp

Fig. 2. Representaties van de rijparameters voor het ongerestricteerde model met 3 latente budgetten. Er
zijn aparte plaatjes voor elke combinatie van sexe en TIB-scorc. Een lijn in een plaatje verbindt de
kans om naar hetzelfde latente budget te gaan. Horizontaal zijn de niveaus van sociaal milieu
uitgezet (l=arbeider, 2=boer, 3=middenstander, 4=lagere employee, 5=middclbare employee, 6=hogerc
employee), en verticaal zijn de kansen uitgezet om naar elk van de drie latente budgetten te gaan.

-ocr page 313-

Latente budget analyse en onderzoek naar schoolloopbanen 307

TIB = 6

.....^V

X

■—^ --------

-ocr page 314-

308 P.G.M. van der Heijden en L.J.Th. van der Kamp

verschillende hoogte. Daarom zien we, als we de plotjes van boven (TIB 1) naar beneden (TIB
7) vergelijken, dat het lijntje met de open blokjes steeds lager komt te liggen. Dit is niet
verwonderlijk, want deze lijn geeft de kans weer om naar latent budget 1 te gaan, en in dit
budget gaat 65.8% van de kinderen naar het LBO en 16.0 % wordt drop-out, en dh gebeurt
natuurlijk vaker naarmate de TIB-score lager is.

Het is mogelijk verschillende interessante aspecten uit deze plaatjes af te leiden. Om er een
paar te noemen: voor alle niveaus van TIB zien we dat kinderen uit hogere sociale milieus (5 en
6) een veel grotere kans hebben om naar het tweede latente budget te gaan, dit is het latente
budget voor HAVO (36.7%) en VWO (53.0%). Hun kans om naar het eerste latente budget te
gaan is veel kleiner. Het omgekeerde geldt voor kinderen uit sociale milieu 1 (geschoolde en
ongeschoolde arbeider): gegeven hun TIB-score is hun kans om naar het eerste latente budget te
gaan over het algemeen het grootst. Over het algemeen geldt dat, als de vader van de kinderen
boer of boerenarbeider is (sociaal milieu 2), dat zij een grotere kans dan gemiddeld hebben om
naar latente budget 3 te gaan; in dit budget hebben zij een grotere kans om (M)BO gevolgd te
hebben. Merk op dat de late budgetten parameters eenvoudig te interpreteren zijn: zij laten niet
alleen zien dat er iets aan de hand is (bijvoorbeeld: meisjes gaan minder vaak dan jongens naar
budget 1), zij latent ook zien hoe sterk de effecten zijn.

We gaan nu de effecten in de plaatjes van Figuur 2 toetsen door de rijparameters rtj^pt
te restricteren. Dit doen we door gebruik te maken van de factoriele structuur in de rijen, zoals
deze gespecificeerd is door de verklarende variabelen A, C en F. De restricties die we introduce-
ren zijn eenvoudig te begrijpen in termen van de parameters van het loglineaire model voor de
latente kansen TCj^pj^: de parameters X-]^, ^^^^i^n^' ^kpt^ en ^-^ptDe

restricties hebben een hierarchische vorm, dat wil zeggen dat als bijvoorbeeld = O, dan
geldt dat alle hogere orde interacties waarin F en X zitten ook nul zijn. Daarom kunnen we de
modellen voor log TCi^p^^ noteren door de hoogste termen die worden gefit, waarbij we X
weglaten, omdat X in elk model zit. We gaan hier niet in op de manier waarop dergelijke
restricties kunnen worden opgelegd, maar verwijzen hiervoor naar van der Heijden, Mooijaart
en de Leeuw (1990).

In de eerste plaats leggen we de restrictie op dat alle lijnen horizontaal lopen. Dit model
noteren we als AF. Het past erg slecht: G^ = 2101. Het is duidelijk dat in de populatie de lijnen
niet horizontaal zijn. Een vergelijkbaar model, dat de restricties oplegt dat elk plaatje voor de
jongens gelijk is aan elk plaatje voor de meisjes, past veel beter, maar nog steeds vrij slecht: dit
model CF (C voor«ociaal milieu) heeft een fit van G^ = 727.

Nu leggen we systematisch alle mogelijke restricties op aan de rijparameters, met als meest
restrictieve model het model met alleen de hoofdeffecten A, C en F (zie Tabel 5). Het model
AC, AF, CF veronderstelt dat er interactie is tussen sexe en sociaal miheu op de latente budgetten,
evenzo interactie tussen sexe en TIB, en tussen sociaal milieu en TIB, maar dat er geen interactie
tussen sexe, sociaal milieu en TIB gezamelijk is in hun relatie met de latente budgetten. De fit is
vrij goed (G^ = 508, df = 297), en het verschil in fit met het ongerestricteerde model is niet
groot: G^ = 508 - 441 = 67, df = 297 - 243 = 54. Als we naar beneden gaan in Tabel 5, dan zien
we dat de fit afneemt naar G^=627 met df=379. Vergeleken met het ongerestricteerde model
winnen we 379-243=136 vrijheidsgraden, voor een fitverlies van 627-441=186. Het is duidelijk
dat er informatie verloren gaat, maar aan de andere kant wordt de interpretatie veel eenvoudiger,
en de parameters worden stabieler. Er is wat informatie verloren gegaan door het op nul stellen
van de interactie tussen sociaal milieu en TIB (CF, conditionele toetsen G^ zijn tussen 65 en 73
voor 60 df) en iets meer door de interactie tussen sexe en sociaal milieu op nul te stellen (AC,
conditionele toetsen zijn tussen 12 en 30 voor lOdO en door de interactie tussen sexe en TIB op
nul te stellen (AF, conditionele toetswaarden liggen tussen 21 en 34 voor 12 df). We gaan nu
over tot de interpretatie van het meest restrctieve model A,C,F. Dit model correspondeert met
het loglineaire model (vergelijk model (7))

-ocr page 315-

Latente budget analyse en onderzoek naar schoolloopbanen 309

Tabel 5. Modellen met gerestricteerde rijparameters voor T=3 budgetten. Hierarchical modellen, alleen
termen waarin X zit zijn gegeven. A is sexe, C is sociaal milieu en F is TIB. In de blokken staan de
modellen, hun fit (likelihood ratio toets G^) en het aantal vrijheidsgraden, naast de pijlen staan de
termen die gerestricteerd zijn. Zie verder de tekst.

-ocr page 316-

310 P.G.M. van der Heijden en L.J.Th. van der Kamp

Tabel 6: latente budget voor T = 3 voor model SJ'.T in tabel 5.

T=3

t=l

t=2

t=3

1. Dropout

.177

.025

.005

2. LBO

.701

.038

.006

3. MAVO

.092

.090

.331

4. HAVO

.000

.337

.228

5. VWO

.015

.500

.000

6. (M)BO

.015

.011

.430

1.000

1.000

1.000

Budget grootte

.304

.274

.422

log Ttikpjt

+ Ap + /.ik

^ . AF ^ , CF ^ . ACF. ^ ; B ^ , X ^

(^tf'^iu^ilh^'^V (9)

De schattingen van de parameters van de latente budgetten t^j^ voor dit model zijn vergelijk-
baar met die voor het ongerestricteerde model met drie latente budgetten, vergelijk Tabel 6 met
tabel 4. De plaatjes met schattingen ft^p^^ zijn soms verschillend, zie Figuur 2. Deze plaatjes
worden nu het ineest eenvoudig bestudeerd door gemiddelde rijparameterschattingen af te

leiden als = ■rêi++ + t/7ti+++ + , Aft^ = Tfc+k + +t/'i+k++en ir^^ = Ji++p + t

(vergelijk de wijze waarop de parameters voor het gewone LBA model gerelateerd zijn aan de
latente kansen, zie tekst bij formule (5)). Op deze manier verkrijgen we parameters voor TIB
alleen, voor sociaal milieu alleen en voor sexe alleen. Plaatjes van deze parameters worden
gegeven in Figuur 3. Het plaatje voor TIB-scores laat zien dat de kans om naar latent budget 1
(vnl. LBO, drop out) afneemt als TIB toeneemt, de kans om naar budget 2 (vnl VWO, HAVO) te
gaan toeneemt als TIB toeneemt, en de kans om naar budget 3 (vnl. MAVO, HAVO, MBO)
toeneemt van TIB 1 tot TIB 4, om daama af te nemen. In het plaatje voor sociaal milieu is de
kans om naar budget 1 te gaan kleiner voor kinderen van boeren/boerenarbeiders (2), en middel-
bare- en hogere eniployees (5,6), de kans om naar latent budget 2 te gaan neemt snel toe van
lagere naar hogere employees, en de kans om naar budget 3 te gaan is iets hoger voor kinderen
van boeren/boerenarbeiders en iets lager voor kinderen van hogere employees. In het plaatje
voor sexe vinden we dat er geen verschil is voor jongens en meisjes in hun kans om naar budget
1 te gaan. Er is een verschil in hun kans om naar budget 2 en 3 te gaan: voor jongens zijn deze
kansen vrijwel gelijk, maar voor meisjes is de kans om naar budget 3 te gaan groter dan die om
naar 2 te gaan.

5. CONCLUSIE

Latent budget analyse geeft inzicht in deze data. De interpretatie van LBA als een MIMIC-
model toont de kansen die kinderen hebben om in een latent budget terecht te kómen. De latente
budgetten specificeren de kansen om specifieke eindniveuas te halen. De parameters zijn een-
voudig te interpreteren, zodat de processen die een rol spden tussen de verklarende variabelen
TIB, sexe en sociaal milieu eenvoudig te doorzien zijn. De op te leggen restricties staan een
simpelere interpretatie toe.

-ocr page 317-

311

Latente budget analyse en onderzoek naar schoolloopbanen
Effect van TIB-score

Effect Sociaal Milieu

0.4-
0,2-
0.0

budget 3

—budget 2

budget 1

O

Fig. 3. Hoofdeffecten voor model A, F, C in Tabel 5. Horizontaal zijn de categorieën van elk van dc
verklarende variabelen uitgezet, en verticaal de kansen om naar elk van de latente budgetten te gaan.

-ocr page 318-

312 P.G.M. van der Heijden en L.J.Th. van der Kamp

NOOT

1. Themanummer longitudinaal onderzoek van schoolloopbanen, TOR, 1990, nr. 1 en Themanummer Mul-
ülevelanalyse, TOR. 1991 of 1992.

LITERATUUR

Clogg, C.C. (1981) Latent structure models of mobility. American Journal of Sociology, 86, 836-868.

de Leeuw, J. en van der Heijden, P.G.M. (1988). The analysis of time-budgets with a latent time-budget
model. In: E. Diday et al. (Eds.),
Data analysis and informaties 5, Amsterdam: North Holland, p. 159-
166.

de Leeuw, J., en van der Heijden, P.G.M. (1991). Reduced rank models for contingency tables. Biometrika,
78,
239-232.

de Leeuw, J., van der Heijden, P.G.M., en Verboon, P. (1990). A latent time budget model. Statistica
Neerlandica,
44, 1-22.

Gilula, Z. (1979). Singular value decomposition of probability maü-ices: probabilistic aspects of latent
dichotomous variables.
Biometrika, 66, 339-344.

Gilula, Z. (1983). Latent conditional independence in two-way contingency tables: a diagnostic approach.
British Journal of Mathematical and Statistical Psychology, 36, 114-122.

Gilula, Z. (1984). On some similariües between canonical correlation models and latent class models for
two-way contingency tables.
Biometrika, 71, 523-529.

Good,I.J. (1969). Some applications of the singular decomposition of a mau-ix. Technometrics, 77,823-831.

Goodman, L.A. (1987). New methods for analyzing the intrinsic character of qualitative variables using
cross-classified data.
American Journal of Sociology, 93, 529-583.

Grover, R. (1987). Estimation and use of standard errors of latent class model parameters. Journal of Mar-
keting Research, 24,
298-304.

Grover, R. en Srinivasan, V. (1987). A simultaneous approach to market segmentation and to market
structuring.
Journal of Marketing Research, 24, 139-153.

Haberman, S.J. (1979). Analysis of qualitative data (2 vols.). New York: Academic Press.

Hagenaars, J.A. (1990). Categorical longitudinal data. Log-linear, panel, trend and cohort analysis. London:
Sage.

Luijkx, R. (1987). Loglinear modelling with latent variables: the case of mobility tables. In: W.Saris en
I.Gallhofer (Eds.)
Sociometrics Research: Vol.2. London: MacMillan.

Marsden, P.V. (1985). Latent structure models for relationally defined social classes. American Journal of
Sociology. 90.
1002-1021.

McCutcheon, A.L. (1987). Latent class analysis. Beveriy Hills: Sage.

Meester, A. en de Leeuw, J. (1983). Intelligentie, sociaal milieu en de schoolloopbaan. Leiden: Vakgroep
Datatheoric.

Meester, A. en de Leeuw, J. (1985). De regressie van intelligentiescores op schoolloopbaanvariabelen onder
constanthouding van sociale achtergrond en geslacht.
Tijdschrift voor Onderwijsresearch. 10. 2-20.

van de Pol, F. en R. Langeheine (1990). Mixed Markov latent class models: From description towards
explanation. In: C.C. Clogg (Ed.)
Sociological methodology 1990. Oxford: Blackwell.

van der Heijden, P.G.M., Mooijaart, A. en de Leeuw, J. (1989). Latent budget analysis. In: A. Decarli, B.J.
Francis, R.Gilchrist en G.U.H.Seebcr (Eds.).
Statistical Modelling. Proceedings. Trento, 1989. Beriin,
Springer Verlag.

van der Heijden, P.G.M., Mooijaart, A. en de Leeuw, J. (1992). Constrained latent budget analysis. Utrecht:
University of Utrecht, ISOR, Series Methods, MS 90-1. Geaccepteerd door Sociological
Methodology
1992,
geëdit door P.Marsden.

ven der Heijden, P.G.M., de Leeuw, J. en Mooijaart, A. (1990). On the relation between latent class analysis
and correspondence analysis. In:
Proceedings of Fifth International Workshop on Statistical
Modelling.
Toulouse: Université Paul Sabatier.

Manuscript ontvangen 14-5-1991

Definitieve versie ontvangen 30-8-1991

-ocr page 319-

Latente budget analyse en onderzoek naar schoolloopbanen 313

APPENDIX: DE SMVO DATA

School types: l=drop out, 2=LB0, 3=MAV0, 4=HAV0, 5=VW0, 6=(M)B0. Sociaal Milieu
(SES) l=geschoolde en ongeschoolde arbeiders 2=boeren en boeren arbeiders, 3=middenstanders,
4=lagere employees, 5=middelbare employees, 6=hogere employees. TIB scores: aantal items
correct beantwoord zijn 1=1-14, 2=15-17, 3=18-20, 4=21-23, 5=24-26, 6=27-29, 7=30-33

School type

SES 1 TIB 1
2

3

4

5

6
7

Jongens
2 3 4

1

43 126 23

41 172 58

50 271 83

5
20
58
93

2 17

9 28

24 87

44 111

47 109

43 78

64 268 131

15 20 23 27 19

43 202 121 113
11 78 60 62

Meisjes
3 4 5

13
15
59
95

3 35

0 74

6 141

34 194

39 201

48 103

38 28

1

28 87 24

29 131 57
67 209 128
64 200 157

20
2

92
40

35 163 177 105

54 106
10 22


SES 2 TIB 1

2

3

4

5

6
7

8
14
18
18
13
6
4

5
10
16
23
28
19
4

1
4
19
21
21
37
12

0
0
3
8
15
15
17

1 8

0 10

3 23

9 47
16 35

11 22

5
12
26
46
39
30
10

1

0
15
14
12
20
5

1
9
12

15

16
7
2

13
18
18
25
25
4
3

SES 3 TIB 1
2

3

4

5

6
7

12
29
43
39
32
12
3

7
6
16
18
16
11
2

2
5
19
36
54
41
16

10
10
29

11
11
30
39
54
28
3

0
1
4
13
25
20
7

6
11
26
34
26
26
7

1
6
12
23
37
25
9

17
37
59
72
40
20
1

11
9
23
12
11
7
3

11

38
49

39
24

3

14 38

25 36

.30 25

12 9

SES 4 TIB 1
2

3

4

5

6
7

SES 5 TIB 1
2

3

4

3
10
12
15
9
7
2

6
9
10
17

15
24
54
39
31
11
3

20
22
42
58

6
26
40
64
54
35
5

8
24
50
97

3
7

37
56
87
49
23

3

19
44
82

4
13

0
2
15
27
44
39
26

10
29
35
61
52
39
9

4

5

37

54

55
40
17

13
21
47
52
62
33
7

29
38
56
62
48
15
4

9
9
12
11
12
6
3

15 27

26 43

37 30

45 24

23 7

3 9

7 11

35 50

71 70

1 12

4 30

33 59

55 79

14 9
30 23

25

26
60 65

39
94

13

20 79

91

-ocr page 320-

314 P.G.M. van der Heijden en L.J.Th. van der Kamp

5 11 58 70 95 95 63 11 44 89 103 101 70

6 9 39 44 71 107 40 5 17 46 117 104 47

7 4 7 9 28 57 12 2 3 28 49 70 21

Appendix (vervolg)

1

4

6

10

6

4

3

5

2

6

1

1

5

2

7

14

15

11

5

12

4

3

6

18

2

11

3

5

31

34

39

21

23

5

16

24

33

16

21

4

10

16

45

54

52

36

9

16

44

83

46

29

5

7

16

44

71

105

28

7

7

40

80

83

27

6

3

12

24

40

85

19

8

7

32

66

100

15

7

3

4

9

16

52

9

1

3

10

29

51

1

-ocr page 321-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 315-296

Boekbesprekingen

Dr. C.A.W. Glas, Contributions to Estimating and Testing Rasch-models. Dissertatie, Univer-
siteit Twente, 1989.

Sinds het einde van de zeventiger jaren bestaat in Nederland een snel gegroeide groep van
psychometrici die zich intensief en grensverleggend bezig houden met latente trek (of item-
respons) theorie en in het bijzonder met het Rasch-model, zijn varianten en zijn toepassingen.
Het is verheugend dat deze groep ook internationaal sterk de aandacht trekt (zie Hambleton en
Swaminathan, 1985, in een themanummer gewijd aan Testtheorie), en dat Paul Holland (1990)
een theorema naar Nederland heeft vernoemd:
"The Dutch Identity". Een groot aantal publica-
ties, o.a. in Psychometrika, en dissertaties getuigen van de belangrijke Nederlandse bijdragen
aan de ontwikkeling van de item-respons theorie (IRT). Het CITO, waar de auteur van het hier
besproken proefschrift sinds 1983 werkzaam is, heeft daarin een wezenlijk aandeel.

De dissertatie van Glas (gepromoveerd bij prof. W. van der Linden en Prof. A. Albers, met
Dr Verhelst als co-promotor), waarvan enkele belangrijke onderdelen al eerder waren ver-
schenen (Glas, 1988a, 1988b; Glas en Verhelst, 1989), is een der meest indrukwekkende recente
bijdragen aan de item-response theorie. (Het is verleidelijk, maar zou de strekking van deze
bespreking te buiten gaan, om hier ook andere dan die van Glas te noemen).

Het Rasch-model is een IRT-model van verbluffende eenvoud: het beschrijft de waarschijn-
lijkheid van een positieve responsie op een item als een logistische functie van het verschil
tussen een persoonsparameter ('vaardigheid') en een itemparameter ('moeilijkheid'). Het heeft
een verrassende methodologische betekenis vanwege het principe van 'specifieke objectiviteit',
dat het belichaamt. Juist wat de preciese inhoud van dit principe betreft, zijn de geleerden het
nog niet eens, en ook Glas heeft er mee geworsteld. Ik kan met zijn behandeling ervan niet
gelukkig zijn, en ik deel zeker niet zijn oordeel (p. 12) dat ook het twee-parameter model van
Bimbaum aan 'specifieke objectiviteit' zou voldoen. In ieder geval is men het er wel over eens
dat het Rasch-model toestaat uitspraken over itemmoeilijkheden te doen die onafhankelijk zijn
van de steekproef van subjecten, en omgekeerd, dat uitspraken over personen mogelijk zijn
onafhankelijk van de steekproef van items uit een universum van items. Daardoor opent het
Rasch-model belangrijke perspectieven voor, o.a., practische problemen zoals item-banking,
test-equivalering, item-bias (differental item functioning) en vergelijking van verschillende
groepen van subjecten. Deze perspectieven bestaan uiteraard slechts indien aan de eigenschap-
pen van het Rasch-model ook empirisch is voldaan, en dat roept het probleem van het schatten
van de parameters en het toetsen van 'goodness of fit' op (Het is jammer dat we nog steeds niet
beschikken over bevredigende Nederlandse termen). Glas' werk heeft daaraan fundamentele
nieuwe bijdragen geleverd. Er zijn in de loop van verscheidene decennia diverse technieken
voor het schatten en toetsen ontwikkeld, en het is gebleken dat, vooral wat de toetsing betreft, de
interpretatie van de toetsingsgrootheid niet eenduidig is: verschillende toetsen zijn gevoelig
voor verschillende aspecten van de datastructuur. Van den Wollenberg (1982) was, meen ik, de
eerste die daarop uitdrukkelijk de aandacht vestigde. In de loop der tijd zijn verscheidene
toetsen ontwikkeld, die grofweg in twee categorieën vallen: likelihood-ratio toetsen, en Pearson
X^-achtige toetsen. Binnen deze laatste zijn te onderscheiden: (1) toetsen gebaseerd op de
frequentie van positieve responsies op een item,
i, bij subjecten met een ruwe score r, en (2) toetsen
gebaseerd op de frequentie van positieve responsies op twee items,
i en j, bij subjecten met een
rawe score
r. Van de steekproefverdeling van deze toetsen was niet al te veel bekend, en dat
kwam ook omdat de eigenschappen van deze toetsen mede afhangen van de wijze waarop de
parameters worden geschat. Voor die parameterschatting bestaan verschillende methoden. Het
meest direct aansluitend op de eigenschappen van het Rasch-model is de Conditionele Maxi-
mum Likelihood schatting (CML). Daamaast bestaat de Unconditional ML schatting, en vooral
sinds de ontwikkeling van het EM-algorithme, de Marginale ML schatting (MML). Deze laatste

-ocr page 322-

316 Boekbesprekingen

metbode heeft aantrekkelijke statistische eigenschappen, mits men bereid is de prijs te betalen,
namelijk dat men de verdeling van persoonsparameters van tevoren specificeert.

De UML schattingsmethode buiten beschouwing latend, zijn er dus vier toetsingsgevallen.
Daarvoor heeft Glas de theorie ontwikkeld en hij heeft die uitgebreid voor incomplete data-
structuren en voor gevallen waarin aan de itemparameters lineaire restricties worden opgelegd.
Het zou te zeer in technische details voeren om daarop hier uitvoerig in te gaan. Glas laat zien
dat zowel bij CML schatting als bij MML schatting sprake is van een multinomiaal model waar
de elementaire gebeurtenis het responsie patroon van het subject is. Het kernstuk is een theorema
dat de constructie van de toetsingsgrootheid herleidt tot de constructie van een asymptotisch y}-
verdeelde grootheid, waarbij gebruik gemaakt wordt van een contrastmatrix die aan de toet-
singsdoelstelling kan worden aangepast. Aldus ontstaan in eerste instantie vier toetsingsgroot-
heden: Rj^, Rjp, Rjj^ en Rjjy, resp. voor conditionele en marginale schatting, en voor de geval-
len (1): items, en (2): itemparen, als eerder genoemd. Voor de MML-schatting levert Glas
bovendien een toets,
Rq, die met name alleen gevoelig blijkt te zijn voor de verdelingsassumptie,
en niet voor de item-fh. Op basis van dezelfde principes kunnen andere toetsingsgrootheden
worden geconstrueerd die gevoelig zijn voor specifieke modelschendingen.

Tot zover zou men al heel gelukkig mogen zijn. Oudere, verwante, toetsen van Van den
Wollenberg (1982) en van Martin-Löf zijn hiermee achterhaald. Glas is echter verder gegaan en
demonstreert de toepassingsmogelijkheden en uitbreidingen voor speciale data-designs, met
name die welke zich voordoen in equivaleringsdesigns. In zulke designs krijgen verschillende
(al dan niet overlappende) groepen subjecten verschillende (al dan niet overlappende) groepen
items, mits het design in zijn totaliteit 'verbonden' is. Een voorbeeld is een design waarbij twee
geheel verschillende studietoetsen bestemd voor geheel verschilende groepen leerlingen wor-
den verbonden door middel van verscheidene andere groepen leerlingen die van beide toetsen
een deel der items maken. Dat daarmee practische problemen niet altijd kunnen worden opgelost,
blijkt uit het feit dat - in het voorbeeld dat Glas geeft - niet sprake bleek te zijn van een Rasch-
homogene verzameling items, maar twee deelverzamelingen moesten worden onderscheiden.

Vervolgens heeft Glas de R-toetsen ook uitgewerkt ter toetsing van een vorm van het poly-
tome Rasch-model, namelijk het Partial Credit Model (PCM) van Masters. Het PCM model is
toepasbaar op items waarvan de oplossing uit meerdere stappen bestaat, die elk hun eigen
moeilijkheid hebben. De scoring per item betreft het aantal correct uitgevoerde stappen. Ten
onrechte suggereert Glas dat het daarbij om het unidimensionele polytome Rasch-model in zijn
algemeenheid zou gaan, en dat het zou gaan om hetzelfde model dat Andersen (1977) heeft
afgeleid. Het PCM is echter een bijzonder geval (cf. Jansen en Roskam, 1986), en Andersen's
model betreft uitsluitend de statistische condities voor equidistante scoring van antwoordcate-
gorieën. Evenals bij de andere toepassingen, biedt Glas ook voor het PCM de nadere uitwerking
van de R-toetsen voor incomplete datastmcturen en voor lineaire restricties op de itempara-
meters. Daarbij blijkt de interessante mogelijkheid dat lineaire restricties toestaan de para-
meters te schatten en het model te toetsen ook indien het design niet 'verbonden' is.

Daarop aansluitend bespreekt Glas de toepassingen in een 'multistage' datadesign, waarin
een tweede of volgende toets 'naar maat' is afgestemd op de prestatie op een eerste, 'routing',
toets. 'Tailored testing' is daarvan een grensgeval. De gangbare CML parameterschatting kan
daarop niet worden toegepast, maar met MML lukt het wel.

Tenslotte komen de mogelijkheden aan de orde om itemverzamelingen te onderzoeken die
niet Rasch-homogeen zijn, maar waar sprake zou kunnen zijn van subsets van items die appel-
leren aan verschillende latente trekken.

Glas spreidt een zekere voorliefde voor de MML schattingsmethode ten toon. In tegenstel-
ling tot de CML schattingsmethode, kan MML ook de informatie benutten die bij de CML
methode wordt 'weggeconditioneerd'. MML schatters zijn dan ook betrouwbaarder. Bovendien
kan de MML schatting oplossingen geven in gevallen waarin CML schatters niet geïdentificeerd
zijn. Tenslotte wijst Glas er op dat MML het vrij eenvoudig mogelijk maakt om vaardigheids-
niveaus van populaties te vergelijken, of veranderingen (groei) binnen een populatie te toetsen.
Het bezwaar dat men per groep of populatie een normale verdeling moet aannemen (er bestaan

-ocr page 323-

Boekbesprekingen 317

geen bevredigende schattingsmethoden voor andere verdelingen) acht Glas niet ernstig, en hij
claimt dat deze aanname zelden geschonden blijkt te worden. Zijn beroep op de centrale limiet
stelling ter rechtvaardiging van de aanname van normale verdelingen lijkt echter nogal wille-
keurig: volgens Glas zou dan vrijwel alles normaal verdeeld moeten zijn, en we weten dat dat
niet zo is. Bovendien kan men zich afvragen of in geselecteerde populaties (denk aan de hogere
klassen van het onderwijs) niet juist sprake zou kunnen zijn van scheve verdelingen. Tenslotte:
er bestaat nog steeds discussie over het schaalniveau van de parameters in het Rasch-model, en
als - zoals o.a. ikzelf meen - hoogstens sprake is van een ordinale schaal, dan is elke verdeling-
saanname uit de lucht gegrepen. Het feit dat empirisch aan de aanname van normale verdelin-
gen redelijk lijkt te zijn voldaan, roept natuurlijk de vraag op naar de power van de betreffende
toets. Daarover is nog erg weinig bekend.

Glas' dissertatie is een zeer gedegen, zeer statistisch-technische verhandeling. Wie vooral
geïnteresseerd is in toepassingen, kan er weliswaar verscheidenene goede voorbeelden vinden,
maar zal zich dan toch eerst door heel veel statistische afleidingen hebben moeten worstelen.
Anders gezegd: een boek voor de statistici. Zelfs die zullen er nog moeite mee hebben, ook al is
de notatie en de typografie van de zeer vele formules bewonderenswaardig duidelijk (dat kan
niet altijd gezegd worden van de algemene layout van de tekst, die soms een rommelig beeld
geeft).

Het is te hopen dat de door Glas ontwikkelde theorie en toetsen weldra beschikbaar komen in
een goed en eenvoudig gedocumenteerd computerprogramma', dat de gebruiker ook adequaat
inzicht verschaft in de mogelijkheden (en beperkingen) die de R-toetsen bieden.

Edw.E. Roskam

Vakgroep Mathematische Psychologie

Universiteit Nijmegen

noot

1- Naar verwachting zal het Interuniversitair Expertise Cenü-um ProGAMMA binnenkort een Rasch Schaal
Programma uitbrengen waarin o.m. de R-toelscn zijn opgenomen.

literatuur

Hambleton, R.K., & Swaminathan, H. (1985). A look al psychomcuics in the Netherlands. Nederlands

Tijdschrift voor de Psychologie, 40. 446-451.
Holland, P.W. (1990). The Dutch Identity: A new tool for the study of item response models.
Psychometrika,

Glas, C.A^W. (1988a). The derivation of some tests for the Rasch-modcl from the multinomial distribution.

Psychometrika, 53, 525-546. . . . ,, _

Glas, C.A.W. (1988b). The Rasch model and multistage testmg. Journal of Educational Statistics, 13, 45-

Glas, C A^W & Verhelst N D. (1989). Extensions of the partial credit model. Psychometrika, 54,635-660.
Wollenberg A L
van dcn'( 1982). Two new lest statistics for the Rasch-model./'jyc/iome/n^a, 47, 123-140.
Jansen, P.g!w., & Roskam, Edw.E. (1986). Latent trait models and dichotomization of graded responses.
Psychometrika, 51, 69-91.

-ocr page 324-

318 Boekbesprekingen

L.H.C.Tan Hsi Ch'un. Tekorten in de opleiding van huisartsen. Ziektebeelden en medisch-tech-
nische vaardigheden.
Dissertatie Universiteit van Amsterdam, 1989. ISBN 90-9002-701-7.

Lange tijd werd de universitaire opleiding tot arts een voldoende vooropleiding bevonden voor
de uitoefening van het huisartsenberoep. Sinds 1974 is echter de opleiding tot huisarts in Neder-
land één van de verplichte vervolgopleidingen na de zesjarige universitaire basisartsopleiding
geworden, vergelijkbaar met de opleidingen tot medisch specialist of sociaal-geneeskundige.
Deze beroepsopleiding tot huisarts, die momenteel twee jaar duurt, vormt een combinatie van
individueel pr^ijkonderwijs bij een ervaren huisarts en aanvullend groepsonderwijs op het
opleidingsinstituut. De opleiding staat onder verantwoordelijkheid van het College voor Huis-
artsgeneeskunde en kan gevolgd worden aan één van de acht universitaire instituten voor
Huisartsgeneeskunde.

Ofschoon het werkterrein van de huisarts nagenoeg de volle breedte van de geneeskunde
bestrijkt, behoort diens opleiding tot de kortste. Bepaling van het minimaal noodzakelijk geach-
te en feitelijk gerealiseerde onderwijsaanbod tijdens deze opleiding is alleen al daarom voor
deze medische beroepsgroep van vitale betekenis.

Dit vormde de motivering voor het hier besproken promotie-onderzoek van de sociologe
Lisa Tan. Over de onderzoekster het volgende. Na zeven jaar werkzaam te zijn geweest bij het
Centrum voor Onderzoek van het Wetenschappelijk Onderwijs van de Universiteit van Amster-
dam, werd zij in 1974 verbonden aan het Instituut voor Huisartsgeneeskunde van dezelfde
universiteit. Sinds 1987 is zij in een coördinerende functie werkzaam bij het uitvoerend bureau
van het landelijk samenwerkingsverband van het interfacultair overleg Huisartsgeneeskunde,
dat belast is met de ontwikkeling en invoering van een landelijk evaluarie-systeem voor de
beroepsopleiding tot huisarts.

Het onderzoek

Door de in 1974 gecreëerde nieuwe opleiding voor huisartsen dienden in ieder geval de tekort-
komingen van de opleiding van vóór die tijd gecompenseerd te worden; tekortkomingen die
overigens nooit door empirisch onderzoek precies waren vastgesteld. Het in het proefschrift
beschreven onderzoek, waarin is getracht na te gaan of de opleiding aan aanstaande huisartsen
voldoende gelegenheid biedt om met klachten en problemen die in de huisartsgeneeskunde van
belang zijn, in aanraking te komen, diende dan ook allereerst de eindtermen van deze opleiding
te verduidelijken.

Voor een overzicht van de voor de huisartsgeneeskunde relevante ziektebeelden, kon ten
tijde van het onderzoek beschikt worden over een toen net gereed gekomen document "Kenmer-
ken van de huisarts", dat 728 onderwerpen bevatte. Voor de inventarisatie van de noodzakelijk
te beheersen huisartsgeneeskundige handelingen werd uitgegaan van een in Groningen voor dit
doel ontwikkelde lijst van in totaal 345 items.

Door een panel van 102 huisarts-experts - allen stafleden van universitaire huisartsen-insti-
tuten - werd aangegeven welke onderwerpen daarvan naar hun oordeel aan de orde dienen te
komen in de artsopleiding ("basisarts-item") en welke daamaast ook nog in de beroepsopleiding
("huisarts-item"). Voor selecde van een item in het definitieve overzicht werd een criterium van
tenminste 80% consensus in het panel gehanteerd. De validiteit en de intra-expert betrouwbaar-
heid van deze panellijsten werden marginaal nagegaan.

De aldus ontstane overzichten werden beschouwd als een antwoord op de eerste hoofdvraag-
stelling van het onderzoek: welke ziektebeelden en vaardigheden behoren, vanuit huisartsge-
neeskundig oogpunt, een plaats te hebben in de artsopleiding en/of in de beroepsopleiding tot
huisarts.

In het tweede deel van het onderzoek komt de vraag aan de orde of huisaftsen-in-opleiding
tijdens die opleiding ook daadwerkelijk met deze onderwerpen geconfronteerd worden. Met
behulp van de resultaten van de genoemde consensus-procedure werden checklijsten met het
noodzakelijk geacht onderwijsaanbod geconstrueerd. Door huisartsen-in-opleiding op deze lijs-
ten hun eigen opleidingservaringen in te laten vullen, kon een representatief en gedetailleerd

-ocr page 325-

Boekbesprekingen 319

antwoord op de tweede vraagstelling worden verkregen. Daarnaast werd aan alle deelnemers
van ieder item een schatting van de scholingsbehoefte gevraagd. Helaas konden de responden-
ten in het onderzoek alleen de aan- of afwezigheid van een bepaald onderwijsaanbod aangeven,
en niet de frequentie of intensiteit ervan. Van deze checklijsten werden de (test-hertest) be-
trouwbaarheid en de (inhouds- en begrips)validiteit exphciet nagegaan en met name voor wat
betreft de leerervaringen acceptabel bevonden.

De checklijsten werden voorgelegd aan 627 beginnende huisartsen-in-opleiding uit de be-
roepsopleidmgen van zeven huisartseninstituten. Aan deze groep werd gevraagd de lijsten vóór
het begin van hun huisartsopleiding in te vullen. Bij 118 huisartsen-in-opleiding, afkomstig uit
4 univershaire instituten, was het mogelijk dezelfde gegevens nogmaals te verkrijgen, maar nu
aan het einde van hun beroepsopleiding.

Effectmeting van het eindproduct van de huisarts-opleiding vond niet plaats, zodat volstaan
moest worden met de genoemde oordelen over het ontvangen onderwijsaanbod en over de
ervaren scholingsbehoefte.

Bevindingen

De resultaten van het onderzoek maakten het mogehjk de door de huisartsen-in-opleiding erva-
ren opleidingstekorten gedetailleerd te beschrijven. Een belangrijke conclusie uit de resultaten
van de meting aan het begin van de beroepsopleiding was, dat met betrekking tot de voor de
huisarts relevante ziektebeelden de tekorten zich overwegend voordeden op het gebied van het
praktisch onderwijsaanbod. In ongeveer de helft van de gevallen was er sprake van weinig
mogelijkheid tot het zelf uitvoeren van relevant geachte medisch-technische vaardigheden.
Ofschoon het strikt genomen niet mogelijk is deze bevindingen toe te schrijven aan de ontoe-
reikendheid van de vooraf gevolgde basisartsopleiding (voor vrijwel geen beginnende huisarts-
in-opleiding sluit de huisartsopleiding immers rechtstreeks aan op de initiële artsopleiding),
geeft de onderzoekster wel enige indirecte evidentie voor de conclusie, dat dit wel degelijk het
geval is.

Te denken geeft de bevinding, dat naar het oordeel van de geraadpleegde huisarts-experts
voor tweederde van de ziektebeelden onderwijs na de basisopleiding niet verder noodzakelijk
wordt geacht. Voor de medische handelingen geldt dit slechts voor minder dan een kwart.
Klaarblijkelijk ziet deze groep de medische basisopleiding als een vooral theoretische opleiding
en de beroepsopleiding als vooral praktisch. Een moeilijk te interpreteren bevinding als men
zich realiseert, dat aan het basisartsdiploma juridisch de volledige bevoegdheid tot uitoefening
van de geneeskunst in volle omvang is gekoppeld.

Een andere bevinding was, dat uit de gegevens van de ervaren scholingsbehoefte bleek, dat
aan het begin van de beroepsopleiding gemiddeld bij meer dan de helft van de ziektebeelden
meer of minder scholingsbehoefte werd aangegeven, met name op het gebied van behandeling
en beleid. Op het gebied van de medisch-technische vaardigheden betrof de scholingsbehoefte
gemiddeld een kwart van de vaardigheden. Aan het einde van de beroepsopleiding bleek de
scholingsbehoefte over de gehele lijn te zijn gedaald.

Indien de gegevens over het onderwijsaanbod vergeleken worden met de gevoelde nascho-
lingsbehoefte, dan komt men tot de enigszins onverwachte bevinding, dat frequent voorkomen-
de ziektebeelden, bijvoorbeeld op het gebied van hart- en vaatziekten en van het zenuwstelsel,
vaak in het onderwijsaanbod aanwezig blijken te zijn, maar ondanks dat geven de aanstaande
huisartsen een grote nascholingsbehoefte op deze terreinen aan. Andere ziektebeelden, bijvoorbeeld
infecrieziekten, worden tijdens de opleiding relatief weinig gezien, maar roepen ook weinig
nascholingsbehoefte op. Het proefschrift bevat meer van dergelijke, de nieuwsgierigheid prik-
kelende gegevens. Voor een groot deel moet men echter als lezer actief op zoek naar verbanden
tussen die gegevens; of naar het ontbreken ervan.

Enkele kanttekeningen

Deze constatering leidt tot een enkele kritische kanttekening. De bevindingen blijven vaak
hangen in opsommingen van details, zonder dat gepoogd wordt de gegevens te interpreteren of
in onderling verband te brengen.

-ocr page 326-

320 Boekbesprekingen

Het proefschrift biedt zeer vele details, waar direct bij het onderwijs betrokkenen iets aan
kunnen hebben. De gedetailleerde beschrijving van het noodzakelijk onderwijsaanbod kan zo-
wel voor opleiders als studenten/huisartsen-in-opleiding een ondersteuning zijn bij de structurering
van het onderwijs en de leerervaringen. De beperkte betrouwbaarheid van de gegevens over de
scholingsbehoefte maakt het helaas niet mogelijk om op wat langere termijn daarop een gefundeeerd
nascholingsaanbod te baseren. Misschien moet dat ook niet op die manier, maar veeleer op basis
van geconstateerde tekortkomingen in kennis en kunde. Zoals gezegd, bevat de studie echter
nauwelijks verwijzingen naar meer directe metingen van het kennis- en competentieniveau.

Binnen de bestaande beperkingen, zoals een wat verouderd databestand bij snelle verande-
ringen in het vakgebied (een vaker voorkomend euvel bij 'grote' proefschriften), betreft het een
goed opgezet en concies uitgevoerd onderzoek. Daar staan de promotoren (De Groot, Mellenbergh
en Van Es) ook wel borg voor. Het is een goed voorbeeld van een poging tot structurering van
gecompliceerd praktijk-onderwijs. Vanuit medisch standpunt is dat in ieder geval een zeldzaam
precedent dat navolging verdient.

Een belangrijke conclusie van het onderzoek is, dat de norm dat elke huisarts-in-opleiding
aan het einde van de opleiding met alle vereiste onderwerpen moet zijn geconfronteerd, niet
haalbaar is gebleken. De onderzoekster wijt dat aan het opleidingstype, waarin de praktijkerva-
ring in belangrijke mate wordt overgelaten aan in zekere zin toevallige gelegenheden tijdens de
co-assistentschappen in de basisopleiding en de praktijksituatie in de beroepsopleiding. Dit
maakt niet alleen de onderwijskundig geïnteresseerde lezer nieuwsgierig naar de vraag op welke
wijze de opleiding van de verschillende typen artsen in onze samenleving kan worden verbeterd.
Of werden de normen te hoog gesteld?

Dr J.C.M.Metz

Faculteit der Medische Wetenschappen
KU Nijmegen
Postbus 9101
6500HB Nijmegen

-ocr page 327-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 321-296

Hoe beïnvloedt praktijkervaring diagnostisch
probleemoplossen in het onderwijs?

T.H. Kruizenga en A.G. Bus^

Rijksuniversiteit Groningen en Rijksuniversiteit Leiden

abstract

The present study examines how diagnostic problem-solving in the field of education varies with
experience. The subjects were ten advanced practitioners and ten beginning practitioners. Each
diagnostician analysed two cases of reading and spelling problems, one considered to be more
complex than the other. The process of analysis was recorded in the form of a thinking-aloud
protocol. The protocols were divided into segments, each of which was categorised as one of the
following diagnostic processes: enquiring, hypothesizing, diagnosing, recommending, referring to
experience, and paraphrasing. The study showed differences in the frequency with which the diagnostic
processes were used by beginning and advanced practitioners. Some differences, across level of
experience, were noted in the sequences of processes used during diagnosis. Explanations for these
partly unexpected results are discussed.

INLEIDING

Eén van de doelen van het onderzoeksproject 'Diagnostiek in het Onderwijs' is te achterhalen
welke kennis en vaardigheden deskundigen moeten ontwikkelen teneinde in staat te zijn infor-
matie over een probleemleerling te synthetiseren tot een consistente visie en op basis daarvan
advies te geven. Om hierin enig inzicht te krijgen is in deze exploratieve studie de aanpak van
ervaren en onervaren diagnostici vergeleken. Uit analoge studies in andere domeinen is geble-
ken dat ervaren probleemoplossers efficiënter en doelgerichter toewerken naar een oplossing
(zie ondermeer Larkin, McDermoü, Simon, & Simon, 1980; Schmidt, 1990), omdat hun kennis
beter is georganiseerd en gestructureerd (De Groot, 1965). In deze studie is nagegaan in hoeverre
dergelijke effecten ook optreden bij diagnostici in het onderwijs.

In ons onderzoek gaan we uit van een procesgerichte benadering waarbij geprobeerd wordt te
beschrijven welke processen plaatshebben wanneer subjecten een oordeel vormen, beslissingen
nemen of een probleem oplossen. Het menselijk denken en probleemoplossen wordt gezien als
een serie operaties die verbaal of in de vorm van een computerprogramma kan worden gere-
presenteerd. Elstein, Shulman en Sprafka (1978) onderscheiden deze benadering van zogenaamde
"black box invesdgations" waarbij wordt geprobeerd om de diagnostische processen in een
mathematisch model te gieten door bestudering van input-output relaties. Exemplarisch voor
deze invalshoek zijn studies naar klinisch versus statistisch redeneren, het lensmodel en het
beslissingsmodel (zie voor een uitgebreide toelichting op deze benaderingen o.a. De Bruyn,
1988).

We gaan ervan uit dat analoog aan het probleemoplossen op andere terreinen processen als
observatie, inductie, deductie, toetsing en evaluatie plaatshebben (De Groot, 1961; Elstein et al,
1978). Om enig inzicht te krijgen in het effect van ervaring is in de eerste plaats nagegaan of
verschillen optreden in de aard en frequentie van deze processen. Conform bevindingen op
aanverwante terreinen lijkt het plausibel dat ervaren diagnostici minder diagnostische processen
hoeven uit te voeren om tot een oordeel te komen. Wanneer, zoals uit onderzoek in de medische
sector naar voren komt, ervaren artsen kennis hebben geïntegreerd tot patronen die hen in staat

' A.G. Bus, Vakgroep Onderwijsstudies, RU Leiden, Postbus 9555, 2300 RB Leiden.

-ocr page 328-

322 T.H. Kniizenga en A.G. Bus

stellen om problemen sneller te herkennen, neemt de hoeveelheid in te winnen informatie af en
komen conclusies en adviezen sneller tot stand. Uit onderzoek van Boshuizen (1989) en van
Patel, Groen en Frederiksen (1986) komt naar voren dat ervaren artsen selectiever te werk gaan
bij het oplossen van medische problemen. Uit een grote hoeveelheid informatie weten ze moeiteloos
relevante gegevens te selecteren. Studenten daarentegen moeten op geleerde routines terugval-
len om fouten te voorkomen. Beginnende artsen, bijvoorbeeld, maken bij alle patienten gebmik
van een standaardanamnese, los van de vraag of deze procedure zinnige informatie oplevert
(Gerritsma & Smal, 1979).

In de tweede plaats is nagegaan of onder invloed van praktijkervaring verschillen optreden in
het verloop van het diagnostisch proces. Volgens prescriptieve modellen start het diagnostisch
probleemoplossen met een analyse van de klacht die vervolgens uitmondt in een aantal hypothesen
die aan de hand van nieuwe informatie worden getoetst (De Bruyn, 1989). We verwachten dat
ervaren diagnostici, evenals ervaren artsen, sneller tot de kem van het probleem doordringen en
een minder lange exploratie van de problemen nodig hebben om verklaringen te vinden (Elstein
et al, 1978). Vermoedelijk is de ervaren diagnosticus beter in staat om, hetzij op basis van
vroegere ervaringen, hetzij op basis van het vermogen vooruit te kijken, de kortste weg naar zijn
doel te kiezen (Clavelle & Turner, 1980).

In de derde plaats is de samenhang tussen de afzonderlijke diagnostische processen geëxploreerd.
Als het proces een efficiënter en doelgerichter verloop taijgt is te verwachten dat dit van invloed
is op de sequenties van de afzonderlijke diagnostische processen. Uit onderzoek in de medische
sector komt naar voren dat ervaren artsen meer geneigd zijn om informatie op basis van hypo-
thesen in te winnen (Elstein, Shulman, & Sprafka, 1990). We verwachten dan ook dat leerling-
begeleiders meer dan studenten geneigd zijn om alleen informatie in te winnen als daarvoor een
reden bestaat. Het lijkt ook plausibel dat ervaring ertoe leidt dat de diagnosticus beter in staat is
te voorspellen welke informade relevant is, waardoor minder informatie ongeïnterpreteerd blijft.
Dit zou betekenen dat bij ervaren beoordelaars de relatie tussen processen als informeren en
diagnoses stellen sterker is. Uit een eerdere studie met uitsluitend ervaren beoordelaars (Bus &
Kniizenga, 1989) bleek dat informatie veeleer routinematig dan doelgericht wordt ingewonnen
en dat veel informatie ongeïnterpreteerd blijft. Als deze bevindingen in dit onderzoek worden
gerepliceerd, is niet aannemelijk dat leeriingbegeleiders zich gunstig onderscheiden van studenten.

Om een indruk te krijgen van de plannen, intenties en denkprocessen tijdens het probleem-
oplossen kozen we voor simulaties van realistische situades waarover beoordelaars hardop
nadachten. Onderzoek van Elstein et al. (1978) heeft aangetoond dat het mogelijk is op deze
wijze serieus onderzoek te doen naar echte problemen. Talloze studies (zie voor een overzicht
Ericsson & Simon, 1984) hebben uitgewezen dat de geverbaliseerde regels, concepten en hy-
pothesen consistent zijn met het onmiddellijk daaraan voorafgaande en erop volgende gedrag.

Omdat het verloop van het diagnostisch proces mede afhangt van het probleem (Kassirer &
Gorry, 1978), werden steeds twee gevallen voorgelegd, waarvan het een naar ons oordeel
complexer is dan het ander. Beide leerlingen zijn representatief voor een probleemgroep die
doorgaans bij advies- en begeleidingsdiensten wordt aangemeld, maar in het éne geval refereert
het probleem duidelijker aan omschrijvingen van specifieke lees- en spellingsproblemen dan in
het andere geval. De verwachting is dat een minder omslachtige procedure nodig is naarmate
problemen herkenbaarder zijn en deskundigen meer ervaring hebben. We verwachten dan ook
dat het contrast tussen meer en minder ervaren beoordelaars het sterkst is bij het probleem dat
het duidelijkst refereert aan definides van specifieke lees- en spellingsproblemen.

METHODE

Proefpersonen

Gezien het tijdrovende karakter van de procedure waren we genoodzaakt het onderzoek te
beperken tot twee kleine groepen deskundigen (vgl. Butcher & Scofield, 1984). Alle participanten
volgden hun opleiding tot onderwijskundige aan dezelfde universiteit. Ze volgden ondermeer

-ocr page 329-

Praktijkervaring en diagnostisch probleemoplossen 323

Tabel 1. Enige kenmerken van de leerlingbegeleiders en studenten.

Leerlingbegeleiders

Studenten

Sexe

5V/5M

6V/4M

Leeftijd

37.0 (7.8)

23.9 (2.0)

Ervaring (in jaren)

8.3 (5.6)

0.0 (0.0)

cursussen over aard en oorzaken van stagnaties in leerprocessen, over diagnostische instrumenten
en over de procedure van diagnostiseren. In totaal werd aan deze studieonderdelen ongeveer een
jaar besteed. De tien studenten hadden ten tijde van het onderzoek het theoretisch deel van de
opleiding afgerond maar ze hadden nog weinig praktijkervaring opgedaan in de vorm van een
stage. Wel had elke student onder begeleiding van een docent een geval gediagnostiseerd en de
besprekingen over een viertal andere gevallen bijgewoond. We vergeleken deze groep met tien
deskundigen die bestond uit leerlingbegeleiders met meerdere jaren ervaring. Uit een bestaande
dataset (Bus & Kruizenga, 1989), selecteerden-we de protocollen van zes proefpersonen die
dezelfde opleiding hadden gevolgd als de studenten en die tenminste twee jaar ervaring hadden
met leeriingbegeleiding. Deze groep is uitgebreid met vier leeriingbegeleiders met eenzelfde
opleiding en eveneens tenminste twee jaar ervaring. Tabel 1 geeft informatie over leeftijd, sexe
en aantal jaren ervaring.

Procedure

In het onderzoek maakten we gebruik van gegevens over twee leerlingen uit de onderbouw van
een basisschool die zijn aangemeld met hardnekkige lees- en spellingsproblemen. De twee
gevallen zijn in aparte sessies aan de participanten voorgelegd waarbij de volgorde van de
gevallen binnen de twee groepen systematisch is gevarieerd. De beoordelaars kregen eerst een
gevalsbeschrijving met gegevens die gewoonlijk in een aanmeldingsformulier staan dat leerkrachten
invullen, wanneer ze een leerling voor onderzoek bij een begeleidingsdienst aanmelden. Daar-
naast waren veel test- en observatiegegevens beschikbaar. Deze hadden betrekking op schoolse
vaardigheden (diverse lees-, spelling- en rekentests), op de sociaal-emotionele ontwikkeling
(PMTK, gedragsobservaties, etc.) en op de cognitieve ontwikkeling (WISC-R, Taaltests voor
Kinderen, etc.). De gegevens werden alleen dan verstrekt, wanneer naar een bepaalde test of
observatie werd gevraagd. Wanneer het gevraagde niet voorhanden was, gaf de proefleider zo
mogelijk iets daarmee vergelijkbaars. De proefpersonen werden geïnstrueerd hardop na te denken
over de informatie die ze inwonnen. Telkens als een stilte viel werden ze opnieuw gestimuleerd
om hardop te denken. Op deze manier kwamen voor de beide leerlingen 20 hardop-denk-
protocollen
tot stand.

Materialen

De gegevens over de gevallen zijn ontleend aan het diagnostisch onderzoek bij twee bestaande
probleemleerlingen. In het éne geval gaat het om een normaal intelligente leeriing. Jaap Jan, en
in het andere geval om een zwakbegaafde leeriing, Gerrit. De problematiek van Jaap Jan refereert
meer dan die van Gerrit aan beschrijvingen van specifieke lees- en spellingsproblemen en is
daarom beschouwd als het minst complexe geval. In Appendix 1 is een korte beschrijving van
de twee gevallen opgenomen. Beide leeriingen zijn uitgebreid getest dooreen ervaren diagnosticus
die tevens gedetailleerde verslagen maakte van observaties tijdens het onderzoek en van gesprekken
"iet de ouders en de leerkracht. Alle informatie was beschikbaar en kon worden opgevraagd
door de beoordelaars tijdens het diagnostisch proces.

-ocr page 330-

324 T.H. Kniizenga en A.G. Bus

Scoring van het materiaal

Nadat de hardop-denk-protocollen letterlijk waren uitgetypt is het materiaal verdeeld in uitspraken
die grammaticaal of semantisch als eenheden kunnen worden opgevat (Ericsson & Simon,
1984). De overeenkomst tussen twee onafhankelijke codeurs bij het indelen van de protocollen
in uitspraken was 93%. Vervolgens werd een categorieënsysteem ontwikkeld dat inzicht kan
geven in de mate waarin processen als observatie, inductie, deductie, toetsing en evaluatie
plaatshebben. Na inspectie van een aantal protocollen is een zestal categorieën onderscheiden
die weliswaar zo dicht mogelijk liggen bij het geobserveerde gedrag maar in potentie inzicht
kunnen geven in de processen die successievelijk worden uitgevoerd. Met het oog op de statis-
tische analyses was het zaak het aantal categorieën zo beperkt mogelijk fe houden. Tegelijker-
tijd diende te worden vermeden dat zeer uiteenlopende processen binnen één categorie zouden
vallen. Deze overwegingen resulteerden uiteindelijk in zes diagnostische processen, namelijk:

Hypothesen vormen: het opwerpen van vragen of het uitspreken van verwachtingen over de
aard of de oorzaak van het probleem.
Voorbeeld: "De vraag is of Gerrit radend of spellend leest."

Informeren: het vragen naar onderzoeksgegevens.
Voorbeeld: "Ik wil nu graag het woorddictee zien."

Parafraseren: het reproduceren of beoordelen van onderzoeksgegevens.
Voorbeeld: "Auditieve woorddiscriminatie uit de Taaltests voor Kinderen is beneden het ge-
middelde."

Diagnoses stellen: het combineren van onderzoeksgegevens met als doel te komen tot een
verklaring voor het probleem.

Voorbeeld: "De problemen zijn niet ontstaan, omdat Gerrit een hekel heeft aan school of omdat
de motivatie niet goed is."

Refereren aan ervaring: het teruggrijpen op theoretische kennis of op praktijkervaring met
betrekking tot kinderen met leerproblemen.

Voorbeeld: "Je kunt bij zo'n kind niet verwachten dat hij zegt: Aha, een regel, nu is mij alles
duidelijk."

Adviseren: het uitspreken van een mogelijke oplossing voor het probleem.
Voorbeeld: "Ik zou proberen spellingregels aan te leren, bijvoorbeeld volgens de methode
Leuerstad."

Alle uitspraken zijn op afzonderlijke kaarten gedrukt en vervolgens in willekeurige volgorde
gecodeerd teneinde te voorkomen dat de codeurs zich bij het scoren laten leiden door de context,
waarbinnen de uitspraken werden gedaan. De overeenkomst tussen twee codeurs bij het indelen
van de uitspraken in diagnostische processen was voor het vormen van hypothesen 80%, voor
informeren 96.%, voor parafraseren 87%, voor het stellen van diagnoses 81%, voor het refereren
aan ervaring 82% en voor adviseren 88%.

Statistische analyses

Alle analyses zijn voorde twee leerlingen afzonderlijk uitgevoerd. Om te bepalen of de groepen
verschilden in aantal en soort diagnostische processen zijn variantieanalyses uitgevoerd op de
zes diagnostische processen met groep (2 nivo's) en proces (6 nivo's) als onafhankelijke variabelen.
Om deze analyses uit te voeren is SPSSx MANOVA gebruikt. Vervolgens is gekeken of het
verloop van het probleemoplossings proces verandert onder invloed van praktijkervaring. Daartoe
zijn de protocollen in drie delen gesplitst met een gelijk aantal diagnostische processen en zijn
variantieanalyses uitgevoerd op de zes diagnostische processen met groep (2 nivo's), deel (3
nivo's) en soort diagnostisch proces (6 nivo's) als onafhankelijke variabelen. Ook deze analyses
zijn uitgevoerd met SPSSx MANOVA.

De sequentie van de diagnostische processen is gereconstrueerd met behulp van "lag sequential
analyses", een methode die voomamelijk is toegepast in interactieonderzoek. Kruizenga en Bus
(1988) pasten dezeWthode het eerst toe op protocollen van diagnostisch probleemoplossen. In
willekeurige volgorde fungeerde elk diagnostisch proces één keer als criterium, waama voor
alle andere processen is berekend hoe groot de kans is dat deze optreden, zowel direct na het

-ocr page 331-

Praktijkervaring en diagnostisch probleemoplossen 325

criteriumproces (lag 1) als ook na meerdere mssenstappen (lag 2, lag 3, etc.). Waar achtereen-
volgens dezelfde diagnostische processen voorkwamen zijn deze bij de analyse als één proces
beschouwd (Bakeman & Gottman, 1986). Het resultaat is een serie transitiekansen die vervolgens
op significantie zijn getoetst met de Allison-Liker z (Bakeman & Gottman, 1986). Z-scores zijn
significant als een waarde van 2.58 wordt overschreden. Het verloop van het diagnostisch
proces in beide groepen is gereconstrueerd op basis van de gemiddelde z-waarden berekend volgens
de methode van Cochran, waarbij de som van de z-scores wordt gedeeld door de vierkantswortel
uit het aantal proefpersonen (Cochran, 1954; Brown, Bakeman, Snyder, Frederickson, Morgan,
& Hepler, 1975).

resultaten
Frequenties van de diagnostische operaties

Om te bepalen of de beide groepen verschillen in aard en frequentie van diagnostische proces-
sen zijn variantieanalyses uitgevoerd met SPSSx MANOVA. Resultaten van de toetsing van
aannamen van normaliteit, homogeniteit, variantie-covariantie matrices, lineariteit en
multicollineariteit waren bevredigend.

Uit Tabel 2 blijkt in de eerste plaats dat de leerlingbegeleiders bij beide leeriingen over de
hele linie hoger scoren. Zowel univariate als multivariate toetsing levert een significant effect
voor groep op bij het meest complexe geval (Gerrit);
F (1,18)=6.65, p-.019. In het geval van
probleemleerling Jaap Jan is het groepseffect niet significant;
F (l,18)=1.54,p=.231.

Verder blijkt uit tabel 2 dat niet alle diagnostische operaties in dezelfde mate voorkomen.
Relatief veel aandacht wordt besteed aan informeren, parafraseren en aan het stellen van diagnoses.
Volgens multivariate toetsen zijn de effecten van het type proces significant; voor Jaap Jan:
F
(5, 90)=26.50. P<.00\ en voor Gerrit: F (5. 90)=25.05. p<.001.

In de derde plaats valt op dat de leeriingbegeleiders verhoudingsgewijs hoger scoren op het
vormen van hypothesen en het refereren aan ervaring, terwijl de studenten hoger scoren op
parafraseren. De interactie tussen groep en soort diagnostisch proces is echter in geen van beide
gevallen significant; voor Jaap Jan:
F (5, 90)= .47, ns; voor Gerrit: F (5, 90)= .82. ns.

Diagnostische processen in verschillende delen van het onderzoek

Om enig inzicht te krijgen in het verioop van het diagnostisch proces zijn de protocollen in drie
gelijke delen gesplitst en zijn per deel de gemiddelden berekend. In Figuur 1 worden alleen de
resultaten voor Gerrit gepresenteerd omdat de uitkomsten voor beide leeriingen praktisch iden-
tiek bleken te zijn.

Tabel 2.Gemiddelden en standaarddeviaties van de diagnostische processen per leerling per groep.

Diagnostisch

Jaap Jan

Gerrit

proccs

Begeleiders

Studenten

Begeleiders

Studenten

Hypothesen

9.5 (4.8)

5.1 (4.0)

12.7 (5.7)

3.2 (3.0)

Informeren

43.2 (25.1)

38.2 (17.2)

52.1 (18.4)

31.2 (15.9)

Parafraseren

45.2 (24.6)

46.9 (33.4)

50.5 (29.8)

40.4 (35.2)

Diagnoses

37.1 (18.4)

23.6 (18.9)

38.8 (22.5)

24.3 (26.1)

Refereren

5.2 (4.7)

1.3 (1.4)

5.2 (3.5)

1.0 (1.1)

Adviseren

21.2 (10.1)

16.0 (11.2)

22.4 (14.0)

16.3 (11.9)

Totaal

164.4 (47.6)

131.1 (66.2)

181.7 (59.1)

116.4 (74.7)

-ocr page 332-

326 T.H. Kniizenga en A.G. Bus

gemiddelde score

2 3

fase

Begeleiders

Studenten

gemiddelde score

-i— parafraseren

— refereren aan
ervaring

-X— informeren <)— diagnoses A adviseren

stellen -

hypothesen
vormen

Fig. 1. Verloop van het diagnostische probleemoplossen.

-ocr page 333-

Praktijkervaring en diagnostisch probleemoplossen 327

Figuur 1 laat zien dat in het eerste deel van het diagnostisch probleemoplossen zowel door
leerlingbegeleiders als door studenten veel aandacht wordt besteed aan informeren en parafraseren
en in mindere mate aan het stellen van diagnoses. In het tweede deel is zowel bij leerlingbegeleiders
als bij studenten het stellen van diagnoses toegenomen, terwijl het inwinnen van informatie
duidelijk afneemt. In het laatste deel neemt zowel bij de leerlingbegeleiders als de studenten het
geven van adviezen toe. De interactie tussen deel en soort diagnostisch proces is voor beide
leerlingen significant; Jaap Jan:
F (10,180)=24.92,/j<.001; Gerrit: F(10,180)=25.12,p<.001.

Bij nadere inspectie van de gegevens valt op dat bij de studenten het parafraseren pas in het
derde deel afneemt, terwijl dit bij de leerlingbegeleiders al in het tweede deel gebeun. De
drieweg-interactie tussen groep, deel en soort diagnostisch proces is echter bij geen van beide
leerlingen significant; Jaap Jan: F(10, 180)= .45,
ns\ Gerrit: F(10, 180)= 1.16, ns.

Sequenties van diagnostische processen

Met behulp van de "lag sequential method" is de samenhang tussen diagnostische processen
onderzocht. Met de methode van Brown et al. (1975) zijn per groep en per leerling de gemid-
delde z-scores berekend. Op basis van deze analyses is in Figuur 2 voor beide leerlingen afzonderlijk
het argumenteren van de twee groepen in schema gebracht. Een verbinding betekent dat de
diagnostische processen elkaar, vaker dan op basis van toeval te verwachten zou zijn, opvolgen.
De getallen boven de pijlen verwijzen naar de kans dat een sequentie voorkomt, gegeven een
bepaald proces. Alle sequenties hebben betrekking op twee processen. De analyses hebben bij
geen enkele participant sequenties van meer dan twee processen opgeleverd.

In het geval van Gerrit zijn bij zowel de leeriingbegeleiders als de studenten de verbindingen
tussen informeren en parafraseren en tussen diagnoses stellen en adviseren significant. De
sequenties hypothesen vormen -> informeren en adviseren -> refereren aan ervaring zijn alleen
bij de leeriingbegeleiders significant. Bij nadere inspectie van de gegevens blijkt dat de gemid-
delde z-waarde van de sequentie hypothesen vormen -> informeren sterk is bepaald door de
scores van één leerlingbegeleider.

Bij Jaap Jan verioopt het diagnostisch probleemoplossen op vergelijkbare wijze. De verbin-
dingen tussen informeren en parafraseren en tussen diagnoses stellen en adviseren zijn in beide
groepen significant. De sequentie adviseren -> refereren aan ervaring is alleen significant bij de

leeriingbegeleiders.

DISCUSSIE

Doel van deze studie was te bepalen hoe het probleemoplossingsgedrag van ervaren leerling-
begeleiders verschilt van dat van studenten. Het onderzoek was gericht op het verioop van het
diagnostisch proces - dus niet op de inhoud ervan. Ons uitgangspunt was dat praktijkervaring de
kennis over leerproblemen doet toenemen en we verwachtten dan ook dat leerlingbegeleiders
beter in staat zijn om te voorspellen welke problemen aan de orde zijn en dat hun werkwijze
daardoor een doelgerichter en efficiënter verioop krijgt. Omdat uit onderzoek in de medische
sector naar voren komt dat het probleemoplossingsgedrag tevens afhangt van de kenmerken van
het geval, zijn aan de beoordelaars in dit onderzoek twee gevallen voorgelegd waarvan de één
complexer was dan de ander.

Ten eerste zijn de aard en de frequentie van de diagnostische processen vergeleken. Anders
dan in de medische sector bleek bij meer ervaring het aantal uitspraken veeleer toe dan af te
nemen. Deze tendens was het sterkst bij probleemleeriing Gerrit, het naar onze inschatting
meest complexe geval. Dit resultaat staat haaks op onze verwachting dat ervaren diagnostici
problemen sneller herkennen en daardoor doelgerichter naar een conclusie toewerken. Een
verklaring voor de hogere score van de ervaren begeleiders zou kunnen zijn dat deze beoordelaars
de verieiding niet kunnen weerstaan om uitgebreide argumentaties te geven teneinde hun kennis
en inzicht te demonstreren. Erg aannemelijk is deze hypothese echter niet omdat in dat geval een
eenzijdige toename mag worden verwacht van de categorie refereren aan ervaring en dat was

-ocr page 334-

.18

328 T.H. Kruizenga en A.G. Bus

BEGELEIDERS
gerrit

.SS

.45

hypothesen
vormen

Informeren

parafra-
seren

.40

diagnoses
stellen

refereren

aan

adviseren

ervaring

.13

.44


55

informeren

parafra-

seren

.40

20

1

re fereren

diagnoses

aan

adviseren

stellen

ervaring

.16


jaap jan

STUDENTEN
jaap jan

.74

informeren

parafra-

seren

.46

diagnoses
stellen

refereren

aan
ervaring

adviseren


hypothesen
vormen

.69

Informeren

parafra-

seren

.48

.27

i

diagnoses
stellen

refereren

aan
ervaring

adviseren


gerrit

hypothesen
vormen

Fig. 2. Sequenties van diagnostische processen.

.59

niet het geval. Een meer plausibele verklaring is dat begeleiders te maken krijgen met een grote
variatie aan problemen en onder invloed daarvan aan meer aspecten aandacht gaan besteden.
Aanwijzingen dat ook de aard van de diagnostische processen verandert, heeft het onderzoek
niet opgeleverd.

-ocr page 335-

Praktijkervaring en diagnostisch probleemoplossen 329

Wat betreft de aard van de diagnostische processen in de verschillende stadia van het onder-
zoek vonden we geen verschillen tussen leerlingbegeleiders en studenten. In beide groepen ligt
in het begin een zwaar accent op informeren en parafraseren, wordt in het tweede deel van het
probleemoplossingsproces geprobeerd om de dan enigszins afnemende mformatiestroom te
interpreteren en wordt in het laatste stadium veel aandacht besteed aan het uitbrengen van
adviezen. Dit verloop van de diagnostiek is voor de twee leerlingen ongeveer gelijk. De verwachting
dat de ervaren diagnostici al in een vroeg stadium hypothesen vormen op basis waarvan vervolgens
op efficiënte wijze informatie wordt ingewonnen, wordt niet bevestigd. Net als studenten zijn de
leerlingbegeleiders geneigd om de problematiek eerst uitgebreid te exploreren, alvorens inter-
pretaties te geven.

In de derde plaats is nagegaan of de sequenties van de diagnostische processen verschillen.
We verwachtten dat leerlingbegeleiders meer geneigd zijn om informatie op basis van hypothesen
in te wmnen en dat deze groep minder informatie ongeïnterpreteerd laat. Dit zou betekenen dat
in de groep ervaren leerlingbegeleiders sterkere verbanden bestaan tussen het vormen van
hypothesen en informeren en tussen informeren of parafraseren enerzijds en het stellen van
diagnoses anderzijds. De sequentieanalyses ondersteunen deze verwachte verschillen niet. In
het geval van Jaap Jan vonden we weliswaar een verband tussen hypothesen vormen en informeren
maar dit lijkt in sterke mate bepaald te zijn door één beoordelaar. We vonden evenmin bevestiging
voor de verwachting dat leerlingbegeleiders minder informatie ongeïnterpreteerd laten. In beide
groepen wordt een grote hoeveelheid informatie ingewonnen waaruit uiteindelijk een willekeurige
selectie wordt gemaakt. Leeriingbegeleiders onderscheiden zich dus niet doordat ze beter in
staat zijn om al aan het begin van het diagnostisch proces te voorspellen welke informatie
relevant is. Wel blijkt uit de analyses dat leeriingbegeleiders vaker refereren aan ervaring die
voorheen met vergelijkbare gevallen is opgedaan.

Concluderend moeten we vaststellen dat dit onderzoek geen steun geeft aan de hypothese dat
leeriingbegeleiders efficiënter en doelgerichter te werk gaan dan studenten. We hebben gevon-
den dat ervaren experts problemen niet sneller herkennen dan studenten en net als beginners
testresultaten behandelen als onafhankelijke informatie-eenheden (vgl. de conclusies van Bus,
1989). Dit resultaat suggereert dat ervaring niet, zoals in andere domeinen, resulteert in een
betere organisatie van kennis (vgl. Boshuizen, 1989; De Groot, 1965; Larkin et al., 1980).
Momenteel worden intrigerende pogingen ondernomen om beslissingsmodellen te ontwikkelen
op basis van kennis gedestilleerd uit research en praktijkervaringen van experts (Van Aarle &
Van den Bereken, in druk). Mogelijkerwijs kan langs deze weg worden gecompenseerd voor
een gebrekkige organisatie van kennis en kan aldus de kwaliteit van de oordeelsvorming (zie voor
gegevens hierover o.a. Bus, 1989; Van IJzendoorn, 1990;
Van IJzendoorn & Bus, 1992) aanzienlijk
worden verbeterd.

LITERATUUR

Bakeman, R., & GotUnan, J.M. (1986). Observing interactions: An introduction to sequential analysis. London:

Cambridge University Press.
Brown, J.V., Bakeman, R., Snijder, P.A., Frederickson, W.T., Morgan, S.T., & Hepler, R. (1975). Interactions

of black inncrcity mothers with their newborn infants. Child Development, 46, 677-686.
Boshuizen, H.P.A. (1989).
De ontwikkeling van medische expertise. Een cognitief-psychologische benade-
ring.
Haarlem/Amsterdam: Thesis.
Bus, A.G. (1989). How are recommendations concerning reading and spelling disabilities arrived at and

why do experts disagree? Psychology in the Schools, 26, 54-61.
Bus, A.G., & Kruizenga, T.H. (1989). diagnostic problem-solving of expert practitioners in the field of

learning disabilities. Journal of School Psychology, 27,277-287.
Butcher. E.. & Scofield, M.E. (1984). The use of a standardized simulation and process training for studying

clinical problem-solving compctence. Counselor Education and Supervision, 24, 70-84.
Clavelle, P.R., & Turner. A.D. (1980). Clinical decision-making among professionals and paraprofcssionals.

Journal of Clinical Psychology. 36, 833-838.
Cochran. W. (1954). Some methods for strengthening the common X2 tests.
Biometrics, 10,417-451.

-ocr page 336-

330 T.H. Kniizenga en A.G. Bus

De Bruyn, E.E.J. (1988). Besluitvorming in de klinische psychodiagnostiek. Nederlands Tijdschrift voor de
Psychologie, 43,
263-279.

De Bruyn, E.E.J. (1989, August). Clinical decision making in a multidisciplinary team. Paper presented at
SPUDM-12, Moscow.

De Groot, A.D. (1961). Methodologie: Grondslagen van onderzoek en denken in de gedragswetenschappen.

Den Haag: Mouton.
De Groot, A.D. (1965).
Thought and choice in chess. Den Haag: Mouton.

Elstein, A.S., Shulman, L.S., & Sprafka, S. (1978). Medical problem solving: An analysis of clinical reasoning.

Cambridge: Harvard University Press.
Elstein, A.S., Shulman, L.S., & Sprafka, S.A. (1990). Medical problem solving. A ten-year retrospective.

Evaluation & the Health of Professions, 13, 5-36.
Ericsson, K.A., & Simon, H.A. (1983).
Protocol analysis: Verbal reports as data. Cambridge, M.A.: Bradford
Books.

Gerritsma, J.G.M., & Smal, J.A. (1979). Schriftelijke patiëntensimulaties voor onderwijs, evaluatie en

onderzoek. Medisch Contact, 38, 1217-1225.
Kassirer, J.P., & Gorry, G.A. (1978). Clinical problem solving: A behavioral analysis.
Annals of Internal
Medicine, 89,
245-255.

Kruizenga, T.H., & Bus, A.G. (1988). Het redeneren van leerlingbegeleiders over lees- en spellingsproblemen.
In A.G. Bus & S.J. Pijl (Red.),
Diagnostiek en leerlingbegeleiding (pp. 55-66). Lisse: Swets &
Zeitlinger.

Larkin, J., McDermott, J., Simon, D.P., & Simon, H.A. (1980). Expert and novice performance in solving

physics problems. Science, 208, 1335-1342.
Patel, V.L., Groen, G.J., & Frederiksen, C.H. (1986). Differences between students and physicians in

memory for clinical cases. Medical Education, 20, 3-9.
Sackett, G.P. (1987). Analysis of sequential social interacüon data: Some issues, recent developments and a
causal inference model. In J.D. Osofsky (Ed.),
Handbook of infant development (pp. 55-70). New
York: Wiley.

Schmidt, H. (1990, april). Transitory stages in the development of expertise in medicine: Review of the
evidence.
Paper gepresenteerd op de jaarlijkse conferentie van de American Educalional Research
Association, Boston.

Van Aarle, E.J.M., & Van den Bereken, J.H.L. (in druk). The development of a knowledge-based system for

supporting the diagnosis of reading and spelling problems. Computers in Human Behavior.
Van IJzendoorn, W.J.E. (1990). Prognoses voor probleemleerlingen. Een onderzoek naar de geldigheid van

diagnoses (Dissertalie). Groningen: RION.
Van IJzendoorn, W.J.E., & Bus, A.G (1992, in druk). How valid are experts' prognoses about children with
leaming problems?
Journal of School Psychology.

Manuscript ontvangen 18-3-1991
Definitieve versie ontvangen 13-9-1991

APPENDIX A

Jaap Jan: Jongen, 11 jaar oud. Schoolgang: 1 2 3 4 5. Hij heeft veel moeite met het schrijven en
hij leest langzaam en spellend. Zijn handschrift is onregelmatig en slordig. Rekenen is voldoende.
Hij doet geïnteresseerd mee en heeft een goede motivatie. Het contact met de medeleerlingen is
goed. Hij is een gemidddeld intelligente leerling. Vader is ambtenaar en moeder is verpleegster.
Jaap Jan is de oudste van twee kinderen. De ouders maken zich zorgen over de schoolprestaties.
De klasseleerkracht heeft vanaf klas 1 steeds extra hulp gegeven bij de leerproblemen.

Gerrit: Jongen, 11 jaar oud. Schoolgang: 1 2 2 3 4. Zit in een combinatieklas van een dorpsschool.
Hij leert moeizaam en heeft vooral problemen met lezen en laal. Zijn intelligentie is laag
gemiddeld. Zijn motivatie is ondanks het moeizame leren nog steeds goed. Het gezin telt zes
kinderen. Gerrit is de op één na jongste. Vader is landbouwer en moeder huisvrouw. De ouders
zien het leren niet als een ernstig probleem; de andere kinderen in hel gezin hadden ook moeite
met het leren op school. Een verwijzing naar Speciaal Onderwijs wordt door de ouders afgewezen.
In de eerste drie leerjaren kreeg Gerrit wekelijks extra hulp van de stimuleringsleerkracht. Dit
jaar krijgt hij één uur per week een extra les van de klasseleerkracht.

-ocr page 337-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 331-296

Idiographic correlation:

modeling judgments of agreement between school
grades*

Willem K.B. Hofstee and Frits E. Zegers
University of Groningen, The Netherlands

abstract

Lay persons often apply the concept of correlation to the individual case. Also, certain coefficients
of association such as Zegers and Ten Berge's (1985) coefficient of idenuty and Gower's (1971)
coefficient are defined in the individual case. Data from a small {N = 37) experiment on perceived
absolute agreement between school grades show that perceptions of agreement in individual cases
are highly reliable; a transformation of the Gower coefficient fits these data to a satisfactory extent.
To account for relative perceptions of agreement that depend on the context in which individual
cases occur, a new version (Expression 4) of the Gower coefficient is developed containing a
context-dependent parameter. Having thus consUucted viable formalizations of statements on idio-
graphic correlation, we conclude by arguing that such statements arc not necessarily ad hoc, and
may make sense scientifically speaking.

idiographic correlation

One of the first lessons taught to students of applied statistics is that correlation is between
variables, and that expressions such as "This test is not valid in my case" are meaningless. To
illustrate the point, the teacher may show that the Pearson correlation coefficient is undefined in
the single case.

Of the family of association coefficients presented by Zegers and Ten Berge (1985), one
member is defined in the single case. This member is the coefficient of identity
e = lYXYdX^ +
II'^) ' between variables X and Y. For example, if an individual i obtains scores X. = 4 and Y. =
-3, then e. = -.96 for that individual. Another is Gower's (1971) coefficient ^ = 1 - N'R-'BX-Y\,
with N the number of cases and R the range of the scores on X and Y. In the example, taking R =
8 gives g. = A25 (g cannot become negative).

The existence of such coefficients should trigger a reconsideration of the disparity between
lay and expert understandings of concepts like association, con-elation, and agreement. Not only
is this problem important in contexts where Correlations are reported to a lay public. It may be
equally important in intrascientific communication and in teaching, as the role of intuitive
understanding may be equally pronounced in those contexts. This paper contains a sustained
attempt at modeling intuitive conceptions of correladon, agreement, association, and the like;
we explore to what extent a systematic and coherent reconstmction of such conceptions can be
achieved. To introduce the problem in a more tangible manner, we report a small experiment on
the perception of agreement between school grades.

AGREEMENT BETWEEN SCHOOL GRADES

Thirty-seven students of psychology volunteered as subjects. They received pairs of school
grades, and were instructed to assume that two teachers had assigned these grades for one and

' Department of Psychology, Grote Kruisstraat 2/1,9712 TS Groningen.

-ocr page 338-

332 W.K.B. Hofstee and F.E. Zegers

Table 1. Average perception of agreement between school grades (3) to (9).

(3)

(4)

(5)

(6)

(7)

(8)

(4)

.84

(5)

-.30

.84

(6)

-1.00

-.89

.30

(7)

1.00

-.70

.84

(8)

-1.00

-.38

.95

(9)

-.84

.03

.89

the same examination or test. The subjects were to indicate, for each pair of grades, whether the
teachers agreed rather than disagreed, or vice versa, or in between. They were requested to give
intuitive judgments, not to apply any algorithm.

The Dutch grading scale running from 0 to 10, with 5.5 as the pass-fail point, was used. Since
in practice the grades 0-2 and 10 are seldom used, a 3-9 scale was retained. Subjects received all
pairs of different grades in which the difference did not exceed 3. The number of these pairs is
15.

Responses were scored 1 for agreed rather than disagreed, -1 for disagreed rather than agreed,
and 0 for in between. Average scores are presented in Table 1. A difference of 1 point is percei-
ved as
agreed rather than disagreed (positive average), a difference of two points as disagreed
rather than agreed,
except for the 7-9 pair. With three-point differences, the perceived disa-
greement is maximal except for the 6-9 combination. The perceived agreement between the
grades 5 (fail) and 6 (pass) is much lower than the perceived agreement for the other one-point
discrepancies. This departure from linearity of the perceptions corresponds with the larger
distance between these grades in view of their consequences, and testifies to the validity of the
method.

The reliability of the averaged scores, that is, the convergence between subjects in judging
the 15 pairs, is almost perfect: Using Ten Berge's (1984) a*, which is the coefficient a for ab-
solute scales, the reliability is .99. This result proves that people-even students of psychology
who have been taught that idiographic correlation does not exist-can understand each other
when making statements about agreement in single cases.

MODELING JUDGMENTS OF AGREEMENT

Can coefficients of association be found or constructed that account for perceptions of agree-
ment as recorded in Table 1? A minor problem is that Zegers and Ten Berge's (1985)
e cannot
take negative values when all grades are positive, and that Gower's (1971) ^ cannot become negative
at all. As it seems natural to write disagreement as the negative of agreement, certain provisions
have to be made. For example,
g-may be transformed into g.'-'= 2^^.-1 = \ -2R-'\X - Tl. Taking R =
3, would be .33 for a one-point difference, as on the main diagonal of Table 1, -.33 for a two-
points difference, and -1.00 for a three-points difference. There is a reasonable fit between these
values and the actual data; the fit coult be improved by making the assumption that all intervals
except the 5-6 interval are smaller than 1. (Once you are within the pass range or within the fail
range, grades make less difference).

A slight inelegance attached to g/is that its value may drop below -1, namely, for lA" - H > /?.
Respectable other coefficients share this peculiarity, most notably, coefficient'alpha which may
be derived as a Pearson correlation between the observed test and an imaginary parallel test, but
can drop to minus infinity. Also, one might reason that a 3-7 combination of grades represents
pathological disagreement deserving a pathological coefficient value. At any rate, the complica-
tion is not severe.

-ocr page 339-

Idiographic Correlation 333

However, a major complication arises when one requires that the same coefficient should
also be applicable to the general, multiple rather than single, case. Here, a thought experiment
suffices. Imagine that two teachers only use the grades 3, 5, 6, and 8, and that only 3-5 and 6-8
pairs (and vice versa) are observed in equal amounts. For each single pair, the perceived agree-
ment will be negative (see Table 1), as will be ^,'with
R=3. Nevertheless, any reasonable per-
ception of the aggregate agreement should come out positive, if only because the teachers are in
perfect agreement on pass-fail decisions. The modified Gower coefficient does not follow this
requirement, as the aggregate ^'is equal to the mean g/, in this case, -.33.

Focusing on the range parameter R, we could reason as follows: In the thought experiment R
should be increased because the maximum interval that could occur is 5 (for a 3-8 pair); that is,
the observed discrepancies between the teachers are projected against a background of what the
discrepancy could have been. With
R = 5,g'= .20 in the thought experiment, which would be an
acceptable value. More generally,
R could be made context-dependent. The psychological basis
for that operation is the hypothesis that the perceiver adapts to the range of the observed data.

The above reasoning leads to the derivation of a new coefficient of association. Starting with
the original Gower coefficient we apply a Cohen transformation to it, that is, we project
g
against some that would be expected under a null hypothesis (see Expressions 2 and 3 below),
in the manner in which Cohen's (1960) kappa projects an observed proportion against an expected
proportion:

g" = —^ . (1)
For£ we take

E\X-Y\

g = \--, (2)

R

with

E\X-Y \ = N-^YI.\Xi-Yj\ , (3)

that is, the expectation of IX - y I given the marginal distributions of X and T in the sample.

Upon substituting ^ = 1 - N 'R 'Y^X - TI and Expression (2) into (1), we
obtain:

i:ix-Y\

g"=l--; (4)

NE\X-Y\

that is, we simply could have taken g and replaced by £ IX - T I in that formula. It should be
realized, however, that the Cohen transformation of the Gower coefficient does two things: It
projects the observed discrepancies against the expected ones, and it allows the coefficient to
take on negative values.

In the above thought experiment, ^"appears to be 0. This outcome is somewhat unsatisfac-
tory, but we should realize that the perceived distance between the grades 5 and 6 is larger than
the other distances. Any rescaling that stretches the 5-6 distance will yield a positive coefficient
in the example. Within the subset of 3-5 combinations and within the subset of 6-8 combina-
tions,
g"= -1, which is perfect: If in all cases where one teacher assigns a 5, the other assigns a
3, and vice versa, and if there are no other cases, it is reasonable to say that they disagree
perfectly. If, however, a 3-5 combination is considered in the context of the total set, ^"jumps
up to zero, because the expected discrepancy there is 2 rather than 1. Thus the coefficient

-ocr page 340-

334 W.K.B. Hofstee and F.E. Zegers

behaves in an adaptive manner: It reflects perceptions of agreement in the particular context of
a sample or sub-population.

Another feature of ^^that is highly desirable from the present perspective is its separability.
As £ lY - y I is a constant for a given data set, the over-all coefficient ^"is the mean of all indi-
vidual
g". For example, if we have three combinations 3-4, 6-6, and 8-5, E\X -Y\ = 2 and the
individual coefficients are .5,1.0, and -.5, respectively; the over-all coefficient is .33. Together,
these values give an adequate representation of a statement like "The agreement between these
two teachers is weakly positive, but in one case they show moderate disagreement". The price
that is paid for separability is that individual coefficients may exceed the lower bound of -1; for
example, with three combinations 5-5, 5-5, and 1-9, these coefficients are 1.0, 1.0, and -2.0,
respectively.

With the requirements of adaptiveness to context and separability in mind, one may take a
fresh look at other coefficients. The Pearson correlation coefficient, for example, is an average
of cross-products of standardized scores. It is adaptive as the standardization is context-depen-
dent, and it is separable: in principle, one could look at an individual cross-product and see if it
is positive or negative, high or low. With this coefficient, individual cross-products are quite
likely to exceed the bounds of -t-1 or -1, whereas with the Gower coefficients only the lower
bound is exceeded, in pathological cases. Thus the Pearson coefficient is less geared to indivi-
dual interpretation than the Gower coefficient. However, this is a practical and relative differen-
ce. Asendorpf (1990) has developed measures of individual consistency that average into the
Pearson coefficient.

Returning to the experimental data reported in Table 1, it appears that ^"is unable to repro-
duce these data: For A^ = 1, g"is automadcally zero if
X i=Y. In our search for an adaptive version
of Gower's coefficient, we seem to have sacrificed its ability to account for the A^ = 1 case.
However, the two requirements are contradictory.

The experimental data represent absolute judgments of agreement. Implicitly, subjects were
asked to judge agreement between teachers irrespective of context. In these data, is a fixed margin
of tolerance. This conception of
R is incompatible with the requirement that R should be adap-
tive to the context in which the combinations of grades are presented. It is thus impossible to
construct a coefficient in which
R is both fixed and variable; the best one can do is to give two
versions of one and the same formula. These versions are g,'and g^", respectively. They apply to
situations in which people judge in a more absolute, and a more relative manner Both situations
are realistic, as we have demonstrated. Absolute judgments arise in situations where context
information is absent or is disregarded; relative judgment uses unvailable context information.

Against the background of the above distinction, a statement can be discussed that professio-
nals may be usingj namely "Your test may be valid in general, but it is not valid in any single
case". That statement is the superlative of "Your test is not valid in this particular case". One
interpretation is that the professional agrees with methodologists who would forbid idiographic
interpretations of validity; "not valid" would then mean "of undefined validity". That interpre-
tation, however, is not plausible here. More plausibly, the professional switches between a
relative frame of reference in which g"is positive at the aggregate level, and an absolute one
when focussing upon individual ca.ses, each of which may show a discrepancy that exceeds the
margin of tolerance. What we cannot do, however, is to resolve the statement within one and the
same frame of reference, with one and the same coefficient.

CONCLUSIONS

Many social and behavioral scientists would reject st-atements like "These two teachers do not
correlate with respect to this individual student" as being nonsensical. Our analysis has shown
that such rejections are unjustified. Two perfectly respectable reconstructions can be made of
the statement, using transformations of the Gower (1971) coefficient. According to one recon-

-ocr page 341-

Idiographic Correlation 335

struction using g/, the observed discrepancy IX - 71 is pitted against a fixed margin of tolerance
R. It was noted in passing that the grading scale appears not to be an equal-invervals scale; a
nonlinear transformation is needed to achieve an optimal reconstruction. The other reconstruc-
tion using g"pits the observed discrepancy against an expected discrepancy that depends on the
context in which the individual case is presented. Here, the interpretation of the individual
coefficients g." is restricted to that context, as it should be. We noted that this individual
interpretation may be extended to other coefficients, most notably, the Pearson correlation
coefficient.

From a formal point of view, little can thus be said against the decomposition of relationships
between variables into individual cases. However, an afterthought of a more substantive nature
remains. Is it at all productive to single out individual discrepancies or striking agreements?
Have we constructed a rationalization for ad-hoc reasoning and capitalization on chance? Sure-
ly, one could take a pair of dice, observe an over-all coefficient of zero between their values in
the long run, and point to individual throws with striking discrepancy (a 6-1 combination would
even be pathological in view of an expected discrepancy of about 2) or agreement, which would
be completely fallacious.

To be valid, individual coefficients should be related to an outside variable. For example,
discrepancies between grades should be related to whether one or both teachers have made one
or more mistakes in the grading. This approach is followed systematically in studies of differen-
tial predictability (Ghiselli, 1963; Asendorpf, 1990), and less systematically in post-test bargai-
nings between students and teachers where discrepancies between teacher's and the student's
own grading are focused upon.

A sharp distinction should be made here between post-hoc and ad-hoc reasoning. To focus on
an observed discrepancy, post-hoc. is rational if something can be learned, that is, if the case can
be explained in a generalizable manner; only if a generalizable explanation is absent, does post-
hoc reasoning degenerate into ad-hoc reasoning. If all discrepancies would result from random
error, nothing could be learned by definition. Methodologists who would forbid post-hoc expla-
nation seem to follow this maxim. However, random error is not plausible in the real world, and
to conclude from the fact that real data can be accounted for by random models to the position
that randomness occurs, would be merely a logical error.

Asendorpf (1990) has pointed to the fallacy of automatically applying an aggregate correla-
tion to individual cases, in the present terms, acting upon the hypothesis that two teachers agree
moderately with respect to every individual student if their over-all agreement is moderate. This
methodological fallacy is the counterpart of post-hoc reasoning. To the extent that the aggregate
coefficient masks real differences between cases (that is, differences that can be explamed in a
generalizable manner), the methodological fallacy is at least as serious, as it prevents explana-
tion instead of engaging in an attempt, fallible though it may be, at substantive explanation.

In sum, post-hoc reasoning should not be ruled out; assuming that there is more regularity
than randomness in the real world, the ban would even be counterproductive. Also, the liberali-
zations with respect to interpreting correlation that we proposed should not be regarded as mere
concessions to lay discourse. Social and behavioral scientists can increase their understanding
of basic methodological concepts by taking lay conceptions seriously.

REFERENCES

Asendorpf, J. (1990). The measurement of individual consistency. Methodika, 4, 1-23.
Cohen, J. (1960). A coefficient of agreement for nominal scales.
Educational and Psychological Measure-
ment, 20,
37-46. , , ^ , ^
Ghiselli, E.E. (1963). Moderating cffects and differential reliability and validity.
Journal of Applied Psy-
chology, 47,

Gower, J.C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27, 857-871.
Ten Bcrge, J.M.F. (1984). Een definitie van bctrouwbaarheid in termen van ruwe scores [A definition of
reliability in terms of raw scores].
Kwantitatieve Methoden, 16, 63-72.

-ocr page 342-

336 W.K.B. Hofstee and F.E. Zegers

Zegers, F.E., & Ten Berge, J.M.F. (1985). A family of association coefficients for metric scales. Psychometrika,
50,
17-24.

Manuscript ontvangen 3-9-1991
Definitieve versie ontvangen 14-11-1991.

author's note

We thank Jos M.F. ten Berge and Ivo Molenaar for their criticisms of earlier drafts.

Requests for reprints should be sent to Willem K.B. Hofstee, Department of Psychology, University of

Groningen, Grote Kruisstraat 2/1, 9712 TS Groningen, The Netherlands.

-ocr page 343-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 337-296

Item-specifieke verschillen in de prestaties van
jongens en meisjes bij tekstbegripexamens
moderne vreemde talen ^

Karin Bügel en Cees Glas
CITO, Instituut voor Toetsontwikiceling

abstract

At the end of secondary school boys tend to do better on most subjects, including the examinations
of reading comprehension in the foreign languages. Since characteristics of tests may contribute to
gender differences in performance, it is important to identify item bias in examination questions.
Boys and girls have different experiences and therefore different prior knowledge on a number of
topics which may cause item bias. Differential functioning items in the French, German and English
reading comprehension examinations of 1990 were detected and analyzed. A method based on the
Rasch model was used separately and combined with the Mantel-Haenszel procedure. On the basis
of the hypothesised common features predictions were made as to the occurrence of item bias in the
1988 examinations. 7 to 11% of the examination questions were found to bc biased. Predictions of
item bias were in the right direction but far from perfect. The implications of the results arc discussed.

inleiding

De meeste tekstbegripexamens moderne vreemde talen uit het centraal schriftelijk eindexamen
worden beter gemaakt door jongens dan door meisjes. Gezien de resultaten op de basisschool en
die in de beginfase van het voortgezet onderwijs en buitenlandse gegevens, is dit zeer opmerkelijk.
In het basisonderwijs (Zwarts, 1990; Van der Sman & Uiterwijk, 1985; Wijnstra, 1988; Klok,
1988) en in de beginfase van het voorgezet onderwijs (Kremers, 1990; Kuhlemeier & Van den
Bergh, 1991) halen meisjes op verbaal gebied namelijk veelal hogere scores dan jongens, terwijl
er op enkele onderdelen - met name tekstbegrip - vaak geen verschillen in prestaties zijn. In
andere westerse landen zijn de taaiprestaties van meisjes, zowel in de moedertaal als in de
moderne vreemde talen (ook bij tekstbegrip), vaak hoger (Wilson, 1991; Becker & Forsyth,
1990, Ministère de l'Education, 1983). Soms worden gelijke prestaties gerapporteerd (Hyde &
Linn, 1988; Wilder & Powell, 1989), behalve bij tekstbegriptoetsen over natuurwetenschappe-
lijke en technische onderwerpen, die beter door jongens gemaakt worden (Scheuneman & Ger-
ritz, 1990).

In Tabel 1 zijn de verschillen tussen de scores van meisjes en jongens op de gesloten vragen
en wiskunde A en B van het centraal schriftelijk eindexamen van 1984 en 1986 weergegeven m
effectgroottes, dat wil zeggen, in standaarddeviatie-eenheden. Voor 1984 zijn uitsluitend de
open opgaven onderzocht, voor 1986 ging het om de vakken met gesloten opgaven en wiskunde
op VWO-niveau; deze keuze is overigens een willekeurige. Een positief getal geeft een verschil
in het voordeel van meisjes aan, een negatief getal een verschil in het voordeel van jongens. De
effectgroottes zijn in drie categorieën gerangschikt: kleine effecten (Idl < .10), middelmatige
effecten (.10 < Idl < .20) en grotere effecten (Idl > .20). Overigens is het antwoord op de vraag
wat in dit verband groot en klein te noemen is een kwestie van persoonlijke opvattingen. Om een

' Het project waarover in dit artikel verslag wordt gedaan, wordt gefinancierd door het Ministerie van
Onderwijs en Wetenschappen.

CITO, Postbus 1034,6801 MG Arnhem.

-ocr page 344-

338 K. Bügel en C. Glas

Tabel 1. Verschillen tussen meisjes en jongens bij de centrale examens in effectgroottes.

MAVO-C 1984

MAVO-D 1984

HAVO 1984

VWO 1984

ldl<.10

Nederlands

-.05

wiskunde

-.02

Nederlands

.05

wiskunde II

.03

wiskunde

.05

Latijn

-.01

Grieks

-.05

.10<ldl<.20

wiskunde

.10

Nederlands

.11

handelswetensch.

economie 2

handelsk.

-.10

en recht

-.19

en recht

-.16

scheik.

-.30

aardr.

-.18

natuurk.

-.19

Idl > .20

aardr.

-.35

scheikunde

-.22

gesch.

-.30

gesch.

-.20

gesch.

-.53

handelsk.

-.26

natuurk.

-.39

muziek

-.21

aardrijksk.

-.30

aardrijksk.

-.41

wiskunde I

-.34

natuurkunde

-.40

scheikunde

-.52

scheikunde

-.43

economie

-.54

natuurk.

-.43

muziek

-.62

economie 1

-.47

MAVO-C 1986

MAVO-D 1986

HAVO 1986

VWO 1986

Idl <.10

Frans

.08

0.10 < Idl <.20

Spaans

.12

Frans

-.09

Frans

-.17

wiskunde II

-.14

wiskunde

-.11

wiskunde

-.16

Engels

-.16

Engels

-.14

Engels

-.19

Duits

-.18

scheikunde

-.15

wiskunde B

-.19

Idl > .20

biologie

-.25

Spaans

-.31

biologie

-.22

Frans

-.26

Nederlands

-.28

biologie

-.35

Engels

-.24

wiskunde I

-.30

Duits

-.29

Duits

-.37

biologie

-.42

wiskunde A

-.39

handelsk.

-.30

scheikunde

-.42

Duits

-.48

biologie

-.42

handelsk.

-.50

indruk van de betekenis van de gekozen indeling te krijgen;^ dient men zich te realiseren dat bij
een absolute effectgrootte van .10, onder de assumpties van normaliteit en gelijke varianties,
1.1% van de twee verdelingen elkaar niet overlapt. Bij een absolute effectgrootte van .20 is dit
14.7%. Bij een effectgrootte van -.50, zoals die in 1986 bij het MAVO-D examen voorkwam,
overlapt 33.0% van de twee verdelingen elkaar niet. Het is opvallend dat de grootste verschillen
zich niet bij wiskunde voordoen, zoals veelal gedacht wordt, maar bij handelskennis en Duits.
Verder blijkt dat de meisjes het op slechts 7 van de 63 examens beter doen dan jongens, en het
gaat hierbij nooit om grote effecten. Het geschetste beeld verandert nauwelijks over de jaren.

Voor 1988 en 1990, de examenjaren die later in dit artikel aan de orde zullen komen, zijn
nogmaals de prestatiéverschillen tussen meisjes en jongens berekend voor Frans, Duits en
Engels. De verschillen in percentages goede antwoorden en in effectgroottes zijn weergegeven
in Tabel 2. Frans MAVO-C 1988 en Frans MAVO-D 1990 werden beter gemaakt door meisjes.

-ocr page 345-

Item-Specifieke verschillen in prestaties 339

Tabel 2. Verschil meisjes-jongens in percentages goede antwoorden en effectgroottes centrale examens
1988 en 1990.

verschil in % goede antwoorden/effectgroottes
1988 1990 1988 1990

vwo

-.23

Frans

-1.73

-2.97

-.13

Duits

-4.37

-2.71

-.37

-.25

Engels

-2.49

-1.74

-.19

-.12

havo

-.15

Frans

-2.66

-1.92

-.20

Duits

-2.01

-3.49

-.19

-.31

Engels

-2.81

-4.44

-.19

-.31

D-niveau

.07

Frans

-1.44

.90

-.12

Duits

-2.61

-2.26

-.21

-.21

Engels

-1.25

-1.47

-.10

-.12

C-niveau

.01*

Frans

1.31

.25

.10

Duits

-3.02

-1.34

-.26

-.12

Engels

0.01

-3.38

.00*

-.27

niet significant

Bij alle andere tekstbegripexamens behaalden de jongens betere resultaten. Het grootste ver-
schil deed zich voor bij Duits VWO 1988. . • • k-- i, .

Gezien de grote consistentie van het effect van de lagere prestaties van meisjes bij he
centraal schriftelijk eindexamen is het belangrijk om na te gaan wat de oorz.aken zyn. Er is veel
onderzoek gedaan naar oorzaken van differenriële prestaties van meisjes bij exacte va^en.
maar aan seksespecifieke talenprestaties is veel minder aandacht besteed. Nader onderzoek - in
de vorm van een inhoudelijke analyse - van de talenexamens van dne achtereenvolpnde exa-
menjaren leidde tot de veronderstelling dat examenteksten meer aansluiteii bij de belevmgswe-
reld van jongens dan die van meisjes. Zo komen er aanzienlijk meer mannelijke dan vrouwelijke

personages in de teksten voor (Bügel, 1987). .. , u • «n^rr,^

De vraag doet zich dan ook voor of de differentiële scores bij de teksjegnpexamens moderne
vreemde talen helemaal toegeschreven moeten worden aan een verschil in vaardigheid. Het zou
ook mogelijk kunnen zijn dat meisjes ongewild door specifieke opgaven worden benadeeld In
dat geval is er sprake van een verschijnsel dat
bekend staat als item bias differential nem
funcfioning' (DIF), of'vraagpartijdigheid' (zie b.v. Mellenbergh, 1982,1983, Kok, 1988). Er is
sprake van DIF als willekeurige personen van een
gelijk vaardigheidsniveau die tot verschil^
de groepen kandidaten behoren, niet dezelfde kans hebben het desbetreffende itetn juist te
beantwoorden. De aanwezigheid van item-bias is in het algemeen ongewenst, omdat de beoor-
deling van de kandidaten niet beïnvloed mag worden door variabelen die met het onderwerp zijn
van de beoordeling, zoals sekse,
sociaal-economische- of etnische achtergrond.

Voorkennis en interesse , , . • , ^ u f.

Uit tal van gegevens blijkt dat kennis van een bepaald onderwerp of domein invloed heeft op
cognitieve vaardigheden zoals reproduktie, redeneervaardigheid en tekstbegnp
(Ceci & Liker,
1986; Schneider, 1990). Volgens de 'schemata'-theorie spedt de reeds in het geheugen opgesla-

-ocr page 346-

340 K. Bügel en C. Glas

gen kennis een belangrijke rol bij het verwerken van nieuwe informatie (Anderson & Pearson,
1984). Tekstbegrip moet dan ook niet gezien worden als een passief proces waarin het gelezene
zin voor zin wordt opgenomen; het begrijpen van een tekst vereist een actieve deelname van de
lezer, omdat geen enkele tekst volledig exphciet is. De lezer genereert zelf een bepaalde betekenis
op grond van interactie tussen reeds aanwezige voorkennis en in de tekst aanwezige informatie.
Wanneer een lezer geen enkele voorkennis heeft of niet in staat is deze te activeren, is tekstbe-
grip onmogelijk. (Anderson & Pearson, 1984; Bransford, Stein & Shelton, 1984). Voorkennis
en ook interesse blijken een belangrijke invloed te hebben op tekstbegripscores (Asher, 1980;
Alvermann, Smith & Readence, 1985).

Jongens en meisjes blijken verschillende interesses, ervaringen en buitenschoolse activiteiten
te hebben. Al op jeugdige leeftijd blijken jongens vaker de krant te lezen en meisjes meer
(jeugd)romans en gedichten (Zwarts, 1990, zie ook: Kuhlemeier & Van den Bergh, 1991). Op
de middelbare school blijken er twee min of meer verschillende culturen te bestaan (De Waal,
1989), de belangstellingssferen lopen met het ouder worden steeds meer uiteen, evenals de
buitenschoolse activiteiten (Mottier, 1988; Sj0berg, 1988). Het is daarom aannemelijk dat de
kennis van jongens en meisjes over een aantal onderwerpen verschik. Wellicht veroorzaakt deze
differentiële kennis van bepaalde onderwerpen bias in tekstbegripexamens.

In het navolgende wordt verslag gedaan van de eerste fase van een onderzoek dat op dit
moment op het Cito wordt uitgevoerd naar de aanwezigheid en de oorzaken van item-bias in de
talenexamens. Dit project is een vervolg op eerder exploratief onderzoek naar item-bias in de
MAVO-C en D-examens Frans, Duits en Engels van 1986 en 1988 (Bügel & Robben-Willems,
1989; Bügel, 1991). Het doel van het project is item-bias in de examens zoveel mogelijk te
vermijden. Alvorens over het eigenlijke onderzoek te rapporteren, zullen eerst de statistische
technieken die gebruikt werden voor het opsporen van DIF, een techniek gebaseerd op de
Mantel-Haenszel-toets en een techniek gebaseerd op het Rasch-model, nader beschreven worden.

STATISTISCHE PROCEDURES VOOR HET OPSPOREN VAN ITEM-BIAS
De Mantel-Haenszel-procedure

Zoals hierboven reeds gemeld, spreekt men van 'item-bias' of DIF als bij een gegeven vaar-
digheidsniveau twee willekeurige leden van twee verschillende populaties niet dezelfde kans
hebben een item goed te maken. De statistische technieken voor het opsporen van DIF zijn dan

Score op item i
1 (goed) O (fout)

Aj

Totaal

Referentiegroep
(meisjes)

Onderzoeksgroep
(jongens)

"Rj

Totaal

Fig. I. 2x2-tabcl van niveaugroep).

m,.

Verklaring symbolen:

Tj = totaal aantal kandidaten in niveaugroep j

Aj = aantal meisjes van niveaugroep j dat item i juist beantwoord heeft
B. = aantal meisjes van niveaugroep j dat item i onjuist beantwoord heeft
Cj = aantal jongens van niveaugroep j dat item i juist beantwoord heeft
D. = aantal jongens van niveaugroep j dat item i onjuist beantwoord heeft

"loj

-ocr page 347-

Item-Specifieke verschillen in prestaties 341

ook alle gebaseerd op het evalueren van verschillen tussen de groepen in de kansen op een goed
antwoord, conditioneel op een of andere maat voor vaardigheid. Meestal neemt men als maat
voor de vaardigheid de somscore van de leerlingen.

Holland & Thayer (1986,1988) stellen de volgende procedure voor om vast te stellen of de
verschillen tussen de groepen in de moeilijkheidsgraad van een item, conditioneel op de som-
scores van de leerlingen, statistisch significant zijn. Voor elke niveaugroep, dat wil zeggen voor
elke groep leerlingen met een score in een bepaald bereik, wordt een 2x2-tabel van itemscore bij
sekse opgesteld. De tabel is weergegeven in Figuur 1.

We zullen de twee te onderzoeken groepen hierna verder benoemen als 'jongens' en 'meisjes'.

De door Holland and Thayer voorgestelde procedure is gebaseerd op een zogenaamde 'odds-
ratio' (ratio van kansen), die voor het j-de niveau gegeven is door

Prj

= _ (1)
Ppj B.C.

1-Pb

waarbij P^. de kans op een goed antwoord is van de zogenaamde referentie groep (in de Engels-
talige literatuur 'reference group' genoemd, in dit geval de meisjes) en Pp. de kans op een goed
antwoord van de te onderzoeken groep (in de Engelstalige literatuur 'focal group' genoemd, in
dit geval de jongens). Het onderscheid tussen de referentie- en onderzoeksgroep is overigens
voor het hier gepresenteerde onderzoek arbitrair. Wanneer er geen verschil in prestaties is
tussen de twee groepen is d gelijk aan 1. Wanneer de twee groepen verschillende antwoordpa-
tronen vertonen, is d groter dan 1 als de referentiegroep een grotere kans op een goed ant-
woord heeft; d; is kleiner dan 1 als dit voor de onderzoeksgroep geldt. Voor de zogenaamde
Mantel-Haenszel-toets worden de 'odds-ratio's' van alle niveaugroepen gecombineerd tot

I a.D/T^

«MH =

(2)

Indien er geen DIF voorkomt en dus Umh = 1 - i» log dwH "ormaal verdeeld met een gemiddel-
de van O en een standaarddeviatie SE(Iog d^H). ^^dat de gestandaardiseerde log-odds-ratio z =
log (dM„)/SE(log dMii) bij benadering standaardnormaal verdee d is Bij een significan le-
niveau van
1%, zijn d^kritische waarden z = 2.58 als het item gemakkelijker is in de referentie-
Populatie en z = -2.58 als het item moeilijker is in de referentie-populatie.

De aanwezigheid van items met DIF doet afbreuk aan de waarde van de somscore als indicator
van de
vaardigheid van de leerlingen. De somscore wordt immers mede bepaald door items die
voor de twee groepen een verschillende moeilijkheidsgraad hebben. Daarom is het zoeken na^
DIF een
iteratief proces. Eerst wordt een analyse uitgevoerd waarbij de antwoorden op alle
items worden opgenomen in de somscore. Vervolgens wordt een analyse uitgevoerd waarby de
items die in de eerste analyse een significante uitkomst van de Mantel-Haenszel-toets hadden
niet meer in de somscore worden opgenomen. Nu is het enerzijds mogelijk dat er nieuwe items
met significante DIF bijkomen, anderzijds is het mogelijk dat de significante DIF verdwijnt bij
items die in de eerste analyse wel een significante uitkomst van de Mantel-Haenszel opleverden.
Het iteratieve proces gaat door tot er een verzameling items zonder DIF gevonden wordt waar-

-ocr page 348-

342 K. Bügel en C. Glas

mee de somscore berekend kan worden en een verzameling items met een significante Mantel-
Haenszel die niet in de berekening van de somscore zijn betrokken.

Een procedure gebaseerd op het Rasch-model

In de item-respons-theorie wordt de kans op een goed antwoord op een item beschreven als een
funcde van persoonsparameters en itemparameters. Deze eigenschap maakt de klasse van item-
respons-modellen bijzonder geschikt voor het onderzoeken van DIF: conditioneren op het vaar-
digheidsniveau van respondenten is hier niets anders dan het constant houden van de persoons-
parameters. Individuen met gelijke persoonsparameters moeten, ongeacht de populatie waartoe
ze behoren, dezelfde kans op een goed antwoord hebben.

Bij de keuze van een item-respons-model zijn de volgende overwegingen van belang. De
resultaten van de examens die het onderwerp zijn van dit artikel worden uitgedrukt in een
(ongewogen) somscore. Dit betekent dat men de getoetsten ordent op een unidimensioneel
vaardigheidscontinuüm en dat de persoonsparameter unidimensioneel is. Fischer (1974, pp.
193-203) heeft aangetoond dat onder de assumptie dat de somscore een afdoende steekproef-
grootheid is voor een unidimensionele vaardigheidsparameter, en een paar technische assump-
ties (lokale stochastische onafhankelijkheid, een strikt monotoon stijgende kans op een goed
antwoord die nergens gelijk aan nul of een is), het Rasch-model noodzakelijkerwijze volgt. Met
andere woorden, het gebruik van de somscore als uitkomst van de met het examen uitgevoerde
meting impliceert dat examens in feite aan het Rasch-model zouden moeten voldoen.

Zoals uit de hier te presenteren resultaten zal blijken, voldoen de onderzochte examens
echter geen van alle aan het Rasch-model. Om toch zo dicht mogelijk bij de uiteindelijke
resultaatbepaling van het examen te blijven, wordt daarom, voor het onderzoek naar item-bias,
in de verzameling opgaven van het complete examen eerst gezocht naar een aantal Rasch
homogene subsets van items. Voor ieder van die subsets is de somscore een afdoende grootheid
voor de vaardigheidsparameter.

In de examensituatie worden, voor de uiteindelijke resultaatbepaling, de somscores op de
subschalen opgeteld tot een totaalscore als eind waardering. Dit impliceert in feite een, meestal
arbitraire, waardering voor de verschillende vaardigheidsdimensies: bij een andere combinatie
van deelscores tot een eindwaardering ontstaat namelijk een andere ordening van leerlingen.
Overigens is de correlatie tussen de vaardigheidsdimensies hoog (altijd groter dan .85) zodat de
afwijking ten opzichte van het Rasch-model niet bijzonder groot is en men zeker niet mag
concluderen dat een examen een aantal scherp afgebakende vaardigheidsdimensies meet. Glas
(1989) laat zien dat de correlatie tussen subschalen samenhangt met verschillen in discriminerend
vermogen tussen de schalen. We zullen hier nu verder niet op ingaan, omdat dit buiten het kader
van dit artikel ligt.

De procedure bestaat uit twee stappen: (1) het zoeken van Rasch-homogene subschalen en (2)
het evalueren van item-bias. De eerste stap is gebaseerd op de volgende toetsingsprocedure. Stel
dat voor de variabele geslacht de index s gebruikt wordt. Verder wordt de referentiegroep (hier
de meisjes) geïndiceerd met s=0, terwijl de andere groep (hier de jongens) wordt aangeduid met
s=l. Om de zoekprocedure niet te laten beïnvloeden door eventueel aanwezige item-bias, wor-
den in de eerste stap alleen de gegevens van de referentiegroep gebruikt. Zoals bij de Mantel-
Haenszel-procedure wordt het complete scorebereik verdeeld in een aantal aaneengesloten
scoreverzamelingen die we met j, j=l,...,G, indiceren. Laat de stochastische variabele M.j het aantal
goede antwoorden van groep s in scorebereik j op item i zijn. De passing van het Rasch-model is
nu te evalueren met behulp van de verschillen

d.ji = %i-E,(M,J6), ' (3)

waarbij m^jj de gerealiseerde waarde van M^^j is en E^(Mjjjl 5) de verwachte waarde van M^^j. Deze
verwachte waarde is conditioneel op de somscores en gegeven de conditionele grootste-aanne-
melijkheids-schatting van de itemparameters, die aangegeven is met 6 • Voor een expliciete

-ocr page 349-

Item-Specifieke verschillen in prestaties 343

uitdmkking van deze verwachte waarde zij men verwezen naar Glas (1988,1989). Laat d^^ een
vector zijn met elementen d^ ., i=l ,...,K, en variantie-covariantie matrix W^^. De modelpassing in
groep s wordt geëvalueerd met behulp van de toetsingsgrootheid

(4)

welke asymptorisch chi-kwadraat verdeeld is met (G-1)(K-1) vrijheidsgraden (Glas, 1988,1989),
waarbij G het aantal delen is waarin het scorebereik wordt verdeeld en K het aantal items. In de
eerste stap is alleen de modelpassing van de referentiegroep van belang, dus s=0. De bijdrage
van specifieke items aan de uitkomst van de toetsingsgrootheid kan men inschatten via de
gewogen verschillen dj./SE(M^ji). Voor het zoeken van de subschalen wordt eerst de modelpassing
van het hele examen berekend en vervolgens worden op basis van het patroon van de verschillen
djjj items in subschalen ingedeeld, waama de modelpassing van de subschalen berekend wordt.
Hierna is het vaak nog nodig om wijzigingen in de indeling van items aan te brengen. Ook
hierbij kan men zich baseren op gewogen verschillen djj/SE(Mjji). In het hiema gerapporteerde
onderzoek worden meestal drie tot vier subschalen in een examen gevonden. In een aantal
gevallen eindigt de zoekprocedure verder met enige items die niet te schalen zijn.

Nadat in de eerste stap van de procedure de opgaven zijn geschaald voor de referentiegroep,
wordt in de tweede stap nagegaan of de gevonden schalen ook van toepassing zijn op de
onderzoeksgroep. Hiertoe worden de parameters van de items van iedere schaal geschat op de
data van beide groepen. De modelpassing wordt geëvalueerd met behulp van de toetsingsgrootheid

(5)

'sj .

welke asymptorisch chi-kwadraat verdeeld is met (2G-1)(K-1) vrijheidsgraden (Glas, 1988
1989), waarbij ervan uitgegaan wordt dat het scorebereik voor beide groepen m G delen verdeeld
wordt. Merk op dat het aggregatieniveau van de data waarop de verschillen d^^^ gebaseerd zijn
hetzelfde is als bij de
Mantel-Haenszel-toets: als N . het aamal respondenten van groep s m
scorebereik j is, is m . /N . de kans op een goed antwoord en J 5) de verwachte waarde.

Met de verschillen gaat men dus na of de proportie goede antwoorden voor jongens en
meisjes conform de voorspellingen van het model zijn en, omdat voor beide groepen hetzelfde
model geldt, of deze proporties gelijk zijn. Als de toetsingsgrootheid significant is, is door
inspectie van de verschillen d •• na te gaan of de verwerping toe te schrijven is aan systematische
verschillen tussen de twee groepen in de kans op het produceren van een goed antwoord. Per
item kan men de verschillen d^^^ ook combineren in een toetsingsgrootheid. Laat b^^ een vector
zijn van de verschillen d^... Dan is

(6)

asymptotisch chi-kwadraat verdeeld met S, rang (V ■) vrijheidsgraden, waarbij^V een matrix van
gewichten is (zie Verhelst en Eggen. 1989 of Verhelst, Glas & Verstralen, 1991).

De relatie tussen de twee procedures . t. . i^j „oj,,».

De Mantel-Haenszel-procedure en de Rasch-procedure zijn gebaseerd op hetzelfde
toetsen of de kans op een goed antwoord gegeven een somscore of een bereik van soniscores
hetzelfde is voor de referent^- en de onderzoeksgroep. Beide techmeken hebben hun beperkingen.

-ocr page 350-

344 K. Bügel en C. Glas

Bij de Mantel-Haenszel-procedure is de somscore, in tegenstelling tot het Rasch-model, niet
gevalideerd als een maat voor vaardigheid van de leerlingen. Verder heeft de techniek het
nadeel dat niet alle vormen van bias gedetecteerd kunnen worden. In de literatuur over item-bias
onderscheidt men uniforme en niet-uniforme bias (Mellenbergh, 1982, 1983). In het eerste
geval is de kans op een goed antwoord voor een van de groepen over het hele scorebereik
systematisch hoger. In het tweede geval zijn er niveaus waarop de ene en niveaus waarop de
andere groep beter scoort. De Mantel-Haenszel procedure is alleen gevoelig voor de eerste vorm
van bias, in het tweede geval vallen de effecten in de toetsstatistiek tegen elkaar weg. De
toetsingsgrootheden voor het Rasch-model leiden niet aan dit euvel omdat hier de verschillen
tussen verwachte en geobserveerde proporties gekwadrateerd worden.

Het toepassen van het Rasch-model heeft echter als nadeel dat de parameterschatting restricties
op de toetsingsgrootheden oplevert waardoor een item met DIF ten nadele van een groep kan
leiden tot een of meer items die schijnbaar DIF vertonen ten nadele van de andere groep. Dit
ongewenste effect ontstaat doordat de schattingsvergelijkingen te schrijven zijn als

= (7)

s j s j

A

zodat, na invulling van de grootste aannemelijkheidsschattingen 5, geldt dat j j d^jj = O, i.e.
de som van de verschillen tussen verwachte en geobserveerde frequenties is nul.

Gezien deze overwegingen zijn beide technieken in eikaars verlengde gehanteerd: eerst zijn
er Rasch-homogene subschalen gezocht en is op de aanwezigheid van DIF getoetst met het
Rasch-model, vervolgens is voor iedere subschaal de Mantel-Haenszel techniek toegepast. Ver-
der is in het onderzoek een vorm van kruisvalidatie toegepast, die inhield dat steeds is nagegaan
of de gevonden effecten ook in een tweede steekproef aantoonbaar waren.

Voor de examens van zowel 1988 als 1990 worden de resultaten van de Mantel-Haenszel-
procedure - op basis van Rasch-homogene subschalen - vermeld. Voor de examens van 1988
zijn ook de resultaten van de IRT-procedure gegeven. Bovendien is de overeenstemming tussen
de twee methoden berekend.

EEN ONDERZOEK NAAR ITEM-BIAS

Het hier gepresenteerde onderzoek naar item-bias bestaat uit twee delen:
I Nagaan of er item-bias voorkomt in de talenexamens 1990 en het zoeken naar gemeenschap-
pelijke kenmerken van partijdige items;
n Nagaan of met behulp van de gevonden kenmerken voorspellingen te doen zijn over de
aanwezigheid van item-bias in de examens van 1988.

Het eerste deel van het onderzoek

•1

De data

Er werden twee verschillende steekproeven getrokken van elk ongeveer 2000 kandidaten uit alle
examenkandidaten die hadden deelgenomen aan de tekstbegripexamens Frans, Duits en Engels,
eerste tijdvak 1990 op C-, D-, HAVO- en VWO-niveau. Het totale aantal examenkandidaten
varieerde van ± 4.000 op Frans C-niveau tot ± 64.000 op Engels D-niveau. Beide steekproeven
bestonden uit ongeveer 1000 jongens en ongeveer 1000 meisjes. Ieder examen bevat een aantal
teksten en 50 items.

Resultaten ^

Voor ieder examen zijn er eerst Rasch-homogene subschalen gezocht en is voor iedere subschaal
de aanwezigheid van DIF onderzocht met de Mantel-Haenszel- toets. Daarbij zijn items alleen
als partijdig geoormerkt als de toets in beide steekproeven significant was. In de totaal 600

-ocr page 351-

Item-Specifieke verschillen in prestaties 345

Tabel 3. Aantal items met bias in het voordeel van meisjes of jongens in één steekproef en in twee steek-
proeven (1%-significantie-niveau) in de talenexamens van 1990 (Mantel-Haenszel).

VOORDEEL MEISJES

VOORDEEL JONGENS

2 steekpr.

1 steekpr.

2 steekpr.

1 steekpr.

VAK/NIVEAU

FRANS VWO

1

3

1

3

FRANS HAVO

1

6

3

3

FRANS MAVO-D

1

4

1

3

FRANS MAVO-C

0

3

1

5

Totaal

3

16

6

14

DUITS VWO

0

2

5

1

DUITS HAVO

0

3

5

2

DUITS MAVO-D

1

4

4

0

DUITS MAVO-C

3

8

3

4

Totaal

4

17

17

7

ENGELS VWO

0

7

3

3

ENGELS HAVO

0

3

10

3

ENGELS MAVO-D

1

5

4

5

ENGELS MAVO-C

1

5

8

0

Totaal

2

20

25

11

TOTAAL

9

53

48

32

opgaven werden 57 opgaven gevonden die bias vertoonden: 48 in het voordeel van jongens en 9
in het voordeel van meisjes. ^ , .

In Tabel 3 is het aantal partijdige items voor ieder examen aangegeven. Ook is vermeld
hoeveel items in slechts één steekproef bias vertoonden. Alle items werden bestudeerd door
twee ervaren toetsconstructeurs. Dit leverde de volgende voorlopige conclusie op: er bestaat
geen verband tussen vraagsoort - volgens het op het Cito gehanteerde vraagsoortenschema
(Bügel, Ipema. Van Krieken & Sprengers, 1990), waarin een onderscheid wordt pmaakt tussen
verschillende soorten tekstbegripvragen - en item-bias. De gemeenschappelijke kenmerken van
partijdige items liggen op het inhoudelijke vlak. Jongens worden bevoordeeld door items die
betrekking hebben op tekstonderdelen die handelen over techniek, apparaten gemotonseerde
vervoermiddelen, misdaad en sport of die gaan over politieke en economische onderwerpen.
Meisjes daarentegen worden bevoordeeld door items die gezinsproblemen, intemienselijke rela-
ties of gevoelens behandelen. Wanneer een dergelijke 'menselijke factor' in een foiit alternatief
staat, maar niet in het goede antwoord, hebben meisjes sterker de neiging een dergelijke afleider
te kiezen. Jongens en meisjes worden beiden bevoordeeld door vragen over stereotiepe kenmerken
en eigenschappen van de eigen sekse. Deze bevindingen komen in grote lijnen overeen met die
uit eerder onderzoek (Bügel &
Robben-Willems, 1989; Bügel, 1991) en met buitenlandse gege-
vens (zie Wilder & Powell, 1989). Er werden geen systematische verschillen ontdekt tussen de
kenmerken van partijdige items bij de verschillende talen en niveaus.

Het tweede deel van het onderzoek
öe data

Voor de statistische analyse werden weer twee steekproeven van elk 2000 kandidaten (lOW
jongens en 1000 meisjes) getrokken uit alle examenkandidaten die hadden deelgenomen aan de

-ocr page 352-

346 K. Bügel en C. Glas

examens Frans, Duits en Engels van 1988, eerste tijdvak. De inhoudelijke analyses werden
uitgevoerd op alle 600 opgaven uit deze examens.

Analyse

Om de in de eerste fase geformuleerde criteria te controleren, werden voorspellingen gedaan
voor de 600 items uit de genoemde examens. Twee onderzoekers voorspelden onafhankelijk
van elkaar welke items partijdig zouden zijn volgens de eerder geformuleerde inhoudelijke
kenmerken. Alleen items waarover volledige overeenstemming bestond en die duidelijk aan de
geformuleerde criteria voldeden werden als 'potentieel partijdig' geclassificeerd. Vervolgens
werden de twaalf examens met de eerder beschreven statistische methode geanalyseerd. Dat wil
zeggen dat er Rasch-homogene subschalen gezocht werden en vervolgens werd zowel met het
Rasch-model als met de Mantel-Haenszel-techniek op DIF getoetst.

Resultaten

In Tabel 4 wordt een overzicht van de resultaten gegeven. In de kruistabel wordt de relatie
tussen de voorspellingen en de uitkomsten van de Mantel-Haenszel-toets weergegeven.

Van 19 items werd voorspeld dat ze de jongens zouden bevoordelen, van 23 items werd
voorspeld dat ze de meisjes zouden bevoordelen, zodat van 42 items werd voorspeld dat ze
partijdig zouden zijn. In de analyse bleken 67 item partijdig te zijn, waarbij items alleen als
partijdig werden geoormerkt als de toets in beide steekproeven een significante uitkomst gaf

Om de overeenstemming tussen de voorspellingen en de uitkomsten te bepalen werd de
coëfficiënt Kappa berekend, waarbij ook hier items alleen als partijdig werden geoormerkt als
de toets in beide steekproeven een significante uitkomst gaf. Uit de gevonden waarde, Kap-
pa=0.21, moet geconcludeerd worden dat de overeenstemming gebrekkig is. Toch werd 86.5%
van de items juist ingedeeld, dat wil zeggen terecht ingedeeld in een van de drie categorieën:
item bevoordeelt jongens ('jongensitem'), item bevoordeelt meisjes ('meisjesitem') of item
vertoont geen bias ('neutraal item'). Veel partijdige items werden niet voorspeld: van de 51
items die jongens bevoordelen, werden er slechts 11 voorspeld. Van de 16 items die meisjes

Tabel 4. Vergelijking van het aantal items met bias volgens de Mantel-Haenszel procedure en het aantal
voorspelde items. Examens Frans, Duits en Engels 1988.

Aantal items met bias

Voorspellingen

volgens statistische

procedure

jongens

neutraal

meisjes

TOTAAL

jongens/2 steekproeven

11

40

0

51

jongens/1 steekproef

0

32

0

32

neuU-aal

8

431

15

454

meisjes/1 steekproef

0

42

5

47

meisjes/2 steekproeven

0

13

3

16

TOTAAL

19

558

23

600

Chi-kwadraat: 80.67
vrijheidsgraden: 8

Tabel met tweede, derde en vierde rij gesommeerd:
Chi-kwadraat: 72.54
vrijheidsgraden: 4
kappa: .21

-ocr page 353-

Item-Specifieke verschillen in prestaties 347

Tabel 5. Vergelijking van het aantal items met bias volgens de IRT-procedure en het aantal voorspelde
items. Examens Frans, Duits en Engels 1988. _

Voorspellingen

jongens

neutraal

meisjes

TOTAAL

4

13

0

17

8

37

0

45

7

454

17

478

0

42

4

45

0

12

3

15

19

558

23

600

Tabel met tweede, derde cn vierde rij gcsommcrd:
Chi-kwadraat: 35.07
vrijheidsgraden: 4
kappa: .15

bevoordeelden maar 3. In geen enkel geval werd echter een ' ofeens rstatl^

verkeerd was: een item dat als 'jongensitem' werd voorspeld. ^at volgn fe st^stische

analyse meisjes bleek te bevoordelen of andersom. De met ^««-^^P^'^mTe cntJ^^

items' bleke,^ in bijna alle gevallen wel min of meer aan de eerder genoeindecntena te voldoen.

Het blijkt dus zeer^moeilijl orn precies - yo-pel^

In Tabel 5 worden de resultaten voor de IRT-anaiyses geioonu. j

Aantal items met bias
volgens dc IRT-procedure

jongens

neutraal

meisjes

totaal

Chi-kwadraat: 279.43
vrijheidsgraden: 4
kappa: .43

Tabel 6. Overeenstemming tussen IRT en Mantel-Haenszel-proccdure. Examens Frans. Duits en Engels
1988. _

Aantal items met bias volgens

de Mantel-Haenszel-proccdure

Aantal items met bias
volgens statistische
procedure

jongens/2 steekproeven
jongens/1 steekproef

neutraal

meisjes/1 steekproef
meisjes/2 steekproeven

totaal

Chi-kwadraat: 74.05
vrijheidsgraden: 8

jongens

ncuuaal

meisjes

TOTAAL

16

1

0

17

35

524

9

568

0

8

7

15

51

533

16

600

-ocr page 354-

348 K. Bügel en C. Glas

overhel algemeen vergelijkbare, zij het minder positieve, resultaten: de Kappa-coëfficiënt komt
hier niet verder dan . 15.

Toch werd ook hier 90% van de items goed ingedeeld.

In Tabel 6 wordt de overeenstemming tussen de resultaten van de IRT- en de Mantel-
Haenszel-procedure getoond. Het valt op dat de overeenstemming tussen de twee methoden
(Kappa=.43) slechts matig is. Verklaringen hiervoor vormen nog een onderwerp van studie. Een
van de mogelijke verklaringen zou kunnen zijn dat de IRT-methode veel items detecteerde die
niet-imiforme bias vertoonden. Deze verklaring lijkt echter niet acceptabel: van de items die
significant waren in de IRT-analyses vertoonden er slechts twee een patroon van modelafwijkingen
dat op niet-uniforme bias wijst.

Om een indruk te geven om wat voor soort hems het eigenlijk gaat, volgen hier twee voorbeel-
den van partijdige items.

Voorbeeld 1: item dat jongens bevoordeelt

Engels C-niveau, eerste tijdvak, 1990)

■ Tekst 13 Who says women can't drive

1 Louise Ailken-Walker, 27, and her co-driver Ellen Morgan have shaken up the rough and tough world of
rally driving this year by proving absolutely unbeatable. Their competitors - all men - have consislenUy
tried and failed to overtake Ihem.

2 'Louise is very well respected. She frightens an awful lot of Ihem. They know if she is in an event, they
stand a fair chance of being beaten,' grins Ellen, who is len years older. 'People who had spoken to us for
years have suddenly slopped speaking to us of late! Bui al least we're beginning lo gel rid of their stupid
idea lhal women are lousy drivers. They don't dare come out with Uiat any more.'

■ 32 What is said about Louise and Ellen in paragraph 1?

A In 1987 they were allowed to drive in a rally for the first time.

B Many men do not wani ihem to take part in rallies.
C* Rally after rally, Ihey have managed lo do belter than any of ihe men.

D They think lhal the competition in rally driving is very unfair lo women.

Gekozen anlwoord in %
jongens meisjes
A 15 A 21
B 14 B 24
C*64 C*43
D 8 D 13

Mogelijke verklaring: onderwerp: sport/auto's; afleiders bevatten 'menselijke factor'.

Voorbeeld 2: item dat meisjes bevoordeelt

(Engels C-niveau, eerste tijdvak, 1990)

■ Tekst 14 One more hit and they'll be the greatest

1 They drift into the quiet aUnosphere of London's chic Waldorf Hotel. Three striking girls who just a few
days ago entered the
1989 Guiness Book of Records as Europe's most successful-ever all-girl group. With
jusl one more hit record Bananarama will pass those all-lime greats, the legendary Supremes. (...)

7 'Our fans seem to be mosUy girls.'says Keren. T ihink we are easy to identify with. It is easy for ihem to
look like us.'

8 The girls still look and behave in a charmingly ordinary manner. The only thing they spoil themselves
wilh, they say, is clothes - and for Keren il is expensive skin creams. 'I don't care about money. As long
as I have a house and can support my family in ihe way they have become accustomed to, thai is all I
want.'

-ocr page 355-

Item-Specifieke verschillen in prestaties 349

■ 49 What becomes clear about the Bananarama girls from paragraph 8?

A Their families are their greatest fans.
B* Their success has not really spoilt them.

C They have earned so much that they do not know what to do with the money.

D They think that family life is more important than work.

Gekozen antwoord in %
jongens meisjes
A 5 A 6
B*29 B*34
C 8 C 6
D 58 D 54

Mogelijke verklaring: item vraagt naar 'stereotiep' vrouwbeeld.

CONCLUSIE EN DISCUSSIE

Zowel uit de IRT- als de Mantel-Haenszel-analyses blijkt dat er partijdige items in de centraal
schriftelijke examens tekstbegrip Frans, Duits en Engels voorkomen. De overeenkomst tussen
de resultaten van de twee analysetechnieken is matig. De resultaten wijzen wel steeds in dezelf-
de richting: het is niet zo dat een item dat in de ene analyse de jongens lijkt te bevoordelen in de
andere analyse de meisjes lijkt te bevoordelen. Het voorspellen van item-bias op basis van de
kenmerken van de items blijkt zeer moeilijk te zijn. Toch geldt ook hier dat de richting van de
hypothesen goed is: voorspelde jongensitems blijken nooit meisjesitems te zijn, vice versa.
Verder blijkt in de IRT- en
Mantel-Haenszel-analyse respectievelijk 90% en 86.5% van de items
juist geclassificeerd te zijn. Verdere verfijning van het classificatieschema lijkt zinvol.

De resultaten van het onderzoek suggereren verschillende onderwerpen voor verder onder-
zoek. Nu aangetoond is dat item-bias voorkomt, is het zinvol na te gaan hoe groot de invloed
van item-bias op de totale score van de leeriingen is. In een volgend artikel zal hiervoor een
statistische techniek worden voorgesteld.

Het hier gerapporteerde onderzoek is vooral gericht op de items en is gebaseerd op de
veronderstelling dat er aan een examen een, weliswaar multidimensionele, vaardigheid tekstbegrip
ten grondslag ligt waar alle items betrekking op hebben. Een andere invalshoek zijn de teksten
waar de items betrekking op hebben. Er zal nader onderzoek gedaan worden naar de hypothese
dat de differentiële prestaties van jongens en meisjes toe te schrijven zijn aan de inhoud van de
teksten, en daarmee samenhangende verschillen in voorkennis en interesse.

Tenslotte is het noodzakelijk dat er onderzoek wordt verricht naar de oorzaken van sekse-
specifieke verschillen. Daarom zal aan de hand van de gevonden kenmerken van partijdige
items een aantal hypothesen opgesteld worden over deze oorzaken. Hierbij wordt, naast de uit
dit onderzoek naar voren komende itemkenmerken, gedacht aan verschillen in leeftijd, verschil-
len in interesse en verschillen in kennis ten aanzien van een aantal onderwerpen. Deze hypothesen
zullen getoetst worden in een experimenteel onderzoek dat in 1992 uitgevoerd zal worden.

LITERATUUR

Alvermann, D.E., Smith, L.C. & Rcadencc J.E. (1985). Prior knowledge activation and the comprehension

of compatible and incompatible text, Reading Research Quarterly 20,420-436.
Anderson, R.C. & Pearson P.D. (1984), A Schcma-Theorctic View of Basic Processes in Reading Com-
prehension. In Pearson P.D. (Ed.),
Handbook of Reading Research (p. 255-293), New York:
Longman Inc.

Asher, S.R. (1980). Topic Interest and Childrens's Reading Comprehension. In: R.J. Spiro, B.C. Bruce &
W.F. Brewer (Eds.),
Theoretical Issues in Reading Comprehension (p. 525-534), Hillsdale, New
Jersey: Erlbaum.

-ocr page 356-

350 K. Bügel en C. Glas

Becker, D.F. & Forsyth, R.A. (1990). Gender differences in Academic Achievement in Grades 3 through 12:
A Longitudinal Analysis,
Paper presented at the Annual Meeting of the American Educational
Research Association, Boston.

Bransford, J.D., Stein, B.S. & Shelton, T (1984). Learning form the perspective of the comprehender. In:
J.C. Alderson & A.H. Urquhart (Eds.),
Reading in a Foreign Language, New York: Longman Inc.

Bügel, K. (1987). Emancipatie in talenexamens II. Inteme documentatie, Arnhem: Cito.

Bügel, K. 0991). Seksespecifieke prestaties en item-bias bij tekstbegripexamens modeme vreemde talen.
In: J. Dronkers, G.W. Meijnen & H. Dekkers (red.).
Onderwijsresearchdagen '91. Onderwijs en
Samenleving.
Amsterdam: SCO.

Bügel, K. & H.F.M. Robben-Willems (1989). Item-bias in examens moderne vreemde talen C/D-niveau. Inteme
documentatie nr. 321. Amhem: Cito.

Bügel, K., J. Ipema, R. van Krieken & M.C. Sprengers (1990). Model voor het beschrijven van talenexa-
mens,
Inteme documentatie ra'. 341, Amhem: Cito.

Ceci S.J. & Liker, J. (1986). A day at üie races: The study of IQ, expertise and cognitive complexity.
Journal of Experimental Psychology: General, 115, 225-266.

Fischer, G.H. (1974), Einführung in die Theorie psychologischer Tests. Wien: Verlag Hans Huber.

Glas, C.A.W. 0988). The derivation of some tests for the Rasch model from the multinomial distribution.
Psychometrika, 53, 525-546.

Glas, C.A.W. (1989). Contributions to estimating and testing Rasch models. Proefschrift, Enschede.

Holland. P. & Thayer, D.T. (1986), Differential Item Functioning and the Mantel-Haenszel procedure.
Program Statistics Research, Technical Report No. 86-69, Research Report No. 86-31. Educatio-
nal Testing Service, Princeton.

Holland, P. & Thayer, D.T. (1988), Differential Item Functioning and the Mantel-Haenszel procedure. In H.
Wainer & H.I. Braun (Eds.),
Test Validity (p. 129-145). Hillsdale, NJ: Lawrence Erlbaum Associ-
ates Inc.

Hyde, J.S. & Linn, M.C. (1988). Gender Differences in Verbal Activity: A Meta-Analysis, Psychological
Bulletin. 104,
No. 1,53-69.

Kok, F.G. (1988). Vraagpartijdigheid; methodologische verkenningen. Proefschrift, Amsterdam: SCO.

Klok. J., (1988). Meisjes en jongens en rekenen en lezen in het basisonderwijs. Tijdschrift voor Onder-
wijswetenschappen,
18e jaargang, No. 4.

Kremers E.J.J. (red.) (1990). Overzicht van leerresultaten aan het einde van de eerste fase voortgezet on-
derwijs.
Amhem: Cito.

Kuhlemeier, H. & Bergh, H., van den (1991). Sekseverschillen in het voortgezet onderwijs: taaiprestaties,
taalattituden en taalactiviteiten op school en in de vrije tijd.
Pedagogische Studiën 68, 101-113.

Mellenbergh, G.J. (1982). Contingency table models for assessing item bias. Journal of Educational Sta-
tistics, 7,
105-118.

Mellenbergh, G.J. (1983) Conditional item bias methods. In S.H.Irvine & W.J.Bcrry (Eds.), Human
Assessment and Cultural Factors
(p. 293-302). New York: Plenum Press.

Ministère de I'Educatjon Nationale (1983) Education et Formations, études et documents, Vanves.

Mottier, I.P.A.M. (1988). Emancipatie aspecten in schoolboeken. Proefschrift, Eindhoven.

Scheuneman, J.D. & Gerritz, K., (1990). Effect of Technical Content on Gender Differences in Reading
Passages,
Paper Presented at the Annual Meeting of the American Educational Research Associ-
ation, Boston.

Schneider. W. (1990) Domain-specific Knowledge and Cognitive Performance. Paper presented at the An-
nual Meeting of the American Educational Research Association, Boston.

Sj0berg, S. (1988). Gender and the Image of Science, Scandinavian Journal of Educational Research, Vol.
32, No. 2.49-60.

Sman, J.H.A van der & Uiterwijk J.H. (1985). Verantwoording Eindtoets Basisonderwijs 1985, Bulletin-
reeks Nr. 44, Amhem: Cito.

Verhelst, N.D., & Eggen. T.J.H.M. (1989). Psychometrische en statistische aspecten van peilingsonder-
zoek.
PPON-rapport, nr. 4. Arnhem: Cito.

Verhelst, N.D., Glas, C.A.W., and Versü-alen, H.H.F.M. (1991). OPLM: a One Parameter Logistic Model: a
computer program and manual. Arnhem: Cito.

Waal, de M. (1989) Meisjes: een wereld apart. Een etnografie van meisjes op de middelbare school. Mep-
pel: Boom.

Wilder G.Z. & Powell, K. (1989). Sex differences in Test Performance: A Survey of the Literature. College
Board Report No. 89-3, ETS RR No. 89-4.

Wilson. M. (1991). (Ed.). Girls and young women in education. A European perspective. Oxford: Pergamon
Press.

-ocr page 357-

Item-Specifieke verschillen in prestaties 351

Wijnstra, J.M. (1988). Balans van het rekenonderwijs in de basisschool, Arnhem: Cito.

Zwarts, M. (Red.) (1990). Balans van het taalonderwijs aan het einde van de basisschool, Arnhem: Cito.

Manuscript ontvangen 27-8-1991
Definitieve versie ontvangen 14-11-1991

-ocr page 358-

Tijdschrift voor Onderwijsresearch. 16 (1991), nr. 5, pp. 352-296

Notities en Commentaren

introductie bij de commentaren van
l. verschaffel en m. beishuizen

De voorbije maanden ontving de redactie van het Tijdschrift voor Onderwijsresearch twee
manuscripten over de problematiek van diagnose van foutieve oplossingen bij eenvoudige re-
kentaken: één over diagnose van foute oplossingen bij eenvoudige redactieopgaven over optel-
len en aftrekken (M.W.M. Jaspers en E.C.D.M. van Lieshout); een ander over diagnostiek van
fouten op rekensommen (M.W.J. Baltussen en E.C.D.M. van Lieshout). In beide manuscripten,
die vanuit hetzelfde onderzoekscentrum afkomstig zijn en binnen eenzelfde onderzoekspro-
gramma ingekaderd zijn, staat de vraag centraal naar de mogelijkheid én de efficiëntie van een
(computerondersteunde) produktgerichte aanpak van rekenfouten. Uit de beoordelingen van de
exteme referenten en de besprekingen in de redactievergadering bleek dat deze manuscripten
aanleiding gaven tot heel wat vragen en discussiepunten, ook na revisie van de beide artikelen
door de respectievelijke auteurs. Uiteindelijk heeft de redactie gemeend beide artikelen te pu-
bliceren. Wel heeft ze - met het oog op het stimuleren van de theorievorming en het onderzoek
op dit terrein - twee onderzoekers die actief zijn op het gebied van reken/wiskundeonderwijs
gevraagd om voor het tijdschrift een reactie te schrijven op deze artikelen. De eerste reactie (L.
Verschaffel) gaat in op het artikel van Jaspers en Van Lieshout; daama wordt gereageerd (M.
Beishuizen) op de bijdrage van Baltussen en Van Lieshout.

diagnose van foute oplossingen bij eenvoudige redactie opgaven:
een reactie

L. Verschaffel

Centrum voor Instructiepsychologie en -Technologie, K.U. Leuven1.

1. INLEIDING

Het artikel van Ja,spers en Van Lieshout (1991) gaat over de vraag of er louter op basis van
kennis omtrent de fout op een redactie opgave een verantwoorde uitspraak kan worden gedaan
omtrent de ontstaanswijze ervan. Indien dit het geval is, zou deze kennis nuttig gebmikt kunnen
worden om computergestuurde instmctiesystemen beter te laten aansluiten bij het kennisniveau
van leerlingen door in de remediering rekening te houden met de gemaakte fout, aldus de
auteurs (p. 6).

Voor het onderzoek constmeerden Jaspers en Van Lieshout een redactierekentoets bestaande
uit opgaven waarbij "het gegeven antwoord eenduidig te categoriseren was" (p. 7). Concreet
betekent dit:

- dat slechts 7 van de 14 semantische stmctuurtypes uit het classificatieschema van Riley,
Greeno en Heller (1983) geschikt geacht werden voor opname in de toets,

- dat in elke opgave naast de twee relevante getallen een derde getal ingelast werd dat irrelevant
is voor de juiste oplossing van het probleem, en

- dat bijzondere zorg besteed werd aan de keuze van de gegeven getallen.

Voor elk van de 7 geselecteerde opgaventypes werden 10 varianten geconstmeerd. Deze toets,
bestaande uit 70 items, werd gegeven aan kinderen afkomstig uit groep 4, groep 5, groep 6 en

1  Vesaliusstraat 2, B-3000 Leuven.

-ocr page 359-

353 Notities en Conunentaren

groep 7 uit een school voor moeilijklerende kinderen. Alle antwoorden werden vervolgens
ondergebracht in een door de auteurs ontworpen classificatieschema, dat o.a. de volgende cate-
gorieën bevat: één van de getallen uit de opgave als antwoord geven, alle getallen opgeteld,
verkeerde operatie met relevante getallen, geen antwoord...

In het resultatenstuk geven de auteurs een overzicht van de verdeling van de antwoorden per
opgaventype en per niveaugroep. Daaruit blijkt dat de 4 niveaugroepen onderling significant
verschilden in de verdeling van de soorten antwoorden per opgaventype. Zo werd er o.a. beves-
tiging gevonden voor het reeds vaker gerapporteerde gegeven (zie o.m. Carpenter, Hiebert, &
Moser, 1984; Verschaffel, 1984) dat "gegeven
getar-fouten vooral voorkomen bij jongere
kinderen, terwijl leerlingen met wat meer ervaring met vraagstukken(onderwijs) het meest
frequent antwoorden met de uitkomst van de verkeerde rekenoperatie.

Op de uhgangsvraag van de studie, namelijk of fouten en achterliggende misvattingen bij
redactierekenen via een produktgerichte aanpak achterhaald kunnen worden, wordt er - verras-
send - pas op het einde van het discussiestuk teruggekomen. Het antwoord is gematigd optimis-
tisch: "Inmiddels is duidelijk geworden dat een produktgerichte aanpak op basis van een zorg-
vuldige selectie van typen opgaven en een inventarisatie van gerapporteerde strategieën in
combinatie met unieke getallencombinaties niet alleen kennis verschaft omtrent het niveau van
een leerling, maar ook een eenduidig categoriseren van de gegeven antwoorden mogelijk maakt.
Ofschoon de resultaten van dit onderzoek zich niet altijd lenen voor het achterhalen van de
ontstaanswijze van fouten, kan de aard van de gegeven antwoorden wel richting geven aan
mogelijke verklaringsgronden. Door hypothesen op te stellen en variaties in de opgavenstructuur
aan te brengen, kan in toekomstig onderzoek wellicht de oorzaak van de fout met meer zekerheid
achterhaald worden" (p. 140).

Hiema worden enige kridsche kanttekeningen geplaatst bij het artikel. Ze sluiten aan bij de
volgende drie assumpties/conclusies (die in omgekeerde volgorde zullen worden behandeld):

1. de computer kan een nuttige hulp bieden bij leren van redactieopgaven door moeilijklerende
kinderen,

2. efficiënt (computerondersteund) vraagstukkenonderwijs moet uitgaan van kennis van de
kennisleemten en misvattingen van de leerling,

3. een produktgerichte aanpak biedt goede perspectieven in dit verband.

2. WAARDE VAN DE PRODUKTGERICHTE AANPAK

Zoals gezegd dmkken Jaspers en Van Lieshout zich relatief optimistisch uit wat betreft de
opbrengst van een produktgerichte aanpak inzake diagnostiek van fouten en misvattingen bij
redactierekenen. Op basis van de empirische evidentie die in het artikel wordt aangedragen,
achten wij deze gematigd optimistische conclusie niet terecht.

2.1. Vage en oppervlakkige antwoordcategorieën

De belangrijkste reden waarom wij ons daar niet bij kunnen aansluiten, is dat het materiaal dat
in het resultatenstuk wordt voorgesteld weinig of geen informatie verschaft omtrent de waarde
van de produktgerichte aanpak. Er wordt enkel een overzicht gegeven van de verdeling per
Opgaventype en per niveaugroep van de geconstateerde antwoorden over de onderscheiden
foutencategorieën. Wat de auteurs in dit resultatenstuk o.i. hadden moeten doen, is

1. per opgaventype voor elke foutencategorie de uh de literatuur bekende alternatieve ont-
staanswijzen van dit soort fouten inventariseren, en

2. vervolgens aantonen hoe het mogelijk is om - zonder hulp van procesgegevens doch louter
via de analyse van de antwoorden van een leerling op één of eventueel meerdere opgaven van
het betreffende type - met een vrij grote graad van zekerheid te bepalen welke ontstaanswijze
voor zijn/haar fout(e) antwoord(en) verantwoordelijk is.

Op het einde van het discussiestuk zetten Jaspers en Van Lieshout weliswaar een stap in deze

-ocr page 360-

354 Notities en Conunentaren

richting. Jjt signaleren namelijk dat er in de literatuur verscheidene interpretaties te vinden zijn
van "verkeerde operatie"-fouten bij VG5-opgaven zoals "José heeft 9 poppen. José heeft 3
poppen meer dan Moniek. Hoeveel poppen heeft Moniek?". Een eerste verklaring komt hierop
neer dat de leerling - alvorens een rekenkundige bewerking te kiezen - de tweede, relationele
zin uit de opgave ("/o^é heeft 3 poppen
meer dan Moniek") tracht om te vormen tot de meer
vertrouwde formulering
"Moniek heeft 3 poppen minder dan José"\ de fout ontstaat echter
doordat de leerling tijdens dit re-representatieproces wél subject en object van plaats verwisseh,
maar nalaat om ook de relationele term om te keren (zie Lewis & Mayer, 1987; zie ook Verschaffel,
De Corte & Pauwels, 1990). Volgens een altematieve verklaring kiest de leerling voor een
optelling in plaats van een aftrekking louter op basis van de aanwezigheid van het sleutelwoord
"meer" in de opgavetekst (Nesher & Teubal, 1977; Verschaffel, 1984). Jaspers en Van Lieshout
laten verder zien hoe deze twee verschillende ontstaanswijzen van "verkeerde operatie"-fouten
op deze VG5-opgave via de analyse van het antwoord op een zorgvuldig gekozen vervolgopga-
ve van elkaar te onderscheiden zijn in het kader van een dynamische, produktgerichte diagnostiek.
Maar wat zij op het einde van het discussiestuk doen voor deze
ene foutencategorie (nl. "ver-
keerde operatie") en bij dit
ene opgaventype (nl. VG5), hadden zij moeten doen voor elke door
hun onderzochte combinatie van opgaventype en antwoordcategorie. Samengevat: indien het de
auteurs er werkelijk om te doen was een antwoord te geven op de vraag naar de waarde van een
prestatiegerichte diagnostiek, hadden zij hun resultatenstuk niet moeten opvullen met een over-
zicht van de aard van fouten bij verschillende leerlinggroepen en opgaventypes. In plaats daar-
van hadden ze per opgaventype/foutencategorie een systematische lijst moeten opstellen van uit
de literatuur bekende ontstaanswijzen van de door hun onderscheiden foutencategorieën, ge-
volgd door een "trefzekere" manier om louter op basis van het antwoordpatroon op een aantal
opgaven van het betreffende type de verschillende ontstaanswijzen van fouten van elkaar te
onderscheiden.

Wat dit concreet betekent, lichten we zélf nog eens toe voor één andere cel uit Jaspers en van
Lieshout's tweedimensionale analyseschema, nl. de "gegeven
getar'-antwoorden bij de VGl-
opgave "José heeft 3 poppen. Moniek heeft 9 poppen. Marleen heeft 2 poppen. Hoeveel poppen
heeft Moniek meer dan José?" Vele kinderen blijken deze opgave te beantwoorden met 2,9 of 3.
Al deze antwoorden worden door de auteurs ondergebracht in één en dezelfde antwoordcategorie
"één van de getallen uit de opgave als antwoord gegeven". De vraag is evenwel of een dergelijke
grove categorisering wel het meest aangewezen is in het kader van een produktgerichte diagnos-
tiek. Stel dat een leerling de bovenvermelde opgave beantwoordt met 9. Voor dit "gegeven
getal"-antwoord zijn er in de literatuur verschillende verklaringen voorhanden. De meest voor-
komende verklaring is dat dit foutief antwoord als het ware noodzakelijkerwijs voortspruit uit
een verkeerde semantische probleemrepresentatie die de leerling van het vraagstuk heeft opge-
bouwd. Deze verkeerde representatie zou op haar beurt te wijten zijn aan het niet of verkeerd
begrijpen van de uitdrukking "meer dan" in de vraagzin: de uitdrukking "Hoeveel heeft a meer
dan b" zou namelijk simpelweg opgevat worden als "Hoeveel heeft a" (Riley, Greeno & Heller,
1983; Verschaffel, 1984). Volgens deze "semantische" verklaring is het dus geenszins toevallig
dat deze leerling het getal 9 als "gegeven
getar'-antwoord geeft, en niet 3 of 2! Een altematieve
verklaring voor deze "gegeven getal"-fout is dat de leerling in het geheel geen weg wist met de
opgave, en - om uit de impasse te geraken - "zomaar" één van de gegeven getallen als antwoord
gegeven heeft. In dit gevd had z'n antwoord dus net zo goed 3 of 2 kunnen zijn... (Verschaffel,
1984). Uit dit voorbeeld blijkt dat

- ook een "gegeven getal"-fout op een VGl-opgave op verschillende manieren kan ontstaan, èn

- het nader analyseren van het foutenpatroon op een reeks VGl-opgaven afwijzingen kan
verschaffen voor de foutenbron bij een individuele leerling.

2.2. Systematische fouten

Jaspers en van Lieshout's suggestie om via het aanbieden van zorgvuldig gekozen opgaven van
eenzelfde semantisch type meer zekerheid te verwerven omtrent de ontstaanswijze van een
bepaalde fout, biedt dus ongetwijfeld perspectieven. Overigens gaat het hier niet om een nieuwe

-ocr page 361-

355 Notities en Conunentaren

techniek. Zo vermelden Van den Berg, Van Eerde en Verhoef (1980) in hun overzicht van
methoden voor kwalitatieve rekendiagnostiek het "variëren van de opgave" als één van de vele
mogelijkheden om te achterhalen hoe een kind een rekenopgave precies heeft opgelost en/of
waarom het in moeilijkheden is geraakt. Ook in Verschaffel's (1984) proefschrift komen ver-
scheidene protocoluittreksels voor die laten zien hoe het antwoord van een leerling op een
enigszins gewijzigde versie van een bepaalde redactie-opgave (bijvoorbeeld een lichtjes her-
formuleerde opgave of een opgave waarin de twee gegeven getallen van plaats verwisseld zijn)
een belangrijke bijdrage kan leveren tot de identificatie van de ontstaanswijze van de fout op de
oorspronkelijke opgave.

Wat Jaspersen Van Lieshout evenwel niet vermelden, is dat aan deze diagnostische techniek
een belangrijk probleem kleeft: er wordt daarbij namelijk aangenomen dat foute antwoorden
van leerlingen gedurende een bepaalde periode - een les(senreeks), een remediëringsactiviteh,
of een individueel-diagnostisch onderzoek - systemadsch en consequent door bepaalde misvat-
tingen en/of inadequate denkwegen worden veroorzaakt.

De vraag hoe systematisch rekenfouten van leerlingen zijn, is echter niet zo eenvoudig te
beantwoorden. Enerzijds bevat de literatuur talloze individuele gevalsbesprekingen waarbij
rekenfouten inderdaad het gevolg zijn van het systematisch en consequent toepassen van een
misconceptie of inadequate procedure. Anderzijds beklemtonen verscheidene auteurs dat er
naast systematische en regelmatige fouten, ook een niet te verwaarlozen aantal niet-systemati-
sche, toevallige fouten voorkomen, die gewoon te wijten zijn aan slordigheid of onoplettendheid.
De meeste schatdngen gaan in de richting van 20 procent niet-systematische fouten (zie bijvoor-
beeld Kelly, Martinak & Sleeman, 1987). Daarbij komt nog dat de systematiek in fouten vaak
uiterst moeilijk te achterhalen is, doordat misvattingen en inadequate strategieën in allerhande
combinaties kunnen voorkomen, en tevens doordat er niet zelden met een verschillend soort
foutief antwoord gereageerd wordt op éénzelfde impasse (zie o.m. Brown & Burton, 1978). De
vraag is dus hoe het plan van Jaspers en Van Lieshout om van het systematisch variëren van de
opgave dé techniek bij uitstek te maken van produktgerichte foutendiagnose, te rijmen valt met
het fenomeen van niet-systematische fouten.

In dit verband is het jammer dat de auteurs hun onderzoeksmateriaal niet geanalyseerd
hebben vanuit deze invalshoek. Immers, in tegenstelling tot de meeste andere onderzoekingen
op het gebied van aanvankelijke redactie-opgaven, kregen de leeriingen in deze studie per
semantisch structuurtype niet minder dan 10 opgaven aangeboden. Was het niet interessant
geweest om per leeriing te analyseren hoe systematisch zij te werk gingen bij het (foutief)
beantwoorden van deze 10 opgaven?

2.3. Beperkt opgavenaanbod

Een derde bezwaar tegen de gematigd positieve conclusie omtrent de waarde van de produktge-
richte diagnostiek, is dat de studie beperkt bleef tot de helft van de 14 semantische structuurty-
pes uit het bekende classificatieschema van Riley e.a. (1983). Dit ware niet écht een probleem
geweest indien deze selectie willekeurig was geschied. Doch dit was zeker niet het geval.
Integendeel, bij de voorstelling van het onderzoeksinstmment geven Jaspers en Van Lieshout
immers zelf aan dat "voor de redactierekentoets opgaventypen werden geconstrueerd, waarbij
het gegeven antwoord eenduidig te categoriseren was" (p. 7). Hiermee bedoelen de auteurs - zo
nemen wij aan - dat uit het classificatieschema van Riley e.a. (1983) enkel die opgaventypes
werden weerhouden, die antwoorden zouden uitlokken waarbij er geen categoriseringsproble-
men zouden optreden. Zo werden bijvoorbeeld VG3-opgaven als "Monique heeft 3 appels. José
heeft 7 appels meer dan Monique. Hoeveel appels heeft Monique?" uit de toets geweerd, omdat
er daarvoor geen onderscheid zou kunnen gemaakt worden tussen een "echte" correcte oplos-
sing en een
"toevallig" juiste oplossing gebaseerd op de sleutelwoordstrategie. De conclusie van
de auteurs dat het onderzoek aangetoond heeft dat "een produktgerichte aanpak (...) het eendui-
dig
categoriseren van de gegeven antwoorden mogelijk maakt" (p. 140), zegt dan ook niet zo
veel. Dat kon gewoon niet anders, omdat opgaventypes waarbij het gegeven antwoord niet
eenduidig te categoriseren is, vooraf bewust uit de toets waren verwijderd.

-ocr page 362-

356 Notities en Conunentaren

3. BELANG VAN KENNIS VAN LEEMTES EN STRATEGIEËN

Na deze kritische kanttekeningen bij Jaspersen van Lieshout's gematigd positieve eindconclusie
omtrent de waarde van een produktgerichte diagnostiek, staan we stil bij een meer algemene
veronderstelling die aan hun onderzoeksproject ten grondslag ligt, nl. dat een nauwkeurige
diagnose van rekenfouten in termen van onderliggende misvattingen en/of inadequate strategie-
ën een voorwaarde is voor een succesvolle (computerondersteunde) remediëring. Deze visie,
die in de literatuur bekend staat als het "diagnostic remedial model", vormt overigens het
uitgangspunt van de meeste "klassieke" intelligente leerbegeleidende systemen.

Dit model wordt de laatste tijd echter vanuit verscheidene hoeken bekritiseerd. Zo werd er op
het tweede EARLI congres in Tübingen door Kelly e.a. (1987) een paper gepresenteerd met als
titel
How important is diagnosis for remediation. A concern for intelligent tutoring systems, waarvan
de slotconclusie luidt: "To summarize a large amount of work in buildmg and testing the ITS, it
is fair to draw the following conclusions: a) the problem of diagnosis of errors was more
intractable than we had expected, b) the problem of remediation was more tractable than we had
expected, and contrary to the assumption underlying the ITS, an error-based remediation was
not superior to simple reteaching" (p. 2). Tijdens zijn plenaire lezing op het laatste EARLI
congres in Turku argumenteerde Reusser (1991) eveneens dat effectief (computerondersteund)
rekenonderwijs vaak geen uitvoerig en gedetailleerd diagnostisch model veronderstelt.

Deze laatste bewering wordt ondersteund door het werk van Putnam (1987). Deze onderzoe-
ker constateerde dat ervaren leerkrachten inderdaad meestal geen uitgewerkt model van de
verkeerde denkweg van de leerling trachtten te reconstrueren alvorens tot remediëringsactiviteiten
over te gaan. In plaats daarvan baseerden zij zich bij het verstrekken van hulp vooral op de in
hun kennisrepertoire aanwezige reeks van successief te beheersen begrippen en deelvaardighe-
den in verband met het betreffende leerstofgebied. Deze kennis van te nemen deelstappen,
samen met mogelijke taken, activiteiten en strategieën voor het onderwijzen ervan, noemt
Putnam (1987) het "curriculum script".

Op grond van deze overwegingen en bevindingen kan men de vraag stellen of het "diagnostic
remedial model" wel het meest geschikte vertrekpunt vormt voor het ontwikkelen van een
(computerondersteunde) leeromgeving. Hoewel ook de zoëven vermelde studies voor kritiek
vatbaar zijn (zie o.m. De Corte, Verschaffel, & Schrooten, 1988), vestigen zij ons inziens toch
de aandacht op een belangrijk onderwijskundig probleem dat in ieder geval nader onderzoek
verdient, m.n. hoe belangrijk is (zeer) gedetailleerde kennis over foutieve oplossingswegen van
leerlingen voor het verstrekken van effectief (remediërend) rekenonderwijs? En meer bepaald:
hoe opportuun is het om een aanzienlijk deel van de leer- en onderwijstijd "op te offeren" aan
het verkrijgen van dergelijke diagnostische kennis, zeker wanneer men daarvoor z'n toevlucht
moet nemen tot erg artificieel geformuleerde opgaven. (We herinneren eraan dat alle door
Jaspers en Van Lieshout gehanteerde redactieopgaven storende irrelevante informatie bevat-
ten).

4. COMPUTERS EN VRAAGSTUKKENONDERWIJS

Zowel in de inleiding als in het discussiestuk laten de auteurs er geen twijfel over bestaan
waartoe hun onderzoek naar de waarde van een produktgerichte diagnostiek uiteindelijk moet
leiden: tot de ontwikkeling van een geavanceerd - lees: zo "intelligent" mogelijk - computeron-
dersteund systeem voor het leren oplossen van aanvankelijke redactie-opgaven waarbij in de
remediëring rekening wordt gehouden met de specifieke fouten en kennisleemten van een bepaalde
leerling.

Dit brengt ons bij de%eer algemene kwestie van de potentiële rol van de computer en meer
bepaald van intelligente tutoriële systemen in het (remediërend) vraagstukkenonderwijs. Een
analyse van de internationale literatuur op dit gebied leert ons dat daarin een merkwaardige
kentering waar te nemen is, die overigens nauw aansluit bij de huidige crisis in het ITS-onder-

-ocr page 363-

357 Notities en Conunentaren

zoek in het algemeen (zie o.m. De Klerk & Verschaffel, 1990). Deze kentering komt hierop neer
dat er - na een periode van hooggespannen verwachtingen - steeds meer vragen gesteld worden
zowel wat betreft (1) de realiseerbaarheid als inzake (2) de didactische wenselijkheid van ITS
voor dit onderdeel van het wiskunde-curriculum.

In verband met het eerste aspect - de realiseerbaarheid - verwijzen we naar Kintsch' (1989)
plenaire lezing op het derde EARLI Congres in Madrid, getiteld
A theory of discourse compre-
hension. Implications for a tutor for word algebra problems.
Daarin stelt deze auteur onom-
wonden dat er volgens hem nooit efficiënte ITS voor dergelijke wiskundige taken zal kunnen
ontwikkeld worden omwille van de cruciale rol van natuurlijke taal en zgn. "world knowledge"
in het vaardig oplossen van algebravraagstukken: "I see no possibility for simulating the processes
involved in understanding and solving algebra word problems (...). The problem is general
world knowledge. The real world situations described in college algebra problems are so numerous
and so varied, that only a system that knows essentially so much about the world as college
students do could cope with these problems. (...). But no simulation, no intelligent tutoring.
Intelligent tutoring is possible if the system pretty accurately understands exactly what the
student is doing, when the problem is correctly solved as well as when an error is made. This is
possible in the case of some geometry proofs, and certain other well circumscribed domains.
This is not possible in open-ended domains, e.g., domains that require a broad natural language
capacity and general world knowledge (...)." Dit kritisch geluid met betrekking tot de reali-
seerbaarheid van ITS voor algebra-vraagstukken, werd door Reusser (1991) op het laatste EARLI-
congres herhaald voor enkelvoudige redactie-opgaven over optellen en aftrekken voorzover
men z'n blikveld niet beperkt tot de stereotiep geformuleerde, canonieke vraagstukjes uit de
computermodellen van Riley e.a. (1983).

Maar ook met betrekking tot het tweede aspect - de didactische wenselijkheid van ITS bij het
leren oplossen van vraagstukken - neemt scepticisme de overhand. We laten in dit verband
nogmaals Kintsch (1989) aan het woord: "There is a body of instrucdonal research and theory
that suggests a quite different approach to tutoring that might better serve our purposes. Recent-
ly several researchers have argued that the attempt to build intelligent tutors is misguided, apart
from the fact that it is beyond the current state of the art. A tutor should not provide the
intelligence to guide leaming, it should not do the planning and the monitoring of the student's
progress, because those are the activities the students must perform themselves in order to learn.
What a tutor should do is to provide a temporary support for learners that allows them to
perform at a level just beyond their current ability level" (p. 13).

In dezelfde bijdrage presenteert Kintsch (1989) een prototype van een "unintelligent word
algebra tutor", ANIMATE genaamd, die zèlf niets kent of begrijpt van algebravraagstukken,
maar de student wel een aantal "cognitive tools" ter beschikking stelt die het begrijpen en
oplossen van algebravraagstukken kunnen ondersteunen.

Verscheidene meer recente computersystemen voor het leren oplossen van redactieopgaven,
waaronder dat van Reusser, Staub, en Stebler (1991) en dat van Derry, Hawkes, en Kegelmann
(1991) behoren eveneens tot deze nieuwe generatie. In deze twee gevallen gaat het om een
computersysteem dat toelaat om een boomdiagram te construeren waarin de essentiële elemen-
ten en relaties uit de opgave op een schematische, overzichtelijke wijze in kaart worden gebracht
en tot een oplossingsplan kunnen worden omgevormd. Deze systemen vervullen dus niet de rol
van een geautomanseerde intelligente tutor voor geïndividualiseerd vraagstukkenonderwijs; ze
zijn eerder op te vatten als "representational tools for thought and communication" (Reusser,
1991), die een nuttige functie kunnen vervullen zowel bij het zelfstandig oplossen van problemen,
als bij het articuleren van en reflecteren over verschillende oplossingswegen in het kader van
groepswerk of een leergesprek.

Ter ondersteuning van deze nieuwe benadering van de rol van de computer in het vraagstuk-
kenonderwijs, verwijzen de bovenvermelde auteurs naar de inzichten en resuhaten van recent
leer- en onderwijstheoretisch onderzoek, zoals die o.m. in het "cognitive apprenticeship"-model
van Collins, Brown en Newman (1989) gestalte hebben gekregen.

Kortom, over de vraag welke rol er in het vraagstukkenonderwijs voor de computer is wegge-

-ocr page 364-

358 Notities en Conunentaren

legd en welke richting het onderzoeks- en ontwikkelingswerk derhalve best uitgaat, is het
laatste woord zeker nog niet gevallen. Terwijl sommigen vooral heil verwachten van autonome,
min of meer intelligente tutoriële systemen waarmee een leerling individueel kan worden ge-
traind in het nauwgezet en systematisch toepassen van een welomschreven optimale oplossings-
strategie voor een nauwkeurig afgebakende set van redactieopgaven, werken anderen eerder in
de richting van computerondersteunde "tools" die door de leerlingen en de leerkracht kunnen
worden gebruikt in interactieve onderwijsleersituaties rond rijke, gevarieerde probleemsituaties.
Naar welk soort van computergebruik iemands voorkeur uitgaat, hangt af van de visie die men
heeft op de functie van vraagstukken in het aanvankelijk reken/wiskundeonderwijs, op het soort
opgaven dat in dit vraagstukkenonderwijs aan bod moet komen, op de wijze waarop het leren
oplossen van deze opgaven het best geschiedt, en op de rol van de medeleerlingen en de
leerkracht in dit onderwijsleerproces.

NOOT

1. L. Verschaffel is Bevoegdverklaard Navorser bij het Belgisch Nationaal Fonds voor Wetenschappelijk
Onderzoek. Adres: VesaliussUaat 2, B-3000 Leuven, België.

REFERENTIES

Brown, J.S., & Burton, R.R. (1978). Diagnostic models for procedural bugs in mathematical skills. Cogni-
tive Science, 2,
155-192.

Carpenter, T.P., Hiebert, J., & Moser, J.M. (1983). The effect of instruction on children's solutions of
addition and subtraction word problems.
Journal for Research in Mathematics Education, 14, 55-
72.

Collins, A., Brown, J.S., & Newman, S.E. (1989). Cognitive apprenticeship: Teaching the craft of reading,
writing, and mathematics. In L.B. Resnick (Ed.),
Knowing, learning, and instruction. Essays in
honor of Robert Glaser
(pp. 453-494). Hillsdale, NJ: Erlbaum.

De Corte, E., Verschaffel, L., & Schrooten, H. (1988). De computer als hulpmiddel bij de analyse en
beïnvloeding van de diagnostische vaardigheid van aspirant-leerkrachten.
Pedagogisch Tijd-
schrift, 13,
106-117.

De Klerk, L., & Verschaffel, L. (1990). De computer als simulator en tutor van onderwijsleerprocessen.
Pedagogisch Tijdschrift, 15, 303-312.

Derry, S., Hawkes, L., & Kegelman, H. (August, 1991). An experimental instructional tool for developing
metacognitive awareness in a problem-solving context.
Paper presented at the Fourth European
Conference for Research in Learning and Instruction, Turku, Finland.

Jaspers, M.W.M., & Lieshout, E.C.D.M. van (1991). De diagnose van foute oplossingen van moeilijk
lerende kinderen bij eenvoudige redactieopgaven.
Tijdschrift voor Onderwijsresearch, 16,129-142.

Kelly, A.E., Martinak, R., & Sleeman, D. (September, 1987). How important is diagnosis for remediation?
A concern for intelligent tutoring systems.
Paper presented at the Second European Conference for
Research in Learning and Instruction, Tiibingen, West Gemamy.

Kintsch, W. (September, 1989). A theory of discourse comprehension. Implications for a tutor for word
algebra problems.
Invited lecture held at the Third European Conference for Research in Learning
and Instruction, Madrid, Spain.

Lewis, A., & Mayer, R.E. (1987). Students' miscomprehension of relational statements in arithemtic word
problems.
Journal of Educational Psychology, 79, 363-371.

Nesher, P., & Teubal, E. (1975). Verbal cues as an interfering factor in verbal problem solving. Educational
Studies in Mathematics,
6, 41-51.

Putnam, R.T. (1985). Teacher thoughts and actions in live and simulated tutoring of addition. (Doctoral
dissertaüon). Stanford: Stanford University.

Reusser, K. (August, 1991). Intelligent technologies and pedagogical theory: Computers as tools for thoughtful
teaching and learning.
Invited lecture held at the Fourth European Conference for Research in
Learning and Instruction, Turku, Finland.

Reusser, K., Staub, F., & Stebler, R. (August, 1991). (Unintelligent computer tutors as cognitive tools for

-ocr page 365-

359 Notities en Conunentaren

scaffolding of comprehension and problem solving instruction. Paper presented at the Fourth Eu-
ropean Conference for Research in Learning and Instruction, Turku, Finland.

Riley, M., Greeno, J.G., & Heller, J.L. (1983). Deveopment of children's problem solving ability in arith-
metic. In H.P. Ginsburg (Ed.),
The development of mathematical thinking. New York: Academic
Press.

Van den Berg, W., Van Eerde, H., & Verhoef, L. (1982). Diagnostiek van het leren rekenen. In E. De Corte
(Ed.),
Onderzoek van onderwijsleerprocessen. Stromingen en actuele onderzoeksthema's. Bijdra-
gen tot de Onderwijsresearchdagen 1981
(pp. 163-176).'s Gravenhage: SVO.

Verschaffel, L. (1984). Representatie- en oplossingsprocessen van eersteklassers bij aanvankelijke redac-
tie-opgaven over optellen en aftrekken. Een theoretische en methodologische bijdrage op basis
van een longitudinale, kwalitatief-psychologische studie.
(Proefschrift). Leuven: Onderzoekscen-
trum voor Onderwijsleerprocessen, K.U.Leuven.

Verschaffel, L., Dc Corte, E., & Pauwels, A. (1990). Het oplossen van vergelijkingsvraagstukken: een
empirische toetsing van het model van Lewis en Mayer.
Tijdschrift voor Onderwijsresearch, 15,172-
188.

Manuscript ontvangen 11-11-1991

EEN FOUTENCATEGORIEËNSYSTEEM EN ZIJN TOEPASSING IN EEN COMPU-
TERGESTUURDE REMEDIËLE REKENTRAINING: KRITIEK OP CONCLUSIES EN
UITGANGSPUNTEN

Meindert Beishuizen

Vakgroep Onderwijsstudies, Rijksuniversiteit Leiden*.

1. INLEIDING

Baltussen en Van Lieshout (I99I) beschrijven en toetsen een foutencategorieënsysteem voor
cijferend rekenen tot 100, dat is gebaseerd op produktinformatie over foutentypen in eindant-
woorden. Procesinformatie over gebruikte oplossingsprocedures willen zij bewust buhen be-
schouwing laten. Zij gaan daarbij uit van de pragmatische redenering, dat dit "verlies aan
informatie" wellicht operationeel acceptabel is (voor computergestuurde beslissingen over re-
mediële training) met behulp van een goed geëxpliciteerd foutencategorieënsysteem "waarin de
meest voorkomende afwijkingen van de gewenste oplossingsprocedure op basis van het ant-
woord beschreven worden".

In onderzoek 1 toetsen zij of hun foutencategorieën voldoende dekkend zijn (70% of meer
van de gemaakte fouten). Eveneens toetsen zij de overeenstemming bij foutencategorisatie
zènder en mèt procesinformade, evenals die tussen twee (menselijke) beoordelaars. Deze resul-
taten achten zij bevredigend, waarna het systeem in onderzoek 2 wordt toegepast in een compu-
terprogramma voor (aangepaste) remediële training.

In onderzoek 2 wordt opnieuw de proef op de som genomen door twee condities te vergelij-
ken: een identieke of rigide (CS) en een individueel aangepaste (CSV) remediële training.
LOM- en
ML-leeriingen met rekenachterstand moesten per opgave een 'stappenlijst' beantwoorden
("Erbij of eraf', "Moet ik inwisselen", enz.) en vervolgens 'per stap' de rekenprocedure uitvoeren,
waarbij zij 'per stap' na een fout uitgebreide feedback op het computerscherm ontvingen (bijv.
"Je hebt 10 geleend. Wat komt er dus bij?"). In de rigide (CS) conditie was de remediële
instructie maximaal, d.w.z. ppn moesten telkens de hele lijst van 7/8 stappen afwerken. In de
aangepaste (CSV) conditie was deze selectiever en koner, d.w.z. afhankelijk van het antwoord
op de eerste poging (eerste fout-categorie) besliste de computer welke stappen het kind kon
overslaan en wilr het moest instappen.

' Postbus 9555, 2300 RB Leiden.

-ocr page 366-

360 Notities en Conunentaren

Het totale remediële programma omvatte 4 blokken (de 4 somtypen optellen zonder tiental-
passering of op-tp, opH-tp, af-tp en af+tp), die in aangepaste volgorde doorlopen werden. Per
blok werd een mastery-criterium toegepast om te kunnen doorgaan. Nameting en retentietoets
omvatten opgaven van de 4 genoemde typen, en deze goedscores vormden het effectiviteitscri-
terium met voormeting als covariabele. Daamaast was er een (mondelinge) toets voor strategie-
gebruik. Hypothese in onderzoek 2 was, dat de maximale en uniforme CS-instructie voor ML-
leerlingen effectiever zou zijn, terwijl LOM-leerlingen deze juist als hinderlijker zouden erva-
ren dan de aangepaste en verkorte CSV-instructie (dus in CSV beter zouden presteren).

2. KRITIEK OP DE CONCLUSIES

(1) Allereerst kritiek op het ontbreken van een onderzoekstechnische conclusie, die de gevoe-
ligheid van onderzoek 2 betreft als basis voor de inhoudelijke conclusies. Bij de bespreking van
de resultaten krijgt de lezer de indruk, dat er een belangrijk gegeven ontbreekt. Bij de 'name-
tingsresultaten' wordt vooral gesproken over interactie-effecten van de somtypen zonder tien-
talpassering (zie ook Figuur 4 in het artikel). Evenzo bij de bespreking van de 'retentietoets'.
Pas in de discussie wordt het vermoeden bevestigd, dat de meeste ppn het laatste blok in het
trainingsprogramma met het moeilijkste somtype (af+tp) niet hebben doorlopen: "door verschillen
in leertempo (zijn) de opgaven met tientaloverschrijding minder geoefend". Geldt dit dus ook
voor de opgaven op-i-tp?

Reeds bij de resultatenbespreking hadden de auteurs een duidelijker overzicht moeten geven
van de volledigheid/onvolledigheid van de bereikte onderzoeksgegevens. In de discussie mer-
ken zij op na bovengenoemde constatering: "De resultaten van deze opgaven kunnen hierdoor
vertekend zijn". Dat geldt echter niet alleen voor "deze opgaven" op+tp en af+tp, maar evenzeer
voor de belangrijkste hypothesen van het hele onderzoek: foutencategorieënsysteem en aange-
paste remediële training.

De belangrijkste inhoudelijke conclusies lijken nu vooral gebaseerd op onderzoeksgegevens
m.b.t. de (gemakkelijke) somtypen op-tp en af-tp. Zie ook Bijlage 1, waarin nog eens het
bekende gegeven empirisch wordt bevestigd, dat alleen het somtype af+tp een echte bron van
fouten(variantie) genoemd kan worden, terwijl de overige somtypen al gauw goed worden
beheerst. Dat betekent echter, dat in de voorliggende onderzoeksgegevens de belangrijke fou-
tencategorie 'inwissel/ leenfout' (Figuur 1, Tabel 1) dus nauwelijks kan voorkomen. Ook in de
'stappenlijst' voor de remediële training (Figuur 3) vormt 'inwisselen' en daarmee samenhan-
gend 'aanvullen/afhalen tot 10' een belangrijke kemfase, die echter bij de somtypen op-tp en af-
tp niet van toepassing kan zijn.

Kortom: deze beperkingen roepen de vraag op naar de gevoeligheid van de resterende gege-
vens in onderzoek 2. Was de foutenvariantie bij de somtypen op-tp en af-tp wel voldoende groot
om het foutencategorieënsysteem te toetsen? Was er wel voldoende verschil op de (overblijvende)

stappen van de 'stappenlijst' tussen de rigide CS- en de aangepaste CSV-conditie?

(2) Wat betreft het foutencategorieënsysteem moeten de auteurs een tegenvallende uitkomst
rapporteren: het percentage fouten, dat in de categorieën kon worden ondergebracht, liep terug
van 70% (onderzoek 1) naar 7% (onderzoek 2). In de 'algemene discussie' gaan zij echter vooral
in op de vraag hoe dit percentage in onderzoek 1 zo hóóg kon zijn. Gebruikten de proefleidsters
ook bij de scoring van fouten zönder procesinformatie töch meer informatie, bijvoorbeeld over
'foutenpatronen'? (In combinatie met hun niet uit te sluiten deskundige voorkennis over fouten-
interpretatiekaders, zou daar aan toegevoegd kunnen worden.) De computerbeoordeling was op
dit punt veel 'dommer', en kon het 'informatieverlies"op geen enkele manier compenseren. De
auteurs concluderen vervolgens uit deze verschillende uitkomst van onderzoek 1 en 2: "infor-
matie over de gebruikte procedure ... lijkt noodzakelijk".

Ofschoon diverse lezers deze conclusie zullen toejuichen, omdat zij reeds van meet af aan het
uitgangspunt (foutencategorisatie zonder procesinformatie) als te oppervlakkig en te technolo-

-ocr page 367-

361 Notities en Conunentaren

gisch of als onhaalbaar hadden bestempeld (vgl. de door de auteurs reeds aangehaalde O'Shea,
Evertz, Hennesy, Floyd en Elsom-Cook, 1988), willen wij nog even in deze lijn doorredeneren.
Onze kritiek is eigenlijk, dat de auteurs zo snel hun 'pragmatische' uitgangspunt opgeven,
zönder een bevredigende verklaring te geven voor de andere kant van deze tegenvallende uit-
komst. Een niet-beantwoorde vraag in de resultatenanalyse en discussie blijft nl.: door welke
oorzaken was het 'dekkende' percentage van het foutencategoriënsysteem in onderzoek 2 (slechts
7%) zo laag? Waaruit bestond het 'gat' van 93% niet-gedekte fouten? Meer inzicht daarin zou
kunnen bijdragen aan de discussievraag of het foutencategorieënsysteem en de computerdia-
gnose mogelijk nog te verbeteren valt? Verklaringen in de richting van onvoorziene, nieuwe
foutentypen lijken immers waarschijnlijk.

Maar ook het meer fundamentele aspect van de relatie tussen fouten en oplossingsprocedures
kan het 'dekkende' karakter van het categorieënsysteem hebben verstoord. In onderzoek 2 bleek
op de toets voor strategiegebruik in de totale groep ppn "een toename in het cijferend uitrekenen
van (10) opgaven van gemiddeld 1.6 naar 3.8 keer". Dat is nog steeds een laag percentage van
nog geen 40% tegenover 75% cijferen in onderzoek 1. Op dit verschijnsel komen we hieronder
terug bij punt (3). Het gaat nu om de veronderstelling, dat het 'gat' van 93% waarschijnlijk
(ook) veel fouten voortvloeiend uit de strategieën tellen en hoofdrekenen zal hebben bevat,
waarop de foutencategorisatie niet was afgestemd. De auteurs laten deze kwestie geheel liggen,
wat onbevredigend en jammer is. Want hun bevindingen zouden mogelijk een stukje verhelde-
ring kunnen bijdragen aan de problematiek van de (computer)diagnosdek van rekenfouten in het
algemeen.

Onduidelijk blijft in het artikel ook de afstemming van remediële training/feedback op de
gemaakte fouten. Bij de opzet van onderzoek 2 wordt beschreven, dat "slechts in een klein
aantal gevallen twijfel op (trad) ten aanzien van de scoring in een bepaalde categorie (maximaal
12%)". Even verder worden daar nog de telfouten (17%) aan toegevoegd, d.w.z. voor beide
categorieën "werd besloten ... om gebruik te maken van de beschikbare procedure-informatie".
Alleen voor de diagnose van het eerste antwoord per poging? Want bij de beschrijving van de
remediële 'stappenlijst'-procedure (nadat in het eerste antwoord een fout is gemaakt), wordt bij
iedere fout op grond van procedure-informatie uitgebreide en aangepaste feedback gegeven.
Wat bedoelen de auteurs nu met de volgende twee sterk verschillende conclusies in de 'algeme-
ne discussie': (le) "de afstemming tussen de gemaakte fout... en het foutencategorieënsysteem"
(en daaropvolgend de remediëring) die "onvoldoende" wordt genoemd, en (2e) dankzij "aanvul-
lende procedure-informatie ... kon binnen de remediële training toch aangesloten worden bij de
oplossingsmethode van het kind". Gaat het hier opnieuw om het onderscheid tussen eerste en
volgende antwoordpogingen? Zo ja, dan rijst de vraag wat eigenlijk het nut was van 'de eerste
afstemming' (eerste antwoord), gegeven 'de tweede afstemming' (uitgebreide stappenlijst-pro-
cedure)? Bovendien rijst ook de vraag welke effecten nu eigenlijk gemeten werden: van de
eerste afstemming (foutencategorieënsysteem) of van de tweede afstemming (aangepaste reme-
diële training), of van allebei tegelijk?

(3) De toets voor 'strategiegebruik' openbaart een verrassende bevinding bij de LOM-ppn in de
rigide (maximale) CS-conditie, die met een gemiddelde van 1.5 zeer laag scoren op cijferend
strategiegebruik, in vergelijking zowel metML-ppn in dezelfde CS-conditie (6.1) als LOM-ppn
in de andere CS V-conditie (5.1). Terwijl de ML-ppn zich volgens verwachting gedragen, en
hogere leerresultaten scoren in CS bij een vast patroon van (alle) procedure-stappen (vgl. de
methode van zelfinstructie bij Van Luit, 1987), is dat met de LOM-ppn niet het geval. Volgens
de ATI-hypothese van Lohman (1990) zouden de LOM-ppn echter door deze zelfde CS-conditie
gehinderd moeten worden, en het beter moeten doen in CSV met een aangepaste en verkorte
stappen-procedure. In de toetsresultaten blijkt dit laatste niet het geval (figuur 4), en de auteurs
concluderen daaruit, dat meer afgestemde (CSV) hulp "geen meerwaarde (lijkt) te hebben voor
LOM-leerlingen".

Veel andere auteurs, zoals de vernieuwers vanuit de 'realistische' rekendidactiek in de rich-
ting van meer flexibel en handig hoofdrekenen (vgl. Treffers & De Moor, 1990), zouden echter

-ocr page 368-

362 Notities en Conunentaren

tot een tegengestelde conclusie besluiten, en aan de conditie CS een duidelijk meerwaarde
toekennen voor LOM-leerlingen. Een soort averechtse meerwaarde omdat - zoals Baltussen en
Van Lieshout in de 'discussie' concluderen - mogelijk de omslachtige stappenlijst-procedure in
CS de LOM-leerlingen heeft aangezet tot het vermijden van (omslachtige) cijferstrategieën, en
heeft geprikkeld om "liever op hun eigen manier, hoofdrekenend of handig rekenend, de opga-
ven op (te) lossen". Misschien een wat cynische conclusie over deze averechtse meerwaarde,
maar wel met een kem van waarheid. Immers, men hoort wel vaker uit de onderwijspraktijk, dat
(omslachtige) computergestuurde instmctie leidt tot diverse vormen van vermijdingsgedrag bij
leerlingen. Inhoudelijk in elk geval een interessante bevinding in het kader van de discussie
over rekendidactiek - juist m.b.t. het speciaal onderwijs, waar men in (handig) hoofdrekenen in
het algemeen weinig vertrouwen heeft, en daarom cijferend rekenen benadrukt (vgl. voor kritiek
op dit standpunt: Van der Heijden, 1988). Bovendien een bevinding die - ^ders dan Baltussen
en Van Lieshout concluderen - naar onze mening wèl evidentie aandraagt voor de ATI-hypothese
van Lohman (1990).

(4) Tenslotte merken we nog op het jammer te vinden, dat de auteurs geen leerprocesgegevens
uit de computer-condities bespreken, zoals geregistreerde oplossingstijden en oplossingsroutes.
Niet alleen zouden bepaalde conclusies hierdoor meer betekenis kunnen krijgen (Was ook de
leertijd in de verkorte CSV-conditie voor LOM-ppn even lang als in de maximale CS-condi-
tie?). Ook onduidelijkheden in de operationalisering van de afstemming bij (le) gemaakte
fouten, en (2e) remediële training, zouden hierdoor beter belicht kunnen worden, zoals hierboven
bij (3) reeds werd opgemerkt.

In dit verband kunnen over dergelijke leerprocesaspecten - mede n.a.v. ervaringen in andere
computerprojecten (Beishuizen, Felix & Beishuizen, 1990) - nog tal van vraagpunten opgewor-
pen worden. Dat is natuurlijk in het kader van dit artikel niet de bedoeling. Echter, sommige
conclusies blijven door het geheel ontbreken van deze informatie wat in de lucht hangen.
Vergelijk hierboven de (onduidelijke) operationalisering van de remediële training. Vergelijk
ook een vraag als de volgende: werd de uitgebreide feedback bij de stappenlijst-procedure
werkelijk door alle ppn altijd gelezen? Andere ervaringen met computergestuurde instructie
leren het omgekeerde. Misschien is het antwoord ja, dankzij de individuele begeleiding? Echter
zo nee, dan zijn we weer terug bij de eerste kritische kanttekening (1) over het feitelijke verschil
tussen de condities CS en CSV?

3. KANTTEKENINGEN BIJ DE UITGANGSPUNTEN

Baltussen en Van Lieshout geven zelf reeds aan in de 'inleiding' van hun artikel, dat het
diagnostiseren van rekenfouten alleen op grond van produktinformatie het risico van te weinig
betekenis in zich draagt. Zij verwijzen naar de ontwikkeling van diagnostische computersystemen
(0'Shea e.a., 1988), die wèl procesinformatie gebruiken, en op grond van onderzoek 2 conclu-
deren zij in de 'algemene discussie' dat aanvulling met dergelijke informatie noodzakelijk lijkt.
Daarom willen wij nu niet opnieuw in discussie gaan over de houdbaarheid van het aanvankelijk
gekozen 'pragmatisch' uitgangspunt.

Wèl willen we vraagtekens plaatsen bij de uitwerking van het diagnostisch uitgangspunt,
gericht op remediële training in aansluiting bij het kennisniveau van het kind. Voor dit doel
achten wij niet alleen de gekozen foutencategorieën te beperkt, maar ook de onderverdeling van
het remediële programma in 4 blokken: op-tp, op+tp, af-tp, af+tp. Immers in 4e rekendiagnos-
tiek is het gebruikelijk om niet alleen fouten te diagnostiseren, maar ook verfijnder d.w.z. via
meer afzonderlijke somtypen vast te stellen welk kennisniveau en welke kennisaspecten het
kind wèl beheerst. Vergelijk het Kwantiwijzer-instrument (Van den Berg & Van Eerde, 1986),
of de onderscheiden somtypen bij Van Luit (1987), zoals door Baltussen en Van Lieshout in hun
Bijlage 1 vermeld. Wat betreft de fouten zou behalve nog enige uitbreiding (vgl. hiervoor), ook
een systematischer onderscheid gemaakt kunnen worden tussen procedurele (bijv. inwisselen)

-ocr page 369-

363 Notities en Conunentaren

en conceptuele (getalpositie) fouten. Daamaast zouden representatie- of formule-fouten (vooral
bij aftrekken) als aparte categorie onderscheiden moeten worden (vgl. Van Lieshout & Jaspers,
1990). Ook telfouten of fouten in de basiscombinaties kimnen niet buiten beschouwing blijven.

Op grond van een combinatie van dergelijke informatie (beheerste somtypen, foutentypen)
zouden kinderen na de diagnose en voorafgaand aan de remediële training éérst in een typologie
van profielen of op een niveau van een didactische leerlijn moeten worden geplaatst. Dat is niet
alleen een diagnostisch, maar tevens een beslissingsprobleem, waarbij ook inconsistente fouten
niet buiten beschouwing kunnen blijven (Klein & Beishuizen, 1989). In SVO-project 6618 werd
bovendien ook onderscheid gemaakt tussen beheersing van hetzelfde somtype met kleine (32-
15) of grote getallen (72-48) (Felix & Beishuizen, 1990). Want in het laatste geval kunnen
terugval naar primitievere strategieën en fouten gaan optreden (onder druk van mentale belas-
ting, vgl. Baroody & Ginsburg, 1986), terwijl het somtype (af+tp) in feite wèl wordt beheerst.

Samenvattend kritiseren wij in het uitgangspunt van Baltussen en Van Lieshout vooral de
wel zeer globale diagnostische procedure. Moeilijk te begrijpen achten wij, dat daarbij aan het
beslissingsprobleem over het kennisniveau van een kind (vooraf) zo weinig aandacht is besteed.
In de 'algemene discussie' besluiten de auteurs zelf met een opmerking in deze geest. Om nl. "in
de remediëring niet alleen per som ... aansluitende hulp te geven,
zodat deze invalshoek bij ie-
dere volgende som kan wisselen
(cursivering M.B.), maar deze af te stemmen op de meest
voorkomende fouten in de vorige sessie (en) de diagnose ... voorafgaand aan de trainingsses-
sie". Op grond van bovengenoemde en andere argumenten uit de literatuur, had men - óók
binnen het 'pragmatisch' uitgangspunt van alléén produktinformade - reeds bij de onderzoeksopzet
moeten besluiten tot een meer fijnmazige en aparte, voorafgaande diagnose - los van de reme-
diële aanpassing. Immers de nu gekozen afstemmingsprocedure draagt een sterk ad-hoc karak-
ter - met dus een mogelijke
wisselende invalshoek per som (vgl. hierboven). Deze procedure roept
sterke twijfels op aan de betrouwbaarheid en de validiteit, niet alleen van de bereikte remediële
trainingsresultaten, maar ook van de onderzoeksuitslag als geheel.

LITERATUUR

Baltussen, M.W.J. & Lieshout, E.C.D.M. van (1991). Een foutencategorieën-systeem en zijn toepassing in
ecn computergestuurde remediële rckenu-aining.
Tijdschrift voor Onderwijsresearch, 16,279-296.

Baroody, A.J. & Ginsburg, H.P. (1986). The relationship between initial meaningful and mechanical know-
ledge of arithmetic. In J. Hiebert (Ed.).
Conceptual and procedural knowledge: the case of ma-
thematics
(pp. 75-112). Hillsdale, NJ: Lawrence Erlbaum.

Beishuizen, M., Felix, E. & Beishuizen, J. (1990). A genetic model for tutoring addition and subtracdon
skills in an adaptive computer program. In J.M. Pieters, K. Breuer & P.R.J. Simons (Eds.).
Lear-
ning environments - Contributions from Dutch and German research
(pp. 151-161). Heidelberg:
Springer Verlag.

Berg, W. van den & Eerde, D. van (1986). Kwantiwijzer-Uandleiding. Rotterdam: Erasmus Universiteit/
RISBO.

Felix, E. & Beishuizen, M. (1990). Aanpak van rekenproblemen gebaseerd op diagnostiek van rekenstrate-
gieën en insü-uctic volgens een genetisch model.
Computerondersteunde diagnostiek van leerpro-
blemen - Bijdragen ORD '90
(pp. 45-54). Nijmegen: ITS.

Heijden, M.K. van der (1988). Onderwijs in handig rekenen - wanneer, aan wie en hoe? Panamapost -
Tijdschrift voor nascholing en onderzoek van het reken-wiskunde onderwijs, 6,
29-31.

Klein, A.S. & Beishuizen, J.J. (1989). Leren rekenen met ecn adaptieve of rigide computcrcoach. In C.M.
van Putten & M. Beishuizen (Red.).
Informatietechnologie en Media - Bijdragen ORD '89 (pp. 35-
44). Lisse: Swets & Zeitlinger, 1989.

Lieshout, E.C.D.M. van & Jaspers, M.W.M. (1990). A training procedure for children with learning defi-
ciencies to improve their represenution of simple arithmetic word problems. In H. Mandl, E. De
Corte, N. Bennett & H.F. Friedrich (Eds.).
Learning and Instruction. European research in an
international context. Volume 2.2. Analysis of complex skills and complex knowledge domains
(pp.
431-444). Oxford: Pergamon Press.

I^hman, D.F. (1990). When good programs have bad effects on good students: understanding mathematha-

-ocr page 370-

364 Notities en Conunentaren

nic effects in thinking skills programs. In M.J. Ippel & J.J. Elshout (Eds.). Training van hogere orde
denkprocessen
(pp. 21-30). Lisse: Swets & Zeitlinger.

Luit, J.E.H. (1987). Rekenproblemen in het speciaal onderwijs. Een onderzoek naar de invloed van de
methode van zelfinstructie en een specifiek rekenhulpprogramma op de rekenvaardigheid.
Nij-
megen: Academisch Proefschrift.

O'Shea, T., Evertz, R., Hennesy, S., Floyd, A. & Elsom-Cook, M. (1988). Design choices for an intelligent
arithmetic tutor. In J. Self (Ed.).
Artifical intelligence and human learning-Intelligent computer-
aided instruction
(pp. 257-275). London: Chapman and Hall.

Treffers, A. & Moor, E. de (1990). Proeve van een nationaal programma voor het reken-wiskunde onderwijs
op de basisschool - Deel 2: Basisvaardigheden en Cijferen.
Tilburg: Zwijsen.

Manuscript ontvangen 12-11-1991

-ocr page 371-

Tijdschrift voor Onderwijsresearch, 16 (1991), nr. 6, pp. 365-373

Boekbesprekingenen

A.A. van der Hoeven-van Doomum, Effecten van leerlingbeelden en streefniveaus op school-
loopbanen.
Nijmegen: Academisch Proefschrift, 1990.

Het advies voor voortgezet onderwijs dat leerlingen aan het eind van de basisschool ontvangen
is van grote invloed op hun verdere onderwijskansen. De onderwijzer die het advies uitbrengt
laat zich daarbij niet alleen leiden door de prestaties en intelligentie van de leerling, maar ook
door kenmerken die samenhangen met het sociaal milieu van de leerling. Het advies speelt
derhalve een belangrijke rol in de totstandkoming van ongelijke onderwijskansen voor leerHn-
gen uit verschillende sociale milieus. Ondanks de prominente rol van het advies in schoolloop-
banen, waren empirisch gefundeerde verklaringen van milieugebonden adviezen zeldzaam, en
moest vooral buitenlands onderzoek worden geciteerd. Met het proefschrift van A. van der
Hoeven-van Doomum is daar verandering in gekomen.

In haar theoredsche verklaring grijpt zij temg naar het Pygmalioneffect: leerkrachtverwach-
tingen hebben een zichzelf waarmakende voorspelling. Het beeld en de verwachting die leerkrachten
hebben van een leerling zijn onder andere gebaseerd op de inschatting van de leerkracht van de
opleiding van de ouders en het thuisklimaat, en daarmee op het milieu van herkomst van de
leerling. De onderscheiden leerkrachtverwachtingen zorgen ervoor dat binnen één schoolklas
leerlingen verschillend onderwijs krijgen, omdat verschillende prestatieniveaus worden nage-
streefd. De bij leerlingen nagestreefde prestatieniveaus beïnvloeden op hun beurt de feitelijke
prestaties en het advies, onafhankelijk van het aanvankelijk prestatieniveau en de verstandelijke
aanleg.

Deze theoretische verklaring wordt in het proefschrift grondig getoetst, met longitudinale
gegevens die door het Instituut voor Sociale Wetenschappen zijn verzameld. In hoofdstuk 1
wordt de probleemstelling uiteengelegd in een aantal deelvragen en worden toetsbare hypothe-
sen geformuleerd. Het zou te ver voeren om daarvan een volledige opsomming te geven. Wel is
van belang dat het onderzoek in drie delen uiteenvalt. In het eerste deel, dat gediend heeft als
vooronderzoek en reeds eerder is gepubliceerd, wordt nagegaan welke schoolkenmerken een
bijdrage leveren aan de effectiviteit van scholen. Dit onderzoek heeft de scholen als onder-
zoekseenheid. In het tweede deel worden een reeks causale modellen gepresenteerd waarin
individuele kenmerken van leerlingen met elkaar in verband worden gebracht. Daar is dus de
leerling de onderzoekseenheid. In het laatste deel worden kenmerken van leerlingen en kenmerken
van scholen in een multiniveau-analyse met elkaar in verband gebracht.

In hoofdstuk 2 wordt beschreven hoe de steekproef is getrokken. In hoofdstuk 3 worden de
variabelen beschreven die in het onderzoek worden gebruikt. Daarbij zijn een aantal nieuwe
schalen ontwikkeld voor onder andere schoolklimaat, leerlingbeelden, nagestreefde prestatieni-
veaus, en werkwijze van de leerkracht.

In hoofdstuk 4 wordt het vooronderzoek besproken naar de bijdrage van schoolkenmerken
aan schooleffectiviteit. Schooleffectiviteit wordt geoperationaliseerd met de schoolkeuze van
de leerlingen in het voortgezet onderwijs. Het blijkt dat de sociaal-economische samenstelling
en de levensbeschouwelijke richting van de school de belangrijkste determinanten van
schooleffectiviteit zijn, maar dat teamconsensus, schoolleiderschapsstijl, de mate van vemieu-
wingsgerichtheid en prestatiegerichtheid weinig bijdragen aan de effectiviteit van de school.

In de hoofdstukken 5, 6 en 7 worden de in mijn ogen belangrijkste bevindingen gepresen-
teerd. Door middel van causale modellen worden milieu van herkomst, IQ, aanvankelijke prestaties,
de leerkrachtverwachtingen, het nagestreefde prestatieniveau en het feitelijke uiteindelijke
prestatieniveau en het vervolgadvies met elkaar in verband gebracht. Aangetoond wordt dat de
bovenstaande theoretische verklaring hout snijdt. De meeste hypothesen worden niet verwor-
pen. De milieuspecifieke advisering wordt voor ongeveer één derde tot de helft verklaard door
de leerkachtverwachtingen en nagestreefde prestatieniveaus.

-ocr page 372-

366 Boekbesprekingen

In hoofdstuk 8 wordt de multiniveau-analyse gepresenteerd. De belangrijkste conclusie hier-
uit is dat naast effecten van kenmerken van leerlingen ook schooleffecten bestaan op het presta-
tieniveau en het advies voor voortgezet onderwijs. De resultaten zijn echter niet schokkend.
Soms blijken de resuhaten ook in strijd met de verwachting, zoals de bevinding dat een hoge
teamconsensus leidt tot lagere CITO-scores.

Het geheel overziende is het proefschrift van goede kwaliteit. Het is voortreffelijk geschre-
ven in een toegankelijke stijl. Er is zorgvuldig geanalyseerd, waarbij de opbouw in de drie delen
een logische is. Toch zijn er wel enige kanttekeningen te plaatsen.

In de eerste plaats is een putu- technische opmerking te maken over de steekproefopzet en de
gevolgen daarvan voor de schatting van parameters en standaardfouten. De steekproef is ge-
stratificeerd, zodat de scholen verschillende trekkingskansen hebben; Om uitspraken te kimnen
doen over de populatie zouden de scholen (en hun leerlingen) omgekeerd evenredig moeten
worden gewogen met deze trekkingskansen. Door nalaten van weging kunnen de parameters
zijn beïnvloed, al is niet te verwachten dat een weging tot belangrijk andere conclusies zouden
leiden. De standaardfouten zullen echter eveneens fout worden geschat, omdat aangenomen
wordt dat de standaardafwijking zoals die in de steekproef wordt teruggevonden ook de stan-
daardafwijking in de populatie is. Niet herwegen zou bij de multiniveau-analyse nog wel eens
tot grotere problemen kunnen leiden dan bij het leerlingen onderzoek, omdat er slechts 53
scholen in het onderzoek zijn betrokken.

In de tweede plaats is de toetsing van de hypothesen wel erg uitgebreid beschreven. Het
aantal gepresenteerde schoolloopbaanmodellen is enorm, en de extra informatoe is vaak be-
perkt. Dit zou een stuk compacter kunnen, bijvoorbeeld door de toetsing van de hypothesen te
doen op de parameters, in plaats van op de chi-kwadraattoets voor de passendheid van modellen.

In de derde plaats wordt door de uitkomsten van het onderzoek één klemmende vraag opge-
roepen: In welke mate worden de leerkrachtverwachtingen die samenhangen met het sociaal
milieu gebaseerd op feitelijke verschillen in 'schoolgeschiktheid' tussen leerlingen? Daarbij
moeten we denken aan bijvoorbeeld persoonlijkheidskenmerken, als doorzettingsvermogen,
accuratesse e.d. en meer structurele variabelen als cultureel kapitaal, die niet in de causale
modellen zijn opgenomen. Deze feitelijke verschillen kunnen zowel de verschillen in leer-
krachtverwachtingen als de verschillen in feitelijke prestaties en het advies beïnvloeden. De
verbanden tussen milieuspecifieke leerkachtverwachtingen en feitelijke prestaties en advies
zouden dan (gedeeltelijk) slechts schijn zijn.

De wens naar meer spruh echter voornamelijk voort uit de kwaliteit van het proefschrift. Na
een goed hoofdgerecht verlangt men naar een smakelijk toetje. Van belang is dat de dataverza-
meling een vervolg "krijgt in het voortgezet onderwijs, om na te gaan of de leerkrachtverwach-
tingen in de basisschool ook op langere termijn nog effect hebben. Blijken in het voortgezet
onderwijs de effecten van leerkracbrverwachtingen langzaam te verdwijnen, of is het een 'stigma'
dat leerlingen hun gehele schoolloopbaan met zich meedragen?

Bart Bakker
Kijkduinstraat 36
2014 DE Haarlem

Theo Boland, Lezen op termijn: een onderzoek naar de ontwikkeling van de leesvaardigheid en
de invloed daarvan op de schoolloopbaan in het voortgezet onderwijs.
Proefschrift Katholieke
Universiteit te Nijmegen, 1991. Uitgave van de auteur.

Lezen op termijn is het verslag van een longitudinaal onderzoek naar de ontwikkeling van
aspecten van de leesvaardigheid en het effect hiervan op schoolkeuze. Longitudinaal onderzoek
is (helaas) schaars. Dit heeft verschillende redenen. De moeizame en langdurige dataverzame-
ling is er waarschijnlijk één. Een andere is beslist de financieringswijze van onderwijsonder-

-ocr page 373-

Boekbesprekingen 367

zoek. In 'lezen op termijn' wordt bij voorbeeld verslag gedaan van de analyse van maar liefst
drie verschillende svo-projecten. In het eerste project wordt de ontwikkeling van de leesvaar-
digheid in de eerste drie jaar van het lager onderwijs (groep drie, vier en vijf) beschreven. In het
tweede project worden deze leeriingen in de achtste groep nogmaals bezocht. En in het derde
project wordt de lijn doorgetrokken tot aan de eerste twee klassen van het voortgezet onderwijs.

Het proefschrift is opgebouwd uit vier delen. In het eerste deel wordt een overzicht gegeven van
alle variabelen (toetsen) die in de verschillende onderzoeken een rol spelen. Bovendien worden
hier de onderzoeksvragen geformuleerd, welke in de resterende drie delen beantwoord worden.

In het tweede deel van het proefschrift staan twee vragen centraal: zijn in de achtste groep
van het basisonderwijs technisch lezen, begrijpend lezen en speUing drie van elkaar te onderscheiden
aspecten van leesvaardigheid? en, hoe verhouden deze drie deelvaardigheden zich tot andere
aspecten van schoolvorderingen en tot intelligentie? Deel twee start met een meer theoretische
beschouwing van de begrippen begrijpend lezen, technisch lezen en spelling. Dat hierbij de al
oude discussie naar deelvaardigheden voor het begrijpend lezen van stal gehaald wordt, is
gezien de eerste onderzoeksvraag haast vanzelfsprekend. Hierbij moet aangetekend worden dat
de gehanteerde vaardigheidsindeling in begrijpend lezen, technisch lezen en spelling minder
voor de hand ligt. Het uitgangspunt is 'meer a-theoretisch, in deze zin dat we bezien wat er zich
in de praktijk van het leesonderwijs op school afspeelt en dit gegeven gebruiken als aanleiding
voor theoretische bespiegelingen' (p. 63). Een groot voordeel van deze benadering is dat het
onderzoek zo dicht als mogelijk bij de onderwijspraktijk gehouden wordt. De resultaten kunnen
dan misschien aanleiding zijn voor conclusies die van invloed zijn op het (aanvankelijke)
leesonderwijs (zie bij voorbeeld: Van Dongen, 1984). Er lijkt echter ook een nadeel aan deze
handelwijze verbonden. Immers, men wordt geacht onderzoek vanuit een theorie op te zetten, en
op grond van deze theorie hypothesen of modellen te formuleren en te toetsen. Hierdoor zou de
situade kunnen ontstaan dat er achteraf theorieën of aspecten van theorieën 'bijgesleept' worden,
welke weinig met het onderzoek als zodanig te maken hebben, maar zo mooi bij de resultaten/
conclusies passen (zie bijvoorbeeld: De Groot, 1961). Dit argument is echter voornamelijk van
toepassing wanneereral relatief goed ontwikkelde theorieën zijn. De theorie over de
ontwikkeling
van het (aanvankelijke) lezen en de relatie hiervan met de didacdek is echter dusdanig verbrokkeld
dat de werkwijze van Boland waarschijnlijk de enig steekhoudende is.

Eén van de unieke kenmerken van dit onderzoek is dat op elk meetmoment de vaardigheden
zoveel mogelijk met verschillende toetsen zijn gemeten. Zo is in de achtste groep technisch
lezen met twee, begrijpend lezen met zes en spelling met vier toetsen gemeten. In een toetsende
factoranalyse blijven de drie gehypothetiseerde (oblique) factoren voor de genoemde vaardigheden
mooi overeind. Wel moet opgemerkt worden dat de getoetste modellen niet overeenkomen met
eerder getekende modellen (p. 54) of in volgende delen getoetste modellen (p. 124); de richting
van de beïnvloeding wordt in dit deel buiten beschouwing gelaten, terwijl daar in de andere
delen wel aannamen over gemaakt worden. In feite wordt dus een beetje 'dubbel werk' gepre-
senteerd, wat voor mij althans enigszins verwarrend werkt.

De tweede in dit deel te beanwoorden vraagstelling is die naar de verhouding tussen spel-
vaardigheid, begrijpend en technisch lezen, en aspecten van schoolvorderingen en intelligentie.
Ter beantwoording van deze vraag worden de correlaties tussen de scores op drie centrale
vaardigheden (spellen, begrijpend en technisch lezen) en de subtoetsen van de cito eindtoets
(algemene schoolvorderingen) en de onderdelen van de ISI bestudeerd. Alle geobserveerde
correlaties zijn positief (p.85); zwakke achtstegroepers lijken over de hele linie zwak, terwijl
goede leerlingen over de hele linie goede prestaties laten zien. Een explorerende factoranalyse
leert dat de correlatiematrijs met vijf factoren redelijk beschreven kan worden, te weten factoren
voor technisch lezen (1), begrijpend lezen en verbale intelligentie (2). spelvaardigheid (3),
rekenvaardigheid (4) en nonverbale intelligentie (5).

In deel drie worden verschuivingen in onderiinge beïnvloeding van technisch en begrijpend
lezen, en spelvaardigheid gedurende het vierde, vijfde en achtste leeriaar in het basisonderwijs

-ocr page 374-

368 Boekbesprekingen

bestudeerd. Na een theoretisch getinte inleiding - welke om eerder genoemde reden enigszins
los staat van het onderzoek - worden enkele longitudinale studies besproken.

Bij de analyse van de gegevens worden eerst per leerjaar verschillende modellen getoetst.
Alle modellen hebben de volgende structuur: technisch lezen beïnvloedt begrijpend lezen en
spelvaardigheid, en begrijpend lezen beïnvloedt spelvaardigheid. Per leerjaar blijken deze mo-
dellen goed te passen. Boland beredeneert de richting van de causaliteit vanuit een theoretisch
standpunt. Echter, dit blijft een vreemde indruk op mij maken gezien de aandacht voor 'interactieve
theorieën', waarbij ervan uitgegaan wordt dat processen en vaardigheden elkaar (kunnen)
beïnvloeden.

In een tweede analyse-stap worden de gegevens uit de verschillende leerjaren simultaan
geanalyseerd. Hierbij blijven de eerder per leeijaar getoetste modellen (en richting van de
effecten) als uitgangspunt gehandhaafd. Daamaast wordt de score op een bepaalde vaardigheid
alleen beïnvloed door een score op dezelfde vaardigheid op een eerder meetmoment; er worden
dus alleen directe effecten toegestaan van spelling in groep vier op spelling in groep vijf etc..
Het uitgangsmodel past na kleine wijzigingen slechts matig, maar een beter passend model
wordt niet gepresenteerd.

Ik denk dat deze slechte passing toe te schrijven is aan een fundamenteel probleem, waar
Boland mijns inziens te lichtvoetig over heen stapt. De vraag is namelijk of de verschillende
toetsen op de verschillende momenten wel exact dezelfde vaardigheden meten (meetfouten
daargelaten): zijn de toetsen wel congeneriek? Hoewel we hier met een moeilijk schalingspro-
bleem te maken hebben, kan het niet serieus genoeg genomen worden'. Dat het moeilijk is blijkt
wel uit het gegeven dat het volgens sommigen nagenoeg onoplosbaar is, zelfs met item respons
modellen (Goldstein & Wood, 1989). Als de scores op de verschillende toetsen namelijk niet
geschaald zijn dan is het niet zonder meer aannemelijk dat (de items in) deze toetsen een beroep
doen op (exact) dezelfde processen, en dat de toetsen dus dezelfde vaardigheden vertegenwoordigen.
Het is derhalve lastig verschillen in regressiegewichten eenduidig te interpreteren. Immers,
verschillen kunnen zowel veroorzaakt worden doordat op verschillende tijdstippen net iets
andere vaardigheden gemeten zijn, als door werkelijke ontwikkelingsverschillen.

In het vierde deel van het proefschrift komt de invloed van leesvaardigheid in het basisonder-
wijs op de schoolloopbaan in het voortgezet onderwijs aan de orde. De carrière van een leerling
in het voortgezet onderwijs wordt in eerste instantie bestudeerd aan de hand van: een voorlopig
advies (aan het begin van de achtste groep) en het definitief advies (aan het einde van de achtste
groep), de feitelijke bestemming in de eerste en de feitelijke bestemming in de tweede klas van
het voortgezet onderwijs. Uit de analyses blijkt een redelijke correspondentie tussen de genoemde
variabelen. Zo wordt bij voorbeeld de correlatie tussen het voorlopig en het definitieve advies
geschat als .86; 95% van de ouders kiest een bestemming overeenkomstig het (definitieve)
advies, en de correlatie tussen bestemming in de eerste en tweede klas van het voortgezet
onderwijs bedraagt .88.

In een tweede analyse-stap wordt de samenhang tussen socjaal-economische achtergrond en
advies in ogenschouw genomen. Conform de resultaten van ander onderzoek blijken leerlingen
met een lage sociaal- economische achtergrond oververtegenwoordigd bij lbo/mavo-adviezen
en ondervertegenwoordigd bij havo/vwo adviezen. Evenzo blijken er bij de groep leerlingen
met een hoge sociaal-economische achtergrond verhoudingsgewijs veel te veel havo/vwo-adviezen
uit de bus te rollen. Wanneer echter de adviezen en prestaties (in de groepen vier, vijf en acht)
simultaan in ogenschouw genomen worden, dan blijkt dat niet aangetoond kan worden dat
leerlingen uit lagere sociale milieus betere prestaties moeten leveren om een havo/vwo advies te
krijgen dan leerlingen uit een hoog sociaal milieu. '

In een derde analyse-^tap worden causale modellen getoetst. Boland volgt hierbij de voor de
lezer inmiddels bekende en heldere opbouw: eerst relatief simpele modellen met weinig varia-
belen, welke allengs gecompliceerder worden. Zo wordt eerst de relatie tussen de spelvaardig-
heid, het technisch en begrijpend lezen in de achtste groep, de score op de cito eindtoets en de
bestemming in de eerste klas van het voortgezet onderwijs gemodelleerd. Vervolgens wordt in

-ocr page 375-

Boekbesprekingen 369

een volgend model bestemming eerste klas vervangen door bestemming tweede klas, waarna
pas beide bestemmingsvariabelen in het model opgenomen worden. Het blijkt dat zowel spellen
als begrijpend lezen een invloed - buiten de cito-score om - hebben op bestemming in eerste én
tweede klas in het voortgezet onderwijs. Voor wat betreft het spellen is dit niet zo vreemd omdat
dat geen onderdeel is van de cito-toets. Maar voor begrijpend lezen is dit wel vreemd. We
moeten derhalve concluderen dat begrijpend lezen zoals geoperationaliseerd in de achtste groep
niet geheel hetzelfde is als begrijpend lezen in de cito-toets; de verschillende toetsen represen-
teren (deels) verschillende vaardigheden.

In de vierde en laatste analyse-stap worden de verbanden geanalyseerd tussen de spelvaardigheid,
technisch en begrijpend lezen in de vierde, vijfde en achtste groep, de cho-score, het advies, en
de feitelijke bestemming in de eerste twee jaren van het voortgezet onderwijs. In het kort blijkt
er naast de cho-eindtoets nog plaats voor directe effecten op het advies van begrijpend lezen en
spelling. Technisch lezen lijkt noch een dnect effect te hebben op de cito-score, noch op het
advies of de bestemming. Lezen en spellen in de vierde en vijfde groep hebben geen directe
invloed op de cito-score, het advies of de bestemming. Dit geldt niet voor de effecten van
sociaal milieu. Sociaal milieu heeft directe effecten op: begrijpend lezen in de vierde groep,
begrijpend lezen in de achtste groep én op het advies aan het einde van de basisschool. Tot slot
is de geringe invloed van de cito-score op dit advies opmerkelijk, waarmee duidelijk wordt dat
de cito-score goeddeels overeenkomt met eerder gemeten vaardigheden.

Tenslotte wil ik een algemeen probleem aanstippen: de uitval van leerlingen. Zoals in meer
longitudinaal onderzoek is deze vrij groot. Helaas is uitval zelden aselect, zoals ook uit verschillende
van de door Boland geconstmeerde tabellen blijkt (en ook door hem geconcludeerd wordt).
Daar een groot deel van de geanalyseerde modellen betrekking heeft op de leerlingen met een
(vrijwel) complete set van toetsscores, dringt de vraag naar de representativiteit van deze steekproef
zich op. Ik heb daar zo mijn twijfels over, al was het alleen maar omdat in de resterende
steekproef de verschillen tussen leerlingen steeds kleiner worden (zie bij voorbeeld: p.34, p.35,
en ook: Oud & Mommers, 1990). Dit lijkt contra-intuïtief: de verschillen tussen leerlingen in bij
voorbeeld spelvaardigheid zijn kleiner in de achtste groep dan in de vijfde of vierde groep. Een
nadere analyse leert dat dit heel wel een gevolg van selectieve uitval zou kunnen zijn. Deze
selectieve uitval zou ook expliciet gemodelleerd kunnen worden met behulp van een (kleine)
uitbreiding van de door Boland gepresenteerde lisrel-modellen (zie: Van den Bergh, Eiting &
Mellenbergh, 1991), of met behulp van een multiniveau-model (zie: Van den Bergh & Kuhlemeier,
1991). Dit laatste type model zou dan nog als extra voordeel hebben dat de tussenleerlingen- en
de tussenscholenvariantie apart gemodelleerd kunnen worden. Een dergelijke modellering van
uitval zou m.i. verhelderend kunnen zijn voor de interpretatie van de onderzoeksresultaten.

Dit proefschrift heeft op mij een erg prettige indmk gemaakt. Dh wordt niet alleen veroorzaakt
door de helderheid en gedegenheid van verslaggeving en analyses, maar ook door de bijzondere
inleiding, waar de leerlingen aan het woord komen. Hiermee heeft Boland kans gezien zijn
betrokkenheid bij de leerlingen en het onderwijs op een uitermate sprekende wijze tot uiting te
laten komen.

Huub van den Bergh
Rijksuniversiteit te Utrecht
V^groep Nederlands
Trans 10
3512 JK Utrecht

-ocr page 376-

370 Boekbesprekingen

NOOT

1. Dat schaling een probleem is blijkt onder andere uit de regressie van de spelscores in de achtste groep op
de spelscores in de tweede groep. Kennelijk hebben de speltoetsen in de vierde en achtste groep meer
gemeenschappelijk - meten net iets andere spel vaardigheden - dan de speltoetsen in de vijfde groep (zie:
Figuur 14, p. 130). Ook voor de toetsen voor begrijpend lezen geldt iets dergelijks. Ook deze toetsen
kunnen niet congeneriek zijn, daar sociaal-economische achtergrond een extra effect heeft op de toetsen
in de achtste groep in vergelijking tot de vierde en vijfde groep (zie: Figuur 21, p. 175).

LITERATUUR

Bergh, H. van den, Eiting, M.H. & Mellenbergh, G.J. (1991). Incomplete repeated measurement designs in
longitudinal studies.
Methodika. (in press).

Bergh, H. van den & Kuhlemeier, H. (1991). On the stability of school effectiveness and effects of social
economic bacicground.
Occasional paper presented at Educational Testing Service, Princeton (NJ)
on april 8 1991.

Dongen, D. van (1984). Leesmoeilijkheden: Naar diagnostiserend onderwijzen bij het leren lezen. Tilburg:
Zwijsen.

Groot, A.D. de (1961). Methodologie: Grondslagen van onderzoek en denken in de gedragswetenschappen.
's-Gravenhage: Mouton.

Oud, J. & Mommers, M. (1990). Nieuwe mogelijkheden bij het volgen van leerprestaties op individueel en
groepsniveau. In: P.R.J. Simons & J.G.C.L. Lodewijks (Red.),
Onderwijsresearchdagen 1990:
technologie/methodologie.
Nijmegen: ITS.

S. Kemme, Uitleggen van wiskunde. Proefschrift Rijksuniversiteit Groningen, 1990.

Het proefschrift van Kemme gaat over uitleggen van wiskunde met een toespitsing op de eerste
fase voortgezet onderwijs en de opleiding van leraren. Voorop stond als eis dat het onderzoek
relevant moest zijn voor de dagelijkse praktijk. Docenten moesten het kunnen lezen en begrij-
pen. Het onderzoek is een poging om feiten en samenhangen rondom het uhleggen zichtbaar te
maken en zodoende een bijdrage te leveren aan de ontwikkeling van een theorie van het uitleg-
gen van wiskunde d.ie ondersteund wordt door observaties. Hoofdvragen daarbij zijn: (a) Wat
valt er uit te leggen aan een onderwerp? (b) Hoe gebeurt dat? Als methode van onderzoek is
voornamelijk gebruik gemaakt van kwalitatieve observaties en protocolanalyses. De twee
hoofdvragen zijn uitgewerkt in een reeks deelvragen waarvan de vragen naar verschillen in
uitleg tussen docenten in verschillende klassen m.i. het meest interessant zijn. In deze twee
deelvragen komen centrale problemen van het voortgezet onderwijs aan de orde, zoals verschil-
len in niveau tussen klassen en de vraag naar uitleggen in homogene en heterogene klassen.

In hoofdstuk 1 geeft de auteur een overzicht van theorieën van het uitleggen van wiskunde.
Enige relaties tussen de cognitieve psychologie en verschillende gezichtspunten over het uitleg-
gen en begrijpen van wiskunde worden aangestipt. Naast een overzicht van termen geeft dit
hoofdstuk een beschrijving van verschillende uitlegstrategieën.

In de gehanteerde terminologie zitten, volgens de auteur, keuzen verborgen ten aanzien van
de methodologie en de vragen van zijn onderzoek. Hoofdstuk 2 geeft een beschrijving van deze
keuzen. Het onderzoek is uitgevoerd in twee typen situaties: (a) het presenteren van een wiskun-
dig onderwerp door een student aan een groep studenten in het kader van de lerarenopleiding
wiskunde en (b) het uitleggen van wiskunde door leraren in gewone klassen in de eerste fase
voortgezet onderwijs.

Hoofdstuk 3 geeft een beschrijving van het deel van het onderzoek in het kader van de
lerarenopleiding. Het betreft observaties en analyses van de uitleg van twee studenten aan de

-ocr page 377-

Boekbesprekingen 371

lerarenopleiding. Daarbij is in het bijzonder gelet op de relatie tussen de moeilijkheid van een
onderwerp en de duidelijkheid van de uitleg.

Vanaf hoofdstuk 4 komt uitleggen in gewone klassesituaties aan de orde. Eerst wordt aan-
dacht besteed aan het vraagstuk van uitleggen door analogie en contexten. Daarbij worden
gevalsbeschrijvingen gepresenteerd aan de hand van opdrachten over heksen en treinen. Er
wordt ingegaan op de vraag hoe het komt dat sommige contexten wel het gewenste effect
hebben en andere niet. Ook werpt de auteur de vraag op of zwakke leerlingen wel zoveel baat
hebben bij het gebruik van contexten.

In hoofdstuk 5 gaat het om uitleggen van wiskunde waarbij letters en formules een rol spelen.
Daartoe worden drie klassesituaties van drie verschillende brugklassen en docenten geanaly-
seerd. De analyses van protocollen van lessituaties in een heterogene brugklas worden vergele-
ken met die van twee eerste klassen van het Gymnasium.

Hoofdstuk 6 geeft een vergelijking van uitlegsituaties bij één leraar die les geeft in twee
verschillende klassen (een tweede klas MAVO en een tweede klas Atheneum). De vraag komt
aan de orde of Atheneumleerlingen sneller leren dan MAVO-leeriingen en of er verschillen zijn
tussen deze categorieën leerlingen in de wijze waarop zij de wiskundige vraagstukken oplossen.
Lessituades en MAVO- en Atheneumleeriingen worden vergeleken aan de hand van protocollen
en proefwerken.

Het onderwerp hoeken komt in hoofdstuk 7 aan de orde. Daarbij wordt relatief veel aandacht
besteed aan de niveautheorie van de Van Hiele's en aan de wijze waarop dit destijds door Van
Hiele-Geldof in de klas gestalte is gegeven. Ook hier geeft de auteur een analyse van een les
over hoeken aan de hand van protocolfragmenten.

In hoofdstuk 8 komen de lijnen uit voorgaande hoofdstukken bij elkaar wordt ingegaan de
vraag of uitleggen te leren valt.

Het proefschrift van Kemme past tot op zekere hoogte in de dominante stroming van wiskunde-
didactisch onderzoek zoals we die in Nederiand kennen. Deze studie staat vol met wat in deze
kringen wordt aangeduid met 'didactisch smulwerk': voorbeelden, gevalsstudies, analyses van
opdrachten. De auteur is van mening dat zijn boek zich laat lezen als een roman. Ik ben het
hiermee eens voor zover het afzonderiijke onderdelen betreft: in het bijzonder waar het gaat om
de vergelijking tussen klassen en leeriingen in verschillende schooltypen of stromen, maar ook
voor de boeiende wijze waarop de auteur de niveautheorie van de Van Hiele's aan de orde stelt.
Voor het boek als geheel geldt dat echter niet omdat de samenhang tussen de onderdelen
ontbreekt en omdat het proefschrift storende vormfouten bevat.

Opvallend is dat een methodologische en onderwijskundige fundering ontbreekt. Om met dat
laatste te beginnen, de summiere verwijzing van Kemme naar de cognitieve psychologie resul-
teert in een afwijzing. Volgens Kemme wordt het leren in de cognitieve psychologie vooral
benaderd als een individueel proces. De leraar heeft echter niet met een individuele leeriing te
maken maar met een hele klas (blz. 10). Door zich bij voorbaat te distantiëren van cognitietheo-
rieën is het de auteur kennelijk ontgaan wat de betekenis van het werk van bijvoorbeeld Greeno
en Nesher zou kunnen zijn voor het vraagstuk van wiskunde in 'rijke contexten'. Nu werpt
Kemme in hoofdstuk 4 interessante vragen op maar blijft hij steken in een zelfgekozen provin-
cialisme.

Wie gelet op Kemme's afwijzing van de cognitieve psychologie, zou denken dat Kemme dan
wel te rade zou gaan bij onderwijskundige theorieën waarin wèl aandacht wordt besteed aan de
sociale aspecten van het onderwijzen en Ieren in de klas, komt echter bedrogen uit. Er wordt
geen gebruik gemaakt van empirische gegevens en theoretische verklaringen omtrent het effect
van klassecompositie op het gedrag van de leraar en op het leren van leerlingen in de klas.
Kemme constateert een sterke wisselwerking tussen docent en klas, maar interpreteert dit niet in
een breder theoretisch kader. Dat is een gemiste kans gezien de vraagstelling en de resultaten
van Kemme's studie. Hoofdstuk 5 en 6 zijn namelijk geheel gewijd aan een vergelijking van
onderwijsleerprocessen in klassen met verschillende samenstellingen (homogeen vs hetero-

-ocr page 378-

372 Boekbesprekingen

geen, lager vs hoger niveau). Deze hoofdstukken vormen het hart van zijn studie en leveren
interessante informatie op. Kemme analyseert de leerwinst van leerlingen in drie klassen (twee
Gymnasiumklassen en één heterogene brugklas, elke klas heeft een andere leraar). De analyse
vindt plaats aan de hand van een vergelijking van de resultaten op een voortoets en een natoets.
Er blijkt een 'duidelijke leerwinst' op te treden. Kemme noemt het opvallend dat (a) het eindre-
sultaat afhankelijk lijkt te zijn van de beginsituatie en (b) bij bepaalde opgaven het gemiddelde
eindniveau van de heterogene brugklas nog onder het gemiddelde beginniveau zit van de eerste
klas van het Gymnasium. Hoewel er een 'aanzienlijk' verschil in globale resultaten op de
voortoets bestaat, is dat verschil bij de natoets 'aanzienlijk' gelijkgetrokken: tussen één van de
gymnasiumklassen en de heterogene brugklas is geen opvallend verschil in globale resultaten
meer te bespeuren, al blijft de heterogene klas duidelijk achter bij het opstellen van formules.
Door de betere startpositie van de gymnasiumleerlingen is het voor de docenten gemakkelijker
expliciet aandacht te geven aan verschillende betekenissen van lettergebruik. In de heterogene
groep is het gevaar groot dat leerlingen niet verder komen dan een kale formele interpretatie van
letters en daarmee op den duur vastlopen in betekenisloze vaardigheden.

Ook de vergelijking van een tweede MAVO klas met een tweede Atheneumklas levert inte-
ressante conclusies op. Ondanks het feit dat beide klassen van dezelfde docent les hebben, en
hetzelfde lesmateriaal gebruiken zijn er grote verschillen geconstateerd. Zo zijn er verschillen
in het tempo van uitleggen, in de snelheid waarmee verkortingen in de oplossingsmethoden
optreden en in de kwaliteit van het proefwerk dat de leraar voor zijn leerlingen opstelt (Athene-
umleerlingen krijgen veel meer opgaven waarin hogere cognitieve vaardigheden worden aange-
sproken, zoals het zelf opstellen en oplossen van een vergelijking naar aanleiding van een
concrete situatie). Kemme zegt: " Het Mavo-proefwerk zou in de Atheneumklas waarschijnlijk
alleen maar voldoenden opgeleverd hebben, het Atheneum-proefwerk in de MAVO alleen maar
onvoldoendes." Het vah op dat de resultaten in termen van voldoendes en onvoldoendes in
beide klassen eenzelfde patroon te zien geven. De leraar past zijn proefwerk en zijn cijfers aan
bij het niveau van de klas. De wet van Posthumus of de techniek van 'grading on the curve'
blijkt nog springlevend te zijn.

Kemme constateert dat de docent zich bij zijn uitleg aanpast aan het gemiddelde niveau van
de leerlingen. Hij zegt er bij: "We mogen hier niet bij voorbaat uit concluderen dat deze
verschillen een gevolg zijn van verschillen in schooltypes. Het is denkbaar dat bij een andere
organisatie van het onderwijs en bij een andere keuze van de leerstof deze verschillen minder
groot zouden zijn of zelfs misschien helemaal niet zouden zijn ontstaan." De auteur noemt het
denkbaar dat deze Verschillen worden versterkt door de verwachtingen en het gedrag van de
docent.

Het is jammer dat Kemme zijn onderzoeksresultaten en zijn standpunten niet nader analyseert in
het perspectief van de basisvorming. Dit is des te opmerkelijker als men bedenkt dat Kemme's
promotor (Van der Blij) adviezen aan de WRR heeft uitgebrachj over de vorming van homogene
stromen bij wiskunde, die lijnrecht ingaan tegen ideeën van Freudenthal die stelde dat het
mogelijk is leerlingen na de basisschool nog jaren gemeenschappelijk onderwijs te geven in
heterogene klassen. Misschien heeft Kemme het niet aangedurfd deze controverse aan de orde te
stellen. Dat valt te betreuren omdat de empirische gegevens in dit proefschrift relevant zijn voor
de discussie over deze verschillende standpunten. In Kemme's studie ziet men namelijk een
vaker geconstateerd verschijnsel: het curriculum is op papier gelijk maar de realisatie verschilt.
De zwakke leerlingen krijgen een minder aantrekkelijk en een minder kansrijk dieet voorge-
schoteld dan de sterke leerlingen. Verschillen tussen zwakke en sterke leerlingen nemen toe,
mede omdat zij in verschillende klassen zijn geplaatst. Dat geeft te denken voor de basisvorming.
De vraag die bij mij opkomt bij het lezen van dit proefschrift luidt: wat heeft het voor zin om,
zoals de WRR voorstelt, het 'curriculum op papier' gelijk te maken als men het bestaan van
verschillende schooltypen (of streams) niet ter discussie stelt? Uit andere onderzoekingen (die
men in dit proefschrift tevergeefs zoekt) blijkt dat leraren zich als kameleons aanpassen aan hun
leerlingen. De zwakke en vooral de middelmatige leerlingen lijken gevoelig te zijn voor de

-ocr page 379-

Boekbesprekingen 373

factor 'klassecompositie'. Voor hen maakt het verschil om in een lagere of hogere stroom
geplaatst te worden. Kemme's studie maakt op micro niveau iets zichtbaar van de verschillen in
onderwijsleerprocessen tussen de lagere en hogere stromen in een scholengemeenschap. Helaas
reflecteert hij niet op de differentiële effecten hiervan voor zwakke en sterke leerlingen. Hij
blijft geheel binnen de vooronderstellingen van de bestaande praktijk en legitimeert deze zelfs
door (zonder enig empirisch bewijs) aan te nemen dat het Atheneumproefwerk in de MAVO-
klas alleen maar onvoldoendes zou hebben opgeleverd. Merkwaardig is dat Kemme in deze
deelstudie geen voortoets heeft afgenomen en dat de natoetsen (proefwerken) voor de twee
klassen verschillend zijn. Nu blijft onzichtbaar of er overlap bestaat in de prestatiecurves van de
MAVO- en Atheneumleerlingen aan het begin en aan het eind. Door de proefwerken van de
leraren als onderzoeksinstrumenten te hanteren maakt Kemme het voor zichzelf onmogelijk om
buiten het denkkader van de practici te treden. Kemme is daarmee in de valkuil gevallen waar
anttopologen voor waarschuwen als zij wijzen op het verschijnsel 'going native'. De toetsgegevens
van de verschillende klassen zijn onvergelijkbaar en over de betrouwbaarheid en de validiteit
valt niets mee te delen. De auteur worstelt met het criteriumprobleem (hoe kan het ook anders
bij dit aantal cases) maar maakt dat nergens expliciet: woorden als 'aanzienlijk', 'duidelijke
leerwinst', 'normale interactie', 'geen opvallend verschil in globale resuhaten', zijn indicatief
hiervoor

Het is interessant een vergelijking te maken tussen het proefschrift van Kemme en dat van
Bonset op het gebied van het vak Nederiands. In beide gevallen gaat het om kwalitatieve case-
studies in de eerste fase voortgezet onderwijs. Bonset's studie heeft een grotere zeggingskracht.
Daarvoor zijn verschillende redenen. Bonset heeft zijn onderzoek longitudinaal opgezet terwijl
Kemme met losse fragmenten werkt. Bonset plaatst zijn bevindingen in een theoretisch kader en
gaat expliciet in op de implicaties van zijn studie voor de basisvorming, daarbij komt hij met
gefundeerde kritiek op de adviezen van de WRR over de instelling van verschillende begaafd-
heidsstromen bij Nederiands. Bij Kemme ontbreekt een dergelijke discussie en dat is een gemiste
kans, vooral omdat in wiskunde-didactische kring uitgesproken opvauingen leven over streaming
in de eerste fase voortgezet onderwijs, die tot nu toe niet empirisch zijn getoetst.

Het proefschrift heeft qua vormgeving enkele ernstige tekorten. De opzet is niet strak en conse-
quent. Nu eens wordt de docent aan het begin van een protocol expliciet genoemd, dan weer
moet men verder in tekst zoeken om welke docent het gaat. De deelstudies zijn qua design
verschillend zonder dat dit functioneel is, of zelfs maar wordt uitgelegd. De figuren en tabellen
in de tekst zijn niet genummerd en niet van titels voorzien. De bijlagen zijn op een ongebruike-
lijke plaats in het proefschrift opgenomen. De lezer wordt bij verwijzingen naar bijlagen ver-
schillende malen het bos in gestuurd, omdat er geen correspondentie bestaat tussen de verwijzingen
in de tekst naar de bijlagen en de nummering van de bijlagen (zie bijvoorbeeld blz. 158 verwij-
zingen naar bijlage 2b en 2c).

Ondanks al deze tekorten is het proefschrift de moeite van het lezen waard. De observaties in de
klas zijn levensecht en verhelderend. Kemme gunt ons een boeiend kijkje in het proces van
uitleggen door wiskundeleraren. Daarmee levert de auteur een belangrijke bijdrage aan de
vakdidactiek. Tegelijk schiet zijn proefschrift qua theorievorming en methodologie tekort en
blijft hij teveel gevangen binnen de vooronderstellingen van zijn doelgroep. Daarmee doet hij
ook de leraren tekort.

J. Terwel

Vakgroep Onderwijskunde

R.U. Utrecht

Postbus 80.140

3508 TC Utrecht

-ocr page 380-

Dyslexie '91

'YSLEXIE

Verslog van een studiedag
gehouden oan de Rijksunsversiteit
Groningen
op 29 mei 1991

Verslag van een studiedag
gehouden aan de
Rijksuniversiteit Groningen
op 29 mei 1991

Redactie;
K.P. van den Bos
H. Nokken

K.P. van den Bos,
H. Nakken (red.)

Dyslexie '91 is tot stand geko-
men naar aanleiding van een
studiedag in 1991 die de Stich-
ting Dyslexie organiseerde sa-
men met de Rijksuniversiteit
Groningen. Centraal in deze
bundel staat niet alleen behan-
deling van lees- en spellingpro-
blemen maar ook de theorievor-
ming. Voorts is er aandacht voor
voorschoolse ontwikkeling van
kind en milieu en problemen in
het voortgezet onderwijs.
Na inleidende hoofdstukken
waarin het terrein van dyslexie
wordt afgebakend en de relatie
met leesmodellen wordt gelegd,
komen de volgende onderwer-
pen aan bod: nieuwe inzichten
In de neurologie, dynamische

modellen van lezen en schrijven,
het effect van (voor)Iezen in de
(voor)schoolse periode op de
leesvaardigheid van kinderen, en
dyslexie en diagnostische en be-
handelstrategieën bij leesproble-
men in het basis- en voortgezet
onderwijs.

Eerder verschenen:
DYSLEXIE '90

Behandeling van lees- en
spellingproblemen bij kinderen
van 5 tot 12 jaar

ISBN 90 265 1176 O, f 39,50


Verkrijgbaar in de boekhandel

ISBN 90 265 1201 5
160 blz. f45,00

SWETS & ZEITLINGER B.V.

Heereweg 347, 2161 CA Lisse, Tel. 02521-35111

-ocr page 381-

BULLETIN

ORGAAN VAN DE VERENIGING
VOOR ONDERWIJSRESEARCH

Redactie-adres
Dr. P.J.J. Stijnen, Open Universiteit,
Postbus 2960, 6401 DL Heerlen,
tel. 045-762293

Jrg. 15, nr. 3 1991

Inhoudsopgave

Juryrapport VOR prijs 1991 375

Congressen, Symposia, Cursussen, Trainingen 377

Ontvangen publikaties 3g2

-ocr page 382-

376 VOR Bulletin 15, 3

Juryrapport VO'EJPrijs 1991

De Jury voor de Prijs van de Vereniging voor Onderwijsresearch voor de beste
dissertatie op het gebied van de onderwijsresearch, in vergadering bijeen op
woensdag 1 mei 1991, kennis genomen hebbende van alle inzendingen, besluit de
prijs voor 1990 ex aequo toe te kennen aan

TauCïLS Tctms 9v(ana Leseman

voor zijn proefschrift

'StructureCe en pedagogische determinanten van scfwodoopßanen'

en

lVitfu[mina ConieCia T^aria

voor haar proefschrift

'InteUigentie en [eerpotentieeC

Naar het oordeel van de Jury richten beide proefschriften zich op vraagstellingen
die voor de onderwijsresearch van centraal belang zijn.

Beide proefschriften bevatten een heldere theoretische verhandeling, werken hun
vraagstellingen zorgvuldig uit en vallen op door hun verantwoorde keuze van
analysemodellen en hun rijkdom aan conclusies.

De proefschriften zijn meesterlijk geschreven en voortreffelijk leesbaar voor zowel
directe vakgénofen als relatieve buitenstaanders.

Hel is de Jury niet gelukt om enig verschil in niveau en relevantie tussen beide
proefschriften le onldekken, waarna met grote unanimiteit besloten is de prijs ex
aequo toe te kennen.

De Jury heeft zich ervan vergewist dat de beide kandidaten voldoen aan de
voorwaarden die aan de toekenning van de prijs verbonden zijn.

De Jury bestond uit Prof.Dr. H.P.M. Creemers, Prof.Dr. L.F.W. de Klerk,
Prof.Dr. J.M.G. Leune en Prof.Dr. W.J. van der Linden.

-Aldus opgemaakt te Utrecht op 1 mei 1991,

Namens de Jury, ^

Prof.Dr. W.J. van der Linden
^OAaorziHer

-ocr page 383-

VOR Bulletin 15, 3 377

Congressen, Symposia, Cursussen, Trainingen

55 beurzen voor onderzoek, studie en lesgeven in de verenigde
staten - 1992/1993

De NACEE - Netherlands America Commission for Educational Exchange, Herengracht 430,
1017 BZ Amsterdam - belast met de verstrekking van FULBRIGHT beurzen kan voor het
academisch/schooljaar 1992-1993 in totaal 55 aanvullende beurzen ter beschikking stellen voor
onderzoek, studie en lesgeven in de Verenigde Staten.

Voor de SCHOLAR categorie: 15 beurzen. In aanmerking komen hoogleraren, universitaire
docenten en wetenschappelijk medewerkers met een Dr's graad: Periode: 3 tot 12 maanden.
Aanmelding vóór 15 december 1991.

Voor de AIO/OIO categorie: 10 beurzen. In aanmerking komen AIO en OIO's. Periode 3-6
maanden. Aanmelding vóór 15 december 1991.

Voor de GRADUATE STUDENT categorie: 16 beurzen. In aanmerking komen afgestudeerden
van HBO en universiteit (en zij die in de laatste fase van hun opleiding zijn). Periode: academisch
jaar 1992-1993. Aanmelding vóór 1 maart 1992.

Voor de DIRECT TEACHERS categorie (uitwisseling van Nederiandse en Amerikaanse docen-
ten voor het gehele schooljaar, met behoud van salaris en secundaire arbeidsvoorwaarden): 9
beurzen. In aanmerking komen eerstegraads docenten in alle vakgebieden bij VWO en HBO
met een volledige betrekking. Aanmelding vóór 15 december 1991.

Voor de TEACHERS categorie: 5 beurzen voor het volgen van een zomerprogramma van 6
weken in "American Studies". In aanmerking komen eerstegraads docenten in Engels, geschiedenis,
aardrijkskunde en sociale wetenschappen bij VWO en HBO met minimaal 75% lestaak Aanmeldinè
vóór 1 februari 1992. ''

Een brochure met uitvoerige gegevens voor bovengenoemde categorieën kan telefonisch wor-
den aangevraagd op 020-6 27 54 21.

conferentie: onderwijs in historisch perspectief

Op 19 en 20 febmari 1992 zal in het conferentieoord de Blije Werelt te Lunteren de Negende
Onderwijssociologische Conferentie plaatsvinden.

Het thema van deze conferentie is "Onderwijs in historisch perspectief: deelname, curricu-
lum en professionaliteit".

Deze conferentie, georganiseerd door SISWO onder auspiciën van de Stuurgroep Onderwijs-
sociologie, heeft ditmaal een algemeen gedeelte en een specifiek gedeelte. In het algemeen
gedeelte van de conferentie zal een Engelstalig debat worden gevoerd onder de titel "The
national curriculum: citizenship, education and the nation-state". Tijdens deze plenaire se.ssies
zal de ontwikkeling van het onderwijs in Nederiand als een 'common good' in een historisch en
comparatief sociologisch perspectief worden geplaatst. Voor dit gedeelte zijn uitgenodigd Prof
F.0. Ramirez (Stanford University, US) en Prof. B.S. Turner (University of Essex UK)

-ocr page 384-

378 VOR Bulletin 15, 3

Het specifieke gedeelte betreft discussies in werkgroepen over papers betreffende 'deelna-
me, curriculum en professionaliteit'.

Evenals bij de voorgaande conferenties zal het aantal deelnemers maximaal 100 zijn. De
inschrijvingskosten bedragen ƒ 300,-. Hierbij zijn o.a. inbegrepen de volledige verblijfskosten
en de conferentiebundel, die u vooraf krijgt toegezonden.

Belangstellenden kuimen informatie opvragen bij het secretariaat. Inlichtingen: Drs. C. Corver
SISWO, tel. 020-5270600.

CONGRES OPRICHTING VAN DE VERENIGING VAN AMSTERDAMSE PEDAGO-
GEN EN ONDERWIJSKUNDIGEN

Op 28 februari 1992 vindt ter gelegenheid van de oprichting van de Vereniging van Amsterdam-
se Pedagogen en Onderwijskundigen een congres plaats, waar de ontwikkelingen binnen het
onderzoek in de Faculteit der Pedagogische en Onderwijskundige Wetenschappen van de Uni-
versiteit van Amsterdam gepresenteerd worden.

Plaats: Instituut voor Pedagogische Wetenschappen (IPW), IJsbaanpad 9,1076 CV Amsterdam.

Belangstellenden kunnen zich aanmelden bij: Congrescommissie: T.a.v. mevrouw A.E. Herlé,
IPW, IJsbaanpad 9, 1076 CV Amsterdam, tel. 020-66 44 331

VELON-CONGRES 1992. STILSTAAN BIJ ONDERWIJS IN BEWEGING

(opleiden binnen Veranderende kaders)

Op 31 maart en 1 april 1992 organiseert de Vereniging van Lerarenopleiders Nederland (VE-
LON) een congres over bovenstaand thema in congrescentrum De Koningshof te Veldhoven.

Een congresbrochure en evt. nadere inlichtingen zijn te verkrijgen bij: mevr. R. Gompelman,
IVLOS-lerarenopleiding, Heidelberglaan 8, Postbus 80127, 3508 TC Utrecht; telefoonnummer
030-532194.

EUROPEAN DYSLEXIA CONFERENCE 1992

Op 19 en 20 maart 1992 wordt voor het eerst in Nederland de "Epropean Dyslexia Conference"
georganiseerd. Het thema luidt: "Belangwekkende ontwikkelingen in diagnose, behandeling en
onderzoek".

De conferentie wordt georganiseerd door de Stichting International Dyslexia Association IDA.
Hierin zijn vertegenwoordigd de European Dyslexia Association EDA. (de overkoepelende
organisatie van Europese ouderverenigingen), de International Academy for Research and Leaming
Disabilities (lARLD). de Stichting Dyslexie en de oudervereniging Balans.

De conferentie wordt gehouden in het RAI-Congrescentmm te Amsterdam. De kosten van
deelname bedragen ƒ 185,- (bij betaling na 1 december 1991 ƒ 225,-).

Inschrijfformulieren kunt u aanvragen bij het conferentiesecretariaat. Postbus 15051, 1001
MB Amsterdam 020-6 27 89 49.

-ocr page 385-

VOR Bulletin 15, 3 379

SEMINARIUM "BESLISSEN MET TESTS EN STUDIETOETSEN"

Het Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie organiseert het
bovenstaande seminarium o.l.v. prof.dr. W.J. van der Linden (UT) en prof.dr. G.J. Mellenbergh
(UvA). Het seminarium wordt gehouden van dinsdag 7 t/m donderdag 9 januari 1992 aan de
Universiteit van Amsterdam.

Inschrijfformulier en aankondiging schriftelijk aanvragen bij het lOPS-secretariaat, Mw.
drs. J.H. Slotboom, Faculteit der Psychologie, Roetersstraat 15, 1018 WB Amsterdam.

Kosten voor deelnemers die niet tot het lOPS behoren: ƒ 1.500,- voor (semO-
overheidsinstellingen en ƒ 3.000,- voor commerciële instellingen.

POSTDOCTORALE CURSUS ANALYSE VAN COVARIANTIESTRUCTUREN (LIS-
REL EN PRELIS)

Het Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie (lOPS) organiseert
de bovenstaande postdoctorale cursus o.l.v. dr. A. Boomsma. De cursus wordt gehouden van 27
t/m 31 januari 1992 aan de Rijksuniversiteit Groningen.

Informatiebrochure en inschrijfformulier schriftelijk aanvragen bij het lOPS-secretariaat,
mw. drs. J.H. Slotboom. Faculteit der Psychologie, Roetersstraat 15, 1018 WB Amsterdam.

Kosten: ƒ525.- voor (semOoverheid en ƒ 1.025,- voor commerciële instellingen. Voor
werklozen is korting mogelijk.

POSTDOCTORALE CURSUS LOGLINEAIRE MODELLEN VOOR DE ANALYSE VAN
KRUISTABELLEN

Het Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie (lOPS) organiseert
de bovenstaande postdoctorale cursus o.l.v. dr. A. Mooijaart. De cursus wordt gehouden elke
maandagmiddag van 5 januari t/m 24 februari 1992 aan de Rijksuniversiteit te Leiden.

Informatiebrochure en inschrijfformulier schriftelijk aanvragen bij het lOPS-secretariaat
mw. drs. J.H. Slotboom, Faculteit der Psychologie, Roetersstraat 15, 1018 WB Amsterdam

Kosten: ƒ525,- voor (semOoverheid en ƒ 1.025,- voor commerciële instellingen Voor
werklozen is korting mogelijk.

OM DE EFFECTIVITEIT VAN ONS ONDERWIJS

De Rotterdamse School Advies Dienst en het Pedologisch Instituut Rotterdam organiseren op
14 mei 1992 een landelijk congres over instructie- en schooleffectiviteit, getiteld 'om de effec-
tiviteh van ons onderwijs'.

Deelnamekosten ƒ 350,- waarin begrepen twee boeken: 'Effectieve Instructie' (van professor
Creemers) en 'Schoolvoorbeelden' (onder redactie van o.a. professor Meijnen).

Informatie: dr. J.H. Slavenburg, directeur Rotterdamse School Advies Dienst.

-ocr page 386-

380 VOR Bulletin 15, 3

CALL FOR PARTICIPATION

The Organization Committee of ECER invites all European researchers in the field of Education
and Training to participate in an European Conference on Educational Research.

European Conference on Educational Research - June 22 - 25,1992 ('ORD ' 92')
Univershy of Twente, Enschede, The Netherlands

Proposals must be submitted before January 1, 1992

Dutch Educational Research Association (VOR)
University of Twente

Address for submission

Proposals, including 'proposal and advance registration cover sheet' and Abstract, should be
sent to the Conference Secretary:

ECER-1992

Convention Bureau BASICS
University of Twente
P.O. Box 217
7500 AE Enschede
The Netherlands

Further information 053 - 3331366

ALGEMEEN LUSTRUMCONGRES "TRACING TECHNOLOGY"
23-24 januari 1992, Technische Universiteit Delft

De Technische Universiteit luidt de festiviteiten rond haar 150 jarig bestaan in met het Alge-
meen Lustrumcongres "Tracing Technology".

Vragen die ondermeer aan de orde komen zijn: Hoe wordt nu gedacht over de wisselwerking van
techniek en samenleving? Wat is de invloed van grootschalige technische systemen op de
maatschappij? Welke factoren bepalen technische ontwikkelingen, en werpen die ontwikkelin-
gen nieuwe ethische vragen op? Wat is de wisselwerking tussen techniek en kunst? Befaamde
internationale sprekers en Nederlandse co-referenten zullen deze onwerpen behandelen en van-
uit verschillende perspectieven belichten.

Voor meer informatie kunt u contact opnemen met:
Congresbureau ASD
Tel.: 015-120234
Fax: 015-120250

EUROPEAN DYSLEXIA CONFERENCE

Op 19 en 20 maart 1992 vindt voor het eerst in Nederland een internationale conferentie plaats
over dyslexie, met als thema: Dyslexie - Belangwekkende Ontwikkelingen in Diagnostiek,
Behandeling en Onderzoek. Inleiders uit binnen- en buitenland behandelen de meest recente
bevindingen op deze terreinen.

-ocr page 387-

VOR BuUetin 15, 3 381

Kosten

De kosten van deelname aan de conferentie inclusief koffie, thee en lunches, bedragen ƒ 185,-.
Bij betaling na 1 december 1991 ƒ 225,-. Voor ouder-leden van Balans bedragen de kosten
ƒ 125,-. Aanmeldingen worden geaccepteerd in volgorde van binnenkomst van betaling op
gironummer 2491.

Informatie

Voor meer informatie kunt u contact opnemen met:
Stichting International Dyslexia Association,
Postbus 15051
1001 MB Amsterdam.

Mevr. M.J. Martens
tel.: 020 - 6278949
fax: 020 - 6270322
gironummer 2491.

-ocr page 388-

382 VOR Bulletin 15, 3

Ontvangen publikaties

Adviesraad voortgezet onderwijs (1991). Tot nut van 't algemeen. Beschouwingen over inhoud en functie
van algemene vorming in de tweede fase van het voortgezet onderwijs. Zeist: ARVO.

Ax, J. & Wieringen, A.M.L. van (Red.) (1991). De maat van de school. De nota schaal en kwaliteit in het
basisonderwijs in discussie. De Lier: Academisch Boeken Centrum . ISBN 90-72015-67-3.

Bel, A. & Jonkergouw, Th. (Red.) (1991). Wegwijzer psychologie in Nederland. Assen: Van Gorcum. ISBN
90-232-2613-5.

Boland, Th. (1991). Lezen op termijn. Een onderzoek naar de ontwikkeling van de leesvaardigheid in het
basisonderwijs en de invloed daarvan op de schoolloopbaan in het voortgezet onderwijs. Proefschrift
KU Nijmegen. ISBN 90-9004099-4.

Bouwens, F. & Oud-de Glas, M. (1991). Het vreemde-talenonderwijs in de onderbouw van het voortgezet
onderwijs. Amsterdam/Lisse: Swets & Zeitlinger (Forum 13).

Cillessen, A.H.N. (1991). The self-perpetualing nature of children's peer relationships. Proefschrift KU
Nijmegen. Kampen: Mondiss.

Cito (1991). Jaarverslag van het Instituut voor Toetsontwikkeling over 1990. Amhem: Cito.

Coehorst, C.B.A.A., Hulsebos, L.J.M. & Vogels, J.H.E.P. (Red.) (1991). Sü-ategisch beleid voor beroeps-
onderwijs en volwasseneneducatie. Leiden: SMD Educatieve Uitgevers.

Dijkstra, S., Krammer, H.P.J. & Pieters, J.M. (Red.) (1991). De onderwijskundig ontwerper. Liber Amico-
rum aangeboden aan prof. dr. E. Warries bij zijn afscheid als hoogleraar Onderwijskunde aan de
Universiteit Twente te Enschede. Amsterdam/Lisse: Swets & Zeitlinger.

Dijk, W. van, Reints, A. & Khabote, A. Laten we Arabisch pralen.

Doesschate, J.J. len, & Jacobs, E. De implementatie van zorgverbreding/technisch lezen op Utrechtse
onderwijsvoorrangsscholen.

Eberg, J.W., Eijkelhof, H.M.C., Kortland, J. & Stokking, K.M. Naar een didactiek voor natuur- en milieu-
educatie in het onderwijs.

lOWO jaarverslag (1991), Nijmegen: Katholieke Universiteit.

Kells, H.R., Maassen, P.A.M. & Haan, J. dc (1991). Kwaliteitsmanagement in het hoger onderwijs. Een
handboek voor interne cn externe evaluaties in universiteiten en hogescholen. Utrecht: Lemma.
ISBN 90-5189-030-3.

Korthagen, F.A.J., Jong, O. de & Rensma, Th. (Red.). (1991). Van anders naar beter. Doelgericht inspelen
op veranderingen in secundair en tertiair onderwijs. Uü-echt: W.C.C./IVLOS-RUU. ISBN 90-
71282-21-X.

Kristcnsen, D. & Jenneskens, A. (1991). Emancipatiebeleid op scholen: meisjes en exacte vakken. Amster-
dam/Lisse: Swets & Zeitlinger (Forum 12).

Linden, F.J. van der (1991). Adolescent lifeworid: Theoretical and empirical orientations in socialization
processes of Dutch youth. A selection of social-ecological studies. Proefschrift RU Leiden. Am-
sterdam/Lisse: Swets & Zeitlinger.

Luijten, A.J.M. (ed.) (1991). Issues in public examinations. A selection of the Proceedings of the 1990
IAEA Conference. Utrcfht: Lemma. ISBN 90-5189-091-5.

Meerjarenplan 1992-1995 en Jaarprogramma 1992 van het Instituut voor Toetsontwikkeling.

Overmaat, M. (1991). Lezen en schrijven met behulp van teksLschema's. De effecten van exprimenteel
tekstschema-onderwijs in de bovenbouw van het voortgezet onderwijs. Amsterdam/Lisse: Swets
& Zeitlinger (Forum 11).

Pennings, A., Leij, A. van der, Mecus, W., Rang, B. & Wubbels, T. (Red.) (1991). Bijdragen aan pedagogisch
onderzoek 1990. Amersfoort/Leuven: ACCO.

Robijns, M. & Volman, M. (1991). Verzorging, een vak apart? Het leergebied Verzorging in dc eerste fase
voortgezet onderwijs. Amsterdam/Lisse: Swets & Zeitlinger (Forum 9).

Schoonen, R. (1991). De evaluatie van schrijfvaardigheidsmetingen. Proefschrift Universiteit van Amster-
dam. Amsterdam: SCO.

Simons, P.R.J. (1990). Transfervermogen. Nijmegen: Katholieke Universiteit.

Slooünan, A.W. (1991). Arbeidsbeleving van universitair wetenschappelijk personeel. Proefschrift Univer-
siteit Twente. Uü-echt: Lemma. ISBN 90-5189-095-8.

Verschuren, P.J.M. (1991). Structurele modellen tussen theorie en praktijk. Uü-echt: Het Spectrum (Aula
paperback). ISBN 90-274-2579-5.

Vries, B. de. (1991). Evaluatie van de campagne uitbreiding leerlingwezen bij de overheid.

Zoelen, L. van, & Boekenoogen, M. Ondersteuning van OVB-activiteiten.

Jan Karei Koppen: Een kwestie van discipline (dissertatie). Thesis Publishers, Bickersgracht 60, 1013 LG
Amsterdam. Het ISB-nummer is 90.5170.123.3. Verkoopprijs ƒ 35,-.