-ocr page 1-

TIJDSCHRIFTt
VOOR

ONDERWIJS
RESEARCH

Rcdactic:

Bert P.M. Creemers (secretaris)

Hans F.M. Crombag

Arie Dirkzwager

Johan Hoogstraten

Leo van der Kamp

Nijs Lagerweij

Wim Meijnen

Roger Parmentier

Robert Jan Simons

Marinus J. M. Voeten

Els Wardenaar

Peter Weeda

BIBLIOTHEEK DER
RIJKSUNIVERSITEIT
UTRECHT

VERENIGING VOOR ONDERWIJSRESEARCH

-ocr page 2-

Redactionele medewerkers

Bij de beoordeling van manuscripten werd medewerking verleend door:

C. Aarnoutse
P.H. Been
G. Beukhof

S. Boef-van der Meulen

E. Bol
J. Bus

Th.J. ten Cate

C. E. Clason
N. van Deynse
J. Dronkers
J.J. Elshout

D.N.M. de Gruyter
\V. Hoeben
W.K.B. Hofstee
J.F.M.J. van Hout

F.J.G. Janssens
R. de Jong

G. Kanselaar
K.B. Koster

F.J. van der Krogt
J.M.G. Leune

C. Lewis

G.J. Mellenbergh
C.T.C.W. Mettes
I. Molenaar

Y.J. Pijl
F. Riemersma
J. Scheerens

H.G. Schmidt
W. van Schuur
W. Stoel

J. Tcrwcl
H.H. Tillema
N.H. Veldhuijzen
H. Verstralen
P. Vos

E. Warries
IL Weimers

A.L. van den Wolleberg

(K.U. Nijmegen)
(R.U. Groningen)
(T.H. Twente)

(Sociaal Cultureel Planbureau Rijswijk)

(R.U. Utrecht)

(R.U. Groningen)

(U.V. Amsterdam)

(R.U. Groningen)

(K.U. Leuven)

(SISWO Amsterdam)

(U.V. Amsterdam)

(R.U. Leiden)

(RION Groningen)

(R.U. Groningen)

(K.U. Nijmegen)

(CITO Arnhem)

(RION Groningen)

(R.U. Utrecht)

(R.U. Groningen)

(T.H. Twente)

(E.U. Rotterdam)

(R.U. Groningen)

(U.V. Amsterdam)

(T.H. Twente)

(R.U. Groningen)

(RION Groningen)

(SCO Amsterdam)

(SVO Den Haag)

(R.U. Limburg)

(R.U. Groningen)

(RION, Haren)

(R.U. Utrecht)

(RION Groningen)

(CITO Arnhem)

(CITO Arnhem)

(R.U. Leiden)

(T.H. Twente)

(V.U. Amsterdam)

(K.U. Nijmegen)


-ocr page 3-

Artikelen

Bol, E. en Verhelst, N.D. Inhoudelijke en statistische analyse van een leestoets 49

Cate, Th.J. ten. De invloed van anonimiteit op de resultaten van tijdschrijfonderzoek 263
Feenstra, H. en Seegers. G. Een componententheorie van leesvaardigheden: een

poging tot validering 97

Gelderen, Arnos van en Cate, Olie ten. Vrijwilligerseffekten in tijdschrijfonderzoek 149
Henderikx, P., Neve, H. De, Deynse, N. van en Smet. M., Studietijden, studiebclevin-

gen en studiestrategieën bij Eerstejaars Burgerlijk Ingenieur 21

Jansen, Margo G.H. The Psychometric Equivalence of Two Types of Spelling Tests 239
Jong, M.J. de en Tacq, J.J.A. Het onderwijsniveau van allochtone kinderen 130

Meij, H. van der. Vragen en vraagstrategiecn 161

Liong, Thio Sie. Schoolvoorziening en schoolbezoek 2 1 7

Meester, A.C. cn Leeuw, J. de. De regressie van intelligcntiescores op schoolloopbaan-

variabelen onder constanthouding van sociale achtergrond cn geslacht 2

Mooij. Ton. Ontwikkeling en eerste resultaten van een gestructureerd observatiesys-
teem 249
Mullink, J.I'.M., Vergelijkbaarheid van scores van leerlingen op de sclioolbclcvings-

schaal 201

Oudenhoven, Jan Pieter van, Berkum, Gonda van en Swcn-Kot)pmans, Tine. De

invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties 274

Overwalle, I-rank van. Slagen en mislukken in de eerste kandidatuur: Op zoek naar

oorzaken 107

Vos, P. Zelfstudie als functie van onderwijsdeelname: hypothesetoelsing 22S

Wollenberg, A.L. van den. Speed and Precision in Intelligence Tests: Facts or Arte-
facts? 69
Yang. John. Verheul. Ineke, C.. Verhelst, Norman cn lassen; Ed van. Meningen over
meerkeuze- versus open vragen toetsen en verschil in studieactiviteiten onder in-
vloed van toctsverwacliting: verslagen van een ciuiiicte 179

Nolilics cn cdmmentiircn

Hoon van Ostade, A.IL. I.eerinmtcn van een extern cvahiatie-onderzt)ek .S9

Ciroot, A.l). dc. Er is meer te doen

Ciruijler, Dato N.M. de. De relatie tussen snelheid en precisie bij tests met tijdslimiet 24.S
Hofstee, W.K.B., Evahialie: beoordelen van kwaliteit 2<S.S

Hofstee, W.K.B., Het cvaluatiepanilemoniimi: naschrift bij De Ciroot, Scheerens en

Stokking 29(i

I lox, J.J. en Willemse, J.M. De em|Mrische samenhang van sociometrische scores: een

analyse op twee niveaus <S2

Kreft, Ita. Enige aantekeningen bij een empirisch onderzoek in het Lager ()nderwijs to

Amsterdam 189

Sandlierg, J.-A.C. cn BarnartI, Y.l-". Artificiële intelligentie cn onderwijs: een kritiek

op „Groeiend inzicht" van H.I'.NLNL Verstralen ( I9S4) .Sb

Scheerens, J. Kanttekening bij het evaluatieplan Voortgezet Onderwijs 37

Scheerens. J. Onderhandelen en besturen op het terrein van evahiatieontler/oek 292
Schmidt, H.G., Volder. M.L. de. Gijselaers. W.H., en Kerkhofs, L.M.M. Wat bewijst

Wilbrink eigenlijk? 14.S

Stokking, K.NL. |-;valiiatieonder/t>ek en rationaliteit 294

Wilbrink. Ben. Bewijs van het omgekeerde, voor Schmidt et al. (19X4) 141

Wolf. J.C. van iler, Scht>ohiitval in de l'art poiir 1'art-kritiek I9.S

-ocr page 4-

Boekbesprekingen

Hambleton, R.K. (Ed.), Applications of item response theory. Vancouver, Canada:

Educational Research Institute of British Columbia, 1983 42

Swart, H.A.P., Over het begrijpen van menselijk gedrag. Boom Meppel/Amsterdam,

1982 43

-ocr page 5-

Tijdschrift voor Onderwijsresearch 9 (1984), pp. 1-316.

Van de Redactie

Het zal de oplettende lezers van dit tijdschrift niet ontgaan zijn, dat de nieuwe uitgever en de
redaktie, na aanvankelijke startproblemen, erin zijn geslaagd, het TOR regelmatig op tijd te
doen verschijnen.

De redactie is van mening dat het TOR floreert. Er is een ruim aanbod van artikelen, de
meeste van goede kwaliteit. Dat een artikel geheel ongewijzigd wordt geaccepteerd, komt
nauwelijks voor. Dat is op zichzelf geen verontrustend teken: de zorgvuldigheid waarmee
onze beoordelaars werken is zodanig, dat zij altijd wel wat vuiltjes op het spoor komen. Wie
de data onder de artikelen bestudeert, zal het opvallen dat ook redactieleden zelf niet aan
herziening van hun bijdragen ontkomen.

Ook definitieve afwijzingen van aangeboden artikelen zijn betrekkelijk zeldzaam. De
meeste aangeboden bijdragen komen terecht in een van twee categorieën: accepteren voor
publikatie onder voorwaarde van enige verbeteringen of vooriopig afwijzen, maar met
aanmoediging tot herschrijven. De laatstgenoemde categorie is vooralsnog groter dan de
eerstgenoemde, maar er is een kentering gaande, waarover de redactie verheugd is. Een
speciaal euvel komt nog teveel voor: onnodig lange artikelen. Economisch schrijven is een
zaak van collegialiteit, want de bladzijde die de een niet vult, is beschikbaar voor de ander.

Tot slot een nieuw initiatief. Hoewel bijdragen in het Engels op ieder moment geplaatst
kunnen worden, heeft de redactie besloten een maal per jaar een geheel in het Engels gestelde
aflevering te vervaardigen, en wel de tweede aflevering (maart) van iedere jaargang. Het is de
bedoeling de oplage van die aflevering groter dan gebruikelijk te maken en de extra
exemplaren te verspreiden tijdens de jaarlijkse vergadering van de AERA. Dat zal voor het
eerst in 1986 gebeuren. Auteurs die speciaal voor die aflevering een bijdrage willen leveren,
dienen hun bijdrage voor 1 september 1985 in te zenden.

De redactie wenst de lezers een gelukkig en succesvol 1985.

De redactie

-ocr page 6-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 1, pp. 2-20.

De regressie van intelligentiescores op
schoolloopbaanvariabelen onder constanthouding
van sociale achtergrond en geslacht

A.C. Meester en J. de Leeuw
Vakgroep Datatheorie FSW/RU Leiden

ABSTRACT

Descriptive analysis of data concerning schooling careers collected by the Dutch Central Bureau
of Statistics in the so-called SMVO-cohort. The dataset was subdivided into 12 groups, according
to social-economic status and sex. Within each of the status-sex groups the levels of the career
variables (teacher's advice for secondary schooling, first choice and achieved level after 4 years of
secondary schooling) were proportionally estimated for every level of intelUgence scores. Logistic
curves were fitted on the regression curves. This procedure has the additional advantage of
rescaling the intelligence scores optimally.

Because the parametric model fitted the data very well for all of the career variables, the
relationships between intelligence, social background and schooling career could be attractively
summarized in three groups of graphs. Additional correlational analysis of optimally rescaled
variables showed a strong relationship between the career variables and a relatively weak
predictive power of intelhgence scores. Achievement scores in primary school were, statistically
speaking, the best predictor of transition to and success in secondary schooling.

VOORAF

De analyses waarvan in dit artikel verslag wordt gedaan maken deel uit van een door de
Stichting voor Onderzoek van het Onderwijs (SVO) gesubsidieerd project, waarin de relaties
tussen individuele aanleg, het milieu van herkomst en de schoolloopbaan in het voortgezet
onderwijs op basis van recent en ouder onderzoeksmateriaal worden geanalyseerd.

Over dit project is gerapporteerd in Meester en De Leeuw (1983). Dh artikel werd ook als
paper gepresenteerd op de Onderwijs Researchdagen 1984 in Tilburg.

1. ACHTERGROND EN MOTIVATIE

Het overgrote gedeelte van het onderwijssociologisch onderzoek na de Tweede Wereldoorlog
heeft geprobeerd vast te stellen wat de belangrijkste factoren zijn die verschil in schoolsucces
(en maatschappelijk succes in het verlengde daarvan) kunnen verklaren.

De vraag doet zich dan voor welke kenmerken van individuen samenhangen met het
scholingsniveau dat zij bereiken. Ruwweg worden die kenmerken in twee soorten onder-
scheiden: individuele en sociale achtergrondkenmerken; concreter omschreven als de be-
gaafdheid, het vermogen prestaties te leveren en het sociale miheu waaruit iemand afkomstig

t

Adres: Middelstegracht 4, 2312 TW Uiden

-ocr page 7-

A.C. Meester en J. de Leeuw 3

is. Daarnaast zijn er mogelijk nog regionale en geslachtsverschillen in schoolsucces, maar die
worden meestal pas in latere instantie in de beschouwing betrokken.

Het meeste van het tot nog toe verrichte onderzoek kan worden onderscheiden naar het
accent dat op ofwel de individuele aanleg ofwel de sociale herkomst wordt gelegd. Op het
eerste gezicht is dat geen principieel verschil. Het lijkt voornameUjk te bestaan uit het al dan
niet in de beschouwing betrekken van aanlegfactoren.

Wanneer echter conclusies en beleidsaanbevehngen worden geformuleerd krijgt de term
'belangrijkste factor' vaak een normatieve betekenis.

Vanuit het 'aanlegstandpunt' wil men onderwijshervormingen om ieder individu gelijke
ontplooiingsmogelijkheden te geven, vanuit de 'milieuopvatting' zijn hervormingen noodza-
kelijk om de allocatiefunctie van het onderwijs aan te passen. Aan de ene kant moeten
onrechtvaardigheden tegen individuen worden opgeheven; het feit dat die individuen in
bepaalde maatschappelijke klassen voorkomen, wordt niet benadrukt. Aan de andere kant
moeten onrechtvaardigheden tegen maatschappelijke klassen ongedaan gemaakt worden;
dat er binnen maatschappelijke klassen nog grote variatie in capaciteit kan bestaan, wordt
buiten beschouwing gelaten.

In die zin beschouwen wij het deels als een politieke keuze vooraf, de belangstelling in het
schoolloopbaanonderzoek op ofwel de begaafdheid, ofwel het sociale milieu te richten.

De controverse is hier slechts summier weergegeven. In de inleidende hoofdstukken van
Meester en De Leeuw (1983) wordt er uitgebreider op ingegaan.

In de normatieve betekenis kan onderwijssociologisch onderzoek dus niet vaststellen of
hetzij sociaal milieu, hetzij begaafdheid de 'belangrijkste voorspeller' is. Maar er zijn ook nog
methodologische en technische overwegingen.

In het algemeen refereert de term 'voorspeller' aan toetsend onderzoek, aan cenexperiment
waarbij leerlingen 'at random' aan verschillende onderwijscondities worden toegekend en op
basis van bijvoorbeeld begaafdheidsonderzoek voorspellingen gedaan worden over school-
succes. Een dergelijk experiment is in de onderwijsresearch nooit gedaan en zal, om maat-
schappelijke redenen, nooit gedaan kunnen worden. Een gebrekkige benadering van de
experimentele condities zou kunnen zijn het advies van de onderwijzer of het toetsadvies voor
het voortgezet onderwijs als voorspelling op te vatten. Dat biedt echter ook geen uitzicht,
omdat deze adviezen op 12-jarige leeftijd al ernstig gecontamineerd zijn met sociaal milieu en
de variabelen die de schoolloopbaan weer moeten geven. Zonder experiment kan 'voorspel-
len' alleen nog statistisch opgevat worden, dat wil zeggen in termen van een model voor de
gehele populatie. De beantwoording van de onderzoeksvraagstelling hangt dan echter af van
de modelkeuze, van de schattingsmethode en van de wijze waarop de variabelen zijn ge-
schaald.

Uitgangspunt in causale of structurele analyse zijn de correlaties tussen de variabelen. Hier
gelden verscheidene bezwaren. Op de eerste plaats is correlatierekening een symmetrische
techniek, terwijl de vraagstellingen in causale analyse typisch asymmetrisch zijn: bij de
verbanden die berekend worden, wordt een richting verondersteld. De tijdsvolgorde waarin
variabelen gemeten worden kan daarbij in sommige gevallen een redelijke leidraad vormen,
maar dan nog moet in de modelkeuze beslist worden welke verbanden wel en niet opgenomen
Worden. Dat maakt de modelkeuze tamelijk arbitrair. Ten tweede zijn de product-moment
technieken die aan populaire vormen van causale analyse ten grondslag liggen, nogal gevoelig
voor de wijze waarop de variabelen zijn geschaald. In feite wordt de assumptie gemaakt dat de
regressies lineair zijn met de categorienummers. Daaraan vooraf moet nog worden aangeno-
men dat de betrokken variabelen muhinormaal verdeeld zijn.

Om niet in de geschetste 'ideologische' en methodologische valkuilen terecht te komen,
>vordt de vraagstelling dus exploratief en descriptief geformuleerd.

-ocr page 8-

4 Regressie van intelligentie scores

'Wat is het verband tussen begaafdheid en sociale achtergrondkenmerken enerzijds en de
schoolloopbaan anderzijds?'

Gekozen is voor beschrijvende analyse van tabellen van niet te grote dimensionaUteit (om
niet met het probleem van lege cellen te worden geconfronteerd).

Daamaast zoeken we herschahngen van de variabelen die de regressies zoveel mogehjk
hneariseren, zodat de vervolgens berekende correlatiecoëfficiënten een goede beschrijving
van de bivariate samenhangen zullen geven. Correlationele analyse kan op deze manier onze
tabellaire analyses zinvol aanvullen.

Op basis van deze benadering kunnen algemene uitspraken gedaan worden over het
verband tussen de variabelen onderling en de voorspellende waarde (in de statistische
betekenis) van begaafdheidsmaten voor het succes in het voortgezet onderwijs.

Deze aanpak imphceert dat deze studie niet exphciet met één of ander theoretisch kader is
te associëren, maar eerder als complementair aan de theorie moet worden beschouwd.

2. SPECIFICATIE

2.1. Herkomst van de gegevens

We voerden onze secundaire analyses uit op het z.g. CBS-SMVO-bestand en het CBS-cohort
GLO 1964/'65. Voor gedetailleerde informatie over deze bestanden en de daarin opgenomen
variabelen verwijzen wij naar Smulders (1979), CBS (1982a), CBS (1982b) en Meester en De
Leeuw (1983). Het SMVO-bestand bevat gegevens over een landehjk representatieve
steekproef van 37.280 leerhngen in het voortgezet onderwijs die sinds 1977 tot op heden in
hun schoolcarrière worden gevolgd. De versie die ter beschikking stond was aangevuld tot en
met de overgang naar het 5e leerjaar v.o.

Heranalyse van de gegevens van het CBS-1964 cohort werd uitgevoerd op door het CBS
(1982a) gepubliceerde tabellen. De data in het '64-cohort hebben betrekking op een, even-
eens landelijk representatieve, steekproef van 10.455 leerhngen.

2.2. Variabelen

We specificeren de variabelen naar hun voorkomen in het SMVO-bestand en de hercoderin-
gen die we erop toepasten. Waar afwijkingen in de categorie-indehng t.o.v. het '64-cohort
bestaan is dat aangegeven. We houden het variabelen-overzicht vrij summier en verwijzen
voor meer details naar Meester en De Leeuw (1983).

Intelligentie (TWy

De TIB is een zogenaamde figuur-exclusie test die bestaat uit 33 series van 5 figuren, waaruit
steeds 1 moet worden geselecteerd die niet bij de 4 andere past. De ruwe totaalscore loopt dus
van O tot 33 en deze ruwe scores zijn ingedeeld in 7 klassen. Deze variabele komt alleen in het
SMVO-bestand voor.

Schoolprestaties (PRE)

Toen de leerhngen van het SMVO-cohort in de eerste klas van het voortgezet onderwijs zaten
is een verkorte versie van de CITO-schoolvorderingentoets, bestaande uit 25 reken- en 45
taahtems bij hen afgenomen. De ruwe scores zijn ingedeeld in 9 klassen. Voor het '64-cohort
stelde het CBS PRE samen uit schoolcijfers in de 6e klas l.o. en de score op een intelligen-
üetest. De ruwe scores werden getransformeerd tot een gestandaardiseerde indeling in 5
klassen.

-ocr page 9-

A.C. Meester en J. de Leeuw 5

Sociaal milieu en geslacht (BVA-SEXp

Voor het sociaal miheu gaan we uit van de betreffende variabele in het SMVO-bestand die
oorspronkehjk 25 categorieën heeft en voornamelijk gebaseerd is op het beroep van de vader.
De problemen die samenhangen met de constructie van variabelen die sociale gelaagdheid
weergeven, zijn legio. Voor een bespreking zie Dronkers (1983). Wij gaan daar hier niet
verder op in. Nadere toehchting op de in het SMVO-bestand opgenomen milieu-variabele is
te vinden in CBS (1982b).

BVA, zoals in deze studie gebruikt, heeft 6 categorieën:

1 geschoolde en ongeschoolde arbeiders

2 boeren en tuinders

3 zelfstandige middenstand

4 lagere employees

5 middelbare employees

6 wetenschappehjke en vrije beroepen en hogere employees.

Voor de analyses waarbij we de relatie tussen TIB en de schoolloopbaanvariabelen bestude-
ren, voegen we BVA en geslacht samen tot één variabele met 2x6 categorieën. We doen dat
om mogelijke interacties tussen BVA en SEX zichtbaar te houden. Geslachtsverschillen
kunnen immers binnen de categorieën van BVA verschillende betekenis hebben. Deze
indeling komt grotendeels overeen met de voor het '64-cohort gehanteerde, met dit verschil
van de categorieën geschoolde en ongeschoolde arbeiders daar apart zijn onderscheiden.

Schoolloopbaanvariabelen (ADV, KEUS en EIN)

Het advies van de onderwijzer en de eerste keuze v.o. (ADV en KEUS) zijn ingedeeld in 4
categorieën:

(1) LBO, (2) MAVO, (3) HAVO en (4) VWO.

Het bereikte niveau na vier jaar v.o. (EIN) kent nog twee categorieën meer: (D) voortijdig
schoolverlaters en (5) Middelbaar en Hoger Beroepsonderwijs ((M)BO).

De overeenkomst met de (categorieën van de) schoolloopbaanvariabelen in het '64-cohort
is globaal genomen groot genoeg om de variabelen als vergelijkbaar te beschouwen. ADV en
keus zijn daar ingedeeld in VGLO, LBO, ULO en VHMO.

EIN heeft in het '64-cohort betrekking op het diploma dat in het v.o. is behaald en heeft als
categorieën: VGLO, LBO, ULO, MBO, HAVO (inclusief MMS) en VHMO.

2.3. Selectie

Voor de analyses van het SMVO-bestand (waarbij TIB is betrokken) moeten enkele selecties
worden toegepast.

Op de variabele die aangeeft in welke vorm van onderwijs de leerUngen zich in 1976
bevonden, ontbreken de gegevens van 38 respondenten. Deze 38 worden verwijderd, tesa-
men met 646 leerUngen afkomstig uit het buitengewoon lager onderwijs.

De meest ingrijpende selectie is het verwijderen van de leerUngen, waarbij de TIB niet is
afgenomen. Dat zijn er 16.433. Naar analogie met eerder gevolgde procedures, selecteren we
ook kinderen uit, waarvan de vader (of het gezinshoofd, indien de vader afwezig is) niet werkt,
arbeidsongeschikt is, etc. Dit is de meest discutabele selectie (zie bijv. De Jong, Dronkers &
Saris, 1982 en De Leeuw, v.d. Burg & Bettonvil, 1982). We moeten deze selectie echter wel
maken, ook al uit het oogpunt van vergehjkbaarheid met het CBS-cohort 1964/'65. Hierdoor
gaan 6.190 leerUngen verloren. Na deze selecties resuUeren 16.236 gevallen.

-ocr page 10-

6 Regressie van intelligentie scores

Vergelijking van de marginale verdelingen van BVA-SEX en de schoolloopbaanvariabelen
in het totale en het geselecteerde bestand geeft geen aanwijzingen dat de resultaten van onze
analyses door de selectie ernstig zullen zijn vertekend.

2.4. Analysestrategie

Nu de gebruikte begrippen en de selectie van het SMVO-bestand zijn gespecificeerd, kunnen
we onze analysestrategie bepalen. Een mogelijkheid zou zijn op intelligentiescore en geslacht
gematched-te groepen die naar milieu verschillen te vormen, en de schoolloopbaan van deze
groepen te vergelijken. Dat is ongeveer wat Peschar (1975) gedaan heeft. Om goed vergelijk-
bare groepen samen te stellen lijkt het vormen van gematched-te paren de aangewezen weg.
In welke mate deze methode in staat is de invloed van interveniërende variabelen te reduceren
is een lastig te beantwoorden vraag. McKinlay (1975, 1977) bespreekt in een uitgebreid
literatuuroverzicht de tekortkomingen van de methode in dit opzicht. Peschar's dissertatie
(1975) ontketende ook een heftige discussie over regressie-effecten (de Groot & van Peet,
1975; Groen, 1975; Peschar, 1976; de Groot & van Peet, 1978; Peschar, 1978; alle opgeno-
men in: Peschar, 1978).

Wij kiezen er voor de regressiebias door subclassificatie te reduceren (Cochran, 1968) en
bestuderen de relatie tussen intelligentiescore en elk van de schoolloopbaanvariabelen apart,
bij constanthouding van sociaal milieu en sexe. We stellen dus geen volledig schoolloopbaan-
model op. In analyse-termen geformuleerd luidt de vraagstelling dan:

'Wat is de regressie van het onderwijzersadvies, de eerste keuze voortgezet onderwijs en het
bereikte niveau na 4 jaar voortgezet onderwijs op de intelligentiescore binnen de onderschei-
den milieu-sexe groepen?'

Daamaast worden de voorspellende waarde van de intelligentiescores en de prestaties in de
6e klas lager onderwijs voor de schoolloopbaan in het voortgezet onderwijs, vergeleken.

Door de bivariate samenhang tussen de gebruikte variabelen in de beide cohorten op
dezelfde wijze correlationeel te analyseren kunnen dan ook mogelijke veranderingen in de
tijd vast worden gesteld.

3. ANALYSES

3.1. Regressie-analyse

We gaan dus voor de SMVO-gegevens de regressie van ADV, KEUS en BIN op intelligentie
analyseren bij constanthouding van EVA en SEX. Te beginnen met ADV willen we, anders
geformuleerd, de kans schatten dat een bepaalde leerling, gegeven sociale herkomst, geslacht
en TIB-score, van de onderwijzer het advies krijgt naar-respectievelijk LBO, MAVO, HAVQ
of VWO te gaan. Die kans wordt bepaald door de proportie leerlingen met die specificaties die
een dergelijk advies krijgt.

Voor elk van de onderwijzersadviezen schatten we dus een functie op het IQ-continuüm die
de kansen weergeeft dat een leerling met een bepaalde testscore naar respectievelijk LBO,
MAVO, HAVO of VWO wordt geadviseerd.

Het effect van milieu en geslacht wordt geneutraliseerd door dat voor ^Ik van de milieu-sexe
groepen apart te doen. De curven die uit deze bewerking resulteren zijn in figuur 1 (voor de
jongens) en figuur 2 (voor meisjes) getekend. Langs de horizontale assen staan de intelligen-
tiescores. De verticale as is steeds een percentage-schaal die de proportie LBO (1)-, HAVO
(3)-, en VWO (4)-adviezen aangeeft.

-ocr page 11-

A.C. Meester en J. de Leeuw 1527

figuur 1: Proporties leerlingen die van de onderwijzer LBO (1)-, MAVO (2)-, HAVO (3)- of VWO
(4)-advies krijgen, per TIB-klasse naar beroep vader en geslacht (jongens).

-ocr page 12-

1528 Regressie van intelligentie scores

Figuur 2: Proporties leerlingen die van de onderwijzer LBO (1)-, MAVO (2)-, HAVO (3)- of VWO
(4)-advies krijgen, per TIB-klasse naar beroep vader en geslacht (meisjes).

-ocr page 13-

A.C. Meester en J. de Leeuw 9

Een indruk van de invloed van het milieu van herkomst en geslacht krijgt men door het
verloop van de curven in de plaatjes van de miUeu-sexe groepen onderling te vergelijken. De
curven hebben hier en daar nogal een grilhg verloop, wat te wijten is aan kansfluctuaties en de
geringe celvulhng op sommige plaatsen in de 4-dimensionale kruistabel waarop deze grafie-
ken zijn gebaseerd. Het onregelmatige verloop kan bij de interpretatie misleidend werken, de
curven moeten dus wat 'netter' en gladder gemaakt worden.

3.2. 'Smoothing'

Plotten van de waargenomen voorwaardehjke frequenties geeft over het algemeen een groot
aantal onregelmatigheden. Dat maakt de plot minder inzichtehjk en werpt bovendien de
vraag op hoe serieus deze onregelmatigheden moeten worden genomen. Als de onregelma-
tigheden het gevolg zijn van steekproeffluctuaties kunnen ze immers tot futiele of zelfs
onjuiste inhoudehjke interpretaties leiden.

Door middel van stabiUteitsanalyse zou elk punt van de curve kunnen worden voorzien van
een betrouwbaarheidsinterval, maar dat zou de grafieken er niet overzichtehjker op maken.
Een andere techniek die ook beter aansluit bij de hypothese-toetsende oriëntatie van veel
voorafgaand onderzoek, is het plotten van de verwachte waarden uit een goed passend
restrictief model. Dat heeft dan het extra voordeel dat een goed interpreteerbare gladde curve
wordt getrokken. We bespreken nu eerst het gebruikte model en motiveren de keuze ervan.

Stel (x, y, z) zijn de drie variabelen waar we bij deze analyse in geïnteresseerd zijn. De
afhankehjke variabelejc is één van
Aeschoolloopbaan-\anati&\tn, variabele^ is de onafhan-
kehjke variabele
intelligentie, en variabele z is de controlevariabele milieu-sexe. Variabele x
neemt de waarden Xi (i = 1,...,I) aan, variabele^ de waarden yj(j = 1,..., J),envariabelez de

waarden z^ (k = 1.....K). We schrijven TTjjk voor de theoretische kans (in de populatie) dat een

willekeurig gekozen individu waarden (x;, yj, z,;) heeft, enpij^ voor de waargenomen propor-
des individuen met waarden (xj, yj, z^).

De vraagstelUng van deze studie kan ook geformuleerd worden als het toetsen van de
nul-hypo these dat intelUgentie en schoolloopbaan onafhankeüjk zijn, gegeven miUeu-sexe. In
formule is dit TTjj^ = PikVjk. in de gebruikeUjke log-lineaire notatie is het [XZ] [YZ]. Peschar
(1975) houdt miheu en sexe gescheiden, en onderzoekt of miheu en schoolloopbaan onafhan-
kelijk zijn, gegeven intelUgentie, sexe, en leeftijd. Bij onze keuze van variabelen komt dat het
meest overeen met [XY] [YZ], ofwel
tt-^^ = ajjVjii, ofwel miUeu-sexe en schoolloopbaan zijn
onafhankehjk, gegeven intelUgentie. Beide nul-hypothesen zijn onderzocht binnen het meer
algemene model [XY] [XZ] [YZ], ofwel TTjjii = ajjPjiiYjk, door middel van log-Uneaire analyse.
Beide nul-hypothesen passen zeer slecht op de gegevens, maar het algemene model [XY]
[XZ] [YZ] past steeds goed. De passing van de modellen staat in tabel 1.

Het Ujkt nuttig de drie modellen die met behulp van log-hneaire analyse onderzocht zijn te
relateren aan de regressie-plots die voor ADV, KEUS en EIN zijn gemaakt. Bij deze plots,
toegepast op de waargenomen tabellen, berekenen we de voorwaardelijke kansen Pijj^ =
^ijk/Pjk- Voor iedere k maken we een plot, waarbij de 1 curvespiUk getekend worden als functie
van yj. Dus: voor iedere miUeu-sexe combinatie een plot, voor iedere waarde van de school-
loopbaan een curve in die plot. Wanneer [XZ] [ YZ] dan 7rj|jk =
tt-.^^, dus bestaat iedere plot uit I
horizontale lijnen. Dit is de weergave van het feit dat intelUgentie geen effect heeft bij
controle voor miUeu-sexe. Wanneer [XY] [YZ] dan TTjij^ = irjij, dus zijn alle K plots hetzelfde.
MiUeu-sexe heeft geen invloed bij controle voor intelUgentie. Het is moeilijker het model
[XY] [XZ] [YZ] in termen van de plot te interpreteren.

-ocr page 14-

10 Regressie van intelligentie scores

Tabel 1 Passing van loglineaire modellen voor BVA-SEX, TIB en respectievelijk ADV,
KEUS en EIN. In de modellen zijn de variabelen met de eerste letter van hun naam
aangeduid

Model:

d.f.

ADV

TB, TA

1846

231

TB, AB

2319

216

TB, TA, AB

236

198

KEUS

TB,TK

1879

231

TB, BK

2254

216

TB, TK, BK

246

198

EIN

TB, TE

2231

385

TB, BE

2249

360

TB, TE, BE

364

330

Het 'geen-hoogste-orde-interactie-model' [XY] [XZ] [YZ] lijkt vanwege de goede passing
een voor de hand liggende kandidaat voor het restrictieve model dat we zoeken. We hebben
hier inderdaad mee gewerkt, maar dit model heeft als 'gladmaker' twee nadelen. Op de eerste
plaats is het een algemeen model dat niet aangepast is aan deze spedale situatie. De drie
variabelen doen in het model symmetrisch mee, terwijl de vraagstelling typisch asymmetrisch
is. Het model houdt er ook geen rekening mee dat intelligentie, ofwel TIB-score, een
numerieke, of althans schaalbare, variabele is, terwijl milieu-sexe en schoolloopbaan dat niet
of in veel mindere mate zijn. Daardoor wordt het [XY] [XZ] [YZ] model moeilijker te
interpreteren. Bovendien is het niet direct te interpreteren in termen van de plots. Het lijkt
beter een model te gebruiken dat aansluit bij onze speciale keuze van variabelen.

Als uitgangspunt dient daarbij het RC-model van Goodman (1979, 1981a, 1981b). We
nemen een RC-model voor ieder van de milieu-sexe tabellen apart. Dus Tryt = ß^yj^ exp
(öiicEjk), ofwel

tiijk = ß,Lexp(6ik8jk)/2ßvkexp(0vkEjk)-

Wanneer we Ojk = ln ß^; invoeren, dan kan het model geschreven worden als
Jïiijk

In -= (6ik - 6vk)ejk -l- (Ojk - 0vk).

1v|jk

Met andere woorden: de schoolloopbaan-logits zijn lineaire functies van herschaalde TIB-
score. In dit algemene model zijn de herschalingen van TIB, dus de Ejk verschillend voor iedere
milieu-sexe combinatie. We vinden dat ongewenst, omdat het de K plots moeilijk vergelijk-
baar maakt, en eisen daarom dat Ejt = Ej voor alle k.
Het uiteindelijke model dat we dus gaan aanpassen wordt hierdoor

ßikexp(6ikEj)

Jïiljk = ■

2ßvkexp(6vkEj)

-ocr page 15-

A.C. Meester en J. de Leeuw 11

Het model behoort tot de klasse van logistische modellen (met optimale schaling van de
onafhankelijke variabele), en tot de RC-modellen (met een speciale log-multiplicatieve
interactie). Dat TIB optimaal geschaald wordt is een bijkomend voordeel. Het neemt de
eventuele nadelen van willekeurig groeperen van TIB-scores gedeeltehjk weg.

Behalve de vorm van het model zijn ook nog identificatiecondities nodig. We nemen met dit
doel aan dat de Pi^ voor iedere k over i optellen tot één, en dat de getransformeerde
intelUgentie in de populatie gemiddelde nul en variantie één heeft. Bovendien nemen we aan
dat = O voor iedere k. Let wel: deze identificatie-eisen zijn geen echte restricties, die

het model minder algemeen maken. Ze zijn alleen nodig om de parameters uniek uit de
verwachte waarden te kunnen bepalen. Voor de interpretatie is het nuttig om te weten hoe het
model eruit ziet in de buurt van de gemiddelde intelUgentie (voor ej ~ 0). We vinden dan

'^iljk ~ Pik + PikÖikEj.

Dus: Pik is de kans op schoolloopbaan i in miheu-sexe k bij gemiddelde intelUgentie, en Pi^óik is
de toename van die kans bij toename van de intelUgentie. Merk ook op dat de curve van de
schoolloopbaan met kleinste 8ik afneemt met toenemende intelUgentie, terwijl de curve voor
de schoolloopbaan met de grootste ójk toeneemt.

De met behulp van het logistische model gladgemaakte curven staan in de figuren 3 t/m 6'. De
fit van het model voor resp. ADV, KEUS en EIN staat in tabel 2. Om het aantal vrijheidsgra-
den te berekenen, bedenken we dat we JK (I - 1) voorwaardehjke waarschijnlijkheden
moeten verklaren met K(I - 1) + (J - 2) + K(I - 1) vrije parameters. Het aantal
vrijheidsgraden is dus

K (I - 1)(J - 2) - (J - 2) = (IK - K - 1) (J - 2).
Tabel 2 Fit van het logistische model voor resp. ADV, KEUS en EIN

d.f.

ADV

198

177

keus

192

177

ein

303

295

Omdat het logistische model voor alle drie de schoolloopbaanvariabelen goed past, kunnen de
bijbehorende grafieken als een inzichtelijke en compacte weergave beschouwd worden van de
kruistabellen waarop ze zijn gebaseerd. De plaatjes laten zich als volgt lezen: langs de
horizontale as staan de herschaalde intelUgentie-scores. (De TIB-scores worden heel regel-
matig getransformeerd). De verticale as is steeds een percentageschaal die de kans weergeeft
dat een leerUng gegeven zijn score op de TIB en gegeven het sociaal miUeu waaruit hij
afkomstig is een bepaalde score op de betreffende schoolloopbaan-variabele krijgt. Bijvoor-
beeld (fig. 3): een jongen uit het middenstandsmiheu met TIB-score in klasse 3 heeft ca. 38%
kans op een MAVO-advies en ongeveer evenveel kans op een LBO-advies. Of: (fig. 6): een
meisje uit de hoogste milieu-groep met een intelUgentiescore in dc hoogste klasse heeft ca.
56% kans na 4 jaar in de 5e klas van het VWO te zijn aangeland. Het zou te ver voeren ahe
grafieken in detail te bespreken. Het loont echter de moeite de plaatjes langdurig en nauw-
keurig te bestuderen.

-ocr page 16-

12 Regressie van intelligentie scores

In het algemeen zien we naarmate de leerlingen uit hogere milieu's afkomstig zijn, de
proporties adviezen naar hogere vormen van v.o. (resp. keuzen, resp. bereikt niveau) toene-
men. Door de grafieken voor jongens en meisjes onderling te vergelijken kunnen we ge-
slachtsverschillen vaststellen (die overigens gering zijn).

3.3. Correlationele analyse

Voor de analyse van de bivariate samenhangen tussen de variabelen en de vergelijking van het
SMVO-cohort met het CBS-cohort 1964/'65 zijn voor beide bestanden transformaties van de
variabelen gezocht die de regressies zoveel mogelijk lineariseren".

Lineariteit van de regressies is een noodzakelijke voorwaarde om de correlatie als een
zinvolle samenvatting van de samenhang tussen twee variabelen te kunnen beschouweii.

Linearisering van de regressies blijkt voor beide cohorten goed mogelijk. Daarbij is
belangrijk te vermelden dat de categorieën van de variabelen in de beide bestanden ongeveer
dezelfde betekenis hebben en ook in dezelfde volgorde worden getransformeerd. Een groot
gedeelte van het verschil in de transformaties dat bijv. Vrooman en Dronkers (1984) tussen
twee Noord-Brabant cohorten vinden kan worden toegeschreven aan de verschillen in defini-
tie van de variabelen en hun categorieën.

Omdat de grafieken die in de vorige paragraaf werden behandeld laten zien dat verschillen
tussen jongens en meisjes gering zijn' en correlaties met een binaire variabele bovendien
nauwelijks te interpreteren, tellen we de tabellen voor deze analyse over geslacht op. Om
mogelijke schijnrelaties op het spoor te komen en een indruk van de relatieve invloed van de
aanleg- en achtergrondsvariabelen te krijgen, berekenen we ook partiële correlaties, con-
trolerend voor TIE, PRE en BVA afzonderlijk en tegelijkertijd. In het '64-bestand komt de
intelligentie-variabele niet apart voor en kan dus niet uitgepartialiseerd worden. Deze cor-
relaties en parfiëlen voor beide bestanden staan in tabel 3.

Kijken we eerst naar de variabelen die een maat zijn voor de 'intellectuele capaciteit' van de
leerlingen en hun samenhang met het milieu van herkomst. TIB en BVA zijn betrekkelijk
onafhankelijk van elkaar. Ook PRE kan opgevat worden als een maat voor intellectuele
capaciteit. Die blijkt wat sterker met BVA samen te hangen. In PRE is, meer dan in TIB, een
zekere hoeveelheid milieu 'vercalculeerd'. De prestatiescores werden berekend uit de resul-
taten van taal- en rekentests. Op basis van de veronderstelling dat men in de hogere sociale
milieu's meer verbaal georiënteerd is, wordt over het algemeen aangenomen dat een intel-
ligentie- of prestatietest sterker met het milieu van herkomst zal samenhangen, naarmate de
verbale component van de test groter is. Dat vinden we hier terug.

Vergelijkend met CBS-64 moeten we bedenken dat PRE in die data minder categorieën
heeft (die wel, net als in SMVO, in de oorspronkelijke volgorde worden herschaald) en anders
tot stand is gekomen. In CBS-64 is PRE samengesteld uit laatst behaalde schoolcijfers en de
score op een intelligentietest. Het verband met BVA is van vergelijkbare sterkte.

De correlaties van BVA met ADV, KEUS en EIN zijn van dezelfde orde als die van TIB
met deze variabelen en minder sterk dan de vergelijkbare relaties in CBS-64. Dat geldt vooral
voor BVA-KEUS. In SMVO en CBS-64 worden BVA, ADV en KEUS overeenkomstig
getransformeerd. EIN is wat lastiger. In SMVO geeft deze variabele het niveau na vier jaar
weer, in het 1964-cohort staat hij voor behaald diploma en komt de categorie HAVO niet
voor, omdat die toen nog niet bestond.

Gecontroleerd voor PRE wordt vooral het verband tussen BVA en KEUS zwakker.

In de laatste drie regels van de tabel staan de correlaties tussen de schoolloopbaanvariabe-
len onderling. Die zijn hoog en betrekkelijk ongevoelig voor de achtergrondvariabelen. De
variantie in deze variabelen wordt voor bijna de helft door PRE 'verklaard'. Het geheel

-ocr page 17-

A.C. Meester en J. de Leeuw 13

rïï ^

lagere employees

_ HB

P'guur 3: Proporties leerlingen die van de onderwijzer LBO (1)-, MAVO (2)-, HAVO (3) of VWO
(4)-advies krijgen, per TIB-klasse naar beroep vader en geslacht (jongens) volgens het
logistische model

-ocr page 18-

14 Regressie van intelligentie scores

Figuur 4: Proporties leerUngen die van de onderwijzer LBO (1)-, MAVO (2)-, HAVO (3), of VWO
(4)-advies krijgen, per TlB-klasse naar beroep vader en geslacht (meisjes) volgens het
logistische model.

-ocr page 19-

A.C. Meester en J. de Leeuw 15

boeren

-J.M -ff.W .p-fl» »,«

middelbare employees

hiogere employees

figuur 5: Proporties voortijdige schoolverlaters (D), LBO (1), MAVO (2), HAVO (3), VWO (4) en BO
(5) na vier jaar voortgezet onderwijs per TIB-klasse naar beroep vader en geslacht (jongens)
volgens het logistische model

-ocr page 20-

16 Regressie van intelligentie scores

Figuur 6: Proporties voortijdige schoolverlaters (D), LBO (1), MAVO (2). HAVO (3), VWO (4) en BO
(5) na vier jaar voortgezet onderwijs per TIB-klasse naar beroep vader en geslacht (meisjes)
volgens het logistische model.

-ocr page 21-

A.C. Meester en J. de Leeuw 17

Tabel 3. Correlaties en partiële correlaties tussen variabelen in het SMVO-bestand, vergele-
ken met het CBS-cohort 1964/'65

SMVO

CBS 64

Variabelen

Corr.

Partiële correlatie

Corr. Partiële correlatie

bij controle voor:

bij controle voor:

PRE TIB BVA PRE
TIB
BVA

TIB

- BVA

.16

.05

_

_

_

- PRE

.42

-

.40

- ADV

.37

.11

.34

- KEUS

.36

.10

.33

- EIN

.35

.10

-

.32

-

BVA

- PRE

.27

.23

.33

_

_

- ADV

.34

.22

.31

-

-

.37

.21

- KEUS

.34

.22

.31

-

.43

.30

-

- EIN

.33

.21

.30

-

-

.39

.25

-

-

PRE

- ADV

.72

__

.67

.69

_

.69

_

.65

_

- KEUS

.70

.65

.67

.69

.64

- EIN

.68

-

.63

.65

-

.63

-

.57

-

ADV

- KEUS

.84

.68

.82

.82

.66

.81

.64

.78

.62

- EIN

.75

.51

.71

.72

.48

.69

.46

.64

.43

KEUS

- EIN

.80

.62

.77

.78

.60

.74

.55

.69

.51

overziend stellen we vast dat TIB en BVA ongeveer even sterk met de schoolloopbaan-
variabelen samenhangen, het verband tussen BVA en de schoolloopbaan zwakker is gewor-
den en dat tussen PRE en de loopbaanvariabelen sterker.

Het 'voorspellend vermogen' van de TIB-score is niet groter dan dat van BVA. TIB is
echter beter in staat de schoolloopbaan van de leerlingen in het voortgezet onderwijs te
ordenen dan BVA, met zijn vaak wisselende categorieën die ook minder regelmatig getrans-
formeerd worden.

PRE BVA PRE
BVA

Dat laatste geldt a fortiori voor PRE. Ook PRE is een goed schaalbare variabele, die
bovendien sterk met de schoolloopbaan samenhangt en als zodanig in de loop der jaren een
steeds betere voorspeller van de schoolloopbaan is geworden.

4. SLOT

^e belangrijkste conclusies uit de correladonele analyse van het SMVO-bestand zijn dat de
samenhang tussen BVA enerzijds en ADV, KEUS en EIN, anderzijds in vergehjking met
oudere bestand veel minder belangrijk is geworden en dat TIB maar een zwakke relade met

-ocr page 22-

18 Regressie van intelligentie scores

de schoolloopbaan variabelen heeft. PRE is de belangrijkste mediërende variabele die sterk
samenhangt met ADV, KEUS en EIN. PRE is, in statistische zin, de beste voorspeller van de
schoolloopbaan. TIB en BVA kunnen daar maar weinig extra informatie aan toevoegen. Dat
dat niet betekent dat de intelhgentiescores of het miheu van herkomst er niets toe doen, tonen
de tabellaire analyses, zoals ze zijn weergegeven in de figuren 3 t/m 6. Deze grafieken laten
onmiskenbare verschillen tussen de onderscheiden milieu-groepen zien. Op deze manier kan
tabellaire analyse dus nuttige aanvullende informatie op correlationele analyse geven.

Voor een vergehjkende bespreking van beide typen analyse die soms tot (schijnbaar)
tegenstrijdige conclusies kunnen leiden, zij verwezen naar De Leeuw, Van der Burg en
Bettonvil (1982).

Het sterke verband van de keuze in het voorgezet onderwijs met enerzijds het bereikt
eindniveau en anderzijds het advies van de onderwijzer, onderstreept nog eens, dat de
overgang van het lager naar het voorgezet onderwijs het cruciale moment in de schoolloop-
baan is. Dat is ook het moment waarop de samenhang met het ouderhjk miheu zich het sterkst
manifesteert. Rechtstreeks, in de keuze, maar ook via het onderwijzersadvies en de school-
prestaties waarop de onderwijzer zijn advies voornamehjk hjkt te baseren.

Dat de schoolprestaties ten aanzien van de rest van de schoolloopbaan steeds meer gewicht
in de schaal leggen, moet in het hcht van het opheffen van maatschappehjke achterstand als
een verheugende ontwikkehng beschouwd worden. Dit groeiend belang van schoolprestaties
als voorspeller van de schoolloopbaan werd ook door andere onderzoekers gesignaleerd (zie
Dronkers, 1983b).

Statistisch-technisch gesproken zijn de schoolprestaties, als numerieke, goed schaalbare
variabele, ook beter in staat de schoolloopbaan van leerlingen in het voortgezet onderwijs te
ordenen dan de gebrekkige miheu-indicator die het beroep van de vader, met zijn vaak
wisselende, nominale categorieën is.

We moeten dan echter niet veronachtzamen, dat in de schoolprestaties een zekere 'dosis
sociaal milieu' is inbegrepen. Wanneer men van mening is, dat deze milieu-component in de
schoolprestaties niet het resultaat is van vooraf gegeven verschillen in capaciteit tussen de
diverse sociale milieu's, moet de nog bestaande achterstand van de lagere sociale strata vooral
in het basisonderwijs worden gereduceerd. Welbewust is in de eerste paragraaf afstand
genomen van de vraag naar de 'belangrijkste beïnvloedende factoren' in de schoolloopbaan.
Aan het aanpassen van causale modellen of vergelijkbare bewerkingen dient naar onze
mening een exploratieve researchfase zoals hier gerapporteerd vooraf te gaan. Enige bezin-
ning op de toegepaste techniek en de daaraan ten grondslag liggende assumpties lijkt daarbij
niet overbodig.

Onze bevindingen verschillen niet zo erg veel van wat eerdere onderzoekers concludeer-
den. Door het gebruik van niet-hneaire optimale schalingstechniek hebben we deze con-
clusies echter solide onderbouwd.

NOTEN

De herkomst van de TIB is nogal onduidelijk. Volgens sommige informanten betekent de
afkordng: 'Test voor Intellectuele Begaafdheid', volgens andere'n verwijst TIB naar het
Twents Instituut voor Bedrijfskunde. Intensieve naspeuringen hebben niet meer opgele-
verd dan dat de test wel eens opgenomen is geweest in een test-batterij, ontwikkeld voor
het gebruik in ontwikkehngslanden en in 1977 gekozen is als vervanger van Raven's
Progressive Matrices, omdat t.a.v. laatstgenoemde test problemen ontstonden over het
auteursrecht.

-ocr page 23-

A.C. Meester en J. de Leeuw 19

In het vervolg zullen we de variabelen en hun categorieën met de afkortingen in hoofdlet-
ters tussen haakjes aanduiden. We geven daar de voorkeur aan omdat het op de eerste
plaats de formuleringen korter en overzichtelijker maakt. Ten tweede, en dat vinden we
eigenlijk belangrijker, geeft het aan dat we te maken hebben met
indicatoren, die vaak
slechts gebrekkige representaties van de gebruikte concepten zijn.

De figuren voor ADV en KEUS vertonen een zeer grote gelijkenis. De adviezen voor het
V.O. worden namelijk in het merendeel van de gevallen opgevolgd. Om het plaatsruimte-
beslag enigszins te beperken zijn de figuren voor KEUS daarom weggelaten.

Hiervoor werd het programma PREHOM gebruikt dat niet-lineaire principale com-
ponenten analyse en multiple correspondentieanalyse combineert. Techniek en pro-
gramma worden besproken in: P. Bekker, 'Relaties tussen varianten van niet-lineaire
principale componenten analyse'. Leiden, vakgroep M&T Psychologie (doctoraalscriptie),
1982.

Waarbij overigens aangetekend moet worden, dat met name de categorie LBO voor
jongens en meisjes verschillende inhoudelijke betekenis heeft. Dergelijke verschillen
verdwijnen in deze analyses uit het zicht, maar zijn vanzelfsprekend niet onbelangrijk.

LITERATUUR

^BS, (1982a). 'Schoolkeuze en schoolloopbaan bij hel voortgezet onderwijs. Cohort 1964/'65'. 's-Gra-
venhage: Staatsuitgeverij.

CBS, (1982b). 'Schoolloopbaan en herkomst van leerlingen bij het voortgezet onderwijs. Deel 2: Cohort
1977, Schoolkeuze'.
's-Gravenhage: Staatsuitgeverij.

Cochran, W.G., (1968). 'The Effectiveness of Adjustment by Subclassification in Removing Bias in
Observational Studies'.
Biometrics, 24, 295-313.

Dronkers, J., (1983a). 'Klassen, beroepen en onderwijsprestaties'. Vrij paper voor de Onderwijs Research
Dagen 1983, Amsterdam.

iJronkers, J., (1983b). 'De ontwikkeling van een model voor de analyse van schoolloopbanen in Neder-
land; terugblik en voorschouw',
Paper voor het symposium-1983 van de Werkgemeenschap
Verklarende Sociologie op 27 mei 1983.

Goodman, L.A., (1979). 'Simple Models for the Analysis of Association in Cross-Clasiffications Having
Ordered Categories'.
Journal of the American Statistical Association, 74, 537-552.

Goodman, L.A., (1981a). 'Association Models and the Bivariate Normal for Contingency Tables with
Ordered Categories'.
Biometrika, 68, 347-355.

Goodman, L. A., (198 lb). 'Association Models and Canonical Correlation in the Analysis of Cross-Clas-
sifications Having Ordered Categories'.
Journal of the American Statistical Association, 76,
320-334.

Groen, H.K., (1975). 'Leerlingen uit verschillende sociale milieu's hebben geen gelijke kansen'. In: J.L.
Peschar (1978),
'Milieu, School, Beroep'. Groningen, Konstapel, (2e druk), (p. 188-190).

Groot, A.D. de en Peet, A.A.J. van, (1975). 'Enkele kanttekeningen bij het proefschrift van J.L. Peschar
(1978): Milieu, School en Beroep'. In: J.L. Peschar,
'Milieu, School, Beroep'. Groningen,
Konstapel, (2e druk), (p. 184-187).

Groot, A.D. de en Peet, A.A.J. van, (1978). 'Nogmaals de invloed van regressie-effecten'. In: J.L.
Peschar (1978),
'Milieu, School, Beroep'. Groningen, Konstapel, (2e druk), (p. 201-205).

■'^ng, U. de, Dronkers, J. en Saris, W.E., (1982). 'Veranderingen in schoolloopbanen tussen 1965 en
1977; ontwikkelingen in de Nederlandse samenleving en in haar onderwijs'.
Mens en Maat-
schappij, 57,
26-54.

-ocr page 24-

20 Regressie van intelligentie scores

Leeuw, J. de. Burg, E. van der, en Bettonvil, B., (1982).' Vergelijking van VJTJ en SMVO met behulp van
niet-lineaire multivariate technieken'
Discussiestuk SISWO-overleggroep Longitudinaal schooi-
en beroepsloopbaanonderzoek. Leiden.

McKinlay, S.M., (1975). 'The Design and Analysis of the Observational Study. A Revievi'. Journal of the
American Statistical Association, 70,
503-523.

McKinlay, S.M., (1977). 'Pair-Matching-A Reappraisal of a Popular Technique'. Biometrics, 33, 725-
735.

Meester, A.C. en Leeuw, J. de, (1983). 'Intelligentie, sociaal milieu en de schoolloopbaan'. Leiden,
Vakgroep Datatheorie, FSW/RUL.

Peschar, J.L., (1975). 'Milieu, school, beroep'. Groningen, Tjeenk WiUink, (diss.).

Peschar, J.L., (1976). 'De invloed van regressie-effecten in het milieu-, school- en beroepsonderzoek.
Een antwoord aan A.D. de Groot en A. van Peet'. In: J.L. Peschar (1978),
'Milieu, school,
beroep'.
Groningen, Konstapel, (2e druk), (p. 191-199).

Peschar, J.L., (1978). 'Andermaal de invloed van regressie-effecten'. In: J.L. Peschar (1978), 'Milieu,
school, beroep'.
Groningen, Konstapel, (2e druk), (p. 206-208).

Smulders, R., (1979). 'CBS-onderzoek: Schoolloopbaan en herkomst van leerlingen bij het voortgezet
onderwijs'. In: J.L. Peschar (red.),
'Van achteren naar voren'. Den Haag.

Vrooman, J.C. en Dronkers, J., (1984). 'Onderwijsselectie als concurrentie tussen maatschappelijke
groepen'.
Paper voor de Onderwijs Researchdagen 1984 te Tilburg. Amsterdam, SISWO.

Manuscript ontvangen 8-6-1984

Definitieve versie ontvangen 9-10-1984

-ocr page 25-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 1, pp. 21-36.

Studietijden, Studiebelevingen en Studiestrategieën
bij Eerstejaars Burgerlijk Ingenieur

P. Henderikx, H. De Neve, N. van Deynse en M. Smet1
K-U. Leuven

abstract

The goal of this part of our study consists of analyzing relationships between individual study
times, student's perceptions of study behavior and of study strategies, and exploring the predictive
validity of study times and those characteristics for study results. Research instruments were based
on previous investigations, inspired by Marton (deep level and surface level leaming) and by Pask
(holism and serialism). Factor analysis confirmed three dimensions in study behavior, i.e. intrinsic
motivation, self-confidence and persistence, that can be interpreted as concretisations of the
well-known Osgood-dimensions, as further explained by Peeters. The same technique revealed
six study strategies. Analyzing, structuring and synthesizing must be understood as the necessary
components of a deep level approach. Globalizing, rote learning and imitative learning are
conceived as three forms of surface learning. Individual study times seemed obviously related with
some differences in persistence, but the relation of these times with study results is not by far as
strong as that of secundary education and entrance examination results. Also the correlations of
study strategies with study results are weaker than those of previous results. These findings may
suggest that the best predictor for study results is the set of results obtained in the preceding study
period.

In het kader van het studiebelastingsonderzoek in het eerste jaar Burgerlijk Ingenieur aan de
K-U. Leuven, waarover in dit tijdschrift (1984) werd gerapporteerd, werd complementair met
deze eerder kwantitatieve benadering van het studeren eveneens gepeild naar een aantal meer
•kwalitatieve aspecten, zoals de beleving van het eigen studeergedrag en aangewende stu-
diestrategieën. Doel hiervan was hun relatie met de geregistreerde studietijden te onderzoe-
Ken. Daarnaast kon worden gepeild in hoeverre op basis van een combinatie van deze
gegevens, aangevuld met maten van de voorhanden voorkennis bij het begin van de opleiding,
de op het einde van deze eerste kandidatuur te behalen studieresultaten zouden kunnen
verklaard worden.

Achtereenvolgens worden in deze tweede bijdrage het verloop van dit deel van het onder-
zoek (I), het inzake studiebeleving en studiestrategie ontwikkelde instrumentarium (II), de
peiling naar de begripsvahditeit van het materiaal (III) en de onderzoeksresultaten (IV)
besproken; een synthese (V) bundelt de belangrijkste bevindingen.

I. VERLOOP VAN DIT ONDERZOEKSDEEL

In de eerste bijdrage werd beschreven op welke wijze de zelfstudietijden als maat voor de
'ndividuele studiebelasting bepaald konden worden gedurende het academiejaar 1980/1981.

1  De onderzoeksgroep dankt Prof. dr. P.J. Janssen, die het itemmateriaal voor de hier besproken
vragenlijsten ter beschikking stelde en het verloop van het onderzoek van nabij volgde.

-ocr page 26-

22 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

Aangezien het tevens de bedoehng was ook de relatie tussen deze studietijden en mede op
basis daarvan behaalde studieresultaten zo volledig mogehjk te analyseren, werden bijko-
mend nog andere relevante determinanten van dit studiesucces geregistreerd. Hiervoor
kwamen zowel de einduitslag van het Secundair Onderwijs (het in het laatste jaar over het
geheel der vakken behaald percentage) als de uitslag op het toelatingsexamen tot de studies
van burgerhjk ingenieur in aanmerking. De Belgische wetgeving voorziet immers dit bijna een
volle week in beslag nemende examen als noodzakehjke én voldoende voorwaarde om tot
deze studie te worden toegelaten (1). Vermoedehjk op basis van het feit dat beide scores de
voorhanden 'bagage' reflecteren, bhjken zij in de hteratuur hier (Janssen, 1970; Christians,
1969) én elders (Lavin, 1965) in hoge mate predictief voor studieresultaten. In de loop van
mei 1981 werd met behulp van een daartoe samengestelde vragenlijst gepeild naar de wijze
waarop deze studenten hun eigen studeergedrag bleken te beleven en hun studietaken aan te
pakken; aangenomen werd dat ook deze beide variabelen een - wellicht heel eigen - invloed
kunnen hebben op enkele maanden later (in de eerste examenperiode) te behalen studiere-
sultaten. Deze konden zowel gekarakteriseerd worden in termen van het in juh behaalde
puntenpercentage, als — meer nominatief — in termen van slagen en niet-slagen.

Alvorens de gezochte verbanden kunnen worden geëxpliciteerd, wordt eerst nader be-
schreven op welke wijze die beleving van het eigen studeergedrag en de gebezigde studiestra-
tegie onderzocht werden.

II. ONDERZOEK NAAR STUDIEBELEVING EN STUDIESTRATEGIE

Bij de samenstelhng van de vragenhjst werd gebruik gemaakt van tussentijdse bevindingen uit
Leuvens onderzoek o.l.v. P.J. Janssen, resp. met betrekking tot studiebelevingen (Janssen,
1982) en studiestrategieën (Debaets, 1981) bij eerstejaars in de Faculteit der Psychologie en
Pedagogische Wetenschappen. Een selectie uit aldus reeds geëvalueerd itemmateriaal kon in
de door ons te gebruiken Likert-vragenlijst worden overgenomen. Deze bestond uit in het
totaal 80 uitspraken; de mate waarin de respondent met elk van deze op basis van eigen
beleving of werkwijze al dan niet kon instemmen, diende op een vijfpuntenschaal (van in
sterke mafe akkoord, over 'neutraal' tot in sterke mate niet akkoord) tot uitdrukking te
worden gebracht. Beievings- en aanpakuitspraken werden door elkaar aangeboden; zij zijn
echter nadien afzonderlijk geanalyseerd. Dit ter controle van de resultaten van het oorspron-
kelijke onderzoek in deze 'andere' steekproef van eerstejaars. De bevindingen hiervan - die
verderop de uitwerking van onze eigenlijke probleemstelling mogelijk moeten maken - zullen
successief beschreven worden.

a) Belevingen van het eigen studeergedrag

Janssen's (1982) studie was een rephcatie van vroeger onderzoek, waarin verschillen in de
beleving van het eigen studeren bij eerstejaars op basis van factoranalyse (hoofdassen met
varimax) konden worden herleid tot een drietal belevingsdimensies, nl. het intrinsiek tot de
studie gemotiveerd zijn, het zelfvertrouwen en de inzet. De eerste /actor verwijst concreet
naar tevredenheid over de gedane studiekeuze, het feit dat de gekozen studie aan de verwach-
tingen bhjkt te beantwoorden en betrokkene boeit. De tweede dimensie heeft betrekking op
het gevoelen de studie en hetgeen deze op academisch niveau impliceert, aan te kunnen. De

' Informatie omtrent de toelatingsvoorwaarden en de inhoud van de studies werd gepubliceerd door de
Dienst voor Studieadvies,
Informatiebrochure Toegepaste Wetenschappen, K.U. Leuven, 1981, 32p.

-ocr page 27-

p. Henderikx et al. 23

inzetdimensie reflecteert de bij de realisatie van de studie aan de dag gelegde ijver en
regelmaat. Deze uitkomsten zijn identiek aan die welke Apenburg (1980) rapporteert in
termen van 'Inhaltliche Attraktivität des Fachs', 'Selbstsicherheit' en 'Arbeitseinsatz'. Jans-
sen ( 1980) duidt dergelijke uitkomsten als evenzovele concretisaties van de bekende Osgood-
dimensies 'evaluation', 'potency' en 'activity', welke hij in aansluiting bij Peeters (1967)
'nterpreteert in voor de beoordeling van eigen (en andermans) gedragingen relevante termen.

Uit het beschikbare itemmateriaal werden 34 uitspraken overgenomen. Besloten werd de
begripsvaliditeit van dit itemmateriaal te verifiëren via toepassing van hoofdassenanalyse met
congruentierotatie; deze rotatie werd uitgevoerd naar een hypothetische factormatrix, over-
eenkomstig de drie hierboven beschreven dimensies. De resultaten van deze Procrustes-
rotatie - te bundelen in Tucker-congruentiecoëfficiënten van resp. .966, .985 en .942 en
Pearson-r's van resp. .973, .987 en .917 tussen de corresponderende factoren in de hypothe-
tische en de getransformeerde factormatrix - bevestigen de eigenheid van deze drie studiebe-
levingsdimensies. Op basis hiervan kon vervolgens tot de samenstelling van drie schalen
Worden overgegaan; voorbeelden van het itemmateriaal treft men aan in Tabel 1. Ter
optimalisatie van de innerlijke standvastigheid binnen elk van deze schalen werden nog
Gulliksen-itemanalyses (Verhelst & Van der Steene, 1972) uitgevoerd: de aldus bereikte
alpha-coëfficiënten duiden op een goede homogeniteit.

Aangewende studiestrategieën

In de studie van Debaets (1981) werd enerzijds uitgegaan van Leuvens onderzoek van
Decruyenaerc (1980) en Laçante (1981, 1983) betreffende Marton's (1975) 'deep' versus
'surface level learning' en anderzijds van de bevindingen van Pask (1976) omtrent de
studiestrategieën 'holisme' en 'serialisme'.

Marton's begrippen, in feite equivalent met Svensson's (1977) 'holisme' en 'atomisme',
hebben betrekking op het al dan niet internaliseren van wat men ter studie voorgelegd krijgt,
'ngeval van 'deep level learning' is van een inzichtelijke benadering sprake; memoriseren
daarentegen reikt niet verder dan 'the surface'. Janssen (1980) stelt dat volwaardig studeren
noodzakelijkerwijze een 'deep level approach' vergt.

Pask's strategieën blijken van een andere orde. De holistische strategie slaat op een globale
aanpak, waarbij tijdens het studeren van één thema ook nog meerdere andere onder de
aandacht van de student komen en ook achteraf door de student, tenminste gedeeltelijk,
beschreven kunnen worden. Bij een serialistische strategie werkt de student daarentegen
stap-voor-stap, zodat hij slechts met één onderwerp tegelijk bezig is; andere worden pas
aangesneden, nadat dit eerste volledig doorgemaakt blijkt. Op basis van dergelijke aanpak
•^an er nadien weinig zinvols gezegd worden over die andere themata.

Debaets had voor elk van deze vier strategieën psychometrisch redelijke schaalontwerpen
opgemaakt. Daaruit namen wij de 46 meest relevante uitspraken over met als aanvankelijke
Oedoeling hiermee elk van deze vier aanpakvarianten afzonderlijk te 'meten'. Enige tijd na de
afname van dit itemmateriaal rees echter het vermoeden dat geen vier, maar tenminste zes
studiestrategieën te onderscheiden zouden zijn in de in dit itemmateriaal geconcretiseerde
studie-aanpak. Besloten werd deze te exploreren, parallel met de uitvoering (door anderen)
een heranalyse van heel het oorspronkelijke Debaets' uitsprakenbestand; eerstgenoemde
exploratie zal hier worden beschreven, nadat we eerst hebben verduidelijkt welk referentie-
kader daarbij is gehanteerd en hoe dit ten overstaan van Marton's en Pask's uitgangspunten
gefundeerd kon worden. Richtinggevend hiervoor waren o.m. een reeks door Moens (1983)
ontwikkelde argumenten in het kader van haar studie naar de eigenheid van Pask's holisme en
Serialisme.

-ocr page 28-

24 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

^ ri ^ ao rf
r-- 00 O f--
O O O ^ O

r- ^ t-- ON ro Tt

rt O "Tl "-i M <n

O ^ O O O O

I I I I I

tN. 00 ^ <> ^

^ ^ S? ^

rx tx IX

I I I

00 0^ I


O ov «O r- cn
vo lo W-) r- 00 O
r-t t-l fS T-H O O

O ON 00 00 fN
f: 00 O S S K

00 tv

&0
c

=6
«

rn <N O* <Jv ^

(y, <N <N O,

O 00 Tf 00 O OO

■O Cl m 00

<S rf O «N

m Tt M vo

O m in n NO in

^ ^ O ^ »-c
■I T II

u-j


u

— -O
C c

« O

T3 „
g^

e O

g B

a

N

f/i

•S .E,
■c -a.

c
'S

- E

s O

■■B

u

I

T3 ^

II

c

S
^

00
G

t« "ö
3

II

■c -a

a

"d. C
=ê c S
S's-^S-H

VsH'-

5 'S u ü u
s -ë 3 - 8
U u

? 'S -s 3-ö

s-ë s

u c c 2

" n..s, s

:=>:=> O g

5 ^ ■■5 g

a> «u c G «ï
O O u u c

=> > --e

jM ^ jM ^

M

ä
s
3

CU

•O

e
«

•a

c -2

c

2P-2

•s M

S E

CQ U

S § "

r. a

; rï c rä

u u .ü.

<u 'a O

i'

00 u
13 „ -O
c u n

a 'E

S!

II
8

e

u
c

2
ü

c

u

"c"
c

2
II
ö

»t
is

E "3

•a >
u

1

3

p

«»a
u

lil^i^r

u

K'-Sn

as

10

<» t/i

11 O óJ

ro O j?

«Mg
^ >

U IJ I-I

'E g

■pi
C

£ .S « ^ ^

e-3

•5

I

§

^ ^ ^

60 U
ll

■c

§
I

< iï iï ^ ii

C ° UI

<u «

Ë -s a

-c >

.5

S §

« Ä
^ §>

M O

U B
g"&

B §

IS


n
ü ~
1 §

— (U


-ocr page 29-

p. Henderikx et al. 25

Kernpunt in die nieuwe gedachtengang is de overweging dat men holisme en seriahsme niet
los kan zien van een diepgaande verwerking. Deze laatste dient in termen van een volwaardig
studeren beide te omvatten, resp. in
eensequentieel, stap voor stap, exploreren van de interne
coherentie binnen de studiestof en het
simultaan situeren van al de 'details' in een breder
'geheel' dat een externe coherentie typeert. Op die wijze wordt Pask's eis dat een volwaardige
Verwerking 'versatile' moet verlopen, binnen het proces van studeren geconcretiseerd. Ter-
zelfdertijd blijkt dat dergehjke analyse en synthese noodzakehjkerwijze aan elkaar gerela-
teerd moeten worden. Dit kan door een derde aanpakvariant te postuleren waarin sprake
moet zijn van een afdoende opbouw van een structuur, waarin 'deel' en 'geheel' aan elkaar -
én aan mogelijkerwijze reeds voorhanden kennis - worden gelieerd. In deze hjn hjkt het
aangewezen 'deep level learning' niet meer als een strategie, maar als een
niveau van
stofverwerking te situeren. Op het daarmee contrasterende 'surface level' kunnen nu niet
enkel memoriseren, maar ook Pask's pathologieën 'globetrotting' (globaliseren) en 'improvi-
dence' (slaafs imiteren) een eigen plaats krijgen ...

Dit alles kan betekenen dat de 46 Debaets-items feitelijk onvoldoende representatief
zouden zijn voor het bovenstaande. Zo is het nu voor ons duidelijk dat een aantal van haar
seriahsme-items eerder betrekking hebben op 'improvidence'. Omwille van het feit dat Pask's
terminologie eigenlijk verwijst naar experimenteel computergestuurd 'onderwijs' hebben wij
gemeend er goed aan te doen eigen termen te hanteren. Wij zullen deze nu wat nader
expliciteren aan de hand van figuur 1.

Deep
level-

verwerking

Figuur 1 Zes studiestrategieën gesitueerd op onderscheiden verwerkingsniveaus.

Synthetiserende Structurerende Analyserende

(deel)strategie (deel)strategie (deel)strategie

Globahserende
strategie

Surface
level-

verwerking

Memoriserende
strategie

Imiterende
strategie


De meeste van de hier gebruikte uitspraken m.b.t. de synthetiserende strategie werden
oorspronkelijk geformuleerd uitgaande van Pask's holisme. Bij deze aanpak oriënteert de
student zich - in zijn zoeken naar de externe coherentie - breder dan op het specifieke
cursusmateriaal. Door combinatie met andere delen van de stof of met gegevens binnen zijn
actuele (levens-)ervaring bouwt hij een nieuw en groter geheel op, dat hij op 'deep level'
"iternaliseert. Uitspraken over
dc analyserende strategie verwijzen naar Pask's serialisme. Zij
slaan op het diepgaand willen begrijpen van de respectieve onderdelen binnen het studiema-
teriaal, het onderkennen van hun interne coherentie. Daarom pluist de student redeneringen
"a, gaat hij diep in op de details in zijn cursus en ontwikkelt aldus een ander aspect van dat
Zelfde' diepgaande inzicht. De
structurerende strategie bleek in mindere mate in het item-
"lateriaal voorhanden; toch hjken elementen daarnaar te verwijzen, zoals het hanteren en
ontwikkelen van schema's. Structureren kan aangezien worden als een noodzakelijk hulp-
ni'ddel, zowel om tot analyse ('de'structureren) als tot synthese ('her'structureren) te komen.
Vandaar dat deze strategie wellicht twee facetten omvat: het opmaken van een skelet of

-ocr page 30-

26 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

schema van wat op een gegeven djdsdp in de cursus aan de orde is, waardoor de onderlinge
relades tussen de delen tot een logisch geheel opgebouwd worden; en het ontwerpen en
vinden van nieuwe schema's, waarin ook elementen voorkomen die niet in de cursus maar wel
in de eigen cognitieve structuur of andere kennisbronnen (boeken, andere cursusteksten,
enz ...) voorhanden zijn.

Van deze 'deep level'-aanpak te onderscheiden zijn drie andere strategieën, die ten dele
eerder geïsoleerd kunnen voorkomen. De
globaliserende strategie verwijst rechtstreeks naar
het door Pask omschreven 'globetrotdng'. De betreffende uitspraken duiden, zoals in de
synthetiserende aanpak, eveneens op een gerichtheid op bredere gehelen, maar dit dan hier
op deficiënte wijze: aldus wordt in feite over de materie heen gegleden; het leidt tot een
over-vereenvoudiging, tot verbanden en inzichten (betreffende 'het luiden van de klok') die
de toets van een analyserende kritiek (het weten 'waar de klepel hangt') niet blijken te
doorstaan. De
memoriserende strategie behelst het 'domweg' van buiten leren: begrijpen
wordt merkwaardigerwijze niet essentieel geacht: centraal staat reproduktie zonder meer; de
aanzet tot diepgaande werking bhjft achterwege. Uitspraken betreffende
de imiterende strate-
gie
kunnen worden opgevat als verwijzend naar Pask's 'improvidence'. Deze aanpak im-
pliceert een zeer eng perspectief: het zodanig toegespitst zijn op wat in de tekst staat, dat er
onvoldoende afstand van genomen wordt en dat deze slaafs gevolgd wordt.

Na toepassing van factoranalyse (hoofdassenmethode) op het itemmateriaal bleek de
aansluitend op zes factoren verrichte varimaxrotatie waarmee 30,7% van de totale variantie
verklaard kon worden, vanuit psychologisch perspectief nog niet geheel aan onze verwachtin-
gen te beantwoorden. Uitgaande van de gedragsbetekenis van de uitspraken binnen het
hierboven ontwikkeld referentiekader werd door drie beoordelaars een hypothetische fac-
tormatrix opgemaakt waar naar vervolgens werd geroteerd (Procrustes-analyse); de ge-
transformeerde matrix bleek zowel vanuit psychologisch perspectief als vanuit statistisch
standpunt (Tucker-congruentiecoëfficiënten van .869, .849, .876, .860, .813, .822 en
Pearson-r's van .859, .824, .868, .846, .791 en .804) bevredigend. Tabel 2 bundelt de
belangrijkste resultaten.

In de hjn van deze factoroplossing werden vervolgens zes schalen opgemaakt, die eveneens
aan een Guihksen-itemanalyse werden onderworpen teneinde hun innerlijke standvastigheid
nog te kunnen optimaliseren. De resultaten hiervan worden eveneens in Tabel 2 opgenomen;
zij halen (nog) niet het niveau van de in Tabel 1 inzake studiebelevingen bereikte alpha-
coëfficiëntfen, maar blijken niettemin voldoende hoog om het gebruik van deze metingen bij
de verdere uitwerking te rechtvaardigen.

III. PEILINGEN NAAR DE BEGRIPSVALIDITEIT VAN HET
INSTRUMENTARIUM

Besloten werd twee peilingen naar de begripsvaliditeit van het gebezigde materiaal te ver-
richten. In beide gevallen is daarbij gebruik gemaakt van hoofdcomponentenanalyse met
varimax op al die componenten die eigenwaarden van tenminste 1 bezaten. De eerste zou
enkel de studiebelevingsschalen en de strategieschalen omvatten; de tweede
alle aanvangs-
metingen, inclusief de geregistreerde individuele zelfstudietijden over het gehele acade-
miejaar. De intercorrelaties tussen al deze metingen worden vermeld in Tabel 4.

De linker helft van Tabel 3 bundelt de resultaten van de hoofdcomponentenanalyse op de
negen 'vragenlijst'-maten; dit binnen de groep van alle respondenten op de vragenlijst
(N=271). Drie componenten blijken voorhanden die tezamen 60% van de totale variantie

-ocr page 31-

r-

vo

■S

c

p. Henderikx et al. 27

00 Tt

S2S

e

o

x:

CJV
00

t- t^
o\ m

rt o o

I I

f^ VO

15 ^ t

o o

ov m

—I VO VO

00 o

VO Tt VO

Ov m o
I I

VO Ov VO

n-) ■<>• 00

VO lO ^J-

2

o

E

r^i ^ »0
VO tN f-

O o —I

2

S

I

P- r- r-

^ S Ä
^ o o

I

00 lo t^
rsi ^
>o ^

o m

VO <N rH

s s
0\ 00
Pv >o

Tt VO \0

o\ r-
o -H o

00 CJv
00 00 Ov
.-I ^ o

«

"C
u
n

E
E

u

VO Tt —c

sss

I I I

0 s s

1 I I

VO (N VO
-H (N fN
rt — O

I I

oo ^ m
00 t-H Cvl

o —I o

m -H

VO VO

(N rH

I I

O tN

m o

T—« .—I

I I

■g
60

3

B
«

>
M

3 Ä

.S « -

§ a I

c ^ -g

s s c

5 S X

S E c

^ s ^

c M Ü

i-g 3

c u .-3

Ji-3 H

o to id

^ g

u B g B

" I S

.SÄ

q «

! =
q o

2 c
S 'S

S ™

|1

> ,<5

cd

VO

g|
«Se

QD o u

=a .SP Ë

D s ra
OS"'
> e IS

C B o
Su»

(X

II'
a

t

II
8

tx

II
c

M .S C

= -a

S.

" 8

„ y M

B
u "
u c

•ri

I

•S

i

I
Ü

.g
S

.2®._ û
M IS b

CO X

M _
1) -O JS

= iJ

Cd o 2
MX Ü
.M

^ o
0) u

g

I.

1 "

B "
U u
•o -o

11 =

o B iä

O S 'S

m

plis

la 0

B b B
u O u
a O S

X « S
1.1 e

.2 g o
•o B >

u <u
•o N

B u
2 -a

2

w 'Ç

V) P3

u

-ocr page 32-

28 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

00 ><-> VO
VO f^ VO »0
O O O O

00 O
rrt

«O

00
VO

;o 00 (N

O Ci Ov fv^
>0 VO lo

fM co

O

"Ti O »n 00

m VO Ov 00

O O O O

I I I

O <N rsl O

(S Tt

O f-i O

I I I

VO fO Tl- Tt

O Tj-

,-H O ^ O

I I I

t cvi r-

O >£1 f- cn
■ri O

I I

O

c

0

B

1
ö

00 '

^ s

c
a

i
3

ö
x>

u

'3
e

e

M
>

•s

c
'S

u

if
a

i
r

f

l!
§ =

C

ït ^
« u „

ü 3 c
_ :a ed

114

3 J3 3
•O U O
c -O -g

Ë
u

3 I
C Ö

~ 3

■O :
g

«
M

c

c

2
u
c
e
■n

c

ä
B

=a

B

&

a

■■a

a

I

Sil

u > «
J3 E «

ilï

sa ? O


-ocr page 33-

p. Henderikx et al. 29

VO VO 00 VO (S OV
lo VO t-^ 00 Ov in
m VO VO VO VO

^ Tj- O
VO Tt \0
»0 VO 00

(S —I

Ov t--

1/1 t^

m 00

VO

t-

■<t VO lo lo m <-i

00 VO O oo ^ O

7-1 Tt f) —1 T-l rv)

I III

I/-1 o r-

t- lAi r4

o o <N
I

O 00 M

r- —I
lo t- —I

S ov

Tt VO -H r- o

Ov 00 Ov «->

o —I cn o

VO VO t~-
CT\ o\ r)
<S rt
o

00 -I

m ^ o\
o m o

I

O
Ö
a

CS —I Ov cn ro VO

00 lo t^ CS O »0

■TH CS O O ^

I I

V-) ON

S 2

es"

>-1 fM VO
lO O
m O Ov

Ov Tt VO

»n o cn

<S 00 l-H

•s

cn fs O CS
Ov ov ^ O CS T-t
VO m 00 O

Jv UI >0
^
VO
-H rvi «

O

JS t^ O

t^ "I 00

'^.cs
cn

I

u

•a
?

■a
o

E S

|1
11

11
ü3 H

5?

I

.si

S " s>
2 a

c

u

■«3
•g

I

tip il

0 VO 00 CS 00 O

01 -H rt Ov O O
VO r~ VO Tt- VO

VO VO m
o in TJ-

u-i VO

-H r-

S O

U-)

CS -^t Tj- —'

oo Tl- Tj- O CS "-i
Tl-
00 -"t cn "i T-H

•t VO m

<s —1 O

-Tt t-<

I

Tf Ov

S N

VO VO >o cn cn Ov

Tt (S VO

CS O O VO

I I I

00 vO
rr 00

O s

O cn 00 cn

Ov VO Tj- CS 00

T}- O Tt O oo cn
I III

m N
m 1/1

>0 -H 00

«Tl rt

O <

-ocr page 34-

30 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

CS t- Cl
Tt 00 \D

fM fs

I

a

Ë
u
CL

co 00 NO UI
(- CS O cs NO «
O co O O cs O

'Tl' i' r

NO
ON
Tt


\o m m

VO 00
O vo -H

=3

W
O

n NO vo

vH O 00
co ^ ON co O 00

éi

O CS ON QO lo

C-) O O O

r-

U-I

O

co
NO
CS

r ' r r ' '

co

ON

co -«J- NO ON O
00 >n vH t- vo O
rt CS O O >-1 —1


I I

NO co co ^ ON
t- r- "-H CS t-
O O CS »-I ^

tM NO O
m ^ M
m (S

O
O

t- 00 m
.-c iri ,-c
O M —i

I I I

t-- <0 NO co co
ON T-t co NO t^

O CN) O CO

I I

00 O t-
r- r- t--

tt --l NO

r r r
^ co CS
>o wi •"t ^
Tt co co rH

r r i' i'

ON
NO

ON
NO


co co O
<S CS 00
O co rt
co O Tl-

00 NO m
^
O -H

NO
t-
o

CS co
•l NO
^ co

CS
CS


ON >0 »0
^ ON ON
co O -H

•<t f-)
CS CS
CS CS

Tt NO NO

lO t co
-H co O

co

I

O

r

O


CS O co

CS NO ^

CS O co CS

■ r r

in
CS

00 't iri
CS O cs

co

in Tf co ^ r-

r- CS 00 Nn ON

co CS "-H O

■ ■ ■ r r

NO
O

■"t t NO
— I-

co O

NO »n O t-- co

u^ ON 00 r- "-i

Tt CS O NO —i

■ ■ ■ ' r r

NO
00
CS

O
CS
CS

ON 00
O

NO —I
NO 00
CS O

•<t r- co O 00

rt t ON CS c- >n

O O O co CS

r i' ■ r r

NO
O
O

NO

,-H

co


co ON co 00 t^
rt 00 ■>!• CS r- ^
co CS co O Tt O

ND r-
NO ON
CS

I I

3

<U 2

.a c
.52 5 "

in 5 — ,>•

Iiis

2 S 2 N

a

I

c R O s e

•O

c
0

s
&

G

M-O
«e s

ff "

tfï O

D (/i

■zs s


-ocr page 35-

p. Henderikx et al. 31

omvatten. In de component III-l vormen memoriseren en zelfvertrouwen tegenpolen van
elkaar, hetgeen zoals verwacht erop duidt dat bij deze studiestrategie het gevoel de stof niet
te kunnen doorslaggevend is. Ook de intrinsieke motivatie, synthetiseren en analyseren
Verwijzen naar dit zelfvertrouwen. Zij zijn alle te situeren tegenover memoriseren. Com-
ponent III-2 heeft te maken met de studie-activiteit die de student aan de dag legt, met hoge
ladingen van 'inzet', 'imiteren' en - negatief - 'globaliseren'. Er blijkt dus een duidelijk
Verband te bestaan tussen de studie-inzet en de graad van cursusgebondenheid waarmee de
student de studie aanpakt: hoe meer hij de letter van de cursus volgt en hoe minder hij
globaliseert des te meer tijd hij aan zijn studie besteedt. Component III-3 kan geïdentificeerd
Worden als 'structureren'. Ook hier blijken hoge ladingen van de 'intrinsieke motivatie',
analyseren' en 'synthetiseren' aanwezig. Dit structureren blijkt dus in dit onderzoek bij
eerstejaarsingenieursstudenten een heel eigen positie in te nemen. Er moet wel rekening mee
gehouden worden, dat die strategie hier - in tegenstelling tot wat werd afgeleid - enkel maar
betrekking heeft op het maken van schema's. Vooralsnog is niet duidelijk of deze drie
componentenoplossing de theoretisch beste oplossing is; verder onderzoek ook in andere
Proefgroepen van studenten, waar de variantie inzake deze beleving en studieaanpak veel
heterogener kan zijn, is aangewezen.

Nog een tweede hoofdcomponentenanalyse werd verricht, gedeeltelijk met nog ruimer
bedoelingen dan bij de eerste. Niet enkel leek het lonend
heXhele aanvangsmateriaal eens te
doorlichten; het bleek bij nader toezien zelfs aangewezen om het te kunnen reduceren met het
°og op verdere analyses ten overstaan van de predictie van de studieresultaten. Bij gebruik
^an meervoudige regressievergelijkingen dient er immers een acceptabele verhouding te
°estaan tussen aantal variabelen en de omvang van de proefgroep. Bovendien blijken daarin
°P te nemen predictoren best zo onafhankelijk mogelijk van elkaar. Om die redenen zijn
aansluitend bij de in Tabel 3 (rechter helft) vermelde viercomponentenoplossing meteen
'^omponentscores per subject berekend. Dit in de beperkte proefgroep van eerstejaars van wie
zelfstudietijden beschikbaar bleken (N=107). Component IV-1 kan worden geduid als
"et internaliserend studeren. Subjecten met een hoge componentscore komen ertoe, mede
dankzij hun voldoende hoog zelfvertrouwen en hoge intrinsieke motivatie op diepgaand
jiiveau te studeren: zij zijn zowel synthetiserend, analyserend als structurerend ingesteld en
eren niet van buiten. Een hoge score op component IV-2 betekent een hoge studieactiviteit in
jermen van het aantal verrichte uren zelfstudie en een hoge inzet en regelmaat in de studiebe-
eving. Ook de einduitslag secundair onderwijs laadt enigszins op deze component; ver-
nioedelijk is die inzet ook daarin betrokken geweest. Op component IV-3 verschijnen
8'obaliseren en imiteren als tegengestelde polen van een zelfde dimensie; men kan hen
jyperen als maat van cursusgebondenheid. De laatste component IV-4 bundelt dc uitslag bij
"et toelatingsexamen en de vooraf behaalde einduitslag secundair onderwijs als voorhanden
fagage'. Merkwaardig blijkt hier de relatief hoog negatieve lading van het schematiseren;
houden minder 'sterke' studenten dit frequenter (moeten?) doen in dit eerste jaar?

De resultaten van beide peilingen blijken elkaar in belangrijke mate aan te vullen. De 'deep
evel'-aanpak vergt zowel intrinsieke motivatie als zelfvertrouwen; bovendien omvat zij de
"e vooropgestelde deelstrategieën. De inzet-beleving lijkt op basis van component III-2
Vooralsnog twee aspecten te omvatten: de aan de studie bestede tijd (component IV-2) en een
^at slaafse detaillistische studieaanpak, die op zijn beurt tot op zekere hoogte ook het wellicht
Sequentieel veriopende analyseren Ujkt te omvatten (component lV-3). Het geheel van deze
"'tkomsten is van die aard dat een verdere exploratie met betrekking tot hetgeen in deze
studie als uitgangspunt heeft gegolden, verantwoord blijkt.

-ocr page 36-

32 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

IV. RESULTATEN

Het was er ons om te doen meer zicht te krijgen op elementen die aan de basis hggen enerzijds
van het aantal uren zelfstudie, anderzijds van het behaalde studieresultaat. Beide opgaven
zullen successief worden onderzocht.

a) Verschillen in zelfstudietijden

Het in de voorlaatste kolom van Tabel 4 gebundelde cijfermateriaal bevestigt volkomen wat
reeds kon worden opgemaakt uit de resultaten van de hoofdcomponentenanalyse waarin ook
deze zelfstudietijden waren opgenomen. De hoogste correlatie wordt gevonden met de schaal
inzet (.613); dergelijke waarde is van die aard dat ze een belangrijke aanwijzing is voor de
begripsvaliditeit van deze schaal. Deze uitkomst komt redelijk goed overeen met die welke
Laçante (1981) vond in haar onderzoek bij eerstejaars Psychologie aan K.U. Leuven, waarin
zij haar subjecten (A^=184) tweemaal studietijden (eigen werk) in één week liet optekenen,
resp. vóór Kerstmis (r=.530) en vóór Pasen
(r=.587). Veel lager zijn de verbanden tussen
zelfstudietijd en de in het secundair onderwijs behaalde totaalscore (.263), en de schalen
synthetiseren (-.203) en globaliseren (-.193). Hoewel te verwaarlozen qua omvang is het
teken van beide laatste coëfficiënten niet zonder belang voor de verdere identificatie van de
psychologische betekenis van beide schalen.

Dit alles laat twee conclusies en één hypothese toe: verschillen in zelfstudietijd blijken
hoofdzakelijk functie van de voorhanden studieinzet. Hun betekenis ten overstaan van de
nadien behaalde studieresultaten bhjkt relatief klein (r=.239). Tot slot kan tentatief worden
opgemerkt dat deze studietijden allerwaarschijnlijkst géén maat zijn voor het al dan niet als
subjectief-'belastend' ervaren van de studiesituatie; er zijn aanwijzingen in ander Leuvens
onderzoek dat dit eerder negatief beleven kan verwijzen naar een gebrekkige intrinsieke
motivatie en een zich onvoldoende opgewassen voelen tegen de studievereisten.

b) Verschillen in behaalde studieresultaten

Behaalde studieresultaten zijn op twee manieren geregistreerd; allereerst in termen van het
percentage punten in de eerste zittijd en vervolgens ook in termen van het al dan niet geslaagd
zijn. Beide gegevens zijn afzonderlijk verwerkt; het eerste in termen van enkel- en meer-
voudige correlatieberekening, het tweede via discriminantanalyse.

Tabel 5. Resultaten van de multiple regressie-analyse van de vier factorscores op het procent
in de eerste examenzittijd in de eerste kandidatuur burgerlijk ingenieur (coëffi'
ciënten x 1000).

Componentscores

r

ß'

r/R

r2/R2

IV-4 (Bagage)

558

558

558

312

IV-1 (Internahseren)

286

286

627

394

IV-2 (Inzet)

297

297

'694

482

IV-3 (Globaliseren vs. imiteren)

022

022

694

482

1) In de vier predictoren omvattende laatste predictieformule

-ocr page 37-

p. Henderikx et al. 33

In termen van behaald procent der punten
Enkelvoudige Pearson-r's worden vermeld in de laatste kolom in Tabel 4. Deze procentuit-
slag correleert het hoogst met de uitslagen van toelatingsproef (r=.516) en humaniora
('■=.496). Studenten die meer tevreden zijn over hun studiekeuze, zich meer inzetten en over
meer zelfvertrouwen beschikken, halen ook betere resultaten (correlaties van resp. .242, .287
en .263). Hetzelfde kan gezegd worden van studenten die een analyserende strategie vertonen
('■=.324) en minder van buiten leren (r=-.264).

Multiple correlaties tussen de aanvangsvariabelen en het behaald percentage werden
berekend met behulp van de vier componentscores(zie Tabel 3, rechterhelft). Deze werden als
onafhankelijke variabelen ingevoerd in een regressie-analyse waarbij het examenpercentage
als afhankehjke variabele gold. De resultaten van deze bewerkingen worden gepresenteerd in
Tabel 5. De multiple correlatie met de vier predictoren bedraagt .694, waardoor ongeveer de
belft van de variantie in studieresultaten verklaard wordt. Component IV-4 (bagage) blijkt
''et grootste gedeelte van de variantie te determineren (bèta = 0,558), gevolgd door com-
ponent IV-2 (studie-inzet; bèta = 0,297) en component IV-1 (internahseren: bèta = 0,286).
^en kan dus concluderen dat de verklaarde variantie voor de ene helft toe te schrijven is aan
de bagage die de student meebracht uit zijn vooropleiding en voor de andere helft aan zijn
studie-inzet en de mate waarin hij intrinsiek gemotiveerd en diepgaand studeert. Component
(cursusgebondenheid) bhjkt hier van geen betekenis.

In termen van 'slagen' dan wel 'niet slagen'
^et behulp van deze zelfde componentscores is aansluitend nog een discriminantanalyse
uitgevoerd met als afhankehjke variabele de dichotomie 'geslaagd' versus 'niet geslaagd' in
deze eerste examenperiode. De uitkomsten van deze analyse worden samengevat in Tabel 6.
De canonische relatie tussen de gevonden discriminantfunctie en dit al dan niet slagen
oedroeg .556. Hiermee kon 74,53% van de studenten correct geklassificeerd worden als
geslaagd of niet-geslaagd. De groepsgemiddelden (group centroids) bedroegen, in z-waarden
Uitgedrukt, resp. -0.675 en 0,650; theoretisch hggen deze dus op pc. 25 en pc. 74 van deze
unctiescores. De hoogste discriminantcoëfficiënt - die op dezelfde wijze mag geïnterpreteerd
jyorden als het bèta-gewicht in een regressievergeUjking- werd gevonden voor de component
bagage' (.796), gevolgd door de component 'studie-activiteit' (.689). en de component
'nternaliserend studeren' (.390). Dit betekent dat de voorkennis dubbel zoveel bijdraagt tot

^abel 6. Resuhaten van de discriminantanalyse met als criterium slagen - niet slagen in de
eerste zittijd (coëfficiënten x 1000).

Onafhankehjke gestandaardiseerde

Variabelen functie-coëfficiënten

Component IV-1 (Internahseren) 390

J;Omponent IV-2 (Studie-inzet) 689

»-omponent IV-4 (Bagage) 796

Groe

pen Centroïds

^.^slaagden 650

^'et-geslaagden -675

-ocr page 38-

34 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

de verklaring van het al dan niet geslaagd zijn in het eerste jaar Burgerlijk Ingenieur als de
component internaliserend studeergedrag. Uit de resultaten van die zelfde hoofdcomponen-
tenanalyse bhjkt echter dat bepaalde aspecten van de component internahserend studeren in
zekere mate ook laden op de component bagage, zoals een analyserende en vooral een
niet-structurerende alsook een niet-globaliserende instelhng, en dat dus deze studie-
strategieën in beide een relatief grote rol spelen. Belangrijk is bovendien de vaststelling dat de
component studeeractiviteit een bijna even grote invloed heeft op het onderscheid tussen
geslaagden en niet-geslaagden als de component bagage. De component cursusgebondenheid
(globaliserende vs. imiterende instelhng) blijkt ook hier niet discriminant.

V. BIJ WIJZE VAN 'SYNTHESE'

Het doel van deze deelstudie was meer zicht te krijgen op de met de verschillen in vastgestelde
zelfstudie-uren geassocieerde persoonskenmerken en op de betekenis van deze studietijden
ten overstaan van vastgestelde studieresultaten. Dit alles bij eerstejaars burgerhjk ingenieur.
Daarom werden parallel met het eigenlijke studiebelastingsonderzoek enkele aanvullende
gegevens verzameld.

Meeste aandacht is daarbij gegaan naar de registratie van verschillen inzake studiebeleving
en studiestrategie. Eerstgenoemde bhjken op basis van de hier verrichte replicatie inderdaad
registreerbaar in termen van de door Janssen (1982) geconcretiseerde Osgood-dimensies
'evaluation' (het als verrijkend dan wel als verarmend ervaren van het eigen studeren),
'potency' (het gevoelen de in de academische prestatiesituatie geldende eisen al dan niet
aankunnen) en 'activity' (de aan de reahsatie van de studie al dan niet te besteden activi'tijd').
Nieuw zijn de bevindingen met betrekking tot de onderzochte studie-aanpak. Zes strategieën
bhjken situeerbaar op 'deep' en 'surface level', die zich elk op eigen wijze ten overstaan van
genoemde belevingen laten plaatsen. Deze uitkomst is inmiddels in nog twee andere peihngen
bevestigd. Er blijken aanknopingspunten in voorhanden met het werk van Biggs (1979).
Diens factor 'internalising' hjkt ons synthetiseren en enigszins ons analyseren te omvatten;
wat hij 'utilizing' noemt vertoont enige verwantschap - op 'surface level' - met ons memori-
seren, terwijl 'achieving' ananaloog kan zijn met ons structureren. Eveneens zijn er raakvlak-
ken met de bevindingen van Entwistle (1981), hoewel deze auteur zijn naar Marton en Pask
verwijzend schaalmateriaal niet integreert. Het bhjft een intrigerende vraag in hoeverre
dergelijk persoonhjk getuigenis van eerstejaarsstudenten ook in het studeergedrag betrokken
cognitieve procescomponenten kan reflecteren. In het werk van Moens (1983) zijn hiervoor
reeds elementen van antwoord gebundeld.

De geregistreerde zelfstudietijden bhjken in hoofdzaak verband te houden met verschillen
m studie-inzet, die op hun beurt vermoedelijk functie zijn van verschillen in prestatiemotiva-
tie, gezien het stevig verband (Pearson-r=
.55) dat Laçante (1983) bij eerstejaars Psycholo-
gie {N= 184) tussen beide aantrof. Hun relade met nadien behaalde studieresultaten is eerder
zwak. De sterkste predictor daarvan bhjken de vooraf behaalde studieresultaten: dit zowel in
termen van het op het einde secundair onderwijs behaalde percentage als van het op het
toelatingsexamen behaalde resultaat. In tweede orde zijn daarbij de studie-inzet en het
internahserend studeren nog van betekenis. We hadden in navolging van Laçante ( 1981) nog
kunnen onderzoeken of zich in deze verbanden t.o.v. behaalde studieresultaten drempels, c.q-
interacties, zouden voordoen. We hebben er in functie van de eigenlijke doelstellingen van dit
bijkomend onderzoek van afgezien. Feit is dat ook hier de 'bagage' de sterkste predictor
bhjkt. Deze bevinding blijkt analoog met wat Stinissen en Vander Steene (1980) rapporteren

-ocr page 39-

p. Henderikx et al. 35

na onderzoek in deze zelfde eerste kandidatuur. In de academiejaren \91\I12 tot en met
1973/74 vinden zij tussen de uitslag op dit toelatingsexamen en het nadien behaalde per-
centage in de juh-examenperiode Pearson-r's van .414 a. 602. Een door hen speciaal voor
deze hoogbegaafden ontwikkelde intelhgentietest bhjkt. 246 a .314 met dit zelfde criterium te
correleren. Test en toelatingsexamen samen resulteren in multiple correlaties van .439 a .666
(resp. .664 en .889 na correctie voor de op basis van dit toelatingsexamen beperkte spreiding
hinnen de groep toegelaten eerstejaars). Veel voegt dergeUjk hoogwaardig instrument bUjk-
baar niet meer toe aan de op basis van dit ingangsexamen geboden predictiemogeUjkheid:
'The most important factor influencing learning is the quantity, clarity and organization of the
learner's present knowledge.' - aldus Ausubel - naar het citaat in De Corte e.a. (1981, p.
265). Zou deze bagage dan toch samenvallen met wat aanvankelijk ten onzent als parallellis-
me (Nuttin, 1950) en later als X-factor (Janssen, 1970) geduid werd? Deze beide auteurs
refereren aldus naar het belangrijke feit dat de beste predictor van op een gegeven moment te
behalen studieresultaten bhjkt te zijn het geheel van de studieuitslagen die in de leerfase
onmiddellijk daaraan voorafgaande zijn bereikt. Nuttin bepleitte op basis van deze 'parallel-
len' tussen laatste jaar Secundair Onderwijs en eerste jaar Universiteit een veralgemeende
toelatingsproef. Janssen stelde in zijn benaming nadrukkelijk de vraag naar de begripsvalidi-
teit van dit merkwaardig sterke gegeven. Het lijkt er op dat deze nu inderdaad verder uit te
klaren valt in de richting van Ausubel's citaat. Zou deze 'bagage' m.a.w. niet voor herwaarde-
•"ing in aanmerking moeten komen? Daarop te richten vaUdatie-onderzoek zou meteen de
rationale van het thans in deze studierichting vigerende toelatingsexamen - ook ten overstaan
^an het actuele toelatingsbeleid in andere studierichtingen in het Belgisch universitair onder-
lijs - nog sterker kunnen funderen ...

REFERENTIES

'-'■t de literatuur

^Penburg, E. (1980). Untersuchungen zur Studienzufriedenheit in der heutigen Massenuniversität.
Frankfurt am Main, P.D. Lang, Europäische Hochschulschriften Reihe VI (Psychologie) Bd.
72.

"'ggs, J. (1979). Individual differences in study processes and the quality of learning outcomes. Higher
Education, 8,
381-394.

^-hristiaens, X. (1969). De predictie van het studiesucces in het Hoger Onderwijs. Psychologica Belgica,
IX-2,
167-189.

Corte, E., e.a. (1981). Beknopte didaxologie. Groningen; Wolters-Noordhoff.
Entwistle, N., Hanley, M., & Hounsell, D. (1979). Identifying distinctive approaches to studying. Higher
Education, 8,
365-380.

anssen, P.J. (1970,1971). Componenten van behaalde studieresultaten in enkele eerste kandidaturen:
een psychodiagnostische exploratie. 1. Prolegomena. 2. Resultaten.
Psychologica Belgica, X-2,
j 181-199 en 1-22.

anssen, P.J. (1980). Over studeren en doceren op kandidatuurniveau; een inventaris van getuigenissen
van eerstejaars Psychologie en Pedagogische Wetenschappen aan K.U. Leuven. In:
Gedrag,
dynamische relatie en betekeniswereld. Liber Amicorum Prof. J.R. Nuttin.
Leuven, Universitaire
- Pers Leuven, 393-422.

anssen, P.J. (1982). Dimensies in de studiebeleving. In: De Corte, E. (Ed.), Onderzoek van onderwijs-
leerprocessen; stromingen en actuele onderzoeksthema's; bijdragen tot de onderwijsresearch-
. dagen 1981.
Harlingen, Flevodruk/Stichting voor Onderzoek van het Onderwijs, 57-72.

'-acante, M.F.E. (1983). Van intelligentie, persoonlijkheid, studiestrategie en studeergedrag naar stu-
dieresultaat.
Pedagogische Studiën, 60, 289-299.

-ocr page 40-

36 Studietijden, -belevingen en -strategieën bij Eerstejaars Burgerlijk Ingenieur

Lavin, D.E. (1965). The prediction of academic performance. New York: The Russell Sage Foundation.

Marton, F. (1975). On non-verbatim learning. I: Level of processing and level of outcome. Scandinavian
Journal of Psychology, 16,
273-279.

Nuttin, J. (R.) (1950). L'aptitude aux études universitaires. Revue des questions scientifiques, 11,
161-183.

Pask, G. (1976a). Conversational techniques in the study and practice of education. British Journal of
Educational Psychologie, 46,
16-36.

Pask, G. (1976b). Styles and strategies of learning. British Jourruil of Educational Psychology, 46,
128-148.

Peeters, G. (1967). Forming interdependent impressions of personality; on person perception as a
function of relational structures.
Psychologica Belgica, Vll, 129-139.

Stinissen, J., & Vander Steene, G. (1980). Oriëntering en selectie voor de universiteit. In; Gedrag,
dynamische relatie en betekeniswereld. Liber Amicorum Prof. J.R. Nuttin.
Leuven, Universitaire
Pers Leuven, 423-455.

Svensson, (1977). On qualitative differences in learning III - Study skill and learning, British Journal of
Educational Psychology, 47,
233-243.

Van Deynse, N., Smet, M., Henderikx, P., & De Neve, H. (1984). Studietijden en studieresultaten bij
eerstejaars Burgerlijk Ingenieur aan de K.U. Leuven.
Tijdschrift voor Onderwijsresearch, 9,
171-179.

Yerhelst, N., & Vander Steene, G. (1972). A. Gulliksen item-analysis program. Behavioral Science, 17,
491-493.

Uit niet gepubliceerde bronnen

Verhandelingen aangeboden (in het vermelde jaar) tot het verkrijgen van de graad van (a/b) in de Faculteit

der Psychologie en Pedagogische Wetenschappen aan K. U. Leuven

a) Doctor in de Psychologie

Laçante, M. (1980). Van intelUgentie, persoonlijkheid, studiestrategie en studeergedrag naar studiere-
sultaat; aanzet tot de ontwikkeling van een theorie inzake studeren op niveau eerste kandida-
tuur.

b) Licenciaat in de Psychologie

Debaets, H. (1980). Bijdrage tot de optimaUsering van de vragenhjst studiestrategie; onderzoek bij
eerstejaars Psychologie en Pedagogische Wetenschappen, anno 1980-1981, K.U. Leuven.

Decruyenaere, M. (1980). Studiestrategie en studieresultaat; een exploratief onderzoek bij eerstejaars
Psychologie in de üjn van het werk van Marton en Svensson.

Janssens, J. (1982). De eerste kandidatuur een eerste en een tweede maal; studiebelevingen van
eerstejaars Psychologie en Pedagogische Wetenschappen als eerstejaars en als bisser.

Moens, M. (1983). Componenten binnen de studiestrafegiedimensie hoHsme versus serialisme; een
exploratief onderzoek bij eerstejaarsstudenten, academiejaar 1981-1982.

Manuscript ontvangen 29-11-1983

Definitieve versie ontvangen 22-5-1984

Adres auteur: KathoUeke Universiteit Leuven, Dienst Universitair Onderwijs, Krakenstraat 2, B-3000

Leuven, België.

-ocr page 41-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 1, pp. 37-41

Notities en Commentaren

Kanttekeningen bij het evaluatieplan voortgezet
onderwijs

•J'- Scheerens
SVo*

INLEIDING

Gezien de voorgeschiedenis vormen de pogingen om in het eind 1983 verschenen eva-
luatieplan voortgezet onderwijs
evaluatie-criteria te formuleren, het opvallendste kenmerk
Van deze nieuwe stap in de continuing story van het komen tot een evaluatie van de onderwijs-
vernieuwing in het voortgezet onderwijs.

Nog medio 1981 werd het vooraf formuleren van evaluatie-criteria in een concept beleids-
notitie van de Minister van Onderwijs en Wetenschappen 'belastend' genoemd voor de
ontwikkehng van het Middenschoolonderwijs. De pogingen tot een middenschoolevaluatie
Vormen overigens beslist geen succes-verhaal (Scheerens, 1983), reden te meer om het
Voorliggende plan eens nader onder de loupe te nemen. Daarbij zal het plan worden opgevat
3's een voorstel voor
evaluatie van de vernieuwingen in het voortgezet onderwijs, ook al wordt
Soms de indruk gewekt dat het accent vooral ligt op
informatieverzameling over het vigerende
Voortgezet onderwijs.

KANTTEKENINGEN

Achtereenvolgens zal worden ingegaan op het beslissingskader van de evaluatie, het 'kritisch
gehalte' van de voorgenomen evaluatie, de 'evalueerbaarheid' van dc betrokken onderwijs-
innovatie, methodologische aspecten en de besturing en organisatie van de evaluatie.

^et beslissingskadcr van de evaluatie

Varianten bij de uiteindelijke beslissing over de inrichting van het v.o. zouden kunnen zijn:
^el of niet geïntegreerd v.o., de mate van integratie (variërend van een geïntegreerd brugjaar
tot een 3-jarige geïntegreerde onderbouw) en al dan niet 'tweesporigheid' (geïntegreerd naast
categoriaal v.o., eerste fase). Over de aard en de termijn van deze beleidsbeslissingen bestaat
echter nog veel onduidelijkheid. Enerzijds worden de beleidsbeslissingen steeds verder
^'tgesteld, anderzijds wordt de politieke strijd om het v.b.o. of de middenschool continu
^voerd (bijvoorbeeld als het gaat om de uitbreiding van het aantal experimenteerscholen).
De voorgenomen evaluatie komt daarmee enigszins in de lucht te hangen. Het evaluatieplan
'edt op dit belangrijke punt geen uitsluitsel. Op zichzelf behoeft deze onzekerheid over de
eslissingscontext niet noodzakelijkerwijs een beletsel te zijn voor de uitvoering van een
Srootschalige evaluatie als deze. Getracht kan worden de bestaande tegengestelde verwach-
'ngen over de betrokken onderwijsvernieuwing te formuleren als toetsbare voorspellingen
l^gl- Hofstee, 1982). Mits een aldus onderbouwd evaluatie-onderzoek deskundig en onaf-
®nkelijk wordt uitgevoerd mag worden aangenomen dat de resultaten ervan, juist gegeven

t^ betreft hier een commentaar dat op persoonlijke titel geschreven is en los staat van eventuele
°ekomstige reacties van de SVO op het evaluatieplan in kwestie.

-ocr page 42-

38 Notities en Commentaren

de politieke tegenstellingen, een rol zullen spelen bij de uiteindelijke besluitvorming. Vol-
ledig pessimisme op dit punt lijkt me alleen gerechtvaardigd wanneer de politiek de besturing
van de evaluatie zelf zou bepalen. In de verdere beschouwing over het evaluatieplan zullen
daarom vragen naar het kritisch gehalte en de onafhankelijke uitvoering en besturing van de
evaluatie een belangrijke plaats innemen.

Kritisch gehalte van de voorgenomen evaluatie

Het feit dat er in dit plan evaluatie-criteria worden geformuleerd in termen van een vergelij-
king tussen vernieuwd en bestaand onderwijs is een belangrijke stap op weg naar een
evaluatie die er 'iets toe doet' en niet vrijbUjvend is. Hetzelfde geldt voor het in aanmerking
nemen van effect-metingen en rendementsbepahng. Het hjkt er op dat het stadium waarin al
schermend met vage noties als 'ontwikkehngsexperimenten' produktgerichte en vergelijken-
de evaluatie taboe werd verklaard nu eindehjk een gepasseerd station is geworden.

Bij een nadere bestudering bhjken de voorstellen tot effectbepaling echter nogal wat
'escapes' te bevatten. Bij de criteria die betrekking hebben op leerresultaten is onder meer
sprake van leerlingen van het vernieuwde onderwijs die op het overlappend gebied in het
onderwijsaanbod 'geen slechtere resultaten' behalen dan die van het categoriaal voortgezet
onderwijs (p. 43). Men mist hier echter een vergehjkingsmaatstaf waarmee wordt aangegeven
dat leerhngen in het vernieuwde v.o. betere resultaten moeten behalen op de gebieden die
gemarkeerd worden door de specifieke vernieuwingsdoelen.

Herhaaldehjk wordt in het plan gewezen op de vertekenende invloed van de situatie van
tweesporigheid (dat wil zeggen dat in de periode waarin met v.b.o. geëxperimenteerd wordt
het bestaande stelsel bhjft voortbestaan). De representativiteit van de experimenteerscholen
en de vergehjkbaarheid met het vigerend onderwijs zijn daarbij in het geding. De notie dat er
in deze ook een aktief beleid zou kunnen worden gevoerd, namelijk ten aanzien van de
selectie van experimenteerscholen, waardoor representativiteit en vergelijkbaarheid vergroot
kan worden, treft men in het plan niet aan. Evenmin vindt men er een programmatische
doelsteUing om de verondersstelde vertekenende invloed van selectiviteit nader te bestuderen
en in aanmerking te nemen bij de kwantificering van standaarden. Tenslotte wordt ook in dit
plan het 'ontwikkelingskarakter' van de onderwijsvernieuwing in verband gebracht met
'onmogelijkheden en onwenseUjkheid' om bij alle uitkomsten (ten aanzien van leerresulta-
ten) 'bijvoorbeeld aan te geven in welke richting een positief oordeel te zoeken is' (p. 43) Op
compUcaties in verband met dit 'ontwikkeUngskarakter' zal bij het volgende aandachtspunt
nader worden ingegaan.

Evalueerbaarheid van de vernieuwing van het voortgezet onderwijs

De innovatie-strategie die bij het Middenschool-experiment gevolgd is leidde tot zeer uit-
eenlopende ontwikkeUngen op de verschillende experimenteerscholen. Ondanks het voor-
nemen in de nota 'Verder na de basisschool' om te komen tot een meer doelgerichte
curriculum-ontwikkeUng, ziet het er niet naar uit dat de aanbevelingen van Creemers en De
Vries (1981) om te komen tot een meer door deskundigen gestuorde ontwikkeling bij de
v.b.o.- experimenten in praktijk zullen worden gebracht. De consequentie hiervan is dat er
waarschijnhjk Vooraf weer aanzienhjke onduidelijkheid zal bestaan omtrent het te evalueren
vernieuwingsprogramma. En, ook de eindtermen zijn nog 'in ontwikkeUng'. Als men er niet in
slaagt tijdig (uit het plan valt op te maken dat men de pariementaire besluitvorming over het
v.b.o. nu in 1988 verwacht) te komen tot operationele procedures om leerresultaten vast te

-ocr page 43-

J. Scheerens 39

stellen zou een belangrijk deel van de produktgerichte evaluatie onmogelijk worden. Bij de
Verdere uitwerking van het plan zou daarom aan dit onderdeel hoge prioriteit moeten worden
gegeven.

In het plan worden de research-technische problemen van een vergelijkend opgezette
Produktevaluatie in de gegeven situatie onvoldoende onder ogen gezien. Naast de problema-
tiek van het formuleren en operationaliseren van eindtermen levert de te verwachten diversi-
teit van uitvoeringsvarianten problemen op ten aanzien van de zeggingskracht van vergelij-
kende uitkomsten. In het verleden zijn deze problemen wel opgevoerd als argumenten om
maar helemaal van een vergelijkende produktevaluatie af te zien, daarmee de vicieuze cirkel
van een ondoorzichtige plannings- en implementatiestratiegie en immunisering tegen em-
pirische toetsing sluitend. Met het verloop van de jaren waarin men 'vanuit de basis' aan het
Vernieuwen is wordt de uitspraak dat het programma nog niet aan evaluatie toe is echter
steeds meer zelf een evaluatieve uitspraak, (namelijk over de non-events waartoe de nor-
matief-reëducatieve innovatie-strategie kennelijk zou leiden).

Hoe is een vergelijkend produktevaluatie in het kader van de gegeven setting dan eventueel
^el te realiseren (er vanuit gaande dat de operationaliseringsproblematiek is opgelost)? Mijns
"iziens zijn daartoe twee benaderingen geschikt, die bij voorkeur in combinatie zouden
"loeten worden toegepast:

~ een grofmazige overall-evaluatie waarin (globaal getypeerde) uitvoeringsvarianten en
contextuele, implementatie-beïnvloedende factoren, gerelateerd worden aan effectmetin-
gen; (problemen waaraan zo'n opzet het hoofd zou moeten bieden zijn onder meer,
moeilijk te controleren selectie- en achtergrondscondities, grote diversiteit binnen ruimer
gedefinieerde uitvoeringsvarianten dan wel beperkte aantallen eenheden binnen nauwer
gedefinieerde uitvoeringsvarianten);

enkele kleinschalige, zo goed mogelijk gecontroleerde veldexperimenten.

'Methodologische aspecten

het voorafgaande is uitgegaan van het standpunt dat vooral produktcriteria en effectmetin-
^n van belang zijn voor een kritische evaluatie (zie ook Hofstee, 1982, Scheerens, 1984).

aarmee wil niet gezegd zijn dat de criteria die in het evaluatie-plan met betrekking tot
■■andvoorwaardelijke aspecten, instroom en toelating en het onderwijsproces geformuleerd
^'jn, geen waarde zouden hebben. Ook de vergelijkende citeria ten aanzien van bijvoorbeeld
de gewenste heterogeniteit van de leerlingenpopulatie in het vernieuwde v.o. zijn zeker van
^tekenis. Het is meer een kwestie van prioriteit. Aannemende dat de verdere uitwerking en
operationalisering van het plan gepaard gaat met de verdeling van schaarse middelen is het
^ehter wel van belang om die prioriteit te stellen.

'n het plan wordt voorgesteld om de beschrijving van onderwijsaanbod en onderwijs-
^erprocessen 'inrichtings- en vormgevingsaspecten' te doen plaatsvinden door middel van
rapportages door scholen en ondersteuningsinstellingen. Hier wordt dus gekozen voor in-
ormelere vormen van informatie-verzameling dan onderzoek. Dit heeft duidelijke nadelen.

te beginnen mist men op deze wijze de methodische discipline, inherent aan het doen van
^^tenschappelijk onderzoek, inclusief de infrastructuur die er op toeziet dat deze wordt
"^pleefd. Maar bovendien gaat het hier om beschrijvingen van direct betrokkenen en
eianghebbenden. Om beide redenen komt de uiteraard ook voor het beleid wenselijke
Jectiviteit van de gegevensverzameling in gevaar. Het argument dat deze wijze van infor-
atie-verzameling 'mede om financiële redenen' gekozen wordt is merkwaardig. De redene-
"8 dat docenten en 'ondersteuners' in deze goedkoper zouden zijn dan onderzoekers kan

-ocr page 44-

40 Notities en Commentaren

men alleen waarmaken als er vanuit wordt gegaan dat deze groepen functionarissen zoveel
'lucht' in het reguUere takenpakket zouden hebben dat zo'n procesbeschrijving er nog wel bij
kan. Tenslotte valt op dat in het evaluatieplan een zwaar accent op informatieverzamehng
gelegd wordt. Tegehjkertijd komen andere methodische aspecten van evaluatie zoals de
typering van evaluatieve conclusies of inferenties waartoe gekomen zou moeten worden en
ideeën over het 'overall'-evaluatie design (de combinatie en onderlinge relatering van infor-
matiestromen) niet of nauweUjks aan de orde. Op de research-technische problemen van een
vergelijkende produkt-evaluatie is in de vorige paragraaf al gewezen.

De besturing en organisatie van de evaluatie

Wanneer men, met de Commissie Hoofdstruktuur Rijksdienst (de zogenoemde commissie
Vonhoff) van mening is dat beleidsevaluatie gezien moet worden als onderdeel van de
beleidscontrolerende functie van het parlement, moeten er vraagtekens geplaatst worden bij
het feit dat de in het evaluatieplan voorgestelde coördinatiecommissie gedomineerd wordt
door ambtenaren (in de persoon van de voorzitter, het secretariaat en waarnemers vanuit
twee departementen). Immers, het beleid van de minister is het object van evaluatie en te
beoordelen instanties zijn meestal niet de meest onafhankelijke bestuurders van hun (zelf-)
evaluatie.

Verder moet de besturingsstructuur voor een landehjke beleidsevaluatie als deze voldoen
aan eisen van deskundigheid, coördinerend vermogen en daadkracht. De coördinatiebe-
hoefte die geïndiceerd is met het voornemen om te werken met meerdere informatiestromen
en deelprojecten wordt weUswaar in het evaluatieplan genoemd, maar niet consequent
vertaald in voorstellen voor een uitvoeringsstructuur die dit aan kan. Opvallend daarbij is dat
ieder appèl op de verantwoordelijkheid van professionele onderwijsonderzoekers en coördi-
nerende instelUngen op dit terrein achterwege bhjft. Voor de gedachte dat uitvoerende
evaluatie-onderzoekers zowel bij de architectuur van de evaluatie als bij het formuleren van
evaluatieve conclusies een belangrijke rol zouden kunnen spelen is in het plan geen plaats.
Mijns inziens zou het zwaartepunt van de verdere uitwerking van het evaluatieplan juist
gelegd moeten worden bij een project-organisatie of consortium van evaluatie-onderzoekers,
waarbinnen ook de coördinatie van de verschillende informatiestromen geregeld zou moeten
worden. De leiding van deze projectorganisatie zou de verantwoordelijkheid voor de uitvoe-
ring van de evaluatie moeten dragen, waarbij de evaluatierapporten geadresseerd zouden
moeten worden aan minister en parlement. De 'meta-bestudering' zou door de Stichting voor
Onderzoek van het Onderwijs (SVO) dan wel een speciale commissie van deskundigen onder
auspiciën van SVO uitgevoerd moeten worden. -

Resumerend: Het evaluatieplan voortgezet onderwijs biedt zekere perspectieven voor een
niet-vrijbUjvende evaluatie van de vernieuwing van het voortgezet onderwijs. Om die per-
spectieven waar te maken moet inhoudehjk gezien prioriteit gegeven worden aan het toets-
baarmaken van de bestaande poUtieke tegenstelüngen, de verdere uitwerking van de effectbe-
pahng en een nadere doordenking van de design-problematiek. Op het vlak van de bestuurlij-
ke randvoorwaarden moet eerst en vooral gekomen worden tot een onafhankelijker eH
daadkrachtiger besturingsstructuur voor de evaluatie dan in het plan wordt voorgesteld.

Intussen hjkt het er overigens op dat de planning van de evaluatie zelf opnieuw zodanig
speelbal is binnen het poUtieke krachtspel rondom de vernieuwingen in het v.o. dat ook op di'
terrein de besluitvorming hoogstens 'voortmoddert' zoniet uitblijft. Het gegeven dat de
parlementaire behandeling van het evaluatieplan pas 11 maanden na de verschijning
ervan
heeft plaatsgevonden noopt niet tot optimisme.

-ocr page 45-

J. Scheerens 41

LITERATUUR

Creemers, B.P.M., & De Vries, A. (1981). Constructie en invoering van de Middenschool. Pedagogische
Studiën
58: 357-370.

Hofstee, W.K.B. (1982). Evaluatie: een methodologische analyse. Tijdschrift voor Onderwijsresearch 7:
193-202.

^nisterie van Onderwijs en Wetenschappen Evaluatieplan voor het Voortgezet Onderwijs. Tweede

Kamer der Staten-Generaal, vergaderjaar 1983-1984, 18210.
Scheerens, J. (1983). Het sectoronderzoek: onderwijsonderzoek in de marge van wetenschap en beleid?

SVO-reeks no. 69, Flevodruk: Harlingen.
Scheerens, J. (1984). Beleidsgericht evaluatie-onderzoek tussen aanpassing en kritiek. Pedagogische
Studiën
61: 116-126.

doe. nr. 0086B

Manuscript ontvangen 30-8-1984

-ocr page 46-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 1, pp. 42-43.

Boekbesprekingen

Hambleton, R.K. (Ed.),Applications of item response theory. Vancouver, Canada: Educatio-
nal Research Institute of British Columbia, 1983.

Het boek bestaat uit dertien hoofdstukken van verschillende auteurs betreffende item-respons theorie.
De eerste vijf hoofdstukken geven een inleiding in de theorie; de laatste acht behandelen toepassingen.

In het eerste hoofdstuk (Bejar) wordt een algemene inleiding in de theorie gegeven. Het aardige is dat
de item-respons modellen niet onmiddelhjk gepostuleerd worden; er wordt daarentegen een psycholo-
gische rationale gegeven voor het twee-parameter model. In het tweede hoofdstuk (Swaminathan) wordt
ingegaan op de schatting van parameters. De belangrijkste schattingsmethoden worden besproken en er
wordt niet heen gelopen om problemen, zoals incidentele parameters in het twee- en drie-parameter
model. In het derde hoofdstuk geeft Wingerski een beschrijving van het computerprogramma LOGIST
De manier waarop met name de raad-parameter uit het drie-parameter model berekend wordt, boezemt
mij weinig vertrouwen in. In het vierde hoofdstuk spreekt Traub zijn twijfel uit of enig item-respons
model bruikbaar is voor toepassing op studietoetsen. Hij is met name kritisch wat betreft de aanname van
de één-dimensionahteit en laat - in gedachten experimenten - zien dat deze aanname geschonden wordt
door (1) verschillen in onderwijsprogramma, (2) verschillende geneigdheid tot raden en (3) afnemen van
de studietoets onder een tijdslimiet. Uiteraard zijn dit belangrijke oorzaken voor de schending van een
item-respons model, maar het gaat mij te ver te stellen dat item-respons modellen daarom niet van
toepassing kunnen zijn op studietoetsen; het gaat er veeleer om hoe ernstig de schendingen zijn. In het
vijfde hoofdstuk bespreken Hambleton en Murray methoden om de passing van item-respons modellen
te onderzoeken. Zij stellen dat er tot nu toe te veel nadruk is gelegd op statistische toetsen en propageren
het gebruik van andere technieken, zoals grafische inspectie procedures. Zij onderscheiden drie typen
methoden: (1) controleren van model aannamen, bijvoorbeeld de ééndimensionaliteit; (2) controleren
van modeleigenschappen, bijvoorbeeld de invariantie van item parameters over verschillende groepen
(bijv.: Negers en Blanken); (3) controleren van voorspelhngen vanuit het model, bij voorbeeld de
voorspelling dat de residuen bij items met een bepaalde inhoud het hoogst zullen zijn. Het onderscheid in
deze drie typen is mij niet geheel duidelijk, maar dat neemt niet weg dat de auteurs een aantal zeer
interessante en nuttige technieken vermelden en toepassen op studietoets gegevens. In het zesde hoofd-
stuk bespreekt Woods modellen van Samejima, waarin niet alleen de item karakteristieke curve (voor het
correcte alternatief) maar ook respons karakteristieke curven (voor de afleiders in het item) worden
gehanteerd. Hij stelt voor itemschrijvers zelf item en respons karakteristieke curven te laten schatten en
deze informatie te gebruiken bij het herschrijven van hun items. Er is echter geen empirische evidentie
dat itemschrijvers deze curven redelijk kunnen schatten; yooralsnog hjkt mij dit een nogal ondoordacht
voorstel. In het zevende hoofdstuk bespreken Harnisch en Tatsuoka een aantal afwijkendheidsindices,
d.w.z. maten die aangeven in hoeverre het antwoordpatroon van een bepaald persoon afwijkt van het
patroon kenmerkend voor de gehele groep. Zij berekenen de indices voor leerlingen die een Wiskunde
toets hebben gemaakt en rapporteren eigenschappen van de verdehngen en de intercorrelaties. Aange-
zien er geen criterium voor afwijkendheid is - zoals in simulatiestudies - dragen de resultaten van deze
studie niet erg veel bij. In het achtste hoofdstuk rapporteert Yen een uitgebreid verslag van de constructie
van een test met behulp van item-respons theorie. Het hoofdstuk geeft niet vjel nieuwe inzichten, maar is
erg nuttig voor testconstructeurs bij wijze van uitgewerkt voorbeeld. In het negende hoofdstuk presente-
ren De Gruyter en Hambleton een originele bijdrage betreffende de selectie van items voor criterium-
georiënteerde studietoetsen. Zij gebruiken de informatiefunctie om items te selecteren die optimaal
discrimineren tussen 'masters' en 'nonmasters'; bovendien tonen zij dat deze procedure leidt tot een
vermindering van het percentage foutieve classificaties (ten onrechte geslaagd en ten onrechte gezakt). In
het tiende hoofdstuk geeft Ironson een nuttig overzicht van indices voor vraag-onzuiverheid ('item bias')
gebaseerd op item-respons theorie. Zij spreekt haar voorkeur uit voor het drie-parameter model en

-ocr page 47-

Boekbesprekingen 43

noemt ook de mogelijkheid vraag-onzuiverheid stapsgewijs te onderzoeken: in de eerste stap de meest
onzuivere items verwijderen en daarna de procedure herhalen bij de resterende items. In het elfde
hoofdstuk geven Cook en Eignor een elementaire en heldere inleiding in het equivaleren van tests met
behulp van item-respons theorie. In het twaalfde hoofdstuk bespreken Hambleton en Martois een
methode om op grond van een gemakkehjke, gemiddeld moeilijke en moeilijke test de scores op een
norm' test (van gemiddelde moeilijkheidsgraad) te voorspellen. De methode blijkt in het algemeen goed
te Voldoen. Het drie-parameter model had de beste resultaten bij een moeilijke test en het Rasch-model
"ij tests van gemiddelde en lage moeihjkheidsgraad. In het laatste hoofdstuk bespreken Pandey en
Carlson een toepassing op 'assessment', waarbij de belangstelhng uit gaat naar informatie over groepen
Personen in plaats van individuen. De laatste jaren zijn er item-respons modellen ontwikkeld met
parameters voor groepen personen, bijv. één parameter voor een gehele schoolklas en geen parameters
Voor de leerlingen binnen de klas. Het voordeel is dat het aantal parameters sterk gereduceerd wordt,
^aardoor de schatting ervan verbeterd kan worden. Naar mijn mening is dit één van de interessantste en
belangrijkste ontwikkelingen op het gebied van de item-respons theorie, met name door de toepasbaar-
heid in assessment.

Samenvattend, dit is een bijzonder leesbare en belangwekkende bundel. Het boek geeft een goed en
■nodern overzicht van de vele mogelijkheden en toepassingen van de item-respons modellen.
Ik blijf mijn
edenkingen houden tegen de schatting van de parameters in het twee- en drie-parameter model, met
name de raad-parameter in het drie-parameter model; het Rasch-model en de modellen met parameters
^oorgroepen personen vertonen dit probleem echter niet. De ontwikkelingen in de item-respons theorie
^'in fascinerend en verdienen een brede belangstelling; de bundel draagt daar zeker aan bij.

G.J. Mellenbergh
U
.V.A.

A. F. Swart
Ver het begrijpen van menselijk gedrag
ßoom, Meppel/Amsterdam, 1982

is een situatie ontstaan waarin wetenschapsfilosofen als een soort hedendaagse condotticri namens
Verschillende scholen in de psychologie met elkaar slag leveren. Hans Swart is een van hen. In dit boek
reedt hij naar voren als de antagonist van de hermeneutiek, de fenomenologie, het marxisme, de
f'tische psychologie en het Verstehen in zijn verschillende varianten. Al deze stromingen laten zich
^echt verenigen met het verklaringsmodel dat ooit geformuleerd werd door Hempel en Oppenheim,
énkele van de genoemde stromingen laten zich overigens wel verenigen met dit model, maar dat is
nidelijk tegen de zin van hen die aan deze stromingen hun hart hebben verpand. Men doet hen ook geen
Senoegen door dit aan te tonen. Het verklaringsmodel van Hempel en Oppenheim wordt door Hans
^^art aanvaard.

Swart baseert zijn betoog op wat hij noemt de eisen van methodologische correctheid. Hij verdedigt die
e'^en, toont hun vanzelfsprekendheid, schetst in welke mate alternatieve vcrklaringschcma's bedoeld zijn
°n> er van af te wijken cn berekent dat men daarmee doorgaans meer problemen oproept dan men dacht
® Vermijden.
De eisen van methodologische correctheid omvatten de voorwaarden die Hempel cn
PPenheim aan een verklaring stelden: (1) het explanandum volgt logisch uit het cxplanans, (2) het
"Planans bevat naast begincondities één of meer wetten, (3) het explanans moet empirische inhoud
^ebben en
(4) het explanans moet waar zijn. Swart nuanceert de eisen (1) en (2) inzoverre het
*Planandum ook door het explanans inductief aannemehjk gemaakt kan worden, daar het geen dcter-
'nistische maar een probabilistische wet bevat.
Deze nuancering is gangbaar. Ter completering van de
ethodologische correctheid worden nog enkele normen van toetsing toegevoegd die vastleggen, dat een
't de hypothese afgeleide testimplicatie objectief en empirisch beproefd kan worden door een ieder die
^ wil. In geval zij niet uitkomt leidt toetsing tot weerlegging van de hypothese en in geval zij wel uitkomt,
^ Voorlopige steun.
Volgens Swart geven vooral de eisen dat een verklaring een wet bevat cn dat een
etsing objectief is, binnen de menswetenschappen aanleiding dit verklaringsschema te verwerpen en

-ocr page 48-

Boekbesprekingen 44

een andere weg in te slaan. Volgens de auteur leidt een en ander tot mets.

Dilthey introduceerde het verschil tussen Erklären en Verstehen en dacht daarmee de methodologische
kloof te legitimeren tussen de natuur- en menswetenschap. Bij de laatste gaat het om begrip, verworven
via inleving. Men komt er alleen maar achter waarom Vincent van Gogh zijn oor afsneed door zich in zijn
situatie te verplaatsen en via empathie het begrip te verwerven, dat zulks geschiedde uit homofiele
betrokkenheid bij Gauguin of teleurstelling over het huwelijk van Theo, of.... De literatuur vermeldt wel
dertien interpretaties. Dat openbaart direct al een zwakte van het begrijpen, namelijk hoe tussen één en
ander te kiezen als men afziet van de gangbare vormen van bewijsvoering. Ook oppert men als bezwaar
tegen deze onderzoekstrategie dat er geen onafhankelijke steun aan een interpretatie verschaft kan
worden buiten de subjectief ervaren plausibiliteit om. Swart zegt dat op minstens twee punten het
Verstehen strijdig is met zijn code van methodologische correctheid, te weten, de intersubjectiviteit bij
toetsing en het beroep op een wet. Hij vergelijkt het Verstehen op een vijftal punten met het verklaren. Ik
noem er twee: „Het Verstehen van gedrag is niet noodzakelijk om van dat gedrag een goede verklaring te
geven' (p. 32) en 'Verstehen van gedrag leidt gemakkelijk tot schijnverklaringen' (ibid.). De in deze
stellingen neergelegde bezwaren gelden niet voor het verklaren. Ondanks de toelichting zit er iets
onredelijks in elk. Substitueert men ter opmaking van de balans
verklaren voor Verstehen in beide
stellingen, dan is de eerste stelling niet houdbaar vanwege een innerlijke tegenspraak en de tweede
onbegrijpelijk geworden door een anomalie. Hierdoor wordt op louter semantische gronden het verkla-
ren in een gunstige positie gebracht. Beter ware het geweest de beide strategieën op een extern punt te
vergelijken, bij voorbeeld voorspellend vermogen. In de toelichting doet Swart dat ook, maar zijn
stellingen zijn ongelukkig geformuleerd.

Pièce de résistance van het boek vormt hoofdstuk 3, waarin Swart een verklaringsmodel biedt, dat wel
voldoet aan de kanonieke eisen van methodologische correctheid. Gedragsverklaringen bezitten een
karakteristieke structuur.

Wanneer wij iemand een bepaalde handeling zien verrichten die wij de moeite van het verklaren waard
achten, dan zullen wij op zoek gaan naar relevante factoren die voor het ontstaan van die handeling
doorslaggevend zijn. Tevens zullen wij - min of meer expliciet - er van uitgaan, dat het gevonden
oorzakelijke verband wetmatig is en in een generale uitspraak kan worden vastgelegd. Sterker nog, daar
moeten wij wel van uitgaan, want als wij er in geslaagd zijn de typische oorzaak te vinden van iemand's
gedrag, dan achten wij de oorzakelijke verklaring bevredigend omdat wij menen ontdekt te hebben dat
onder gelijke omstandigheden dezelfde oorzaak bij iemand anders die even ontvankelijk is voor de
invloed van die factor, hetzelfde gevolg zal oproepen. Zo niet, dan is er kennelijk in het nieuwe geval een
andere factor in het spel, die indien opgespoord, het andersoortige gedrag op eigen wijze afdoende
verklaart, maar met behoud van de structuur van de verklaring die voor het oorspronkelijke gedrag gold.

Het gedrag van Vincent van Gogh wordt pas redelijk verklaard als wij zowel zijn situatie kennen als ook
de generalisatie bereiken dat iedereen in zijn situatie en behept met zijn gemoed, zijn oor afsnijdt en
schenkt aan de plaatselijke prostituée. Dat velen van ons dat niet doen ligt niet aan de geldigheid van
de
generalisatie maar aan de relatief zeldzame combinatie van factoren die in deze generalisatie worden
benoemd. Het betoog van Swart is in feite genuanceerder en gedetailleerder dan hier weergegeven, maar
de nadruk ligt in alle gevallen op het onontkoombaar beroep op een wetmatigheid die zelfs in
de
dagelijkse omgang rechtvaardigt waarom wij een bepaald gegeven beschouwen als de oorzakelijke
determinant. Wanneer wij iemand's gedrag verklaren door te verwijzen naar een dispositioneel kenmerk
van die persoon, b.v. ijdelheid, dan verwijzen wij impliciet ook naar een wetmatig verband dat tot
uitdrukking brengt dat ijdelheid onder typische omstandigheden leidt tot typisch gedrag en wij zullen
naar de relevante gegevens op zoek gaan die rechtvaardigen dat wij het oorzakelijk verband onder de
generale noemer van de dispositie ijdelheid brengen. Dat zulke verklarendé eigenschappen als ijdelheid
soms zeer heterogene factoren met elkaar verbinden moet ons niet in verwarring brengen. Jan vafl
Schaffelaar sprong naar beneden en Jan van Speyk zei 'dan liever de lucht in' en voegde de daad bij he'
woord. De algemene wet die hun optreden typeert laat zich kenschetsen als de gedragsdispositie van he'
politieke engagement maar er zijn additionele wetten die tot uitdrukking brengen welke situationele
factoren de mogelijkheden limiteren waarop het wetmatige concept van politieke betrokkenheid tot
uitdrukking komt.

De hermeneutiek betreft een procedure om de betekenis van een verschijnsel te achterhalen. Vele

-ocr page 49-

Boekbesprekingen 45

onderzoekers willen aan de hermeneutische werkwijze geen eigen methodisch karakter toekennen.
Merkwaardig genoeg is de hermeneuse ontstaan onder druk van de wetenschappelijke kritiek terwijl zij
'hans de toets van de wetenschappelijke kritiek niet kan doorstaan.
In de 18de eeuw ontstond het besef,
^oals
Swart schrijft, dat bijbelteksten in het licht van de wetenschap niet langer letterlijk genomen konden
y'orden.
Maar hoe moesten ze dan begrepen worden? Die vraag resulteerde in de kunst van het
'nterpreteren, ooit aardig aldus beschreven:
Houd een kat een muis voor en de kat zal tonen over welke
'^paciteiten hij beschikt.
Zo moet de mens zijn existentie aan de bijbeltekst voorhouden om daaraan te
Ontlokken wat hij ons te zeggen heeft. Dat is allemaal beeldspraak. Swart laat zien dat de hermeneuse
"■ets anders is dan het formuleren van een mogelijk juiste hypothese.
De manier waarop deze verworven
^ordt onttrekt zich aan elke systematiek en het bewijs van haar juistheid moet net als in elk ander geval
"og worden geleverd.
Een hermeneutisch verworven hypothese is in geen enkele zin begunstigd boven
een andere hypothese.

De kritiek die Swart levert op de fenomenologie volgt het klassieke patroon. De opdracht de ver-
schijnselen voor zich te laten spreken teneinde hun essentie te doorschouwen, is of overbodig of leidt tot
n'et meer dan een vooronderstelling. Van belang voor wetenschappelijk onderzoek is het opstellen en
beproeven van mogelijke verbanden tussen verschijnselen. Het is daarbij niet noodzakelijk, als het al
"hogelijk is, eerst hun wezen te doorgronden. Wat de fenomenologische methode realiseert is zeker niet
een beschrijving van de werkelijkheid die onherroepelijk waar is. Dit in weerwil van wat de fenomenolo-
gie belooft. Elke beschrijving is hypothetisch van aard en principieel aan verder onderzoek onderworpen.
A'S ik zeg wat het wezen van een hotelkamer is heb ik daarmee slechts een onderzoeksprogramma
geformuleerd. Ik heb er niet één afgerond.

Swart laat zien dat de modieuze belangstelling voor regelgeleid gedrag een eigentijdse variant is op het
Verstehen.
Men vraagt nu niet 'PVat bezielt hem?', maar 'Welke sociale en intersubjectieve maatstaven
''^guleren zijn gedrag?' ot'In welk taalspel is hij geïnvolveerd?'.
Dat kunnen nuttige vragen zijn, maar net
bij de verstehende methode leiden zij niet tot een uniek en beslissend antwoord.
Elk denkbaar
antwoord typeert niet meer dan een vaag of bewust besef van een regel bij diegene die de regel volgt.
Het
^twoord is de benoeming van een oorzakelijke factor in het verklaringsschema dat Swart plausibel acht.

schema vereist tevens het beroep op een wet, wil de verklaring sluitend zijn. Zeggen dat iemand een
'egel volgt maakt dat vereiste niet ongedaan.

öe auteur laat in de slothoofdstukken nog zijn licht schijnen op dc historische verklaring en de
Verklaring van de sociale werkelijkheid.
En opnieuw is zijn conclusie dat er geen reden is voor exclusivi-
eit. Men beroept zich ook hier altijd op een wet of generalisatie, zij het soms nogal impliciet.

Het betoog van Swart is aannemelijk. Ik kan mij met zijn conclusies zonder veel problemen verenigen
^aar hij roept bij mij weinig hartstocht op om dat ook daadwerkelijk te doen. Dat komt niet zo zeer door
e apodictische en soms zelfs verbiedende toon waarop de auteur spreekt. Dat stijlkenmerk moet
Waarschijnlijk teruggevoerd worden op de omstandigheid, dat de tekst gebaseerd is op een syllabus voor
f'udenten met wijsgerige ambities, die gevoelig zijn voor de verleidingen van de verboden vrucht van het
"■rationalisme. Het zij zo.

iJat het boek mij niet aanspreekt lijkt gebaseerd op de volgende bezwaren. Wie schrijft over het
j^^grijpen van menselijk gedrag zou aan moeten sluiten bij de realiteit van psychologisch onderzoek.
Dat
s oij Swart in zeer beperkte mate het geval. Hij is te veel verwikkeld in een filosofisch debat dat voor de
Psychologie als wetenschap alle kenmerken heeft van
een achterhoedegevecht. Deze filosofische betrok-
®nheid heeft ook
een negatief effect op de wervingskracht van zijn eigen betoog. Niet alleen zijn de
^oorbeelden nogal trivaal (zoals de vraag 'Waarom doet
Jan het raam dicht?'), maar ook het zwaartepunt
^an zijn verklaringsschema is dat.
Daarin valt om polemische redenen de nadruk op de verwijzing naar
^en Wetmatigheid.
Die moet er altijd zijn, maar heeft in Swart's woorden vaak niet meer postuur dan de
^"'gheid dat
'Iedereen in Jan's situatie het raam dicht zal doen.' Zoals gezegd ben ik het daar m abstracto
®e eens, maar voor de praktijk van onderzoek is deze stelligheid nietszeggend en misleidend.
Nietszeggend, omdat elke vraag waarom iemand zus of zo handelt impliceert dat een bevredigend
^"twoord betekent dat ieder ander onder gelijke omstandigheden net zo reageert.
Dat is een vanzelf-
Prekendheid. Ik aanvaard een factor pas als causale determinant onder aanname dat de ceteris paribus-
äusule geldt.
De nadruk ligt in onderzoek op de opsporing van die determinant, hetgeen geformuleerd
®n
Worden in de vraag 'Waarom doet Jan, evenals ieder ander die in precies dezelfde situatie zou

-ocr page 50-

Boekbesprekingen 46

verkeren, het raam dicht?'. Die formulering laat zien hoe weinig verhelderend het is naar een wetmatig-
heid van dit kahber te verwijzen, want de wetmatigheid is onderdeel van de vraag.

Het is ook misleidend, omdat de indruk wordt gewekt dat een verklaring sluitend gemaakt kan worden
door aan het gepostuleerde oorzakelijke verband simpelweg toe te voegen dat iedereen onder gehjk-
genoemde omstandigheden iets dergehjks doet. Zo komt men er wel erg gemakkehjk vanaf. Dit is
uiteraard niet wat Swart zegt, maar zijn betoog geeft aanleiding tot dit misverstand omdat het truïsme
geponeerd wordt als een methodologische openbaring. De auteur had naar mijn smaak met behulp van
reële psychologische voorbeelden scherper het ook door hem erkende verschil moeten aangeven tussen
de vorm van een verklaring en de empirische bewijsvoering dat de premissen, inclusief de wet, waar zijn,
binnen de vereiste vorm. Exclusieve nadruk op de vorm wekt bij psychologen onvermijdelijk de indruk
dat zij bij het begrijpen van menselijk gedrag met iets heel anders bezig zijn.

J. van Heerden
Universiteit van Amsterdam

-ocr page 51-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 1, pp. 47-48

Mededelingen

Ontvangen pubUkaties

Boef-van der Meulen, S.: Samenhang in de schoolgezondheidszorg. Rijswijk, SCP, 1984. Stukwerk
nr. 23.

Grift, W. van de: De invloed van schoolleiders en het schoolklimaat op de prestaties van leerlingen. Een
overzicht van 14 onderzoekingen en 3 schoolverbeteringsprojecten.
Amsterdam, S.C.O., 1984.
SCO Cahier nr. 26.

*Jnft, W. van de: Schoolleiders als begeleiders van onderwijsvernieuwingen - een overzicht van enkele

onderzoekingen -. Amsterdam, S.C.O., 1984. SCO Cahier nr. 25.
Groot, H. de: De prijs van avondonderwijs. Rijswijk, SCP, 1984. Stukwerk nr. 24.
Haanstra, F.
Kunstzinnige vorming en onderzoek. Amsterdam, S.C.O., 1984. SCO Cahier nr. 27.
'^ieuw, concreet en zichtbaar Advies over de innovatie in het basisonderwijs na 1985. Zeist, Onderwijs-
centrum, 1984. ARBO.

'njé, M.P. en A.H.J. Moelands: Een enquête naar wereldoriëntatie in de praktijk van lagere school.
Arnhem, CITO, 1984. Bulletinreeks nr. 26.
^os, E. en E. Keuken:
Werken aan schoolidentiteit. Hoevelaken, Utrecht, CPS/VOU, 1984.
•"s, Th.J.M.M. en Oud-de Glas, M.M.B.,
De keuze van taalgebruiksdoelen voor het vreemde-talenon-
derwijs.
Nijmegen: ITS, 1984 (Ac. Proefschrift)
'-'PPelschoten, J. (red.).
De student centraal: begeleiding in hel HBO. Deventer: Van Loghum Slaterus,

1984 (Serie: Docent en Praktijk in het HBO; 1)
'jde, P. van der (red.),
Leerplanontwikkeling en lesplanning. Deventer: Van Loghum Slaterus, 1984

(Serie: Docent en Praktijk in het HBO; 2).
Paninks, P. (red.).
Onderwijskundige ondersteuning van het HBO. Deventer: Van Loghum Slaterus,

1984 (Serie: Deventer en Praktijk in het HBO; 3).
elens, A.,
Psychologische achtergronden van studeerproblemen. Muiderberg: Coutinho, 1984.

D.J., Blijven zitten met zittenblijven? 's-Gravenhage: SVO (SVO-reeks 78) 1984.
behouder, M. e.a..
Leren communiceren. Groningen: WoUers-Noordhoff, 1984 (2e, geheel herziene

^eijnen, G.W., Van zes lol twaalf. 's-Gravenhage: SVO (SVO-reeks 79), 1984.
?"kel, H.J

.m. van. De diagnose van toetsvragen. Amsterdam: COWO, 1984 (Ac. Proefschrift),
"sen, T, & Wertheim, A.,
Buiten de orde. Dilemma: in de ontwikkeling van projektonderwijs. Nijmegen:
Q SUN, 1984.

bijter, D.N.M. de & Kamp, L.J.Th, van dtt. Statistical models in psychological and educational testing.
p Lisse: Swets & Zeitlinger, 1984.

cden, P. van den & Hauer, J. (red.). Analyse van multiniveaudata, 's-Gravenhage: SVO, (C'electa
„ Reeks), z.j.

.^'onderzoek in het onderwijs, 's-Gravenhage: SVO, 1984. (SVO-Reeks nr. 75).

R.J. in 't. De vlucht naar Isfahan! 's-Gravenhage: Vuga Uitgev., 1984.
J^entink, D.,
Onderwijsbeleid en beleidsvrijheid. 's-Gravenhage: SVO, 1984 (SVO-Reeks nr. 80).
®^nen, J.p.p. (eindred.).
Onderwijswetenschap en onderwijspraktijk. Een LAT-relatiel Purmerend:
Muussen, 1984.

^'ebrij, M., De ontwikkeling van researchprogramma's ab methodisch probleem. Amsterdam: VU
^ Boekhandel/Uitgev., 1984 (Dissertatie).

V h"' Schooluitval.Usse-. Swets & Zeitlinger, 1984 (Dissertatie).

Ja ' Oriëntatie op het beroep van leraar. Lisse: Swets & Zeitlinger, 1984 (Dissertatie).

issens, F.J.G., Vingers aan de pols. Tilburg: Uitgev. Zwijsen, 1984 (Onderwijskundige Brochuren
5 Reeks 305).

ände, J.P. van de, Gedragsobservatie.Gioningen: Wolters-Noordhoff, 1984 (Serie Praktische Gedrags-
wetenschap 1).

-ocr page 52-

48 Mededelingen

Inhoud Pedagogische Studiën

Jaargang 61
Oktober 1984

Praktijktheorieën in hypothetisch-deductief en retroductief perspectief, door S. Miedema.
Praktijktheorieën in het professionele perspectief van onderzoekers.

Reactie op A. Miedema: 'Praktijktheorieën in hypothetisch-deductief en retroductief perspectief, door
W.Th.J.G. Hoeben.

De professionele verantwoordelijkheid van de onderzoeker. Antwoord aan W.Th.J.G. Hoeben, door
S. Miedema.

Herkomstmilieu en sekse van leerhngen in relatie tot leerkracht-verwachtingen; impliciete selectie in het
basisonderwijs? door P. Jungbluth.

Sociaal beleidsonderzoek tussen aanpassing en kritiek. Reactie op J. Scheerens: 'Beleidsgericht evalua-
tie-onderzoek tussen aanpassing en kritiek' door M. van de Vall.

Over methodologische nauwgezetheid, wetenschappehjke kwaliteit en methodologisch perfectionisme
van beleidsgericht onderzoek. Een reactie op M. van de Vall: 'Sociaal beleidsonderzoek tussen aanpas-
sing en kritiek' door J. Scheerens.

Kroniek: Het ISATT-symposium 'Teacher Thinking: a new perspective on persisting problems in
education', door A.R.J. Halkes.

Studiedag Amsterdam Pedologisch Centrum

Het A.P.C. organiseert op vrijdag 1 maart 1985 een studiedag over het thema: Schooluitval, de storm en
wat nu?

Verschillende opvattingen over onderwijsbeleid en onderzoek.

De laatste tijd hebben een aantal pubhcaties, o.a. van Meijnen, Jungbluth en Van der Wolf flink wat stof
doen opwaaien. Hier en daar wordt generaliseerbaarheid van de onderzoeksresultaten wel wat overschat.
Om de discussie een wat realistischer karakter te laten krijgen zal op de studiedag aan de hand van
paperiezingen van o.a. Leune, Meijnen, Jungbluth, Soutendijk, Van Gennep, Hox, De Leeuw, Door-
nbos, Ruttèr (onder voorbehoud) en Van der Wolf gesproken worden over onderzoeks- en beleidscon-
sequenties.

Amsterdams Pedologisch Centrum
IJsbaanpad 9
1076 CV Amsterdam
Kosten: ƒ 20,-.

Inschrijven door overmaking van ƒ 20,- op girorekening 4500112 van het Sociaal-agogisch Centrum,
onder vermelding van 'Studiedag Schooluitval'.

De PAO-cursus 'Designs voor sociaal en gedragswetenschappelijk onderzoek' wordt gegeven van
maandag 4 t/m vrijdag 8 maart 1985 in het Psychologisch Laboratorium te Amsterdam; de docenten zijn
G.J. Mellenbergh, P. Vijn en J. van der Zouwen. Aan de orde komen: experimentele en quasi-experi-
mentele onderzoeksopzetten, statistische analyse van quasi-experimentele onderzoeksopzetten en me-
thoden voor het verzamelen van waarnemingen. Deelnemers kunnen nadere informatie verkrijgen en
zich opgeven bij mevr. T. Seubring, vakgroep Psychologische Methoden, Subfaculteit Psychologie UvA.
Weesperplein 8, 1018 XA Amsterdam (tel. 020-5253795). De kosten verbonden aan deelname bedra-
gen ƒ 250,-.

-ocr page 53-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 49-68.

Inhoudelijke en statistische analyse van een
leestoets

E. Bol N. D. Verhelst

Psychologisch Laboratorium Vakgroep PSM,

Utrecht Rijksuniversiteit Utrecht

abstract

In an experiment on teaching reading comprehension of informative texts a course consisting of
five main units was developed. Each unit was preceded by a 20-item muhiple choice test and
followed by a parallel test. The course started in the third grade and ended in the sixth grade of two
elementary schools. The tests were also administered to the pupils of a control school. On the basis
of hierarchic analyses of covariance the coherence of the tests and main effects were analysed. It
turned out that the various tests (with an exeption of one) were fairly reliable and showed
substantial covariances. Significant main effects were found.

In order to gain more insight into the relationships between items, 60 of the most homogeneous
items covering the whole course were selected and analysed according to the Rasch model. For
that purpose the 60 item test was administered to 856 pupils. At the same time a short text with 16
questions was administrated to 918 pupils (with an overiap of more then 500 subjects between the
two groups). This reading test was also Rasch analysed. After removal of three items the reading
test gave a good scale. However, the 60-item test was more reluctant. Factor analysis was
introduced as a means to group the items. Three groups of 14, 15 and 11 items respectively were
found. These groups produced good scales immediately. The three scales were interpreted on the
basis of the content of the constituting items, their intercorrelations and their relationships with
the reading scale.

In the discussion the application of the Rasch analysis and its hmitations in the construction of
useful scales in practical research is commented upon.

Inleiding

Het begrijpen van teksten wordt tegenwoordig veelal opgeval als een complex proces, waarin
"iformatie bottom-up en top-down wordt verwerkt aan de hand van cognitieve schemata
(Anderson, 1978; Hörmann, 1976; Rumelhart, 1977; Rumelhart & Norman, 1978).

Rumelhart en Ortony (1977) geven aan dat cognitieve schemata zeer verschillend van aard
kunnen zijn, van eenvoudige lijnenconfiguraties in de vorm van driehoeken en vierkanten
(waarbij de term Gestah zich sterk opdringt) tot complexe strukturen, waarin de samenhang
'ussen in de tijd verspreide gebeurtenissen is vastgelegd. In de zestiger jaren werd onderzoek
pdaan naar de wijze waarop ppn. logische problemen oplosten. Daarbij kwam naar voren dat
'Ogische problemen in veel gevallen werden gerepresenteerd in ruimtelijke vorm (o.a. Han-
del, London & Desoto, 1968; Huttenlocher, 1968).

Van Dam en Brinkerink-Carher (1982,1983) vonden duidelijke aanwijzingen dat lezers de
plaats van informatie in teksten onthouden in zuiver ruimtelijke schemata. Schematheoretici
als Anderson (1978), Kintsch en Van Dijk (1978), Rumelhart en Ortony (1977), Schank en
'^belson (1977) beschrijven cognitieve schemata als min of meer aanschouwehjke patronen
"^et een ruimtehjk karakter. Op grond van deze en dergelijke gegevens nemen wij aan dat de
Cognitieve schemata, waarin temporele informatiestromen kunnen worden geïntegreerd tot

Adres: Varkenmarkt 2, 3511 BZ Utrecht

-ocr page 54-

50 Inhoudelijke en statistische analyse van een leestoets

een overzichtelijk geheel, berusten op een strukturering en representatie van kennis, op
ruimtelijke basis (vgl. bijv. Bransford & Johnson, 1973).

In het Projekt Begrijpend Lezen van Zlakelijke Teksten (Bol, 1976, 1978, 1979, 1980,
1982a, 1982b; Bol, Gresnigt & Vroege, 1982) is deze gedachte als uitgangspunt gekozen in
een onderwijsleeronderzoek van het begrijpend lezen. Leerlingen van de derde tot en met de
zesde klas van de basisschool werd geleerd een beperkt aantal algemene ruimtelijke schemata
te hanteren als beschrijvingsmodellen van objecten, processen e.d. In deze studie zal worden
nagegaan of de in het onderzoek ontwikkelde toetsen een redelijk betrouwbare en valide
meting geven van de kennis en beheersing van de betreffende schemata en of deze kennis en
beheersing inderdaad samenhangt met leesvaardigheid.

2. Korte beschrijving van het onderwijsleeronderzoek

In 1978 werd het onderzoek gestart op twee basisscholen in de derde klassen (eerste run). In
1979 werd de tweede run gestart in dezelfde scholen, eveneens in de derde klassen. In beide
runs liepen de lessen door tot het einde van de zesde klas. Er werd één les per week gegeven
van ongeveer een half uur. De experimentele lessen besloegen dus 2 a 3% van de totale
schooltijd. De leerstof was verdeeld over vijf blokken, waarbij in elk blok een bepaald
beschrijvingsmodel centraal stond (zie Bol, 1982a).

Bij elk blok werd een voor- en een natoets gemaakt van steeds 20 items. Deze toetsen
werden ook afgenomen op een derde basisschool met twaalf klassen, waarvan de derde tot en
met de zesde klassen dienden als controle groepen. D.w.z. de leerlingen uit de twee derde
klassen uit 1978 en uit 1979 (totaal dus vier klassen) liepen parallel op met de experimentele
klassen (in totaal ook vier). In de tweede run werd aan het eind van de zesde klas bij de
experimentele en de controle groepen een tekst aangeboden met 16 vragen. Deze tekst was
geconstrueerd door een leraar nederlands van een MAVO school in Den Bosch (zie Van
Rens, 1982). De tekst handelde over mieren. Bij de samenstelling van de tekst en de daarbij
gestelde vragen werden de beschrijvingsmodellen van de vijf blokken verwerkt door de
tekstmaker.

3. Analyse van de voor- en natoetsen

De toetsen zijn samengesteld uit vier-keuze vragen. Alle items zijn opgebouwd uit verbale
vraagstellingen over korte teksten. In deze vraagstellingen wordt een beroep gedaan op de
kennis en beheersing van de schemata uit de blokken. Daarbij zijn de in de lessen gehanteerde
termen zoveel mogelijk vermeden en indien dit niet goed mogelijk was, werden termen in het
item uitgelegd en geïllustreerd aan de hand van voorbeelden. Parallelle items voor de voor- en
natoetsen werden gemaakt door een bepaalde toepassing van een schema in verschillende
versies van een probleem uit te werken.

Uit eerder onderzoek is reeds gebleken dat de betrouwbaarheid van de toetsen niet hoog is
(zie Bol et al., 1982). De meeste toetsen behalen waarden tussen de .70 en .80 (Guttman
Lambda 2). Alleen de voortoets van Blok 3 (vergelijken en klassificeren van objecten) was in
dit opzicht onbevredigend (betrouwbaarheid eerste versie .75, tweede versie .45 en derde
versie .59). Voor toetsen van 20 items zijn de overige betrouwbaarheden aanvaardbaar te
noemen.

Uit hetzelfde onderzoek is tevens gebleken dat de verschillende toetsen inhoudelijk rede-
lijk met elkaar samenhangen. We geven hier nog een recent overzicht van de samenhang
tussen de blokken voor run 2. Hierbij zijn om technische redenen de voor- en natoetsen van
de Blokken 4 en 5 gecombineerd tot een voortoets van 20 items en een natoets van 20 items.
Over de toetsen is een hiërarchische covariantieanalyse uitgevoerd (SPPS, Anova), waarbij is

-ocr page 55-

E. Bol en N. D. Verhelst 51

gewerkt van de meest recent afgenomen toetsen naar de in het programma eerst afgenomen
toetsen (zie Tabel 1).

We zien dat steeds een substantieel gedeelte van de variantie wordt verklaard door vorige
toetsen, alleen de voortoets van Blok 3 springt er duidehjk uit. Van deze laatste toets is de
betrouwbaarheid echter te laag. Verder blijkt dat recentere toetsen in het algemeen een
grotere bijdrage leveren dan minder recente toetsen, hetgeen als aanwijzing voor een goede
inhoudelijke samenhang tussen de toetsen mag worden opgevat. Voor elk blok blijft evenwel
Voldoende ruimte over voor een eigen bijdrage.

Uit het besproken onderzoek was tenslotte naar voren gekomen dat er een nauwe samen-
hang bestaat tussen de toetsen en een verbale intelligentietest (OTIS). In run 1 verklaarden nt
1. nt 2, vt 3, nt 3 en vt 4 tesamen 57% van de variantie van de OTIS (de voortoetsen van 1 en 2
Waren toen nog niet gereed) en in run 2 verklaarden vt 1, nt 1, vt 2, nt 2 en vt 3 tesamen 74%
Van de variantie van de OTIS. In een later onderzoek (uitgevoerd door Van Oostendorp) in de
Zesde klassen van de controle school (run 2) bleek dat de voor- en natoetsen van de blokken 1
en 2 62% van de variantie van de OTIS verklaarden (n = 82). Hieruit bhjkt dat de toetsen
2eer goede voorspellers zijn van OTIS-scores die van twee tot drie jaren later door leerlingen
Worden behaald (de toetsen van de blokken 1 en 2 zijn afgenomen in de derde en vierde klas).
Dit wijst erop dat de toetsen niet alleen een behoorhjke indruk geven van de mate waarin
leerhngen in staat zijn verbale informatie te struktureren, maar tevens van de ontwikkeling
daarvan. Deze indruk wordt nog versterkt door het gegeven dat in dezelfde klassen de voor-
en natoetsen van de blokken 1 en 2 (n = 84) 55% van de variantie verklaren van het verbale
gedeehe van de ISI.

Een volgend punt dat van belang is in verband met de validiteit van de toetsen betreft de
mate waarin het onderwijsprogramma in het experiment bijdraagt tot een verhoging van de
scores. Immers de leerhngen worden in het programma geoefend in het hanteren van ruimte-
lijke strukturen bij de verwerking van verbale informatie. Indien de toetsen dit aspect van het
cognitieve funktioneren meten, dan moeten de experimentele klassen hoger gaan scoren in de
loop van het programma dan de controle klassen. Welnu, dit is reeds gebleken in het reeds
eerder geciteerde onderzoek (Bol et al., 1982). We geven hier nog een overzicht van de

Tabel 1. Hiërarchische covariantienalyse van de toetsen

•27
•53
•50
•23
■51
•57
•67

vt =
nt =

Toets

Toetsen met significante bijdrage

nt 1

vt 1

vt 2

nt 1, vt 1

nt2

vt 2, nt 1

vt3

nt 2, vt 2

nt 3

vt 3, nt 2, vt 2, vt 1

vt 4/5

nt 3, nt 2, vt 3

nt 4/5

vt 4/5, nt 3, nt 2

voortoets Toetsen geordend naar

natoets grootte van bijdrage

-ocr page 56-

52 Inhoudelijke en statistische analyse van een leestoets

resultaten in run 2. Daarbij worden de sommen van de voortoetsen vergeleken met de
sommen van de natoetsen over alle blokken (in totaal 80 voortoetsitems en 80 natoetsitems).
In Tabel 2 staan de gemiddelden van deze sommen in de experimentele en in de controle
klassen.

Tabel 2. Gemiddelde somscores van de voor- en natoetsen in de experimentele en in de
controle klassen

Exp. (n = 27)

Contr. (n = 34)

P

gem. som vt
gem. som nt

44.5
57.3

40.7
49.3

.125
.009

toename

12.8

8.6

In de tabel zijn alleen de ppn. opgenomen die alle toetsen hebben gemaakt (statistiek: SPPS,
Oneway)

Uit Tabel 2 blijkt dat de experimentele leerlingen op de voortoetsen wel hoger scoren dan de
controle leerlingen, maar niet significant. Dat doen ze wel op de natoetsen. Dit wijst dus op
een leereffect. Interessant is dat ook de controleleerlingen op de natoetsen gemiddeld hoger
scoren dan op de voortoetsen. Dit houdt in dat, zoals ontwikkeüngspsychologisch te ver-
wachten valt, ook de controleleerlingen vooruit gaan in de loop van de tijd. Echter de
experimentele leerlingen gaan meer vooruit. En als we ons realiseren dat een deel van het
leereffect ook in de voortoetsen zit, dan is het geconstateerde verschil in toename zeker niet
geflatteerd. Aan de andere kant moet opgemerkt worden, dat het kennelijk niet zo'n een-
voudige zaak is het leren hanteren van ruimtelijke beschrijvingsmodellen te bevorderen,
aangezien het verschil in toename van scores tussen de experimentele leerlingen en de
controleleerlingen niet zeer groot is. Echter om dit verschil te kunnen waarderen zouden we
eigenlijk moeten weten hoelang de controleleerüngen (zonder daarop speciaal gericht on-
derwijs) nodig hebben om het niveau te behalen van de experimentele leerlingen. Anders
gezegd is de vraag, hoeveel ontwikkelingsjaren winst wordt geboekt door de experimentele
leerlingen. Om na te gaan of er inderdaad sprake is van een significant hoofdeffect is een
covariantieanalyse uitgevoerd (SPSS, Anova) over de data samengevat in Tabel 2 (zie Tabel
3).

Ook uit deze analyse blijkt een goede samenhang tussen voor- en natoetsen. Bovendien bhjkt
dat het hoofdeffect significant is. Het onderwijsprogramma heeft kennelijk een positief effect
op de gemeten variabele.

Tenslotte gaan we na welk verband er bestaat tussen de toetsen en leesvaardigheidsscores.
In het reeds aangehaalde onderzoek van Van Oostendorp in de zesde klassen van de controle
school is nagegaan welk deel van de variantie van de stilleestoets van de ISI wordt verklaard
door de voor- en natoetsen van de blokken 1 en 2 (n = 84). Uit de data kwam naar voren dat
deze toetsen 52% van de variantie van de betreffende stilleestoets verklaren (p < .001).

Hier zien we opnieuw dat de door de toetsen gemeten verschillen tussen leerlingen vrij goed
overeenkomen met verschillen op een leestoets enkele jaren later. De ruimtelijk strukturele

-ocr page 57-

E. Bol en N. D. Verhelst 53

Tabel 3. Covariantieanalyse van de somscores voor- en natoetsen over de condities

SS F P

covar. som vt 5425.99 109.1 .001

main effect 275.91 275.9 .022

residu 2885.12

totaal 8587.02

Toets homogeniteit varianties R = .82

Bartlett-Box ;=• = .08 p = .78 R2 = .66

component van het cognitieve funktioneren van leerlingen blijkt wederom een variabele die
nauw samenhangt met de cognitieve ontwikkeling van leerlingen en het verloop daarvan.

We hebben al vermeld dat aan het eind van het zesde leerjaar de experimentele en de
controle klassen (run 2) een leestoets over mieren is afgenomen. Daamaast is nog een selectie
Van 60 items uit de voor- en natoets afgenomen. Dit waren de 10 meest homogene items uit
fik van de blokken. Een uitzondering vormde blok 3. Hieruit zijn 10 items vergelijken en 10
'tems klassificeren gekozen. Behalve in deze klassen zijn de leestoets en de 60 items (de
Projecttoets) afgenomen in de eerste tot en met vierde klassen van acht MAVO scholen (in
totaal 528 leerlingen). De correlatie tussen de projecttoets en de leestoets bleek .52 (R^= .27;
P <.001). Ook hier zien we een significant verband tussen de toetsitems en een traditionele
meting van leesvaardigheid (zie echter Wesdorp, 1981).

Teneinde een nauwkeuriger lieeld te verkrijgen van hetgeen de leestoets en de projecttoets
"'eten, zijn deze toetsen onderworpen aan een Raschanalyse.

Schaalconstructie: modelkeuze

Om de begripsvaliditeit van een geconstrueerde schaal te onderzoeken - d.w.z. de samenhang
"a te gaan met andere relevant geachte variabelen - is het in eerste instantie noodzakelijk te
Onderzoeken of de geconstrueerde schaal zich als een eenheid gedraagt, d.w.z. alle onderde-
jcn van de schaal moeten dezelfde onderliggende variabele meten bij alle subjecten uit de
bestudeerde populatie. Als een verzameling items in die zin homogeen is, dan zullen de
Antwoordpatronen van de respondenten bepaalde eigenschappen vertonen. Het psychome-
trisch onderzoek bestaat er dan in te controleren of deze eigenschappen inderdaad aanwezig
^'Jn. en zo niet, te proberen deelverzamelingen van items te identificeren die deze eigen-
schappen wel hebben.

Om de belangrijke eigenschappen van de geobserveerde antwoordpatronen te kunnen
Aanwijzen, bedient men zich meestal van een - in meerdere of mindere mate - geformaliseerd
"lodel. Zulke modellen zijn bijv. de klassieke testtheorie, en de verschillende latente trek-
"lodellen, waaronder het Raschmodel misschien wel het bekendste is.

^ij hebben het Raschmodel als formeel model gekozen om de volgende redenen: (i) indien
ct model valide is, is het bijzonder eenvoudig in zijn toepassing: de score die een persoon
®haalt is een simpele omzetting (via tabel) van het totaal aantal juiste items (ii) Er zijn
statistische toetsen voorhanden die de unidimensionaliteit van de items en de homogeniteit
J^n de populatie m.b.t. de betekenis van de items kunnen toetsen, (iii) Het Raschmodel heeft
vals enige) een eigenschap die men specifieke objectiviteit noemt, hetgeen betekent dat bij de

-ocr page 58-

54 Inhoudelijke en statistische analyse van een leestoets

constructie van de schaal de eigenschappen van de schaal onafhankelijk zijn van de samen-
stelling van de ijkingsgroep. Dit voordeel kan op twee manieren aangewend worden: de
constructeur van de schaal is niet gehouden een representatieve steekproef uit de populatie te
trekken en vergelijking van populaties kan in principe met twee niet identieke schalen
gebeuren als is aangetoond dat beide schalen dezelfde latente vaardigheid meten.
Er zijn aan het Raschmodel echter ook nadelen verbonden:

(i) In verband met de specifieke objectiviteit dient goed voor ogen gehouden te worden dat
het Raschmodel een statistisch model is, en dat de schattingen van de parameters, d.w.z., de
moeilijkheidsgraad van de items en de latente vaardigheid van de personen met een
schattingsfout behept zijn. Deze standaardfouten zijn enerzijds afhankelijk van het totale
aantal observaties, maar anderzijds ook van de relatieve moeilijkheid van items m.b.t. de
vaardigheid van de personen in de ijkingsgroep: de schattingen van de parameters van items
die door zeer weinig of door zeer veel personen correct zijn beantwoord hebben in de regel
een grotere standaardfout dan middelmatige items. Mutatis mutandis geldt hetzelfde voor de
nauwkeurigheid waarmee latente vaardigheden van de personen geschat worden.

(ii) De standaardprogrammatuur zoals deze momenteel in Nederland voorhanden is, is vooral
schattings- en toetsgericht: d.w.z. voor een verzameling items worden schattingen van de
parameters gemaakt, en deze schattingen worden dan gebruikt om een aanpassingstoets te
construeren, d.w.z. om statistisch te toetsen of het Raschmodel voor de geobserveerde
gegevens een aanvaardbare hypothese is. Sommige toetsen, laten bij verwerping van het
model een gedeeltelijke diagnose toe, doch momenteel is er nog geen geautomatiseerde
procedure die uit de oorspronkelijke verzameling de maximale deelverzameling(en) kiest die
goed door het Raschmodel beschreven wordt c.q. worden.

Definiëren we de binaire toevalsvariabele Avj als

1 indien persoon v item i juist beantwoordt

O Indien persoon v item i fout beantwoordt

(i = l, .., k; v=l, ..., n)
Dan is het Raschmodel gedefinieerd door

exp (Iv - Oi)

Prob (Avi = 1) = --(1)

1 -I- exp (Iv - Oi)

waarin |v de persoonsparameter is (de latente vaardigheid) en Oj de moeilijkheidsgraad van
het item.

Voor de analyse van beide schalen is gebruik gemaakt van het computerprogramma PML
(Gustafsson, 1977; Molenaar, 1981). Naast de schattingen van de parameters voorziet het
programma in enkele modeltoetsen die we hier kort bespreken.

(1) De likelihood-ratiotoets van Andersen (LR-toets). Uitgaande van een aantal homoge-
ne subgroepen van personen (bijvoorbeeld alle personen met eenzelfde totaalscore, of een
hooggroep tegenover een laaggroep) wordt nagegaan of de itemparameters in alle subgroe-
pen aan elkaar gelijk zijn binnen de grenzen die het toeval toelaat. De toets levert in geval aao
het Rasch-model voldaan is, een x^-verdeelde toetsingsgrootheid op.

Avi =

-ocr page 59-

E. Bol en N. D. Verhelst 55

(2) De Martin-Löf goodness-of-fit toets. In deze toets worden per tiomogene scoregroep
(d.i. een groep personen met dezelfde totaalscore) de geobserveerde frekwenties correct per
'tem vergeleken met hun verwachte waarde onder het Rasch-model. Per score groep levert
deze toets een (gewogen) som van kwadraten (die niet chi-kwadraat verdeeld is), doch de som
over alle scoregroepen is wel chi-kwadraat verdeeld. De som der kwadraten binnen de
scoregroepen kunnen echter wel een aanwijzing geven dat de afwijking van het model
specifiek aan bepaalde scoregroepen te wijten is. Bijvoorbeeld laagscoorders die ten gevolge
Van raden een hogere score halen dan voorspeld. Het elimineren van een deviante scoregroep
garandeert echter niet dat het Rasch model aanvaardbaar is voor de resterende score-groe-
Pen. Bovendien dient er rekening mee gehouden te worden dat deze toets en Andersen's
LR-toets alleen geldig zijn indien het aantal observafies per scoregroep naar oneindig gaat -
'n Andersen's LR-toets moet dit gelden voor elke subgroep afzonderhjk -, zodat in de
praktijk beide toetsen met de nodige omzichtigheid dienen te worden behandeld indien een of
meerdere scoregroepen een lage frekwentie hebben.

(3) De binomiaaltoetsen per item.

Per item worden binnen homogene scoregroepen binomiaaltoetsen uitgevoerd die de
geobserveerde proportie correct vergelijken met de verwachte proportie. Molenaar (1982)
heeft deze toetsen gecombineerd tot een overaU toets met toetsingsgrootheid
Ui(i = l, ... k).
•ndien de laagscoorders minder juiste antwoorden geven dan verwacht en de hoogscoorders
l^eer dan verwacht, dan is Uj negatief. Zulke antwoordpatronen wijzen op een hogere
'temdiscriminatie dan verwacht kan worden op grond van het Rasch-model. Indien daarente-
^n de discriminatie lager is dan verwacht op grond van het Rasch-model, dan is U| positief.
De U grootheden kunnen dus gebruikt worden om te hoog discriminerende en te laag
discriminerende items te detecteren. De
U-waarden vertonen in het algemeen een sterke
'negafieve) samenhang met de biseriële correlaties tussen item en totaaluitslag. Verderop
Zullen we ook deze correlaties vermelden.

. (4) De Martin-Löf toets op de unidimensionahteit. Uitgaande van twee deelverzameUngen
"etns die allebei aan het Raschmodel voldoen, wordt de hypothese getoetst of ze kunnen
samengevoegd worden tot een enkele Rasch-schaal. De toets is van het Likehhood-ratio type,
en levert in geval samenvoeging leidt tot een unidimensionale schaal, een chi-kwadraat
Verdeelde grootheid op. Het is belangrijk hierbij aan te merken dat de gebruiker zelf vooraf de
tWee unidimensionale subschalen moet aangeven; het programma zoekt ze niet uit.

Voor de toepassing op de leesschaal en de projectschaal is het van belang rekening te
"ouden met het feit dat het Rasch model geen raden toelaat. Nu zijn de items in beide schalen
Van het meerkeuze type, zodat rekening moet gehouden worden met een substantiële kans op
J^'st raden. Het hjkt echter redehjk te veronderstellen dat raden vooral een storende va-
riabele zal zijn bij personen met een lage vaardigheid. Daar beide schalen in de onderzochte
^oep eerder gemakkelijk uitvielen, leek het ons toch de moeite waard de raadkans in eerste
'nstantie te verwaarlozen - en dus toch het Raschmodel toe te passen - doch bij de ver-
enillende analyses rekening te houden met de mogelijkheid dat raden het model kan

Valideren. Deze controle kan goed uitgevoerd worden bij de Martin-Löf goodness-of-fit
°ets en bij de binomiaaltoetsen.

Naast de vier voornoemde toetsen laat het programma PML ook toe de hypothese te
oetsen dat dé latente vaardigheden - voor zover vertegenwoordigd in de steekproef- uit een
oritiale verdehng afkomstig zijn (Andersen & Madsen, 1977).

-ocr page 60-

56 Inhoudelijke en statistische analyse van een leestoets

5. De analyse van de leesschaal

De leestoets werd door 918 leerUngen gemaakt; een gedeelte daarvan heeft de projectschaal
niet gemaakt. Omdat we zo nauwkeurig mogehjk de parameters wilden schatten, zijn de
antwoorden van alle 918 leerhngen in de analyse opgenomen.

De analyse verUep vrij simpel: Van de 16 items werden er op grond van Molenaars
gecombineerde U-toetsen drie verwijderd. De 13 overblijvende werden opnieuw geanaly-
seerd en leverden de volgende resultaten op:

Andersen's LR-toets: p = .093
Martin-Löfs g-o-f:
p = .144

Op grond van deze bevindingen werd besloten het Raschmodel voor deze schaal te aanvaar-
den, zij het met enige reserve. De gecombineerde U-toetsen waren voor twee items posidef en
significant en voor een item negatief en significant
(p = .01). Naar onze mening echter is het
raadzaam de ehminade procedure niet al te mechanisch toe te passen. Een negatieve U-waar-
de wijst op een te hoge discriminatie van het item in vergehjking met de andere items. Indien
men zo'n item elimineert, betekent dit dat de gemiddelde discriminatiewaarde van de items
gaat dalen, waardoor de totale schaal minder scherp gaat discrimineren. Omgekeerd gaat de
redenering niet helemaal op: door het verwijderen van items met een te lage discrimina-
tiewaarde, stijgt weUswaar de gemiddelde discriminatiewaarde van de items, doch de schaal in
haar geheel wordt korter, zodat het netto resultaat op de betrouwbaarheid van de schaal als
geheel toch negatief kan zijn. Omdat de schaal al vrij kort was, en de betrouwbaarheid niet al
te hoog (KR20 = 0.60) hebben we besloten om alle 13 items te handhaven. Bovendien
speelde nog het argument dat de schaal als geheel erg makkeUjk was (gemiddelde = 10.71),
en het item met de grootste U-waarde bleek ook nog het moeihjkste te zijn. EUminade van dit
item zou de schaal als geheel veel te gemakkelijk maken. De biseriële item-test correlaties
lagen voor 12 van de 13 items tussen .57 en .74; een item had een biseriële correlatie van .26.

6. Analyse van de projectschaal

In totaal beschikten we over de antwoorden van 856 leerUngen, die alle in de analyse werden
opgenomen. In eerste instantie werden de 60 items van de schaal geanalyseerd met het
programma PML. Zowel de Martin-Löf goodness-of-fit toets als Andersen's LR-toets waren
significant. Uitzuivering van het itembestand aan de hand van Molenaars U-toetsingsgroot-
heden leidde tot een kortere schaal die weerom werd geanalyseerd. Deze procedure moest
herhaaldehjk worden toegepast, tot er tenslotte nog 18 items overbleven waarvoor het
Raschmodel redelijkerwijze als beschrijving kon worden aanvaard, en dan nog alleen indien
de laagscoorders van de analyse werden uitgesloten.

In het licht van de resultaten van het externe validiteits-onderzoek konden we met dergelijk
resultaat geen vrede nemen, en de hypothese werd geopperd dat er'waarschijnlijk op meer-
dere latente dimensies een beroep moest gedaan worden om de gegevens afdoende te
verklaren. Bijgevolg drong zich de vraag op of er een rationele methode kon gevonden
worden om unidimensionale deelverzamehngen van items (bij benadering) te identificeren-
Indien we zo'n methode hebben kan de Rasch-analyse op deze deelverzamelingen afzonder-
lijk worden toegepast.

Verhelst (1982) heeft een model uitgewerkt dat kan gebruikt worden als heuristiek om deze

-ocr page 61-

basisdimensie 2

E. Bol en N. D. Verhelst 57

deelverzamelingen te identificeren. We zullen deze methode uiteenzetten aan de hand van
een model met een bivariate latente variabele (zie figuur 1). De bivariate moeilijkheidsgraad
van item i kan voorgesteld worden als een vectorir= (£ii, £>2) die met de basisdimensies een
boek vormt met richtingscosinussen q, = cos aj, en qz = cos aiz- Deze richtingscosinussen
''"nnen we ook noteren als een vector'^= (qi, qz). Indien Ej samenvalt met de abscis wordt er
alleen een beroep gedaan op basisdimensie 1; indien Qü = Ojz = 45° dan wordt bij het
beantwoorden van item i op beide basisdimensies een even sterk beroep gedaan. De rich-
^'ngscosinussen geven dus het relatieve belang van de basisdimensies aan bij het beantwoor-
den van de items. We nemen dus aan dat deze gewichten door het item bepaald zijn.

technische complicaties te vermijden zullen we voorts aannemen dat alle item vectoren in
'^et eerste of derde kwadrant liggen. (Deze aanname is niet noodzakelijk, doch ze vereen-
voudigt de uiteenzetting. Voor details m.b.t. het algemene geval, zie Verhelst 1982). Elke
"etnvector kan nu beschreven worden door de vector"c" van richtingscosinussen en e^
parameter Xj die we de gesigneerde lengte zullen noemen. De gesigneerde lengte van vectorlT
js de lengte van"?^ indien zijn eindpunt in het eerste kwadrant ligt, en is gelijk aan minus de
engte van^indien zijn eindpunt in het derde kwadrant ligt. Bemerk dat alle vectoren met
'®ngte nul in dit model niet identiek aan elkaar hoeven te zijn: ze zijn pas identiek indien ook
""n vector met richtingscosinussen identiek is.

-ocr page 62-

58 Inhoudelijke en statistische analyse van een leestoets

Een persoon v stellen we voor doorben vector 0* in de tweedimensional^uimte met
coordinaten van de eindpunten"3*i en 6*2, en we beschouwen de projectie van^ op^ We
noemen deze geprojecteerde vector öyj, en zijn gesigneerde lengte noemen we tyj. Het model
laat de kans op een juist antwoord afhangen van het verschil tvi-X^, d.w.z.

Prob (Avi = 1) = f(t„-)4) (2)

waarbij f(.) een monotoon stijgende functie is met f(0) = 0.5. Voor de situatie die geschetst is
in figuur 1 is dit verschil positief, hetgeen betekent dat de persoon een kans van meer dan 1/2
heeft om het item juist op te lossen. De interpretatie van dit model is gelijklopend met de
interpretatie in het factoranalytisch model. Het verschil Oïi-Eji is negatief, hetgeen betekent
dat persoon v op basisdimensie 1 eigenUjk tekortschiet in vergeUjking met de eisen die item i
stelt, doch dit tekort kan gecompenseerd worden door het overschot (0t2-Ei2>O) op de
tweede basisdimensie.

Om tot een schatting van de itemparameters te komen dienen we de functie f in (2) nog te
specificeren. Om heuristische redenen kiezen we niet de logistische functie doch het twee-
parameter normaal ogief model dat gedefinieerd is door

«vr^

:)-"■ f
-00 J

f (tvi - Xi) = (2 f bi exp (- xVl) dx (bi>0) (3)

d.w.z. dat het normaal ogief model equivalent is met het model

prob (A„i=l) = prob (x>Xi) (4)

waarin x normaal verdeeld is met gemiddelde t^i en variantie l^.

De itemkarakteristieke functie (3) is bijna niet te onderscheiden van de itemkarakteristieke
functie in het Birnbaummodel:

. ,, exp [Qi (Iv - Oj)]

prob(Avi = l)= - (ai>0)' (5)

1 + exp [Oj (Iv - Oj)]

indien we de volgende identificaties aannemen:

tvi = lv

Oi=Xi

1

Uit practisch standpunt bekeken is het dus onverschilüg of we model (3) dan wel model (5)
aannemen. Omdat in (3) de subjectparameters tvi ook afhankelijk zijn van het item kunnen we
het Birnbaummodel niet zonder meer toepassen. Daarom voeren we een zeer algemene extra
veronderstelUng in over de verdeUng van de subjectparameters, bijv. de multivariaat normale
verdeUng. De combinatie van deze veronderstelUng met het Birnbaummodel is
mathematisch
niet goed hanteerbaar; de combinatie met (3) daarentegen levert een elegant model op-
Veronderstellen we dat

-ocr page 63-

E. Bol en N. D. Verhelst 59

N(0,1)

en definiëren we t*i als de gesigneerde lengte van de projectie van 0» op Ej, dan is het duidelijk
dat

n - N(0, 1).

^e marginale probabiliteit Pi van een correct antwoord op item i is dan gegeven door
+ 00

Pi = (2 Jr)-' ƒ ƒ exp [- (x2+t*i2)/2] dx dt*;

—00 —00

boeren we de volgende transformaties in:

biX - t*i

en

bjt*i + X

2 =

VTTEï

^an vinden we dat

+ 00

ƒ jvTTbi,

Pi = (2 Jt)-' j J exp [- (u2 + z2)/2] dz duj

— 00 —00

(2 Tiy/'

exp (- uV2) dUi (6)

univariate toevalsvariabele Uj kan geïnterpreteerd worden als een normaal verdeelde
('atente) antwoordvariabele, met gemiddelde O, en variantie 1 +bl en de gesigneerde lengte ki
een drempel zodat een manifest correct antwoord geobserveerd wordt als en slechts als

^et is gemakkelijk in te zien dat voor twee items i en j
Uj) = c;c;,
dat de correlatie gegeven wordt door

e* -

-ocr page 64-

(7)

60 Inhoudelijke en statistische analyse van een leestoets

cjcj_

~ v(1 + b]) (1 + bj)

Omdat de scores op de binaire variabelen kunnen geïnterpreteerd worden als dichotomiserin-
gen van een normaal verdeelde toevalsvariabele kunnen de gy het beste geschat worden door
de tetrachorische correlatiecoëfficiënt. Een factor-analyse op de correlaties laat dan toe de
richtingscosinussen q en de discriminatieparameters b; te identificeren via de volgende
gehjkheden:

h2 = (1 + b?)-' (8)

waarin h^, de communaliteit van item i is en f; de vector met factorladingen, bi j een orthogonale
oplossing, bijv. de varimax.

Dit multidimensionale model reduceert tot een' unidimensionaal model indien de gesig-
neerde lengte t,! onafhankehjk is van i, d.w.z. indien de richtingscosinussen van alle items aan
elkaar gelijk zijn. Als bovendien nog alle discriminatie parameters aan elkaar gehjk zijn
reduceert dit model tot het unidimensionale een-parameter normaal ogief model, dat voor
alle practische toepassingen niet te onderscheiden is van het Raschmodel. Doch identieke
richtingscosinussen en identieke discriminatieparameters impUceren (zie (8) en (9)) dat de
factorladingen voor alle variabelen per factor identiek moeten zijn. Anders gezegd: indien de
muhivariate latente variabele normaal verdeeld is, en (3) is geldig met de bijkomende
restrictie dat bj = b, dan moet het factorpatroon identiek zijn voor alle items die voldoen aan
het een-parameter normaal ogief model en dus bij benadering voldoen aan het Raschmodel-
En hiermee is ook een heuristiek geformuleerd voor de initiële selectie van kandidaat
Rasch-schalen: voer een factoranalyse uit op de matrix van tetrachorische correlaties en
selecteer als kandidaatschalen die deelverzamelingen van items waarvoor het factorpatroon>
zowel qua richting als qua lengte, zoveel mogehjk gelijk zijn. Bovendien dient de communa-
hteit van de geselecteerde variabelen niet al te klein te zijn, op straffe van een schaal die
bijn3
niet discrimineert.

In figuur 2 is deze selectie grafisch afgebeeld voor een twee factoroplossing: de variabelen
aangeduid met een
O zijn verworpen op grond van hun lage communaliteit; de overige
variabelen zijn ingedeeld zoals aangegeven. We zullen hun klasse aanduiden als respectieve-
Ujk I, II en III. De verdere analyse bestond uit vier stappen:

stap 1: Analyse op de a priori geselecteerde kandidaatschalen. De resultaten van de analysé
zijn samengevat in tabel 4.

Schaal I gaf bij analyse met alle subjecten een significantie op de Martin-Löf toets. (DeZ«
schaal met alle subjecten zal verder aangeduid worden als schaal I*). Nadere analyse van de
bijdrage aan de totale chi-kwadraat per scoregroep gaf te zien dat vooral de extreem lag^
scoorders (minder dan 4 items correct) een onevenredig grote bijdrage leverden. Omdat
schaal in haar geheel erg gemakkelijk is, werd verondersteld dat voor die personen

-ocr page 65-

E. Bol en N. D. Verhelst 61

Tabel 4. Samenvatting van de Rasch-analyse op de drie kandidaatschalen
Schaal

X X(l)(») SD kC») KR20 bis. corr. overschrijdingskans aantal

min max Martin-Löf Andersen sign. Uj

11.77

.84

2.16

14

.67

.55

.88

.015

.055 3

11.87

.84

1.93

14

.58

.46

.78

.129

.072 3

10.73

.72

2.75

15

.66

.50

.66

.056

.092 0

5.83

.53

2.43

11

.63

.56

.66

.311

.544 0

(b)

(ci I»

i* verwijst naar de analyse met alle subjecten; I naar de analyse met de 9 personen met de
laagste score verwijderd.

I»(c)
1(C)

ii
Ui

Fi

-ocr page 66-

62 Inhoudelijke en statistische analyse van een leestoets

totaalscore hoofdzakehjk door raden kon verklaard worden, en daarom werden ze in een
vervolganalyse uit de steekproef verwijderd. (Schaal I toegepast op deze uitgezuiverde
steekproef wordt verder aangeduid als schaal I.) In totaal werden slechts 9 personen uitgeslo-
ten. (Deze personen werden wel opgenomen in de analyses van de schalen II en III.)
Uitsluiting van deze personen leidde ertoe dat het Raschmodel volgens de twee globale
toetsen (Martin-Löf en Andersen) niet meer diende verworpen te worden. Van de drie
significante U-toetsen (dezelfde in schaal I als in I*) waren er twee negadef (items 18 en 56)
en een posidef (hem 8) en dit zijn inderdaad die items die een extreem hoge dan wel extreem
lage communaliteit hebben in de factoranalyse, hetgeen er op zou kunnen wijzen dat de
afbakening van sector I in figuur 4 iets te tolerant geweest is. De schalen II en III zijn zonder
meer aanvaardbaar te noemen.

Het is wel opmerkehjk dat de items in schaal I gemiddeld veel gemakkehjker zijn (in
klassieke testtheoretische betekenis) dan die in schaal III, waarbij schaal II een tussenpositie
inneemt. Hierop wordt in de sectie interpretatie teruggekomen.

De hypothese van een normale verdehng kon aangehouden worden in schaal Wip = 446)
doch moest verworpen worden in schaal III
{p = 001). De afwijking van normahteit was
systematisch in die zin dat extreme scores aan beide zijden te frekwent waren in vergehjking
met de middengroep. De toets op normaliteit heeft weinig zin voor schaal I, gezien de
uitgevoerde selectie op de steekproef.

Stap 2: Uitbreiding van de drie schalen met laag-discriminerende items.

Schuiven we de cirkelboog in figuur 2 meer naar de oorsprong toe, en definiëren we de
nieuwe kandidaatschalen als alle items die in een bepaald segment buiten de cirkelboog
vallen, dan bleken in alle gevallen de beide globale toetsen significant. D.w.z. de verschillen in
discriminatiewaarde tussen de items kunnen niet verder opgevoerd worden zonder de as-
sumpties van het Rasch-model openlijk geweld aan te doen. Het zou natuuriijk mogelijk zijn
minder goed discriminerende items op te nemen ten koste van de best discriminerende, doch
zulk een strategie leidt onvermijdehjk tot een armere discriminatie voor de totale schaal en
werd daarom niet ondernomen.

Stap 3. Reductie tot twee schalen.

De grenzen tussen de sectoren I, II en III in figuur 2 zijn in zeker opzicht willekeurig
getrokken: het hoeft niet uitgesloten te worden dat deze grenzen enigszins kunnen opgescho-
ven worden en dat de aldus ontstane nieuwe deelverzamehngen eveneens op een aan-
vaardbare manier door het Raschmodel kunnen beschreven worden. Het bleek echter
niet
mogehjk om sector II zo op te splitsen dat er uiteindelijk slechts twee Rasch-schalen overble-
ven. Omdat de drie schalen, zoals ze in eerste instantie werden uitgekozen goed interpreteer-
baar zijn (zie discussie) werd de aanvankelijke indehng aangehouden.

Stap 4: Martin-Löfs toets op de unidimensionahteit.

Als een soort controle op de zinvolheid van het onderscheid tussen de drie geconstrueerde
schalen werd op de drie mogehjke paren Martin-Löfs toets op de unidimensionahteit uitge-
voerd. Voor het paar I-III leidde de toets tot verwerping van de unidimensionahteits hypo-
these (p<lE-5). Voor de andere twee paren kon de nulhypothese niet verworpen wordef
(I-II:
p = .88, II-III: p = 73). Deze laatste twee uitkomsten wijzen erop dat deze toets van
Martin-Löf waarschijnhjk niet veel onderscheidend vermogen heeft, want in stap 3 werd hee'

-ocr page 67-

E. Bol en N. D. Verhelst 63

duidelijk aangetoond dat het Raschmodel moest verworpen worden voor de combinade I-II
Zowel als voor de combinade II-III.

Interpretatie van de schalen

9«! te beginnen hebben we gekeken of er een relatie bestaat tussen de moeilijkheidsgraad van
•tems in elk van de drie project schalen en hun factorladingen op de twee factoren na varimax
^otade. Het bhjkt dat binnen schaal I (14 items) een significante rangcorrelatie bestaat
jAendall) tussen de moeihjkheid van items en hun ladingen op factor 1 (j = 49,p < .005).
" w.z. hoe gemakkehjker een item is hoe hoger het in principe laadt op factor 1. Een dergehjk
^erband bhjkt er niet te bestaan met de ladingen op factor 2. Binnen schaal 11(15 items) wordt
hetzelfde beeld gevonden; een significante rangcorrelatie tussen de moeilijkheidsgraden van
'tems en hun ladingen op factor 1 (s
= 36, p < .05), terwijl zo'n relatie met factor 2 niet
aanwijsbaar is. Schaal III vertoont in dit opzicht geen enkele relatie met de factoren 1 en 2. Dit
^eld met betrekking tot de schalen I en II komt overeen met de eerder vermelde relatie
bussen deze schalen. Het lijkt er dus op dat factor 1 samenhangt met de moeilijkheidsgraad
^an items, tenminste voor zover ze binnen de schalen I en II vallen, en dat deze relatie
geprononceerder is tussen schaal I en factor 1 dan tussen schaal II en factor 1.

Vervolgens hebben we bekeken hoe het zit met de moeilijkheidsgraad van de items in de
Verschillende schalen. Eerder was reeds gebleken dat schaal I gemiddeld makkelijker is dan
chaal II en dat deze laatste schaal gemiddeld weer gemakkehjker is dan schaal III. Wanneer
^e de toetsitems verdelen in drie groepen, nl. 1) kommunikatie en analyse van kenmerken en
samenstelling, 2) vergehjken en klassificeren en 3) analyse van processen, kausahteit en
erklaren, en daarbinnen voor drie schalen de mediane moeilijkheid berekenen dan zien we
volgende (zie Tabel 5).

Tabel

5. Mediane moeilijkheid van de items verdeeld over de groepen van blokken en over
de schalen

Mediane moeilijkheid
Blok 1+2 3 4+5

.88 - .79

.78 .65 .71

.59 .47 .68

Tabel 5 is te zien dat het totaalbeeld met betrekking tot de moeilijkheid van de schalen ook
^Peaat voor de onderverdeling over de groepen van de blokken. We hebben de schalen
>leken met behulp van mediaantoetsen en statistiek volgens de toets va" J' he (.„
l^^band met de kleine aantallen). Schaal I blijkt significant gemakkelijker dan schaal 11 (p<
f 1) en schaal II is significant gemakkelijker dan schaal III (p < .05)^ Op basis hiervan zou
genomen kunnen worden dat de gemakkelijkste items terecht konden
■^^eilijkste in schaal III en wat daartussen zit in schaal II. Zo eenvoudig is het echter met. Wat

-ocr page 68-

64 Inhoudelijke en statistische analyse van een leestoets

betreft de moeilijkheidsgraad van items bÜjkt er een flinke overlap tussen de schalen te
bestaan. Schaal I loopt van .93 tot .67, schaal II van .85 tot .49 en schaal III van .80 tot .30. We
moeten derhalve aannemen dat niet de moeilijkheidsgraad van items op zich bepalend is voor
de schaal waarin ze terecht komen, maar dat de schalen verschillende factoren van het
leerproces meten. En deze factoren corresponderen gemiddeld met een grotere of kleinere
moeilijkheidsgraad van items in verband met verschillende eisen die gesteld worden aan de
cognitieve arbeid. We gaan daarom na hoe de items zich inhoudelijk verdelen over de schalen
(zie Tabel 6).

Tabel 6. Verdeling van de items over de schalen

kommunikatie kenmerken vergelijken klassif. processen causalit.

samenst. verklaren

Schaal -

I 8 4 ♦ * » 2

II 1 3 3 2 3 3

III O 1 4 4 0 2

We zien dat schaal II is opgebouwd uit items van alle onderdelen, terwijl schaal I overwegend
betrekking heeft op de onderdelen kommunikatie, kenmerken en samenstelling en schaal iH
op de onderdelen vergelijken en klassificeren. Wanneer we bekijken welke items op het
onderdeel causaliteit en verklaren terecht komen in schaal I en welke in schaal III, dan blijkt
dat de items in schaal I betrekking hebben op waarom-vragen, waarbij de juiste keuze een
verklaring behelst en de andere niet, terwijl de items in schaal III de toepassing van logische
redeneervormen vragen (modus ponens, modus tollens). Ook de overige items van schaal III
hebben pverwegend een formeel logisch karakter (inclusie redering, implicatie). Het lijk'
aanvaardbaar te veronderstellen dat schaal III kennis en beheersing van redeneervormen
meet. Nemen we de overige items van schaal I onder de loupe, dan valt op dat deze iteniS
overwegend bestaan uit opgaven waar de verschillende keuzen niet fout zijn, doch waar he'
juiste item het meest adequate antwoord is. Doordat we de toets ook individueel
hebbel'
afgenomen, werd duidelijk dat schaal I waarschijnlijk een beroep doet op de nauwkeurigheid'
waarmee gelezen moet worden. Onze interpretatie is dat schaal I meet in welke mat«
leerhngen in staat zijn een precies aanschouwelijk beeld van de inhoud van een item op t«
bouwen. Hierbij kunnen verschillende faktoren een rol spelen, zoals technische leesvaardig'
heid, concentratie, funktioneren van het korte termijn geheugen, taalbeheersing.

Schaal II komt naar voren als een centrale schaal, die enerzijds correspondeert met schaal'
en anderzijds met schaal III. We veronderstellen nu dat deze schaal de kennis en
beheersing
van ruimtelijke beschrijvingsmodellen meet. In relatie tot schaal I gaat het dan niet o"'
inhoudelijk aanschouwelijke items, maar om items die een beroep doen op strukturele kenfli'
En het verschil tussen schaal II en schaal III is, dat de laatste schaal betrekking heeft op
strategische kennis die een rol speelt bij het redeneren (vgl. Aarnoutse, 1982).
De kern va''
deze interpretatie is, dat schaal II de in dit onderzoek uiteindelijk beoogde variabele het mee®
direct meet, terwijl de andere schalen daarvan een meer indirecte indruk geven.

De vraag is nu of we de interpretatie van de schalen nader kunnen onderbouwen. Indi®''
schaal I de exactheid van de aanschouwelijke beeldvorming meet, schaal II de
structure''

-ocr page 69-

E. Bol en N. D. Verhelst 65

kennis vervat in cognitieve schemata en schaal III strategische kennis van het redeneren, dan
mag men veronderstellen dat er voorwaardelijke verbanden bestaan tussen de door de
schalen gemeten variabelen. Exacte beeldvorming is voorwaarde voor het kunnen hanteren
Van structurele en strategische kennis en structurele kennis is voorwaarde voor het kunnen
hanteren van strategische kennis (Aarnoutse, 1982, blz. 307). Uit scattergram-analyses
(SPSS) blijkt dat lage scores op schaal I nooit gepaard gaan met hoge scores op de schalen II en
(het omgekeerde komt wel voor), en dat lage scores op schaal II nooit gepaard gaan met
noge scores op schaal III (ook hier komt het omgekeerde wel voor). M.a.w. het ziet er naar uit
dat 1 noodzakelijke maar niet voldoende voorwaarde is voor II en III en dat hetzelfde
Voorwaardelijke verband geldt tussen II en III. De interpretatie van de schalen wordt door de
data derhalve voorlopig niet weerlegd.

Indien onze interpretatie van de schalen klopt, dan mogen we verwachten dat verschillen
tussen de condities zich vooral zullen manifesteren op schaal II. Aan exacte beeldvorming en
aan strategische kennis is in het programma namelijk geen systematische aandacht geschon-
Ikcn, terwijl dit wel het geval is ten aanzien van structurele kennis. Vergelijken we leerlingen
"let ongeveer gelijke toetservaring (maximaal twee toetsen gemist) aan de hand van de ruwe
data per schaal (zie discussie) dan krijgen we het volgende beeld (zie Tabel 7).

Tabel 7. Gemiddelde scores op de drie schalen van de experimentele en de controle leerlin-
gen

experimenteel (37) controle (57) p

I 12.1 (2.5) 11.2 (2.5) .09

^"^haal II 11.2 (3.2) 9.8 (3.1) .04

III 6.9 (2.9) 6.0 (2.3) .08

( ) = sd.

__SPSS, Oneway

^'^Tabel 7 blijkt dat de interpretatie van de schalen opnieuw niet wordt weerlegd.

Tenslotte kan een onderbouwing van de interpretatie van de schalen worden gevonden in
^e relatie tussen de schalen en de leestoets over mieren. Zoals aangegeven vormen dertien van
Zestien vragen een goede Raschschaal. De drie items die moeten worden verwijderd
■"agen het karakter van de items van schaal I (2 items) en van schaal III (1 item). Dit kan erop
'JZen dat de gevonden schaal het meest overeenstemt met schaal II. Bovendien is bij de
^ "structie van de tekst en de vragen uitgegaan van de in het leerprogramma gehanteerde
"emata. Ook dit vormt e ;n argument voor de aanname dat de schaal van de leestoets het
®est zal overeenstemmen met schaal II. Om de genoemde samenhang te controleren is een
j^uUiple regressieanalyse uitgevoerd volgens een stapsgewijze inclusie procedure (SPSS,
Agression) op de ruwe data van de schalen (zie discussie).

" Tabel 8 is te zien dat schaal II de sterkste samenhang vertoont met de leesschaal. Echter
°k de bijdragen van de twee andere schalen zijn significant
(p = .000). Bovendien blijkt uit
partiële correlaties dat de bijdragen van schaal I en schaal III vrijwel onafhankelijk zijn,
"idat de partiële correlatie van schaal I met de leestoets na extractie van schaal III vrijwel
Verandert (de waarden zijn resp. .157 en .156). Dit komt dus goed overeen met de
'tkomst van de faktor-analyse. Ook de hier gepleegde analyse weeriegt de interpretatie van
® schalen dus niet.

-ocr page 70-

66 Inhoudelijke en statistische analyse van een leestoets

Tabel 8. Multiple regressieanalyse met leestoets als afhankelijke variable

B

MultR

R2

Simple R

Schaal II

.19

.45

.21

.45

Schaal III

.17

.48

.23

.38

Schaal I

.15

.50

.25

.38

constant

5.89

8. Discussie

We gaan eerst in op de kwestie waarom we bij berekeningen hierover hebben gewerkt met de
ruwe data per schaal. Ten eerste bleek dat bij de leesschaal en projectschaal I meer dan 20%
van de ppn. een perfecte score heeft behaald. Door de Raschschaalwaarden te hanteren vielen
in deze gevallen dus zeer veel ppn. weg. Ten tweede was de multiple R van de projectschalen
op de leesschaal slechts .34, wanneer met de Rasch schaalwaarden werd gewerkt. Indien met
de ruwe data per schaal werd gewerkt onder uitsluiting van dezelfde gevallen als bij de
Raschschaalwaarden, dan bleek dat vrijwel dezelfde lage multiple R werd gevonden (nl. .35).
Een vergelijking met Tabel 8 leert ons dat in beide gevallen een niet onbelangrijk deel van de
variantie verloren gaat. Het ziet er naar uit dat berekeningen beter gemaakt kunnen worden
over de ruwe data per schaal dan over de Raschschaalwaarden, tenzij perfecte scores en
nul-scores tot de hoge uitzonderingen behoren. Dit betekent dat schalen zodanig moeten zijn
opgebouwd dat ze voldoende vrij gemakkelijke en ook voldoende flink moeilijke items
bevatten. In dit opzicht kunnen de schalen in de toekomst dus worden geperfectioneerd,
wanneer items worden bijgeconstrueerd.

De wenselijkheid van qua moeilijkheid goed uitgebalanceerde schalen bleek nog eens extra
bij de leesschaal. De items op deze schaal waren te gemakkelijk voor de onderzochte groepen-
Van de 37 experimentele ppn. haalde 30% een perfecte score en van de 57 controle ppn. was
dit het geval voor 19%. Meting door middel van een Raschschaal laat in dit geval dus een
groot deel van de ppn. uit het blikveld verdwijnen. Vergelijking van de condities op de ruwe
scores geeft hier echter ook problemen, omdat er een significant verschil tussen de varianties
blijkt te bestaan
{exp.sd = 2.4; contr.sd. = 1.7; Bartlett-BoxF = 5.2;p = .023). We hebben
evenwel ook geen significante interacties gevonden tussen ppn. en condities, zodat het
verantwoord lijkt te concluderen dat de leestoets slechts betrekkelijk globaal differentieert
tussen relatief zwakke en relatief goede lezers. Teneinde de varianties van de twee groepen te
homogeniseren is het daarom aanvaardbaar de scores van ppn. in te delen in twee niveaus-
Namelijk een score van 1 voor scores boven het totale gemiddelde en een score van O voof
scores onder het totale gemiddelde.

Een Oneway analyse (SPSS) levert dan op dat de gemiddelde score van de experimentele
groep .70 bedraagt met eensd van .46 en de gemiddelde score van de controle groep .49 met
een
sd van .50 (met een significant verschil tussen de gemiddelden op 5%-niveau en geen
significant verschil tussen de varianties). Een hiërarchische covariantieanalyse (SPSS, Anova)
met de projectschalen als covariaten geeft de volgende resultaten (zie Tabel 9).

In tabel 9 is te zien dat het verschil tussen de condities vrijwel geheel is toe te schrijven aan
de covariaten. De bijdrage tot de variantie van schaal II is. 19, van schaal III .03 en van schaal I
.03. Deze bijdragen komen zeer goed overeen met de uitkomsten van de muit.
regressie-ana-

-ocr page 71-

E. Bol en N. D. Verhelst 67

Tabel 9. Covariantieanalyse van de leestoets met de projectschalen

SS

F

P

eovar. schaal II

4.30

22.4

.001

eovar. schaal III

.80

4.2

.044

eovar. schaal I

.58

3.0

.085

•nain effect

.22

1.2

.284

residu

17.07

totaal

22.98

Toets homogeniteh varianties R =.51

Bartlett-Box F = .31 p = .58 R2 = .26

'yse over de totale groep (zie Tabel 8). Het ziet er dus naar uit dat de leestoets inderdaad
slechts differentieert tussen relatief goede en relatief zwakke lezers. In de experimentele
groep bhjken significant meer relatief goede lezers te zitten dan in de controle groep. Dit mag
borden gezien als een, zij het niet al te sterke, aanwijzing voor het bestaan van een causaal
Verband tussen kennis en beheersing van ruimtelijke beschrijvingsmodellen en de door de
bestoets gemeten leesvaardgiehid. Op deze kwestie komen we in latere publikaties terug (o.a.
°ol & Gresnigt, in voorbereiding).

We willen tenslotte nog terugkomen op de interpretatie van de projectschalen. Hoewel de
aangegeven interpretatie elegant en theoretisch zinvol lijkt, lopen we natuurlijk het risico met
artefacten van doen te hebben. Teneinde de interpretatie te controleren zullen we in de
toekomst items voor de drie schalen bijconstrueren. Het is de bedoehng dat neerlandici
VI aalbeheersing te Utrecht) een nauwkeurige beschrijving van de aard van de items krijgen
'•'et de opdracht zulke items te ontwerpen. Door middel van Raschanalyses kan dan vervol-
gens worden nagegaan of de gegeven instructies ook voldoende passende items zullen ople-
veren. Daarnaast kan op basis van de gegeven interpretatie worden aangegeven welke soorten
Van teksten primair zullen samenhangen met de onderscheiden schalen. Aanschouwehjke
erhalende teksten zullen bijvoorbeeld een beroep moeten doen op de door schaal I gemeten
Variable. In samenwerking met Verbaten (Psychofysiologie te Utrecht) zullen de schalen
orden gerelateerd aan oogbewegingen van lezers bij de uitvoering van tekstopdrachten
'Pubhkatie in voorbereiding).

LITERATUUR

^®fnoutse, C.A.J. (1982). Aspecten van begrijpend lezen in het vierde leerjaar van het gewoon lager

-^nderi

onderwijs. Nijmegen: dissertatie.

ersen, E.B., & Madsen, M. (1977). Estimating the parameters of the latent population distribution.
And f^y<^hometrika, 42, 357-374.

"®rson, R.C. (1978). Schema-directed processes in language comprehension. In A.M. Lesgold, J.W.
Pellegrino, S.D. Fokkema & R. Glasser (eds.).
Cognitive psychology and instruction. New York:
gj Plenum Press.

"^baum, M. (1968). Some latent trait models and their use in inferring an examinee's ability. In: F.M.
g^l Lord & M.R. Novick,
Statistical theories of mental test scores. Reading (MA): Addison Wesley.
' E. (1976). Begrijpend lezen op de basisschool.
Pedagogische Studiën, 53, 1-12.

-ocr page 72-

68 Inhoudelijke en statistische analyse van een leestoets

Bol, E. (1978). Het meten van leesvaardigheid door middel van vragen. Tijdschrift voor Onderwijs-
research, 5,
201-215.

Bol, E. (1979). Onderzoeksopzet voor begrijpend lezen op de basisschool (derde tot en met zesde
leerjaar). In M.J.C. Mommers & B.W.G.M. Smits (eds.).
Lees-taalonderwijs in de basisschool.
Den Haag: Staatsuitgeverij.

Bol, E. (1980). Leren lezen en cognitieve ontwikkehng. Tijdschrift voor taalbeheersing, 2-3, 220-231.

Bol, E. (1982a). Leespsychologie. Een onderwijs-leerpsychologische analyse van begrijpend lezen. Gro-
ningen: Wolters-Noordhoff.

Bol, E. (1982b). Task structure analysis of informative texts with regard to the teaching of reading in ths
primary school. In R. Glaser & J. Lompscher (eds.).
Cognitive and Motivational Aspects of
Instruction.
Amsterdam: North Holland Publishing Company.

Bol, E., Gresnigt, M.A., & Vroege, A.P.J. (1982). Begrijpend lezen: communiceren en denken. Pedago-
gische Studiën, 59,
261-276.

Bransford, J.D., & Johnson, M.K. (1973). Considerations of some problems of comprehension. In W.G.
Chase (ed.)
Visual information processing. New York: Academic Press.

Calfee, R.C., & Drum, P.A. (1978). Learning to read: Theory, Research and Practice. Curriculum
Inquiry, S
(3), 183-249.

Dam, G. van, & Brinkerink-Carlier, M. (1982). The process of free recall of texts. In A. Flammer & W.
Kintsch (eds.).
Discourse processing. Amsterdam: North Holland Publishing Company.

Dam, G. van, & Brinkerink-Carher, M. (1983). The influence of extension of text size on free recall.
Journal of General Psychology, 108, 219-231.

Fischer, G.H. (1974). Einfiihrung in die Theorie Psychologischer Tests. Bern: Huber.

Gustafsson, J.E. (1977). The Rasch model for dichotomous items: Theory, applications and a computer
program. Report no. 63, Gotenborg, The Institute of Education.

Handel, S., London, M., & DeSoto, C. (1968). Reasoning and spatial representations./ourna/o/ Verbal
Learning and Verbal Behavior, 7,
351-357.

Hörmann, H. {1916). Meinen und Verstehen: Grundziige einer psychologischen Semantik. Frankfurt affl
Main: Suhrkamp.

Huttenlocher, J. (1968). Constructing spatial images: A strategy in reasoning. Psychological Review, 75,
550-560.

Kintsch, W., & van Dijk, T. A. (1978). Toward a model of text comprehension and production-
Psychological Review, 85, 363-394.

Molenaar, I.W. (1981). Programmabeschrijving van PML voor het Raschmodel. Groningen, Heymans
BuUetin, HB-81-538-RP.

Molenaar, I.W. (1983). Some improved diagnostics for failure of the Rasch model. Psychometrika, 48,
49-72.

Rens, A. van (1982). Een diepteonderzoek naar de aspecten van het leerproces van begrijpend lezen-
Utrecht: Psychologisch Laboratorium, Doctoraal Werkstuk.

Rumelhart, D.E. (1977). Understanding and summarizing brief stories. In D. LaBerge, & S.J. Samuels
(eds.).
Basic processes in reading: perception and comprehension. Hillsdale, NJ: Lawrence
Erlbaum Associates.

Rumelhart, D.E., & Norman, D. A. (1978). Accretion, tuning and restructuring: three modes of learning-
In J.W. Cotton, & R.L. Klatzky (eds.).
Semantic factors in cognition. Hillsdale, NJ; Lawrence
Erlbaum Associates.

Rumelhart, D.E., & Ortony, A. (1977). The representation of knowledge in memory. In R.C. Anderson.
R.J. Spiro, & W.E. Montague
{eds.). Schooling and the acquisition of knowledge. Hillsdale, NJ:
Lawrence Erlbaum Associates.

Schank, R.C., & Abelson, R.P. (1977). Scripts, plans, goals and understanding. An inquiry into human
knowledge structures.
Hillsdale, NJ: Lawrence Erlbaum Associates.

Verhelst, N.D. (1982). Latente eigenschap modellen en multidimensionale representatie. Utrecht, PSM
Progress Report.

Wesdorp, H. (1981). Evaluatietechnieken voor het moedertaalonderwijs. Den Haag: S.V.O., Staatsuitge'
verij.

Manuscript ontvangen 6-4-1984

Definitieve versie ontvangen 5-11-1984

-ocr page 73-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 69-81.

Speed and Precision in Intelligence Tests: Facts or
Artefacts?

Arnold L. van den WoUenberg

abstract

In this study Van der Ven's (1969) speed-precision theory of intelligence is reexamined. It is
shown that his results are based on a statistical artefact. Both his two-factor option and the
independence of speed and precision can no longer be taken to hold. It is argued that separate
scoring of the speed and precision component in time-limit test behaviour still is indicated. For the
precision component the subject-parameters of the Rasch model are a good measure, while the
number of items completed can be used as a measure of speed. The speed scoring may need
revision in the future, in the light of the work of Pieters and Van der Ven (1982).

1. INTRODUCTION

Van der Ven (1969, 1971, 1972, 1973, 1974, 1976a, b) developed a theory for time-limit
intelligence tests, which states that performance on these tests is based on two factors, speed
and precision, which are assumed to be independent. The number of items completed is a
Measure for speed, the proportion of correctly answered items was introduced by Van der Ven
as a measure for precision. Van der Ven's approach in fact implies the denial of content bound
factors; he also presents some material, which seems to support his position.

The proportion correct is only valid as a measure for precision, when all items are equally
difficult, a hardly realistic assumption. In a recent study Van den Wollenberg (1983) showed
•^ow the Rasch model can be used to obtain subject scores for the precision components of
^He-limit intelligence tests. By this a unnecessarily restrictive assumption in the approach of
Van der Ven can be discarded and the applicability of his approach can be extended.

Van den Wollenberg (1983) presented transformation tables, which give an estimate of the
subject parameter given number of items completed and number of items correct. Con-
struction of these transformation tables is possible by virtue of the property of specific
objectivity of the Rasch model.

In the present study we will concentrate on the core of the theory of Van der Ven, the
statement that time-limit test behaviour is fostered by only two factors, speed and precision,
^"ich are not content bound. We will only glance a short look at the presumed independence
Of these two factors, because we feel that this aspect of Van der Ven's theory is less central. We
replicate and extend the analyses of Van der Ven with respect to the ISI-tests.

p ddress of author: Vakgroep Mathematische Psychologic
^ychologisch Laboratorium
^•O- Box 9104
HE Nijmegen

-ocr page 74-

70 Speed and Precision in Intelligence Tests: Facts or Artefacts?

In section 2 we will replicate the analyses of Van der Ven on our present data in order to
establish a point of reference. Here we will also do the same analyses using the Rasch-para-
meters in stead of the proportion measure of Van der Ven. In section 3 we will point out an
artefact possibly invalidating the results of Van der Ven. In section 4 some analyses are
presented after ehmination of the artefact. Finally, in section 5, the state of affairs is made up
with respect to the theory of Van der Ven and some perspectives for future research are
offered.

2. THE RESULTS OF VAN DER VEN

Van der Ven (1969) found a satisfactory fit to the binomial error model for the GATE tests.
When performing a factor analysis on the speed and precision scores of these tests, two
common factors were found, one for speed, the other for precision.

Although he noted that the constancy hypothesis was violated in the ISI-tests, Van der Ven
(1969) performed a factor analysis on the scores for the ISI-tests too. Again a two-factor
solution was found, lending support to the speed-precision option.

Van den Wollenberg (1983) found that of the six ISI intelligence tests, the first five could be
regarded Rasch-homogeneous; in the sequel we restrict our attention to these five tests.

As a first step a factor analysis was performed on the correlation matrix of Van der Ven
(1969, p. 180) with deletion of test 6. Following Van der Ven we used principal factor analysis
(principle components with squared multiple correlation on the diagonal). Although more
optimal choices are possible, we used this method of factor analysis to maximize the compari-
bility with the results of Van der Ven. The deletion of test 6 did not influence the results; as
might be expected, the communalities were slightly higher in the present analysis.

Our data set was of a more recent date than the one of Van der Ven, and, after selection for
some irregularities in the response vectors, consisted of 3870 subjects from the fifth and sixth
grade of Dutch primary school. We replicated the analysis of Van der Ven on our own
material..The essentials are presented in Table 1 and Figure 1.

The main difference between the present results and those of Van der Ven is lying in the
considerably lower communalifies in the present case (31.3 vs 37.6). The explanation may be
found in the fact that the mean number of items completed was considerably higher in our
data. A large number of subjects completed all, items, by which restriction of range is
introduced and correlations are bound to drop. Our data are more recent, so it seems that in
the years the ISI-tests have become easier in the sense that on the average more items are
attempted. We will not go into details here, as our main question regards the factorial
composition of the test-battery. Except for a drop in loadings and some changes for individual
tests the main points are the same:

- There are two factors underlying the correlation matrix of speed and proportion scores; all
speed scores load on one factor, all precision scores load on the other.

- The two factors seem to be more or less independent; oblique rotation results only in slight
correlation between factors.

The essentials of Van der Ven results thus are replicable in our data set.

-ocr page 75-

Arnold L. van den Wollenberg 71

Table 1. Rotated factor-solution for speed and proportion scores.

FACTOR

1

0.0633

0.5406

0.2963

2

0.0083

0.5210

0.2715

3

-0.0105

0.5418

0.2937

4

-0.2200

0.4765

0.2755

5

-0.0864

0.4118

0.1770

6

0.6116

-0.0443

0.3760

7

0.6833

-0.0083

0.4670

8

0.6359

-0.0307

0.4054

9

0.5394

-0.1107

0.3032

10

0.5102

-0.0205

0.2607

0.1857

0.1269

0.3126

■—

variables:

synonyms (speed)
cut figures (speed)
verbal opposites (speed)
figure rotation (speed)
word categories (speed)

6 synonyms (precision)

7 cut figures (precision)

8 verbal opposites (precision)

9 figure totation (precision)
10 word categories (precision)

The use of the Rasch-parameters

'^s was argued by Van den Wollenberg (1979, 1983), the propordon of items answered
^Tectly is not a vahd precision measure unless the item difficuldes are equal. This require-
llJent is not met for the ISI-tests, and therefore the proportion correct should be replaced by
Rasch-parameter obtained by the procedure described by Van den Wollenberg (1983).
"is substitution gave rise to the results presented in Table 2 and Figure 2.

Comparison with the results of Table 1 reveals the following points:

^e explained variance of the two-factor solution drops only marginally; again a two-factor
solution seems appropriate. The two-factor option, however, is not as clear cut as it was in
^he results of Table 1, where the proportion correct is used as a precision score; there the
'bird factor explained only 2.9% of the variance, whereas for the Rasch-parameters this
percentage is 4.2.

As can be seen in Figure 1, where proportion correct was used as precision score, the speed
and precision factors seem to have a slight negative correlation (that is to say, an oblique
•■otation wfill result in negatively correlated factors. In the present analysis, using Rasch-
Parameters, a slight positive correlation between factors can be observed. This is already
obvious from the correlation matrix: of the 25 cross-correlations between speed and
Precision variables 20 are negative when proportions are used, and only 9 are negative,
^hen the Rasch-parameters are used.

-ocr page 76-

72 Speed and Precision in Intelligence Tests: Facts or Artefacts?

1.00

21
50

.50
.»___

1.00
____»

«____

-1.00

----0.00

-.50

10
9

53

-0.50

-1.00

Figure 1 Rotated two-factor solution of speed-scores (1-5) and proportion right (6-10) for the present
dataset.

- Using the proportion correct as a measure for precision gives rise to negative correlations of
all precision scores with their corresponding speed scores, suggesting a speed-precision
trade-off. When the Rasch-parameters are used, the correlations become positive (with the
exception of test 4), which at least seems to suggest that the communality of pertaining to
the same task overrules the possible trade-off.

This difference can easily be explained by considering the fact that the ISI-items in a test
are of increasing difficulty. Fast working subjects reach the more difficult items; this has a
negative effect on the proportion correctly answered items, not, however, on the Rasch
precision parameter.

Even test 4, which shows a negative correlation between speed and Rasch-parametef,

-ocr page 77-

Arnold L. van den Wollenberg 73

Table 2. Rotated factor-solution of speed scores and Rasch-parameters.

1

2

1

0.1760

0.5170

0.2983

2

0.1069

0.5069

0.2689

3

0.0901

0.5422

0.3021

4

-0.1222

0.4772

0.2426

5

-0.0237

0.4314

0.1867

6

0.6432

0.1050

0.4247

7

0.6814

0.0533

0.4671

8

0.6275

0.0693

0.3986

9

0.4929

0.0117

0.2431

10

0.4972

-0.0077

0.2473

0.1828

0.1251

0.3079

behaves, to an extent, in line with the general observation. The correlations of the speed
score of test 4 will all Rasch-scores was negative: the correlation with the own Rasch-score
was only -.009. Just as for the other tests, the correlation of speed and precision was highest
when both scores pertained to the same test.

The use of the Rasch-parameters in stead of the proportion correct had clear effects on the
results. Not only is the Rasch-parameter theoretically superior to the proportion score, this
superiority also shows in differential results in analyses. Despite the clear differences between
Proportion scores and Rasch scoring, the main conclusion (two factors, which are nearby
^"correlated) still stands.

3. AN ARTEFACT

It is a well-known fact that product-moment correlations obtained on binary data (phi-coeffi-
?ents) should not be used in factor analysis (e.g., Carrol, 1961 or Lord & Novick, 1968). The
'^homogeneity of the distributions may produce artefactual factors. Also when the variables
®''e not binary, the distributions must be homogeneous in order to obtain good estimates of the
"^""relations. When this requirement is not met, the solution can be distorted systematically.
. In Figure 3 the frequency distributions of speed scores and Rasch-parameters of test 4 are
S'ven. These distributions are representative for all five tests.

J'is immediately clear that the speed distribution cannot but cause trouble in a factor analysis;
e results reported thusfar are definitely chalenged by this fact.

In order to get some indication as to how serious the effect of this inhomogeneity of
'stributions is, we did the following simulation:

" Multivariate normal, 10 component data vectors were generated, with a correlation of .40

FACTOR

-ocr page 78-

74 Speed and Precision in Intelligence Tests: Facts or Artefacts?

1.00

0.50 2

5

9 7

9

___»__________

10

-1.00
»_____

-.50
__

1.00

-0.50

-1.00

Figure 2 Rotated two-factor solution of speed-scores (f-5) and Rasch-parameters.

between the components. This impUes that one common factor underlies these data, and
the components have a factor loading of (.40)1^2

- Half of the variables were truncated in that all scores exceeding -1.00 were put equal to this
value. In this way a distribution resulted for these variables, which to a degree resembles the
speed distributions we observed in our data.

- The correlation matrix of the truncated variables on the one hand and the normally
distributed variables on the other was obtained and a factor analysis was performed.

The results of this analysis are presented in Table 3 and Figure 4.

-ocr page 79-

2035

Arnold L. van den Wollenberg 75

Speed

201

-1 '''

360

35U

«1

156

113

11)3

I—i 1

1

11

12

13

14 15

16

17

13

lias

1363

252

Precision

631

23t

125

33

15

35

-2.50 -1.50 -0.50 0.50 1.50 2.50 1.50

■1.50

fi,

'sure 3 Frequency distribution of speed scores and Rasch-parameters for ISI-4.

oh^ .^^"^tor solution of the generated data shows a remarkable resemblance with the results
«ined for our ISI data. The truncated variables behave as speed scores, loading on one
Q ""non factor and having a lower communality than the non-truncated variables, which load
" the other factor. The two factors resulting from the principal factor analysis are correlated
^^ore strongly than the factors reported in Table 2 and Figure 3. But then again, we have
^ osen intercorrelations between the variables which are somewhat higher than the inter-
calation between the ISI-scores; resemblance could be optimized further,
ex 1 ^ present results seem to indicate that the communality of the ISI-scores might well be
s, ™'."ed by one factor; the second factor found by Van der Ven might be nothing more than a
'stical artefact. A point of caution has to be pointed out, however. The fact that a

-ocr page 80-

76 Speed and Precision in Intelligence Tests: Facts or Artefacts?

Table 3. Rotated factor-solution for generated, truncated, one-factorial data.

factor

1

2

1

0.2648

0.4877

0.3079

2

0.2109

0.5417

0.3379

3

0.2538

0.4890

0.3035

4

0.2637

0.5161

0.3359

5

0.2487

0.4337

0.2499

6

0.6025

0.2465

0.4238

7

0.5824

0.2927

0.4249

8

0.5993

0.2661

0.3950

9

0.5332

0.3208

0.3872

10

0.5504

0.3107

0.3994

0.1475

0.1175

0.2650

one-factorial structure with truncation of some of the variables leads to a two-factorial
structure does not necessarily imply the reverse. That is, the present demonstration cannot be
taken to be a proof that the ISI-scores have only one factor in common. That this indeed is not
the case will show in the following.

In any case, the present simulation casts serious doubt upon the results and conclusions of
Van der Ven.

4. ELIMINATION OF THE ARTEFACT

In order to get some indication of the results to be expected, when the distribution artefact is
not present, we did some analyses on a selected subsample of the present data set. All
subjects
with a speed score of 20 on any of the tests were ehminated from the sample; in this way the
extreme skewedness of the speed distributions was ehminated. Only 126 subjects were
retained in the selected sample. This procedure leaves room to criticism:

- As the subsample of 126 subjects is only a small and selected part of the total sample, the
results may be expected to be biased in many ways.

- The difference in distribution between speed scores and Rasch-parameters may be re-
duced, it is not completely ehminated.

- Restriction of range is introduced to a still larger extent.

The above points prescribe a very cautious interpretation of the results. However, our mai"
interest is the factorial structure in the sense of number of factors on the one hand and the
factorial separabihty of speed scores and Rasch-parameters on the other. This structure
should hold within each subsample; the numerical value of the loadings and intercorrelation'
may be changed by the selection, they are at this moment less relevant.

-ocr page 81-

77

Arnold L. van den Wollenberg
1.00

.50

U
31
5

9

107
3 «

-1.00
»___________

-.50
_*_______

00-

___»

1.00

.50

50

-1 .00

'sure 4 Rotated principal factor solution for truncated, one factorial, generated data.

As from this stage on comparison with results of Van der Ven is no longer at issue, we are no
'°nger forced to use the same methods of analysis as he did. In the following confirmatory
factor analyses will be reported, which were obtained by means of LISREL V (Jöreskog &
^örbom, 1981); exploratory factor analyses are performed according to the maximum likeli-
''ood method adapted by Jöreskog (1967) and the alpha factor method of Kaiser and Caffrey
(1^65). By means of these methods several aspects of the theory of Van der Ven will be

studied.

- The number of factors

^e tentative hypothesis that elimination of the artefact could result m a one-factor structure
d^es not hold; to the contrary, the number of factors seems to increase. Although the

-0

-ocr page 82-

78 Speed and Precision in Intelligence Tests: Facts or Artefacts?

two-factor solution results in a chi-square goodness of fit measure of 31.96 with 26 degrees of
freedom (p=.19), the residual correlation matrix has substantial entries for the variables 1, 3
and 4 and to a lesser extent, for variable 2; the structure of these entries is systematic. So it
seems that yet another factor can be extracted. A three factor solution gives a chi-square of
14.50 by 18 degrees of freedom
(p =.70). And now residuals behave, as might be expected,
when all common factors have been partialled out. So, although the two-factor solution seems
acceptable on statistical grounds, a three factor solution is preferable.

Another result pleading for the three-factor solution is given by the Kaiser-Caffrey alpha
factor analysis. In all earher instances this method (with a built-in criterion for the number of
factors) indicated a two-factor solution; now this method gives a three factor solution, quite
comparable with the three-factor maximum Ukelihood solution.

So, with regard to the number of factors, it can be stated that the two-factor hypothesis is not
quite as obvious, as in previous analyses. Now a three-factor solution seems to be more
plausible.

In Table 4 the three-factor maximum-likehhood solution is presented. On the first factor
the variables 6, 7 and 8 have a considerable loading; this factor can be characterized as a
precision factor accounting for two verbal tests (synonyms and verbal opposites) and one
figural test (cut figures). The second factor again seems to be a precision factor, as the
precision variables 9 and 10 (figure rotation and word categories) load heavily on this factor.
However, now also the speed variable word categories shows a considerable loading. Factor 3,
finally seems to be a speed factor, as all speed variables, except for variable 5, have consider-
able loadings on this factor.

We do not feel the urge to give a substantive interpretation of the present results, partly
because of the hmitations of the present sample, partly because of the fact that we feel that the
relation between speed and precision should rather be investigated in terms of a processmodel

Table 4. Three-factor solution according to the exploratory maximum hkehhood factor method; re-
stricted sample (N=126).

FACTOR

1

2

3

t

f

1

0.2527

-0.0148

0.4045

0.2277

2

0.1262

0.3401

0.4491

0.3333

3

0.1515

0.0352

0.4079

0.1906

4

-0.0668

0.0782

0.3743

0.1507

5

-0.0963

0.5727

0.1170

0.3510

6

0.6664

0.0329

0.0999

0.4551

7

0.6398

0.2704

0.1194

• 0.4968

8

0.6052

0.0624

0.0940

0.3790

9

0.2295

0.4572

0.1666

0.2895

10

0.2200

0.6743

-0.0274

0.5039

0.1437

0.1193

0.0747

0.3377

-ocr page 83-

Arnold L. van den Wollenberg 79

in line with Pieters and van der Ven (1982), who studied the speed component of test
behaviour. In this option the present results should not be taken as an explanation of the
underlying behaviour structure, but rather are themselves facts to be explained.

4.2. Factoral separability of speed and precision

In the preceding section we already observed that speed and precision variables cannot be
clearly separated in terms of factors. But a more powerful method to study this question is
available, as the theory of Van der Ven can easily be tested by means of a confirmatory factor
analysis (LISREL V, Jöreskog & Sörbom, 1981). Van der Ven's theory imphes the following
restrictions for the input of LISREL:
~ There are only two factors

- The factors are uncorrelated

- All speed scores have zero loadings on the precision factor, whereas all precision variables
have zero loadings on the speed factor.

These restrictions constitute an identifiable model. In Table 5 the results of this confirmatory
factory analysis along with two other models are presented.

^s can be seen the Van der Ven theory (model I) does definitely not fit the data. Even when
Correlated factors are introduced (model II) the fit remains unacceptable (given the small A'),
^odel III is the three-factor solution found in the exploratory maximum likehhood factor
analysis, with the restriction that each variable was allowed to load on just one factor; factors
Were allowed to correlate. This model fits very well, but, of course, capitalization on chance is
quite feasible here, as the hypothesis is based on the same data as the test. So the results should
not be taken too serious in this respect.

^■3. Independence of speed and precision

The postulated independence of speed and precision can also be refuted from the following
facts:

Of the 25 cross-correlations between speed and precision variables only three were (insig-
nificantly) negative.

Application of the LISREL approach as reported above consistently favored correlated
soludons to a considerable extent.

Table 5. Results of some confirmatory factor analyses on the restricted dataset.

Model

Df

I

Two factors
uncorrelated

35

75.11

p < .001

u

Two factors
correlated

34

60.16

p = .004

III

Three fa'ctors
correlated

32

35.76

p = .296

-ocr page 84-

80 Speed and Precision in Intelligence Tests: Facts or Artefacts?

- All correlations between speed and precision within one test were clearly positive (test 4
departs from this rule, the correladon being only .07). The correlations between the
common parts of the speed and precision scores within the same test where .65, .56, .49,
.39, and .86, respectively.

From these facts three conclusions can be drawn:

- Speed and precision are not independent of another: they share a common core.

- Speed and precision scores do not measure the same thing; when they did, the correlation
between true scores, and by that between the common parts, should be equal to 1. The
correlation between the common parts of two variables constitutes an upper hmit for the
correlation of the true scores, so the correlations between the true speed and precision
scores may be expected to be smaller than the figures given above.

- The correlation between speed and precision varies considerably over tests: the relation
between speed and precision seems to be task dependent. It seems a reasonable hypothesis
that speed and precision will correlate highly if a task is of the 'crystalized intelhgence' type,
asking mainly for reproduction of knowledge. A high degree of knowledge enhances both
speed and precision; reproduction errors are unlikely, so a trade-off will not be operative.
Tasks of the 'fluid intelligence' type asking also for creative manipulation of knowledge are
more susceptible for errors and could entail a speed precision trade-off, inducing low or
negative correlations. The present results are roughly in accordance with this ad hoc
hypothesis.

5. CONCLUSIONS

Van den Wollenberg (1983) showed that the Rasch-parameter was a better measure for
precision than the proportion correct used by Van der Ven. This imphed that one of the
assumptions of Van der Ven could be relaxed; this can be looked upon as a gain in applicabihty
of his theory.

Now two other assumptions of the theory of Van der Ven have to be refuted; the indepen-
dence of speed and precision over subjects within a single test, and the two factor option. In
our opinion, the first assumption is not central; conceptually, the independence of speed and
precision would be nice, but it is not essential for a two-factor theory or for a decision to
score
time-limit tests by means of two instead of one score.

The assumption of one speed and one precision factor, however, is the kernel of the Van der
Ven approach. Refutation of this assumption imphes the total invalidation of this theory. No'
only more than one precision factor was obtained, even with such modest a number of tests,
but the factors could even not be clearly identified as speed or precision factors.
Speed
variable 5 behaves as a precision variable, or stated otherwise, the factor on which the
variables 5, 9 and 10 load, cannot be interpreted as a precision factor.

Van der Ven also analyzed the GATB-test battery; in these tests the presently discussed
artefact is probably not operating, so a reconsideration of GATB-data in the light of the
present results is necessary.

One important aspect of the approach of Van der Ven still stands: within one test speed and
precision are different things; reduction of these two aspect to one cannot but cause loss

-ocr page 85-

Arnold L. van den Wollenberg 81

(relevant) information.

As stated earlier, we believe that the relation between speed and precision should also be
studied by means of a process model, in which speed and precision are model parameters.
Research in this line was already performed by Pieters and Van der Ven (1982) concentrating
on the speed aspect, further research also incorporating the precision aspect is planned for.
This approach may ask for another type of data than the traditional intelligence test data, but it
is our firm conviction that for the advancement of psychological testing the gap between the
psychometric and the process-model approach should be abridged.

When the intended research sheds light on the relation between speed and precision in
time-limit test behaviour, it may become clear how these tests can best be scored. In the mean
time, we feel that the scoring procedure advocated in this study is theoretically more sound
than the traditional scoring procedure. Whether the present differentiation between the speed
and the precision aspect pays off in terms of increased predictive vahdity of a time-limit test
battery is an interesting and as yet open question. Also with regard to this point research is
going on.

REFERENCES

Carroll, J.B. (1961). The nature of the data, or how to choose a correlation coefficient. Psychometrika,
26,
347-372.

Jöreskog, K.G. (1967). Some contributions to maximum likelihood factor analysis. Psychometrika, 32,
443-482.

Jöreskog, K.G., & Sörbom, D. (1981). LISREL V. Research Report 81-8, University of Uppsala,
Sweden.

Kaiser, H.F., & Caffrey, J., (1965). Alpha factor analysis, Psychometrika, 30, 1-14.

Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental testscores. Reading, MA.: Addison
Wesley.

Pieters, J.P.M., & van der Ven, A.H.G.S. (1982). Precision, speed and disttaction. Applied Psychological
Measurement, 6,
93-109.

Van der Ven, A.H.G.S. (1969). The binomial error model applied to time-limit tests. Dissertatie, K.U.
Nijmegen.

Van der Ven, A.H.G.S. (1971). Time-limit tests; a critical evaluation. Nederlands Tijdschrift voor de
Psychologie, 26,
580-591.

Van der Ven, A.H.G.S. (1972). Speed and precision in the general aptitude test battery. Nederlands
Tijdschrift voor de Psychologie, 27,
530-537.

Van der Ven, A.H.G.S. (1973). Een ware score theorie voor tests met tijdslimiet. Nederlands Tijdschrift
voor de Psychologie, 28,
267-280.

Van der Ven, A.H.G.S. (1974). The correlation between speed and precision in time limit tests. Neder-
lands Tijdschrift voor de Psychologie, 29,
447-456.

Van der Ven, A.H.G.S. (1976a). The rehability of speed and precision in time-limit tests. Tijdschrift voor
Onderwijs Research, I,
68-73.

Van der Ven, A.H.G.S. (1976b). An error score model for time-limit tests. Tijdschrift voor Onderwijs
Research, I,
215-226.

Van den Wollenberg, A.L. (1979). The Rasch model and time-limit tests. Dissertation, K.U. Nijmegen.

Van den Wollenberg, A.L. (1983). Measuring subjects on a joint scale by means of time-limit tests.
Tijdschrift voor Onderwijs Research, 8, 145-156.

Manuscript ontvangen 29-9-1983
Definitieve versie ontvangen 29-3-1984

-ocr page 86-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 82-85.

Notities en Commentaren

de empirische samenhang van sociometrische scores: een
analyse op twee niveau's

J.J. Hox en J.M. Willemse

Universiteit van Amsterdam, Vakgroep Algemene Opvoedkunde

Wanneer men geïnteresseerd is in de sociale status van individuen in een groep dan is een veel
gebruikte methode het afnemen van een sociometrische test. Gaat het slechts om één enkele
groep dan kan men veelal volstaan met het tekenen van een sociogram. Wil men een groot
aantal groepen (bijvoorbeeld schoolklassen) in het onderzoek betrekken dan moet de so-
ciometrische status van individuen en groepen door middel van scores weergegeven worden.
Op basis van een sociometrische test kunnen dan in principe drie soorten scores berekend
worden: individuele scores, d.w.z. scores die de kenmerken van een individu in de groep
weergeven; groepsscores, d.w.z. scores die kenmerken van de groep als geheel weergeven; en
structuur-scores, d.w.z. scores die te maken hebben met het vóórkomen van subgroepen in
een groep.

Onderzoekers kunnen voor al deze gevallen kiezen uit een aantal verschillende scorings-
formules (vgl. Coleman, 1964; Remmers, 1967; Lindzey & Byrne, 1968). Empirisch bhjken
deze scores elkaar echter voor een deel te overlappen (De Leeuw, 1978; De Vries, 1980).

Bij het onderzoeken van de empirische samenhang van sociometrische scores doet zich het
probleem voor dat sociometrische gegevens een hiërarchische opzet hebben: er zijn gegevens
over individuen verzameld en deze individuen zijn georganiseerd in groepen. Deze opzet
komt in onderwijskundig onderzoek regelmatig voor: leerhngen zijn georganiseerd in klassen
en klassen zijn weer georganiseerd in scholen. Doorgaans wordt dit soort gegevens uitsluitend
geanalyseerd op leerlingniveau; een analyse op klas- of schoolniveau vereist namelijk vrij
grote steekproeven. Zowel theoretisch (Robinson, 1950; Slatin, 1974) als empirisch (Cron-
bach & Webb, 1975, Harnqvist, 1978) is echter aangetoond dat de resultaten van analyses op
verschillende niveau's sterk van elkaar kunnen verschillen. Om een compleet beeld te krijgen
van de verschillende samenhangen moet dit soort gegevens eigenhjk op alle niveau's geana-
lyseerd worden. Cronbach heeft hiervoor een simpele procedure voorgesteld, namehjk het
opsphtsen van de individuele scores in additieve en onafhankelijke componenten voor de
verschillende aggregatieniveau's (Cronbach & Webb, 1975; Harnqvist, 1978).

In deze notitie wordt Cronbach's procedure toegepast op de gegevens van een sociometri-
sche test.
De sociometrische scores worden daarbij uitgesplitst in klasse-scores en leerling-
scores en op beide niveau's wordt een componentenanalyse uitgevoerd. Het doel van deze
notitie is tweeledig: het onderzoeken van de dimensionahteit van een verzamehng sociome-
trische scores en het presenteren van een eenvoudige methode om gegevens van
verschillende
aggregatieniveau's te analyseren.

GEGEVENS

In 1982 is de Syracuse-Amsterdam-Groningen Sociometrische schaal (SAGS) afgenomen
aan 1361 leerhngen in 59 klassen van 13 GLO scholen in Amsterdam (Van der Wolf, 1984).

Adres: Prinsengracht 227, 1015 DT Amsterdam.

-ocr page 87-

J.J. Hox en J.M. Willemse 83

In de SAGS wordt elke leerling in een klas beoordeeld door alle andere leerlingen op een
5-punts schaal (Defares, Kema, Van Praag & Van der Werff, 1977). Volgens de oorspron-
kelijke opzet (Defares et al., 1977) worden hieruit per leerUng drie scores berekend: de
gemiddelde ontvangen beoordehng (GEMONT), de gemiddelde gegeven beoordehng
(GEMGEV) en een ratioscore (RATIO = GEMONT/GEMGEV). Voor onze analyse zijn
hieraan vier scores toegevoegd. Toegevoegd zijn twee dichotome (0,1) scores die aangeven of
de beoordeelde persoon een ster (STER) of een geïsoleerde (ISO) is; in navolging van Van
der Ploeg (1976) zijn deze gedefinieerd als personen waarvan de gemiddelde ontvangen
beoordeling meer dan één standaard afwijking boven respectievehjk onder het klassegemid-
delde hgt. In navolging van De Leeuw (1978) zijn twee spreidingsmaten toegevoegd: de
standaard afwijking en de range van de ontvangen beoordehngen (SAONT en RAONT).
Uiteindelijk worden op basis van de SAGS per leerhng zo zeven sociometrische scores
bepaald.

ANALYSE

Per leerling is elk van de zeven sociometrische scores opgesplitst in een klasse-score en een
leerhng-score. De klasse-score is gedefinieerd als het gemiddelde van de klas waarvan de
leerling deel uitmaakt; de leerhng-score is gedefinieerd als de afwijking van de individuele
score van het bijbehorende klassegemiddelde. De klasse-scores worden hier aangeduid met
het voorvoegsel G- (van Gemiddelde); de leerüng-scores met het voorvoegsel D- (van
Deviatie).

Voor de G-scores en de D-scores afzonderUjk is de covariantiematrix berekend. Deze
matricen bevatten respectievelijk de covarianties tussen-de-klassen en de covarianties bin-
nen-de-klassen; de som van deze twee covariantiematricen levert de covariantiematrix van de
OorspronkeÜjke scores op. Beide matricen zijn vervolgens geschaald door alle elementen te
delen door het product van de standaard afwijkingen van de bijbehorende
oorspronkelijke
Scores. Het resultaat is twee matricen die onderhng orthogonaal zijn en die opgeteld de
correlatiematrix van de oorspronkeÜjke scores opleveren. Of, met andere woorden: de

Tabel 1. Resultaten componentenanalyses

G-scores

D-scores

Totaal

Score

l

ii

c

i

ii

iii

iv

c

c

gemont

44

01

19

26

-55

60

-08

74

93

gemgev

49

01

24

05

-06

04

86

74

98

ÏuTIO

00

-01

00

29

-48

35

-73

96

96

ster

00

-03

00

06

-07

97

-04

95

95

ISo

00

-02

00

-31

91

-10

02

94

94

saont

14

38

17

80

-28

11

-01

72

89

j^aont

16

30

12

87

-15

08

-06

79

91

% Var.

7

3

10

45

17

14

8

84

94

^—

'

(decimale punt weggelaten; c = communahteit)

-ocr page 88-

84 Notities en Commentaren

correlatiematrix van de oorspronkelijke scores is op deze manier opgesplitst in een cova-
riantiematrix tussen-de-klassen en een daarvan onafhankelijke covariantiematrix binnen-de-
klassen.

Op beide matricen is een componentenanalyse uitgevoerd gevolgd door een varimax-rota-
de.

RESULTATEN EN DISCUSSIE

Een oplossing met twee componenten voor de G-scores en vier componenten voor de
D-scores bhjkt het best interpreteerbaar te zijn (Tabel 1).

Het grootste deel van de variantie van de oorspronkehjke scores (84%) wordt verklaard
door verschillen tussen leerlingen; slechts een klein deel (10%) door verschillen tussen
klassen. Op klasniveau worden twee componenten gevonden: een die het gemiddelde van de
ontvangen en gegeven beoordehngen weergeeft en een die de spreiding van de ontvangen
beoordehngen weergeeft. Dit komt overeen met eerder gevonden resultaten (De Leeuw,
1978; De Vries, 1980). De spreidings-component wordt op leerhngniveau teruggevonden.
De component voor het klassegemiddelde wordt op leerhngniveau echter gesplitst in drie
componenten: één voor de gemiddelde gegeven score en twee componenten die de status van
'ster' respectievelijk 'geïsoleerde' weerspiegelen. Dit laatste is uiteraard vooral een gevolg
van het feit dat de dichotome scores 'STER' en 'ISO' per definitie negatief met elkaar
correleren; men kan immers niet zowel 'ster' als 'geïsoleerde' zijn.

Samenvattend kan geconcludeerd worden dat bij een kwantitatief onderzoek waarin een
groot aantal klassen opgenomen zijn de sociometrische scores RATIO, STER en ISO niet in
aanmerking komen omdat ze geen informatie toevoegen en bovendien bij een multivariate
analyse problemen kunnen geven omdat ze afhankelijk zijn van elkaar. SAONT en RA ONT
zijn onderhng verwisselbaar: het is niet nodig ze beide te gebruiken. Vanwege de grotere
precisie is SAONT te prefereren. Bij het interpreteren van de sociometrische scores van de
leerlingen van een enkele klas kan volstaan worden met de gemiddelde ontvangen beoorde-
hng (GEMONT), de gemiddelde gegeven beoordeling (GEMGEV) en de standaard afwij-
king van de ontvangen beoordehngen (SAONT). De door Defares et al. onderscheiden
RATIO-score voegt geen informatie toe aan de scores waaruit deze is samengesteld (GEM-
ONT en GEMGEV).

Gezien het feit dat de oorspronkehjke scores zowel leerling- als klasse-variatie bevatten,
verdient het bij onderzoek waarin een groot aantal klassen betrokken is de aanbeveling om de
analyse uit te splitsen naar de verschillende niveau's die in het onderzoek zijn opgenomen. De
hier gepresenteerde methode om scores uit te splitsen is hiervoor een doeltreffend middel.

Aan de analyse van op deze wijze uitgesplitste scores is een tweetal methodologische
problemen verbonden.

In de eerste plaats heeft de gebruikte methode van uitsplitsing de beperking dat de
leerUngen per klas worden opgevat als een gefixeerde factor, terwijl in veel gevaUen een
aselect model de voorkeur zou moeten genieten. Dit is echter niet per se een onoverkomeUjk
bezwaar. Bij een onderzoekseenheid als een schoolklas die als eenheid een bepaalde,
unieke
geschiedenis heeft doorgemaakt is het te verdedigen dat de leerUngen per klas worden
opgevat als een gefixeerde factor. Verder blijkt uit recent simulatie-onderzoek (Tate &
Wongbundhit, 1983) dat de gebruikte methode ook bij toepassing op gegevens,
gegenereerd
volgens een aselect model, acceptabele parameterschattingen oplevert.

In de tweede plaats doet zich dë vraag voor hoe ver de uitspUtsing moet worden voortgezet.
In principe kan iedere willekeurige variabele als groeperingsvariabele gebruikt worden om

-ocr page 89-

JJ. Hox en J.M. WiUemse 85

een steekproef in groepen te verdelen, waarna een analyse uitgevoerd kan worden op
groepsniveau en op individueel niveau. Eventuele interactie- of moderatoreffecten die sa-
menhangen met de groeperingsvariabele zijn dan onder controle gebracht. In het algemeen
verdient dit niet de voorkeur: er zijn betere methoden beschikbaar om interactie- of modera-
toreffecten te analyseren. Het onderscheiden van groepen verdient wel de voorkeur wanneer
het gaat om een 'natuurlijke' hiërarchische groepsindeling als scholen of klassen. De hier
gepresenteerde methode is vooral effectief wanneer ook op het geaggregeerde niveau andere.
Verklarende variabelen beschikbaar zijn (bijvoorbeeld school- of klaskenmerken) die op het
betreffende niveau in een analyse kunnen worden opgenomen.

LITERATUUR

Coleman, J. (1964). Introduction to mathematical sociology. London: ColIier-MacMillan.

Cronbach, L.J., & Webb, N. (1975). Between-class and within-class effects in a reported aptitude x
treatment interaction: Re-analysis of a study by G.L. Anderson.
Journal of Educational Psy-
chology, 67,
717-724.

Defares, P.B., Kema, G.N., van Praag, E. & van de Werff, J.J. (1977). 5/1G5. Syracuse-Amsterdam-Gro-
ningen Sociometrische schaal.
Amsterdam: Swets en Zeitlinger.

Hamqvist, K. (1978). Primary mental abilities at collective and individual levels. Jounal of Educational
Psychology, 70,
706-716.

Leeuw, E.D. de (1978). De Amsterdamse sociometrische schaal. Amsterdam: Universiteit van Am-
sterdam, vakgroep psychofysiologie, ZWO-rapport project 10-40.

Lindzey, G., & Byrne, D. (1968). Measurement of social choice and interpersonal attractiveness. In: G.
Lindzey & E. Aronson (eds.).
Handbook of social psychology, vol. II. Reading, MA.: Addison-
Wesley.

Ploeg, J. van der (1975). Isolement, angst en agressie. Alphen a/d Rijn: Samson.

Remmers, H.H. (1967). Ratingmethods in research on teaching: sociometrie methods. In: N.L. Gage
(ed.).
Handbook of research on teaching. Chicago: Rand McNally.

Robinson, W.S. (1950). Ecological correlations and the behavior of individuals./4mencfln Sociological
Review, 15,
351-357.

Slatin, G.T. (1974). A factor analysic comparison of ecological and individual correlation: some metho-
dological implications.
Sociological Quarterly, 15, 507-520.

Tate, R.L., & Wongbundhit, Y. (1983). Random versus nonrandom coefficient models for multilevel
analysis./ourna/
of Educational Statistics, 8, 103-120.

Vries, F. de (1980). De Amsterdamse sociometrische schaal. Amsterdam: Universiteit van Amsterdam,
vakgroep psychofysiologie, ZWO-rapport project 10-40.

Wolf, J.C. van der (1984). Schooluitval, een empirisch onderzoek naar de samenhang tussen schoolinterne
factoren en schooluitval in het regulier onderwijs.
Lisse: Swets en Zeitlinger.

Ontvangen 1-8-1984

-ocr page 90-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 86-88

Notities en Commentaren

artificiële intelligentie en onderwijs: een kritiek op
'groeiend inzichr van h.f.m.m. verstralen (1984).1

J-A.C. Sandberg en Y.F. Barnard
Rijksuniversiteit Utrecht

Met groeiende verbazing hebben wij het artikel 'Groeiend Inzicht' (Verstralen, 1984)
gelezen. In dit artikel tracht Verstralen de schadelijkheid aan te tonen van onderwijs dat te
eenzijdig van het kunstmatige intelligentie paradigma uitgaat. Hij stelt dat essentiële delen
van de cognitie binnen dit paradigma buiten beschouwing worden gelaten, zoals 'fantasie' en
'senso-motoriek'. De kunstmatige intelligentie zou zich alleen bezighouden met de taalstruc-
turen en dan nog wel op lexicaal-syntactisch niveau. Wij vermoeden dat veel van Verstralen's
kritiek op de principes van de kunstmatige intelligentie voortvloeit uit begripsverwarring
rondom de termen zoals die binnen dit paradigma gehanteerd worden.

In deze reactie beperken we ons tot twee hoofdpunten, namelijk ten eerste 'wat houdt het
artificiële intelligentie paradigma precies in' en ten tweede 'op welke wijze wordt onderzoek
gedaan naar leerprocessen en welke consequenties zou dergelijk onderzoek kunnen hebben
voor het onderwijs'. We besluiten deze reactie met een voorbeeld van de wijze waarop
onderzoek vanuit het artificiële intelligentie paradigma van invloed zou kunnen zijn op de
praktijk van het onderwijs.Op blz. 27 (Verstralen, 1984) wordt het Amerikaanse informatie
verwerkingsparadigma gelijkgesteld met het kunstmatige intelligentie paradigma. Het infor-
matie verwerkingsparadigma is echter niet hetzelfde als het kunstmatige intelligentie para-
digma. In 1966 beschrijft Green in het kort de informatie verwerkingsbenadering: "The
information processors prefer complex or as they say 'rich' experimental situations so that the
complex structure of man's behavior can be displayed. Evidence for the processes intervening
between input and output are sought usually by obtaining 'thinking aloud protocols' from the
student." (blz. 56) De informatie verwerkingsbenadering is dus allereerst een benadering die
zich richt op de procesmatige aspecten, de niet direct observeerbare aspecten van het men-
selijk handelen.

In het kader van de informatie verwerkingsbenadering worden simulatie-modellen ge-
bruikt als theoretische beschrijvingen van cognitieve processen. Het werken met
dergelijke
modellen dwingt de ontwerper zich rekenschap te geven van elke theoretische stap. In dat
opzicht dient men de ontwikkeling van simulatie-modellen vooral te beschouwen als hulp-
middel bij de uitwerking van theorieën en de daaruit voortvloeiende hypothesen. Onvol-
doende explicitering betekent immers dat het programma, het simulatie-model niet werkt.

Onderzoek binnen de kunstmatige intelligentie stelt zich echter niet ten doel menselijke
cognitieve processen te simuleren, maar zoals in The Handbook of Artificial Intelligence
(Barr & Feigenbaum, 1982) te lezen vaU: "Artificial Intelligence is a branch of computer
science (...) the study of the relation between computation and cognition. Research in Al
involves writing programs that attempt to achieve some kind of intelligent behavior". Dat

1  Met dank aan dr. P. Span voor zijn commentaar op een eerste versie.
Vakgroep Onderwijskunde, Heidelberglaan 1, 3584 CS Utrecht.

-ocr page 91-

87 Notities en Commentaren

betekent niet noodzakelijkerwijs intelligent gedrag, zoals mensen dat vertonen.

Verstralen stelt op p. 30: "Ik vind het (...) onjuist om Kl-programma's te presenteren als
modellen van de menselijke cognitie. Deze modellen beschrijven immers een leerhng die
lexicaal-syntactisch vaardig is in het hanteren van de taal waarmee de leerstof beschreven
^ordt, zonder er een snars van te snappen". Een goed voorbeeld van een computerpro-
gramma waar dat verwijt voor zou kunnen gelden is het programma STUDENT dat in de
jaren vijftig ontwikkeld werd in het kader van kunstmatige intelhgentie (Garfinkel, 1960).
Het programma STUDENT lost vrij moeihjke redactie-opgaven op door op basis van vooral
lexicale en syntactische kennis de opgavetekst te vertalen in een algebraische vergehjking. In
een later stadium werd het programma als simulatie-model gebruikt en vergeleken met
hardop-denk-protocollen van 28 mensen van verschillende leeftijden en uiteenlopende op-
leidingen of beroepen (Paige & Simon, 1966). Paige en Simon concludeerden dat de meeste
mensen niet zo te werk gingen als het programma. Gelukkig maar, want het programma
Student b'eek ook onmogelijk opgaven op te lossen, bijvoorbeeld door te accepteren dat
de lengte van een stuk hout een negatieve waarde aannam. Mensen beschikken, zo stelden
Paige en Simon, niet alleen over lexicale en syntactische kennis, maar ook over semantische
kennis. Daardoor zijn zij in staat de tegenstelling tot het programma STUDENT te bepalen
Wanneer een opgeve onmogelijk is. Mensen weten dat de lengte van een stuk hout niet
negatief kan zijn. Studies als deze hebben geleid tot een stroom pubhcaties op het gebied van
het probleemoplossen. Mensen blijken in veel gevallen wel degelijk af te gaan op de semanti-
sche kenmerken van een opgave en zich niet uitsluitend te baseren op lexicaal-syntactische
aspecten.

Werd eerst vooral aandacht besteed aan lexicaal-syntactische aspecten, tegenwoordig ligt
de nadruk op semantische kennis. Verstralen suggereert dat afgevaardigden van de kunst-
matige intelligentie (liever spreken wij hier van cognitieve psychologie) een type onderwijs
Voorstaan dat leerlingen opleidt tot lexicaal-syntactisch vaardigen die taken en problemen
aanvatten zonder er iets van te begrijpen. Hoe komt hij daar nou toch bij? Hij onderbouwt
deze stehingname dan ook niet, maar laat alleen wat namen vallen (Elshout & Wielinga,
1981; Breuker, 1982; Brown & Burton 1977) zonder te vermelden wat deze mensen voor-
staan op onderwijsgebied.

Elshout, Wiehnga en ook Breuker verrichten onder andere onderzoek binnen het begin-
ners-experts paradigma. In dit type onderzoek wordt gekeken naar de kwalitatieve verschillen
'n probleemoplossen tussen beginners en experts in semantisch rijke domeinen. Enerzijds
^ordt daarmee kennis verkregen op grond waarvan simulatie-modellen kunnen worden
geconstrueerd. Anderzijds gebruikt men deze modellen om na te gaan of beginners en experts
'nderdaad wel zo te werk gaan als de modellen beschrijven. Zo ontstaat er een voortdurende
Wisselwerking tussen theorievorming en empirische gegevens.

Onderzoek binnen het beginners-experts paradigma heeft bijvoorbeeld aangetoond dat
beginners geneigd zijn zich veel te weinig te oriënteren op een taak of een probleem. In plaats
Van zich eerst eens af te vragen waar het probleem over gaat, wat er gegeven is, wat er
gevraagd wordt, of het een bekend probleem is en zo nee of het dan misschien hjkt op een

kend probleem, gaan beginners meteen aan de slag. Ze gunnen zich geen tijd het probleem
litvoerig te analyseren, maar kiezen vrijwel onmiddellijk een in veel gevallen onjuiste
Oplossingsprocedure waarmee ze vervolgens aan het werk gaan.
Op grond van deze bevindin-
8en wordt dan ook bepleit leerlingen via het onderwijs te leren zich meer te oriënteren op
Problemen, eerst eens rustig te kijken waar een opgave over gaat en dan pas te besluiten welke
Oplossingsroute de beste is.

Uit dit voorbeeld moge duidelijk zijn dat vertegenwoordigers van de informatie-verwer-

-ocr page 92-

88 J-A.C. Sandberg en Y.F. Bamard

kingsbenadering in elk geval geen puur lexicaal-syntactisch onderwijs voorstaan.

Verstralen besluit zijn artikel met enkele opmerkingen aan het adres van Brown en Burton
(1977) die er in geslaagd zijn een programma te ontwikkelen dat 60 elementaire, systemati-
sche fouten beschrijft bij het maken van aftreksommen op papier. Verstralen meent dat het
niet zinvol is te weten welke systematische fout een leerling precies heeft gemaakt. Dat er een
systematische fout is gemaakt is op zich voldoende en moet voor de leerkracht aanleiding zijn
met de leerling (opnieuw) door te nemen hoe met het cijfersysteem getallen en operaties met
getallen kunnen worden gesymboliseerd.

Resnick (1982) beschrijft dat kinderen die problemen hebben met het uitvoeren van
standaardbewerkingen op papier vaak wel degelijk over voldoende kennis van het getal-
lensysteem beschikken, maar dat deze kennis op de een of andere manier niet op een zinvolle
wijze gelieerd is aan de standaardbewerkingen op papier. Resnick schrijft vervolgens dat de
remediatie erin zou moeten bestaan de kennis van de leerling over het getallensysteem en de
bewerkingen stap voor stap te koppelen aan bijvoorbeeld de leenprocedure op papier. Binnen
deze aanpak is precieze kennis over de aard van de systematische fout(en) wel degelijk zinvol.
Het betekent dat men beter in kaart kan brengen op welke punten de kennis van de leerling
tekort schiet en dat men de remediatie aan kan laten sluiten bij de kennis en vaardigheden
waarover de leerling op dat moment beschikt. Zo kan werkelijke remediatie nooit slechts
inhouden de leerling te vertellen 'dat het niet zo moet, maar zo', zoals volgens Verstralen in
veel gevallen gebeurt (zie p. 32).

Aangezien het onderwijs onderzoek met behulp van methoden uit de artificiële intelligentie
aan het begin van haar ontwikkeling staat is verdere discussie over de mogelijkheden en
onmogelijkheden met betrekking tot de onderwijspraktijk noodzakelijk. Onze reactie hoopt
hiertoe bij te dragen.

LITERATUUR

Barr, A., & Feigenbaum, E.A. (Eds.) (1982). The handbook of artificial intelligence. Los Altos, CA;

William Kaufmann Inc.
Breuker, J. (1982). Gaan waar de woorden gaan.
Bulletin Leren van Volwassenen, 11, 3-24.
Brown, J.S., & Burton, R.R. (1977). Diagnostic models for procedural bugs in basic mathematical skills.

Cognitive Science, 1, 155-192.
Elshout, J.J., & Wielinga, B.J. (1981). Simulatie van leren probleemoplossen.
Nederlands Tijdschrift voor

de Psychologie, 36, 371-383.
Garfinkel, S. (1960). Heuristic solutions of first-year algebra problems. Working paper #11, Manage-
ment Science Group, Institute of Industrial Relations. University of California (Berkeley).
Green, B.F. (1966). Current trends in problem solving. In: B. Kleinmuntz (Ed.)
Problem solving:

Research, method and theory, (p. 3-18). New York: John Wiley.
Paige, J.M., & Simon, H.A. (1966). Cognitive processes in solving algebra word problems. In: B.
Kleinmuntz (Ed.)
Problem solving: Research, method and theory (p. 51-119). New York: John
Wiley.

Resnick, L.B. (1982). Syntax and semantics in learning to subtract. In: T.P. tarpenter, J.M. Moser, &
T.A. Romberg
(Eds.) Addition and subtraction: A cognitive perspective (p. 136-155). Hillsdale,
NJ: Lawrence Erlbaum Associates.
Verstralen, H.F.M.M. (1984), Groeiend Inzicht, Een kritiek op het simuleren van Kunstmatige Intel-
ligentie met leerlingen.
Tijdschrift voor Onderwijsresearch, 9, 27-33.

Ontvangen 9-10-1984

-ocr page 93-

Tijdschrift voor Onderwijsresearch 10 (185), pp. 89-94.

Notities en Commentaren

Leerpunten van een extern evaluatie-onderzoek
A.H. Boon van Ostade

Vakgroep Psychologie van Arbeid en Organisatie, K. U. Nijmegen

In het najaar van 1974 werd de vakgroep Psychologie van Arbeid en Organisatie te Nijmegen
gevraagd een extern evaluatie-onderzoek uit te voeren. Het pedagogisch Centrum Be-
roepsonderwijs Bedrijfsleven kon namelijk voor zijn project In-Service Training konsulenten
leerlingwezen (1ST) (PCBB, 1974) subsidie van het ministerie van onderwijs ontvangen
onder voorwaarde dat een onafhankelijke instantie het effect van de cursus zou onderzoeken.

Na enige aarzeling - universitaire vakgroepen zijn meestal niet goed toegerust voor het
Verrichten van contract-research — werd besloten op het verzoek in te gaan. We hoopten er
Veel van te leren en dat is inderdaad gebeurd. De doelstelling van deze notitie is ook anderen
deelachtig te maken van deze leerpunten.

In deze tijd van de magere jaren voor het sociaal wetenschappelijk onderzoek is het
Verstandig na te denken over de research die we met zo veel enthousiasme het afgelopen
decennium uitvoerden. Een belangrijke conclusie blijkt dan te zijn dat de resultaten van de
sociaal-wetenschappelijke evaluatie-onderzoeken niet of nauwelijks zijn gebruikt (Wagenaar
en Heyningen, 1982). Een gewichtige reden hiervoor is dat nagenoeg ieder evaluatie-onder-
zoek maar een gedeelte van de noodzakelijke informatie voor het beleid verstrekt (Weiss,
1982). Zo ook ons onderzoek waar alleen gekeken is of de cursus effecten sorteerde in de
functie-uitoefening van de konsulent. Niet werd gekeken naar de kosten, en ook niet hebben
^e ons afgevraagd of de aantoonbare effecten wel gewenst waren en voldoende waardevol in
het licht van de gemaakte kosten. Er is geen kosten/baten analyse uitgevoerd. Alleen is
getracht effecten aan te tonen. Ook dan kunnen echter de resultaten terzijde worden gelegd
en wel wanneer de communicatie tussen ontwikkelaars en onderzoekers niet goed verloopt
door een dysfunctionele vorm van probleemoplossen (Dickey and Hampton, 1981). Ons
belangrijkste leerpunt is dat de wijze waarop het onderzoek wordt georganiseerd - de
Samenwerkingsstructuur op het uitvoeringsniveau is geregeld - hierbij ook een grote rol
speelt. Ook Scheerens (1983) ziet het verbeteren van organisatorische randvoorwaarden als
belangrijke aanbeveling. Hij beperkt zich echter voornamelijk tot hogere besturingsniveau's.

We zullen trachten bovenstaande duidelijk te maken door achtereenvolgens de onder-
zoeksopzet, de gebruikte metingen en de positie van de onderzoekers te bespreken.

öe onderzoeksopzet

I^e cursus die twee jaar duurde zou tweemaal worden gegeven. Het was dus voor de
handliggend te denken aan het Four-group Solomon design (Suchman, 1967, p. 96). Een
Praktische reden voor deze opzet was verder dat de voormeting in december 1974 niet meer
uitvoerbaar was; de subsidie-aanvraag aan de S.V.O. (de toenmalige minister van onderwijs
Van Kemenade stond erop dat dit gedeelte van het project door de S.V.O. zou worden
betaald) werd pas in het voorjaar van 1975 toegekend.
In figuur 1 staat de opzet van het onderzoek.

Achteraf gezien is de keuze van het design van Solomon niet verstandig geweest. Het is een
sterke opzet voor de interne validering, echter veel minder voor de externe (Campbell and
Stanley, 1966, p. 8). Juist in dit geval had een controle moeten plaats vinden op de interactie

-ocr page 94-

90 Notities en Commentaren

Figuur 1: Opzet onderzoek 'externe evaluatie in-service training konsulenten leerlingwezen' volgens het
Solomon Four-group design.

sept.-okt. 76

sept.-okt 77

X

aug.-sept. 75

dec 74
1 —

GROEP A
GROEP B
GROEP C
GROEP D

tussen de selectie van de deelnemers en het volgen van de cursus en was een Afzonderlijke-
steekproef Voor- en Nameting Controle groep opzet (design 13, zie tabel 1) op zijn plaats
geweest.

De extra nametingen in april en mei 1978 werden gevraagd door de beoordelaar van de
S.V.O. Deze metingen zijn niet uitgevoerd door de grote uitval die de herhahng van de
metingen met zich mee bracht. In tabel 2 staan de cijfers van de uitval.

De constructie van de controle groepen heeft plaats gevonden door dezelfde voordrachten
en criteria voor individuele matching te gebruiken als waar het PCBB mee had gewerkt voor
de formering van de cursus-groepen. Vergehjking van de groepen B en D in 1975 (zie figuur
1) gaf bij 101 toetsingen negen significante verschillen waardoor de nul-hypothese niet kan
worden verworpen (Jones and Fiske, 1953) en hiermee een bevestiging werd gevonden voor
de overeenstemming van deze twee groepen. Desondanks was het beter geweest uit de
voordrachten aselect vier groepen te vormen en de controle groepen eventueel na het
experiment de cursus te laten volgen. In de voorfase zijn door de onderzoekers wel suggesties
in die richting gedaan. Deze werden echter door de ontwikkelaars vrij radicaal van de hand
gewezen.

Tabel 1: Vergehjking van Solomon Four-group design met Seperate-sample Pretest-postest
Control Group design (Campbell and Stanley, 1963).

externe vaHdering interne validering

S' 5'

a ?

3 W

8i S-

sa

I

1

jc

n'

a.

's:

3
(re

n n

f? 5'

_ 3

fl f?
jr 3

a.
n

Solomon
R O X O

ROO ? ?
R X O
R O

Afzonderlijke steekproef
R 0(X)

R O -H -I-

R X O
R O

3.
3
OS

-ocr page 95-

A.H. Boon vasn Ostade 91

Tabel 2: Aantal benaderde, uitgevallen en meewerkende proefpersonen.
De uitval of sterftecijfers zijn cursief gezet

1974 1975 1976 1977

Groep A 32-4 = 28 28-9 = 19

Groep B 32-9 = 23 23-4 = 19

Groep C 32-4 = 28 28-9 = 19

Groep D 32-10 = 22 22-10 = 12

Om tot een goede onderzoeksopzet te komen dienen de onderzoekers vroegtijdig bij de
formering van de groepen te worden betrokken, is onze conclusie. Ook een intensieve
Wetenschappelijke begeleiding met controle en advies lijkt van belang om te voorkomen dat
onderzoekers zich teveel aan de wensen van de ontwikkelaars conformeren.

gebruikte metingen

Onderwijsgevenden operationaliseren hun doelstellingen meestal in de vorm van kennistoet-
singen.
Voor een externe evaluatie dienen echter uitspraken te worden gedaan over functie-
gedrag.
De ontwikkelaars van de IST bleken daar niet toe in staat. De onderzoekers dienden
deze effecten te formuleren. Dit gebeurde door een inventarisatie van problemen waar een
Consulent in het leerlingwezen voor kan komen te staan met de verwachting dat de cursus de
Consulenten zou leren deze problemen beter op te lossen.
Tevens werd in analogie met de
onderscheiding van
Blake en Mouton (1964) tussen instrumenteel en sociaal leiderschap
getracht schalen te construeren voor leerling- resp. taakgerichte houding.
In het eerste geval is
de konsulent meer gericht op de persoon van de leerhng, in het tweede geval meer op zijn
laak.
Deze constructie gebeurde met behulp van 'uitspraken'.

De Iteratieve Clusteranalyse (Boon van Ostade, 1969) gaf met behulp van het programma
OSTER een betrouwbare bipolaire schaal leerhng-versus taak-gerichte houding (K.R. (20) =
0.75).

Moeilijker was de constructie van schalen voor het probleem-oplossend gedrag. De ant-
woorden op tien gestelde problemen werden opgenomen op audio-tape en op de volgende
Vier punten - gecontroleerd op inter-rater betrouwbaarheid - gecodeerd:

Met wie gaat de konsulent praten?

Welke stappen zet de konsulent?

Welke redenen veronderstelt de konsulent?

Gebruikt de konsulent een faseringsbenadering ten opzichte van problemen?

Hierdoor werden 124 variabelen verkregen. Deze variabelen werden geanalyseerd met
^ehulp van het programma
OSTER.

pit leverde vier betrouwbare clusters voor probleemoplossen op:

Mate van verwijzen van het probleem K.R. (20) = 0,67.

Teveel zowel als weinig verwijzen werd als ongunstig beschouwd.

Mate van direktief te werk gaan K.R. (20) = 0,72.

Minder direktief te werk gaan werd als gunstig beschouwd.
"I Een systematische fase-benadering hanteren K.R. (20) = 0,75.

Hoe systematischer des te beter.

De mate waarin ouders en andere konsulenten betrokken worden K.R. (20) = 0,70.

Hier kon geen verwachting over worden uitgesproken.

-ocr page 96-

92 Notities en Commentaren

Tabel 3: Overzicht voornaamste resultaten van de twee nametingen.

problemen

uitspraken

referenten
theorie

referenten
praktijk

N

69

69

125

n

149

48

151

aantal clusters

3

1

8

aantal significante
verschillen voor
groep A t.o.v. C

1

0

0

1

groep B t.o.v. D

1

1

1

2

Daamaast zijn dezelfde vragen ook voorgelegd aan personen waar de konsulent bij zijn
taak mee in kontakt treedt; de zogenaamde referenten. De konsulent wees deze personen zelf
aan. Een onderscheid is gemaakt tussen referententheorie (functionarissen van de school) en
referentenpraktijk (bedrijfsleermeesters). De referenten beantwoorden de vragen met het
antwoord dat zij dachten dat de betrokken konsulent zou geven. Om de invloed van ant-
woord-insteUingen te verminderen is de Side-by-side procedure van Voas (1958) gebruikt
waarbij de referenten na het antwoord voor de konsulent hun eigen antwoord gaven.

Totaal zijn 125 referenten bij het onderzoek betrokken. Ook hun data werden met OSTER
geanalyseerd. Er werden tien betrouwbare clusters gevonden, waarvan bij acht verwachtin-
gen over mogelijke cursuseffecten kan worden uitgesproken. De houding 'leerlinggericht' en
'taakgericht' werden twee aparte schalen inplaats van één bipolaire.

In tabel 2 staan de resultaten van de vergelijking van groep A t.o.v. C en groep B t.o.v. D-
De toetsing is éénzijdig uitgevoerd.

Opmerkelijk zijn de geringe verschillen van de eerste cursus in vergelijking met de tweede.
Bij navraag bleek dat de eerste cursus door de ontwikkelaars eigenlijk als proef-cursus is
beschouwd, en dat in de tweede de ontwikkelaars de deelnemers bewust zijn gaan trainen in
probleem-oplossen, en ook getracht hebben de houding meer leerling-gericht te maken.

Om tot succesvolle metingen te kunnen komen is het noodzakelijk dat er een samenhang is
tussen het trainingsprogramma en de te verwachten effecten (Rossi, Freeman and Wright,
1979). In dit onderzoek hebben de ontwikkelaars de geoperationaUseerde doelstellingen van
de onderzoekers overgenomen in plaats van omgekeerd.

Als conclusie willen wij formuleren dat het gunstig is wanneer ontwikkelaars en onder-
zoekers samenwerken voor wat betreft de inhoud van de cursus, en dat daarbij de inbreng van
theorie van grote betekenis kan zijn. In dit onderzoek was dat het geval voor de leiderschap'
theorie van Blake en Mouton, en de fase-theorie van probleem oplossen. Daarnaast menen
we te moeten vaststellen dat een objectief onderzoek pas te rechtvaardigen is wanneer de
'behandeling' geconstmeerd is; Stufflebeam e.a. (1971, p. 69) wijzen daar ook op.

-ocr page 97-

A.H. Boon van Ostade 93

positie van de onderzoekers

De onderzoekers hadden door de voorwaarde van het ministerie van onderwijs dat alleen
subsidie zou worden verleend wanneer een onafhankelijke instantie het effect van de cursus
Zou onderzoeken, een riante positie.

Het PCBB had zelf een brede begeleidingscommissie samengesteld bestaande uit verte-
genwoordigers van de bonden en directieleden van de regionale en landelijke organen. Deze
samenstelling bracht echter de spanning werknemers-werkgevers met zich mee. Door een
Zeer open strategie van de kant van de ontwikkelaars kon een vertrouwensrelatie worden
opgebouwd.

De onderzoekers wilden het onderzoek onder double-blind conditie uitvoeren door hante-
ring van een versluierd onderzoeksdoel (onderzoek naar bijscholingsbehoeften) voor zowel
konsulent en referent als voor de interviewer. Dit voornemen viel slecht bij de begeleidings-
commissie en de ontwikkelaars. De onderzoekers hielden echter vanuit hun beschermde
Positie voet bij stuk. Door zowel de leden van de begeleidingscommissie als de ontwikkelaars
berden toen de konsulenten waar het te pas kwam ingelicht over het werkelijke doel van het
onderzoek. Achteraf gezien was enkel-blind door alleen de interviewers niet van te voren op
de hoogte te brengen van het werkelijke onderzoeksdoel, voldoende geweest.

Deze stugge houding van de onderzoekers heeft denkelijk extra uitval met zich mee
gebracht (zie tabel 1 de uitval van de groepen B en D in 1975).

Wij konkluderen dat een onafhankehjke positie van de onderzoekers niet aan te bevelen is.
Verder dient een begeleidingscommissie niet uitsluitend te worden samengesteld uit werkge-
vers en werknemers.

'konklusies

De volgende konklusies zijn door ons getrokken:

A- om tot een goede onderzoeksopzet te komen dienen de onderzoekers vroegtijdig bij de

formering van de groepen te worden betrokken,
b. een intensieve wetenschappelijke begeleiding met controle en advies is noodzakelijk,
het is gunstig wanneer ontwikkelaars en onderzoekers samenwerken voor wat betreft de
inhoud van de cursus,
d- inbreng van theorie voor bepaling van de inhoud van de cursus is belangrijk,
c- objectief onderzoek is pas zinvol bij een cursus die in voldoende mate is geconstrueerd,

een onafhankelijke positie van de onderzoekers is niet aan te bevelen, en
6- de begeleidingscommissie dient niet uitsluitend te worden samengesteld uit werkgevers en
werknemers.

Wanneer wij deze konklusies overzien dan kunnen voor wat betreft de organisatie van een
evaluatie-onderzoek de volgende aanbevelingen worden geformuleerd:
A: laat het ontwikkelingsteam zelf op objectieve wijze de evaluatie uitvoeren en daar een
team-lid verantwoordelijk voor stellen (konklusie a, c, en f zijn dan gewaarborgd),
laat in de begeleidingscommissie ook vertegenwoordigers toe van diegenen die belang
hebben bij een goede evaluatie - in het voorbeeld; ouders van leerlingen, leraren van
scholen, en praktijkbegeleiders (konklusie g), en

Iaat een wetenschappelijk geschoolde (methodologisch en theoretisch op het betreffende
gebied) adviseur het onderzoek begeleiden (konklusie b en d).
Voor wat betreft het samenstellen van een begeleidingscommissie kan ook worden verwe-
'^en naar Schein (1969, p. 82 e.v..) en Patton (1982).

-ocr page 98-

94 Notities en Commentaren

voetnoot

' De project-leider van dit onderzoek dat gesubsidieerd is door de S.V.O. was drs. A. H. M. Scheerder.
De project-leider voor het IST-project dat gesubsidieerd werd door het Ministerie van Onderwijs was
drs. H. W. Jansen van der Sligte. Beide project-leiders wil ik bijzonder danken voor hun hulp bij het tot
stand komen van deze notitie. Degenen die geïnteresseerd zijn in de details van het onderzoek worden
verwezen naar de voortgangs- en eindrapportering voor de S.V.O. onder projectnummer 0346.

LITERATUUR

Blake, K.R., & Mouton, J.I. (1964). The managerial grid. Houston: Gulf.

Boon van Ostade, A.H. (1969). De Iteratieve Clusteranalyse. Nijmegen: K.U. dissertatie.

Campbell, D.T., & Stanley, J.C. (1966). Experimental and quasi-experimental designs for research.
Chicago: Rand McNally.

Dickey, B., & Hampton E. (1981) Effective problem-solving for evaluation utihzation. Knowledge, 2,
361-374.

Jones, e.V., & Fiske, D.W. (1953). Models testing the significance of combined results. The psychological
Bulletin,
5, 375-382.

Patton, M.0. (1982). Practical evaluation. London: Sage.

P.C.B.B. (1974). Projekt-aanvrage In-service Training Konsulenten. 's Hertogenbosch: P.C.B.B. num-
mer V. 63.88.74.53.

Rossi, P.H., Freeman, H.E., & Wright, S.R. (1979). Evaluation, a systematic approach. London: Sage.

Scheerens, J. (1983). Evaluatie-onderzoek en beleid. Methodologische en organisatorische aspecten.
's-Gravenhage: Stichting voor Onderzoek van het Onderwijs.

Schein, E.H. (1969). Process consultation: its role in organization development. Reading (MA): Addison-
Wesley.

Stufflebeam, D.L., Foley, W.J., Gephart, W.J., Guba, E.G., Hammond, R.L., Merriman, H.O., &
Provus, M.M. (1971).
Educational evaluation and decision making. Itarca (IL): Peacock.

Suchman, E.A. (1967). Evaluative research. New-York: Sage.

Voas, R.B. (1958). A procedure for reducing the effects of slanting questionnaire responses toward social
acceptability.
Educational and Psychological Measurement, 18, 337-345.

Wagenaar, H. & Van Heijningen, B. (1982). Onderzoekers zouden minder snel bereid moeten zijn 'quick
and dirty' studies te verrichten.
Intermediair, 18, 23-29.

Weiss, C. (1982) (zie Wagenaar, H. en Van Heijningen, B.).

Manuscript ontvangen 6-2-1984

-ocr page 99-

Tijdschrift voor onderwijsresearch 10 (1985), p. 95.

Mededelingen

Inhoud Pedagogische Studiën

Jaargang 61
November
1984

Onderwijs en het Ieren van begrippen. Ten geleide, door P. Span

Begrippen en hun niveaus van beheersing: de theorie van Klausmeier en haar belang voor het onderwijs,
door J. Vastenhouw en W. Jochems

Een analyse van spontane gesprekken in gezinnen uit verschillende sociale milieus, door E. Huls
Kroniek: Amerikaans onderwijs opnieuw onder de loep, door J. de Reus

December 1984

Een longitudinaal onderzoek naar Ieren lezen in de eerste klas, door A.G. Bus en G.G.H. Jansen
Evalueren van leerresultaten door leerkrachten in de onderbouw van het voortgezet onderwijs, door
E.J.J. Kremers

Een theoretisch model van gedragsintenties van docenten, door K.A. Beintema en A. van Greevenbroek
Kronieken: Verslag van het AERA-Congres 1984 te New Orieans, door F.K. Kievit (red.)
Wetenschap of joumahstiek? Over een kwalitatief onderzoek naar de kinderii jke leefwereld, door M.H.
Van IJzendoorn, J.D. Imelman en B. Spiecker

Verslag van de conferentie 'De culturele grondslag van het onderwijs', gehouden te Parijs, van 14 tot 17
augustus 1984, door J. Dronkers

Ontvangen publicaties

Albers, O. Uw arbeidscontract. Amsterdam: VNU Business Pubhcations (Intermediair Bil. 1.), 1984.
^of, A. van 't.
De manager op zijn best. Amsterdam: VNU Business Pubhcations, 1984.
Seiarone, A.G. en Montens, F.
Hoe leer je een taal? Meppel (etc.): Boom, 1984.
^pntens, F. en Sciarone, A.G.
Nederlands voor buitenlanders. Meppel (etc.): Boom, 1984.
J^'spens, J., Carlier, E. en SchoorI, P.
Diagnostiek in de hulpverlening. Lisse: Swets en Zeithnger, 1984.
•hamers, J.H.M. en Ruyssenaars, A.J.J.M.
Leergeschiktheid en leertests. Den Haag: SVO, 1984 (SVO-
reeks no. 81).

^wyck, J. en Tillema, H.H. (ed). Vormen van leren en onderwijzen in de klas. Lisse: Swets & Zeitlinger,
Cr

creemers, B.P.M. en Hoeben, W.Th.J.G. Onderzoek tussen onderwijsontwikkeling en wetenschapsont-
wikkeling.
Den Haag: SVO. 1984. (SVO-reeks no. 83).
Kfammer, H.P.M.
Leerboek en leraar. Den Haag: SVO, (SVO-reeks no. 82).
^oudelijke samenhang binnen het sociale en culturele terrein (1). Rijswijk: SCP, 1984. Cahier nr. 42.
plannen gesproken... Advies over het werken volgens plan binnen het speciaal onderwijs. Zeist:
Onderwijscentrum, 1984. Adviesraad voor het basisonderwijs, speciaal onderwijs en opleidin-
, gen (ARBO).

^gerweij, N. Bronnen voor innovatiebeleid. Amerika als voorbeeld. Utrecht: Vakgroep Onderwijs-
kunde, 1984 (Rapport nr. 84.08).

^ededeUng

J^® jaarlijkse conferentie van de International Group for the Psychology of Mathematics Education
^GPME) zal in 1985 gehouden worden in Nederland en wel van 22-26 juli te Noordwijkerhout.
eze IGPME bestaat uit onderzoekers uit een groot aantal landen. Het programma omvat plenaire
ezingen, werkgroepen en korte voordrachten.

"•'chtingen en First Announcement kunnen verkregen worden bij de vakgroep OW & OC, RUU, tav.
Mevrouw B. Dekker, Tiberdreef 4, 3561 GG Utrecht.

-ocr page 100-

BZ] SH/ETS PUBLISHING SERl/ICE

SAMENWERKEN EN PROBLEEMOPLOSSEN

Actuele thema's in het onderzoek naar leerprocessen bij samenwerkende kinderen.

Onder redactie van P. Vedder en M. Bloemkolk

Dit boek geeft een overzicht van actuele theoretische en onderzoeksmatige
ontwikkelingen op het gebied van de invloed van sociale interacties tussen kinderen
van 6-12 jaar op hun leren en cognitieve ontwikkeling.

1985. Vl*90 pp. ISBN 90 265 0609 O f 18,90

SCHOOLUITVAL

Een empirisch onderzoek naar de samenhang tussen schoolinterne factoren en
schooluitval in het regulier onderwijs.

J.C. van der Wolf

Het onderzoek in dit boek is gewijd aan de vraag welke de bijdrage is van de
reguliere school aan schooluitval van leerlingen. Dertien scholen in een
Amsterdamse buurt, die op een aantal criteria goed vergelijkbaar zijn, blijken te
verschillen in hun bijdrage aan schooluitval. Nagegaan wordt welke schoolinterne
factoren die verschillen kunnen verklaren. Besloten wordt met een aantal
zorgbreedte-suggesties.

Sociaal-wetenschappelijke proefschriften relevant voor de hulpverlening, No. 48.
1984. XIV174 pp. ISBN 90 265 0566 3 f 34,65

HULPVERLENINGSPRAKTIJK EN
DIENSTVERLENEND ONDERZOEK
Handelingsplannen en directe observatie van opvoeder-kind interactie.
Onder redactie van F.X. Plooij en M.C.M. van den Dungen

Dit boek past in een reeks publicaties die ernaar streven de kloof te versmallen
tussen wetenschappelijk onderzoek en de praktijkvelden die zich richten op
problematische opvoedingssituaties. Zeer speciaal wordt de aandacht gericht op de
mogelijkheden die een meer adequate vorm van observatie biedt om te komen tot
werkelijk dienstverlenend onderzoek.

Publicaties van het Amsterdams Pedologisch Centrum, No. 1

1985. XXM98 pp. ISBN 90 265 0590 6 f26,25

*

Te bestellen bij de boekhandel of door overmaking van het bedrag op girorekening
13984 t.n.v. Swets Publishing Service, Heereweg 347, 2161 CA Lisse, Nederland,
met vermelding van het
cursieve nummer.

Telefonisch bestellen kan ook: tel 02521-19113, voor Belgie 00.31 / 2521-19113.

-ocr page 101-

Tijdschrift voor Onderwijsresearch 10 (1985) nr. 3, pp. 97-106
Bekroond ORD paper 1984

Een Componententheorie van Leesvaardigheden:
een poging tot validering

H. Feenstra en G. Seegers

Interdisciplinaire Studierichting Onderwijskunde, Nijmegen
abstract

In our research we developed a set of experimental tasks, corresponding to the specific subpro-
cesses of reading. Based on the 'verbal coding efficiency model' of reading skill, as developed by
Perfetti and Lesgold, we grouped the 14 experimental tasks within 6 components. We postulated a
model in which these components were interrelated. A statistical test of this model resulted in a
satisfying 'goodness of fit'. These results may be interpreted as indications for the development of
probably effective remedial programs.

INLEIDING

Het leesproces kan vanuit verschillende disciplines en invalshoeken bestudeerd worden. In
het hier beschreven onderzoek' ligt de nadruk op een aanpak geïnspireerd door de cognitieve
psychologie. 'Lezen' wordt opgevat als een proces waarbij informatieverwerking op ver-
schillende niveaus plaatsvindt. Het onderzoek richt zich op vaardigheden en strategieën die
bij het verwerken van (geschreven) verbale informade een rol spelen.

Om leesmoeilijkheden te begrijpen is het nodig meer inzicht te krijgen in de rol die
Verschillende deel-processen spelen bij het lezen en in hoeverre deze verschillen tussen goede
en zwakke lezers. Een belangrijk verbaal proces bij het lezen wordt gevormd door het proces
Van woordherkenning.

In eerder onderzoek (Seegers & Feenstra, 1982; Seegers, 1985) werd onderzocht welke
specifieke tekorten zwak-begrijpende lezers vertonen met betrekking tot de begrijpende
'eesact. De leesact is uiteengelegd in een aantal variabelen op verschillende niveaus. Een
belangrijke conclusie die we op grond van dat onderzoek mogen trekken is dat een geringe
Prestatie op begrijpend lezen kan worden teruggevoerd op verschiUen in woordherkennings-
vaardigheid en verschillen in de mate waarop contextuele informade efficiënt wordt gebruikt.
In het hier beschreven onderzoek staat de vraag centraal of training van woordherkennings-
vaardigheid een posidef effect heeft op de begrijpende leesprestatie.

In dit artikel doen we verslag van enkele onderzoeksresultaten van een door het SVO-gesubsidieerd
onderzoek: 'Een onderzoek naar het effect van interventie-technieken bij zwak-begrijpende lezers'
(Feenstra & Seegers, 1982). In dit onderzoek hgt de nadruk op de ontwikkeUng van experimentele
remediërende programma's voor groepen van zwak-begrijpende lezers en het vaststellen van de
effecten van deze programma's. Dit artikel is een bewerking van de door de VOR bekroonde
ORD-paper 1984 door H. Feenstra.

Beide auteurs momenteel werkzaam bij het CITO. Adres: Postbus 1034, 6801 MG Arnhem.

1

-ocr page 102-

98 Interdisciplinaire Studierichting Onderwijskunde, Nijmegen

THEORETISCHE ACHTERGROND VAN HET ONDERZOEK

Uitgangspunt is het 'verbal coding efficiency model' of reading skill, dat is ontwikkeld door
Lesgold en Perfetti (cf. Lesgold & Perfetti, 1978; Perfetti & Lesgold, 1977; 1979). In sterke
vorm worden binnen dit model verschillen in begrijpend lezen herleid tot verschillen op
decodeerniveau. De geringe vaardigheid die de zwak-begrijpende lezers met name bij
woordherkenning hebben, leidt tot een on-evenredig zware belasting van de beperkte ver-
werkingscapaciteit, waardoor processen op het niveau van interpreteren en integreren nega-
tief worden beïnvloed.

In het aanvankelijk leesonderwijs is de instructie direct gericht op het ontwikkelen van een
snel en accuraat decoderen. Op welke wijze decoderen ook aangeleerd is, in het voortgezet
leesonderwijs moet het zich verder ontwikkelen tot een proces dat automatisch verloopt. Een
proces verloopt automatisch als het uitgevoerd kan worden zonder dat er direct aandacht aan
besteed moet worden. De noodzaak van een waar mogelijk automatisch verlopen van samen-
stellende processen is gebaseerd op de assumptie dat een 'Umited capacity processor' geen
aandacht kan besteden aan meerdere processen tegelijkertijd. In de theorie van LaBerge en
Samuels (1974) wordt gesteld dat met toenemende leeservaring het belang van de beperkte
aandachtscapaciteit voor het leesproces afneemt. De kern van hun theorie is dat terzelfder tijd
niet meer dan één cognitief proces kan worden uitgevoerd dat aandacht vraagt, maar dat
processen ook zonder aandacht - automatisch - kunnen verlopen. Bij automatisch verlopen-
de processen bestaat er geen principiële bovengrens voor het aantal processen dat tegelijker-
tijd kan worden uitgevoerd. Wat meer ervaren lezers onderscheidt van beginnende lezers is de
mate waarin processen op decodeerniveau aandacht vereisen. Zolang deze processen aan-
dacht vragen, zal dit ten koste gaan van hogere-ordeprocessen op
begrijpend-leesniveau.
Volgens LaBerge en Samuels is het kenmerkend voor ervaren lezers, dat processen op het
niveau van interpreteren en verwerken van informatie continu plaatsvinden, terwijl deco-
deerprocessen parallel hieraan plaatsvinden omdat ze geen aandacht vragen. Continuïteit op
één bepaald niveau wordt onderbroken wanneer automatische verwerking op een ander
niveau blokkeert. De ervaren lezer is daarmee geconcentreerd op syntactische en
semantische
aspecten, en het lijkt alsof analyse van letters en woorden niet plaatsvindt.

Concluderend kunnen we stellen dat wanneer de aandachtscapaciteit geregeld aangewend
moet worden voor het decodeerproces, dit zal interfereren met de hogere orde componenten
van het leesproces (integratie en interpretatie van informatie). Belangrijk is hoe zich een
geautomatiseerd woordherkenningsproces ontwikkelt. Een duidelijke rol hierbij speelt oefe-
ning: veel kinderen ontwikkelen een automatisch verlopend woordherkenningsproces in het
normale leesonderwijs, zonder dat er speciale aandacht besteed wordt aan woordherkenning.
Andere kinderen die hetzelfde onderwijs krijgen vertonen juist gebreken. Dit nu leidt tot een
vicieuze cirkel. De kinderen die in het aanvankelijk leesonderwijs effectieve woordher-
kenningsprocessen ontwikkelen tenderen er toe om zowel binnen als buiten het onderwijs
meer te lezen. Deze extra oefening vergroot de vaardigheidsverschillen tussen de meer
vloeiende lezers en diegenen die een minder efficiënte woordherkenningsvaardigheid bezit-
ten.

Is er nu naast veel lezen een andere directe vorm van interventie die bijdraagt tot de
ontwikkeling van een effectief woordherkenningsproces?

Voor de ontwikkeling van een remediërend lees-programma is het nodig om inzicht te
krijgen in de verschillende (deel-)vaardigheden van het proces van woordherkenning en dc
relaties tussen de verschillende (deel-)vaardigheden. Wanneer op procesniveau
verschillen

-ocr page 103-

H. Feenstra en G. Seegers 99

tussen goede en zwakke lezers worden geconstateerd dan is een voor de hand liggende
conclusie dat een interventie gericht op juist deze procescomponent zinvol is.

Binnen het onderzoek staat de volgende vraagstelling centraal:
Welke deelvaardigheden zijn vooral verantwoordehjk voor verschillen in (begrijpend) lees-
vaardigheid en hoe is de samenhang tussen deze differentiërende deelvaardigheden.

EEN COMPONENTENTHEORIE VAN LEESVAARDIGHEDEN

^oals uit de vraagstelhng van het onderzoek bhjkt, willen we een nauwkeurige descriptie
Seven van de verschillende deelvaardigheden, die de leesact vormen en de onderhnge relatie
hiertussen. Op grond hiervan zullen we onderzoeken welke van deze deelvaardigheden vooral
Verantwoordehjk zijn voor individuele verschillen.

Om de verschillende (deel-)vaardigheden en hun samenhang te onderzoeken zullen we
uitgaan van een componententheorie (cf. Frederiksen, 1982). Een dergelijke theorie -
'oegepast op het leesproces - tracht een beschrijving te geven van de procesonderdelen van
het informatieverwerkend systeem, die in interactie met elkaar de complexe leesvaardigheid
Vormen.

Het onderzoek van Frederiksen is gericht op het verkrijgen van meer inzicht in de bronnen
die individuele verschillen kunnen veroorzaken bij het lezen. Het onderzoek richt zich op de
Vraag welke (deel-)vaardigheden onderling afhankelijk en/of onafhankelijk zijn bij het lezen,
l^e door Frederiksen gebruikte onderzoeksmethode is gebaseerd op de componenten-analyse
Van Sternberg (1978). Met behulp van deze analyse kunnen mentale operaties in infor-
matieverwerkingsprocessen worden geïdentificeerd. Bovendien kunnen relaties met hogere-
orde vaardigheden worden onderzocht.

De door ons gebruikte taken betreffen verschiUende onderdelen van het leesproces. Opzet
en uitvoering van de taken zijn gebaseerd op theoretische assumpties. De validiteit kan
Worden vastgesteld door te laten zien dat manipulatie van de taakconditie resulteert in een
Voorspelde verandering in gedrag.

DE COMPONENTEN-ANALYSE

^et behulp van een componenten-analyse kan de uniciteit en samenhang tussen de Ver-
schillende deelvaardigheden van het leesproces vastgesteld worden. In een volledige com-
Ponententheorie van het lezen moeten ook de vormen van interactie tussen de componenten
aangegeven worden. Theorieën met betrekking tot deze componentinteractie kunnen gespe-
^ficeerd en geëvalueerd worden door een set van strukturele vergeUjkingen te definiëren die
e verbindingen tussen de componenten specificeren. Schattingen van de parameters van
eze vergelijkingen, als wel een test voor de 'goodness of fit' van het model, zijn mogelijk met
hülp van het door Jöreskog en Sörbom ontwikkelde LISREL-programma (Analysis of Linear
^huctural Relationships by the Method of Maximum LikeUhood) (1981).

De theoretische achtergronden van het leesmodel proberen we te vatten in een meetmodel
pe-orde factor-analytisch model):

;') 2 = BA<1)A'B' + O^zoals Jöreskog (1970) dat heeft gepresenteerd. In deze vergehjking
's S de covariantie-matrix van de geobserveerde set van component-specifieke maten. B
^Hvat de parameters van het meetmodel. Iedere rij van E representeert één enkele geobser-

-ocr page 104-

100 Interdisciplinaire Studierichting Onderwijskunde, Nijmegen

veerde taak (-conditie), terwijl de kolommen corresponderen met de componenten zoals
gepostuleerd volgens de theorie. Elke component wordt verklaard uit een set specifieke
maten. De A matrix bevat een specifiecatie van de relaties tussen de verschillende com-
ponenten. De 02 matrix is een diagonaal matrix welk de unieke ofwel 'error'-variantie van
iedere maat omvat. Als we vervolgens definiëren dat:

(2) = <1>A<I>A' dan kunnen we vergelijking (1) herschrijven als:

(3) 2 = B<I>*B' + ©2, waarbij <&* de intercorrelatie is tussen de componenten. Deze
vergelijking (1ste orde factor-analytisch model) wordt gebruikt om het hypothetisch opge-
stelde model te toetsen. De specificatie van een struktureel model voor componentinteractie
leidt tot een aantal beperkingen voor de matrix A. Matrix <1> heeft als buitendiagonaalele-
menten de fundamentele of zuivere correlaties tussen componenten, dat wil zeggen correla-
ties tussen componenten na verwijdering van component-interacties. Samengevat correspon-
deert iedere matrix uit de vergehjking met
één van de aspecten van het componenten-analyse
probleem:

1. de relatie van de geobserveerde variabelen tot de componenten in het meetmodel (B);

2. de vormen van componentinteractie zoals gerepresenteerd door een set van strukturele
vergelijkingen (A); en

3. de aanwezigheid van 'background'-interactie tussen de componenten (<I>).

OPZET VAN HET ONDERZOEK

Proefpersonen

De proefpersonen in dit onderzoek waren 44 leerlingen uit het derde leerjaar van het gewoon
lager onderwijs, die zwak zijn in 'begrijpend lezen'. De proefpersonen werden geselecteerd
uit een totale groep van 591 leerlingen. De score van de geselecteerde leerlingen op de toets:
Algemene toets voor begrijpend lezen, medio leerjaar 3 van het Centraal Instituut voor
Toetsontwikkeling (Cito) lag minimaal 1 en maximaal 2 standaardafwijkingen beneden het
gemiddelde van de totale groep. De toetsscores op de non-verbale intelligentie-toets 'Stan-
dard Progressive Matrices' van Raven (1977) lagen in het interval van -1 tot +1 standaar-
dafwijking van het gemiddelde van de totale groep.

Meetinstrümen ten

Een serie van experimentele taken zijn ontwikkeld en afgenomen bij de geselecteerde
leerlingen. Zowel presentatie van de stimuli als registratie van de reactietijden geschiedde met
behulp van micro-computers.
De taken zijn te verdelen in twee hoofdgroepen:

1. benoemtaken, Een op een scherm gepresenteerd targetwoord moet zo snel mogelijk
hardop gelezen worden; gemeten wordt de tijd die verstrijkt tussen aanbieding van de
stimulus en het begin van het uitspreken daarvan.

2. vergelijkingstaken, Tussen een stimuluspaar moet gekozen worden, of aan een tevoren
gespecificeerde conditie voldaan wordt; gemeten wordt de tijd tussen aanbieding van het
woordpaar en het indrukken van de beslissingsknop.

Ieder van deze taken voldoet aan dc condities die we aan een component-specifieke maat
moeten stellen:

-ocr page 105-

H. Feenstra en G. Seegers 101

a) Elke taak heeft betrekking op het deel van het leesproces van een bepaalde specifieke
component;

b) We kunnen de taakeigenschappen zodanig manipuleren dat de moeihjkheid van de taak
verandert overeenkomstig de eigenschappen van die bepaalde component;

c) De taken zijn experimenteel valide, daar de prestaties op de taakcondities veranderen in
de voorspelde richting.

Het meetmodel voor taken die woordherkenning meten

De experimentele taken die gebruikt worden om de componenten van woordherkenning te
meten worden aangegeven in tabel 1, samen met hun maat en een bijbehorende component-
aanduiding.

Voor een uitvoerige beschrijving en verantwoording van de taken verwijzen we naar Deel-
rapport 1 (SVO-project 1060, 1983).

De a-priori verdehng van de taken en taakcondities over de verschillende componenten,
zoals beschreven in tabel 1, leidt tot een aantal expliciete hypothesen met betrekking tot de
Vorm van Matrix B in vergehjking (1) en constitueert als zodanig het meetmodel.

De

zes componenten zijn:

component 1, visueel encodeerniveau;
component 2, fonologisch encodeerniveau;
component 3, orthografisch niveau;
component 4, lexicaal niveau;
Component 5, semantisch niveau;
component 6, context niveau.

Bij het evalueren van het meetmodel wordt een vrije parameter opgenomen in matrix B voor
'edere directe verbinding tussen geobserveerde maat en een component. In de analyse wordt
Vervolgens een waarde hiervoor afgeleid.

Specificatie van het structurele vergelijkingsmodel

Een specificatie van het te toetsen model volgt deels uit de hiervoor aangegeven theoretische
assumpties. Een verband tussen component 1 (visuele encodering) en component 2 (fonolo-
gische encodering) volgt uit het feit dat visuele encodering primair vcrioopt cn fonologische
encodering relatief traag is (Coltheart, Besner, Jonassen, & Davelacr, 1979).

Het veronderstelde verband tussen de componenten 3 (orthografisch niveau) en 4 (lexicaal
niveau) vloeit voort uit de verschillende strategieën die gebruikt kunnen worden bij het
benoemen van woorden en pseudo-woorden. De eerste strategie is gebaseerd op het toepas-
sen van een lexicaal-onafhankelijke regel-component. Op basis van de orthografische eigen-
schappen van de te benoemen letterreeks wordt hieraan een klankcode toegekend.

De tweede strategie is gebaseerd op de aanname dat bij het benoemen van pseudo-wooïden
•let lexicaal niveau medieert. Visuele encodering van de letterreeks activeert op lexicaal
niveau de met de hier opgeslagen items verbonden fonologische informatie. Op basis hiervan
Wordt een klankcode gevormd. Klank-encodering is dus post-lexicaal (cf. Glushko, 1981).
^eze strategie kan óók bij het benoemen van
pseudo-woorden worden gebruikt. Klank-en-
codering vindt dan plaats
analoog aan de klankeigenschappen van bestaande items.
Dat benoeming van pseudo-woorden bij de zwakke lezers afhankelijk wordt gesteld van het

-ocr page 106-

102 Interdisciplinaire Studierichting Onderwijskunde, Nijmegen

Tabel 1: Maten voor woordherkenning

Experimentele taak

A. Letterreeks-matching.
Leerlingen beoordelen of twee letter-
reeksen voldoen aan een te voren gespe-
cificeerd kenmerk.

B. Benoemtaak.

Losse letterreeksen worden op een
scherm gepresenteerd. De opdracht luidt
om de stimulus snel en correct te benoe-
men. Gemeten wordt de tijd die ver-
strijkt tussen het begin van de presenta-
tie, en het begin van het uitspreken er-
van. (de latentietijd).

C. Semantische selectietaak.
Leerlingen moeten tussen twee op een
scherm gepresenteerde woorden een se-
mantische (betekenis-)relatie leggen.
Vervolgens komen twee alternatieven,
waarvan er één eenzelfde semantische
relatie heeft.

D. Woordherkenning in zinscontext.
Bij deze taak wordt bepaald in hoeverre
de zinscontext invloed heeft op het pro-
ces van woordherkenning. De leerling
leest een zin, waarvan het laatste woord
ontbreekt. Na het lezen van de zin, ver-
schijnt het laatste woord. Dit moet zo
snel mogelijk benoemd worden.

E. Pronomen-bindingstaak.
(interpretatie van zinnen). Het 'binden'
van anaforen in een zin vormt een belas-
ting van het verwerkingsmechanisme. In
een tekst werden pronomina met een ex-
pliciet antecedent vervangen door het
woord zelf. Bepaald wordt de be-
noemsnelheid als maat voor herken-
ningssnelheid.

Afgeleide maat/conditie

1. letterreeksen zijn identiek pseudo-
woorden

2. letterreeksen zijn identiek non-woor-
den

3. letterreeksen rijmen woorden

4. letterreeksen rijmen pseudo-woor-
den

5. pseudo-woorden (1 lettergreep)

6. pseudo-woorden (2 lettergrepen)

7. woorden (1 lettergreep)

8. woorden (2 lettergrepen)

9. stimuli zijn zelfstandige naamwoor-
den

10. stimuli zijn verba

11. hoogvoorspelbare context

12. laagvoorspelbare context

Component
I

I

II

II

III

III

IV

IV

V
V

VI
VI
VI

VI

13. neutrale context

14. pronomen-bindingstaak


lexicaal niveau is in overeenstemming met de resultaten van Barron (1981; zie ook: Seegers
1985). Uit zijn onderzoek blijkt dat zwakke lezers vooral problemen hebben met het toepas-
sen van een lexicaal-onafhankelijke strategie. De veronderstelde implicatie dat zwakke lezers

-ocr page 107-

H. Feenstra en G. Seegers 103

daardoor méér afhankelijk zouden zijn van een 'analogie'-strategie toetste hij met positief
resultaat. Zwakke lezers kunnen- in beperkte mate- 'compenseren' voor een relatief zwakke
decodeerstrategie door meer gebruik te maken van een lexicaal-afhankelijke strategie.

De verbanden tussen de componenten 4 (lexicaal niveau), 5 (semantisch niveau) en 6
(context niveau) vloeien voort uit een hiërarchische structurering. Bij de taken op context
niveau spelen lexicaal en semantisch niveau een rol. 'Woordherkenning' en vergelijking van
de betekeniseigenschappen van de woorden vormen aparte taakonderdelen. Beperkte evi-
dentie hiervoor vond Seegers (1985) in een eenvoudiger vergelijkingstaak. Om dit effect te
Versterken is in het hier beschreven onderzoek gebruik gemaakt van een complexere seman-
tische taak.

Structurele analyse is vooral van belang bij processen binnen de zin. Het 'binden' van
anaforen in een zin is een kenmerkend onderdeel van het interpretatie-proces. De belasting
Voor het verwerkingsmechanisme neemt hierbij toe naarmate de afstand (in termen van
structurele eenheden) tussen pronomen en 'bindings'-positie groter wordt.

De verwachtingen op dit interpretatie-niveau zijn in overeenstemming met het reeds eerder
genoemde 'verbal efficiency model' dat door Perfetti en Lesgold is ontwikkeld (Lesgold en
Perfetti, 1978). De voorspelling die dit model doet, is dat zwakke lezers een groot deel van
hun verwerkingscapaciteit moeten richten op woordherkenning, waardoor hogere orde pro-
cessen als interpretatie en integratie minder effectief verlopen. Met name wordt voorspeld dat
de informatie in het werkgeheugen minder uitgewerkt is. Daardoor zullen zwakke lezers
Vaker dan goede een 'referential bridge' moeten vormen alvorens tot interpretatie ('binding')
kan worden overgegaan.

Resultaten

^et gespecificeerde structurele vergelijkingsmodel voor de taken, die (deel-)vaardigheden
Van woordherkenning meten, kunnen we als volgt weergeven:

^e pijlen geven de richting van de causaliteit aan. Vierkanten geven de geobserveerde
Variabelen (1-14 in tabel 1) aan, en cirkels de latente variabelen (componenten I-VI).
Toetsing van het model levert een chi-kwadraat waarde op van 88.41 (bij 74 vrijheidsgraden;
P^. 12). De 'Goodness of fit' is .80. Bij de pijlen is de gestandaardiseerde oplossing volgens de
'Maximum Likelihood'-methode weergegeven. Berekend wordt de oplossing, waarbij de
Variantie van de latente variabelen gelijk gesteld wordt aan 1. De T-waarden, gedefinieerd als
de

parameterwaarde gedeeld door de bijbehorende standaardfout, van de gespecificeerde
Parameters in het model, zijn voor alle parameters groter dan 2. Een T-waarde groter dan 2
betekent dat de betreffende parameter significant van nul afwijkt.

Als we nu een model toetsen zonder dat we restricties opleggen aan de samenhang tussen de
componenten (een model met alle mogelijke correlaties tussen de latente variabelen; matrix
in vergelijking 2) dan levert dit een model op zoals weergegeven in figuur 2.

^'i toetsing van dit modeP werd een chi-kwadraat waarde van 176.51 (bij 83 vrijheidsgraden;
P < .000) gevonden. De 'Goodness of fit' van het model is .653.
Hoewel dit hypothetische model voor de vrije parameters uit de B-matrix adequate

^ Verrassend is dat toetsing van dit ruimere model tot verwerping leidt, terwijl het restrictievere model
geaccepteerd wordt. Logisch kan dit niet, en moet er sprake zijn van een toevalstreffer ten gevolge van
tie beperkte steekproefgrootte.

-ocr page 108-

104 Interdisciplinaire Studierichting Onderwijskunde, Nijmegen

schattingen geeft, levert, zoals boven beschreven, een op grond van theoretische inzichten ^
opgesteld causaal model een tenminste even goede 'fit' op. Dat wil zeggen een 'zuinigere'
(causaal) model geeft een betere verklaring voor de samenhang tussen de taken dan een
model waar de grootst mogelijke vrijheid aan mogelijke samenhang wordt toegestaan.

-ocr page 109-

H. Feenstra en G. Seegers 105

CONCLUSIES EN AANBEVELINGEN

Met behulp van een componentenanalyse kunnen we meer inzicht krijgen in de afzonderlijke
(deel-)vaardigheden van het proces van woordherkenning en hun onderlinge samenhang. In
dit onderzoek is gebruik gemaakt van een aantal verschillende taken die ieder afzonderlijk
een specifieke component van het leesproces proberen te meten. Deze veertien geobserveer-
de maten kunnen herleid worden tot een zestal componenten (latente variabelen), vervolgens
kan een causaal model tussen deze componenten (analyse van de interacties tussen de
componenten) opgesteld en getoetst worden. Een op basis van het leesmodel van Perfetti en
Lesgold ('verbal coding efficiency model' of reading skill) geformuleerd meetmodel blijkt een
goede statistische 'fit' te geven. Op grond van deze getoetste relaties tussen (deel-)vaardighe-
den kunnen we richting geven aan de ontwikkeling van remediërende leesprogramma's.
Gezien de centrale rol die vervuld wordt door component 4, het lexicale niveau, moet hieraan
een ruime aandacht worden besteed in het leesonderwijs.

In het huidige onderzoek zijn een tweetal interventie-programma's ontwikkeld en wordt
het effect van deze programma's bij een aantal zwakke lezers uit het derde leerjaar van de
•agere school vastgesteld. Hoewel de experimentele remediërende onderwijsprogramma's
niet bedoeld zijn om zonder meer in die vorm in het onderwijs gebruikt te worden, kunnen
hieraan - bij een positief effect - de nodige aanwijzingen worden ontleend voor de inrichting
Van het leesonderwijs aan zwakke lezers en voor de ontwikkeling van gedifferentieerde
leesprogramma's.

LITERATUUR

Marron, R.W. (1981). Reading skill and reading strategies. In A.M. Lesgold & C.A. Perfetti (Eds.),
Interactive processes in reading. Hillsdale, N.J.: Erlbaum.
oltheart, M., Besner, D., Jonassen, J., & Davelaar, E. (1979). Phonological encoding in the lexical
p decision task.
Quarterly Journal of Experimental Psychology, 31, 489-507.
lenstra, H., & Seegers, G. (1982).
Een onderzoek naar het effect van interventie-technieken bijzwak-be-
grijpende lezers.
SVO-subsidieaanvraag. Nijmegen: Katholieke Universiteit Nijmegen, Inter-
p disciplinaire Onderwijskunde.
®enstra, H., Seegers, G., & Aarnoutse, C.A.J. (1983).
Het effect van enkele interventieprogramma's bij
zwak-begrijpende lezers.
(Deelrapport 1, SVO-project 1060). Nijmegen: Katholieke Univcrsi-
p teit Nijmegen, Interdisciplinaire Onderwijskunde,
■■ederiksen, J.R. (1982). A componential theory of reading skills and their interactions. In R.J. Stern-

berg (Ed.), Advances in the psychology of human intelligence. Hillsdale, N.J.: Erlbaum.
'ushko, R.J. (1981). Principles for pronouncing print: The psychology of phonography. In: Lesgold,
J., A.M. & C.A. Perfetti (Eds.),
Interactive processes in reading. Hillsdale, N.J.: Erlbaum.
^oteskog, K.G. (1970). A general method for analysis of covariancc structures.
Biometrika, 57, 239-251.
oreskog, K.G., & Sörbom, D. (1981).
LISREL V: Analysis of linear structural relationships by maximum
. likelihood and least squares methods.
Uppsala: University of Uppsala.

aBerge, D., & Samuels, S.J. (1974). Toward a theory of automatic information processing in reading.
, Cognitive Psychology, 6, 293-323.
esgold, A.M., & Perfetti, C.A. 0978). Interactive processes in reading.
Discourse Processes, 1, 323-

p

erfetti, C. A., & Lesgold, A.M. (1978). Coding and comprehension in skilled reading and impHcation for
reading instruction. In L.B. Resnick & P. Weaver (Eds.),
Theory and practice of early reading.
p Hillsdale, N.J.: Erlbaum.
effetti, C., & Lesgold, A. (1977). Discourse comprehension and individual differences. In P. Carpenter

-ocr page 110-

106 Interdisciplinaire Studierichting Onderwijskunde, Nijmegen

& M. Just (Eds.), Cognitive processes in comprehension: Twelfth annual Carnegie symposium on
cognition.
Hillsdale, N.J.: Erlbaum.
Perfetti, C., & Lesgold, A. (1979). Coding and comprehension in skilled reading and implications for
reading instruction. In L.B. Resnick & P. Weaver (Eds.),
Theory and practice in early reading.
Hillsdale, N.J.: Erlbaum.

Raven, J.C., Court, J.H., & Raven, J. (1977). Standard Progressive Matrices. London: H.K. Lewis & Co,
Ltd.

Seegers, G. (1985). Individuele verschillen in leesvaardigheid. Dissertatie K. U. Nijmegen.
Seegers, G., & Feenstra, H. (1982).
Een onderzoek naar leesvaardigheidsverschillen tussen leerlingen van
klas 3 en 5 van het gewoon lager onderwijs
(Deelrapport 2, SVO-project 0523). Nijmegen:
Katholieke Universiteit Nijmegen, Interdisciplinaire Studierichting Onderwijskunde.
Seegers, G., & Feenstra, H. (1984). 'Herkenning' van woorden en verschillen tussen lezersgroepen. In
L.F.W. de Klerk & A.M.P. Knoers (Red.),
Onderwijspsychologisch onderzoek. Lisse: Swets &
Zeitlinger.

Sternberg, R.J. (1978). Componential investigations of human intelligence. In: A.M. Lesgold, J.W.
Pellegrino, S.D. Fokkema & R. Glaser (Eds.),
Cognitive psychology and instruction. New York:
Plenum.

Manuscript ontvangen 7-8-1984
Definitieve versie ontvangen 5-12-1984

-ocr page 111-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 3, pp. 107-129

Slagen en mislukken in de eerste kandidatuur: Op
zoek naar oorzaken

Frank van Overwalle
^rije Universiteit Brussel

abstract

By means of two pilot studies and one control study, social and affective factors of student
achievement during their freshman year at university were explored. These researches show
primarily that, besides half-term exam results, the individual interpretation and evaluation of
oneself as a student, manifest themselves as the main predictors of study achievement. It also
shows that predictive factors are highly intercorrelated and form a broad pattern. We realized that
many of the common theoretical models in the field of educational psychology just explain a
fragmentary part of these results. Perhaps only Weiner's attributional theory of achievement
behavior offers a basis which is sufficiently general to incorporate our resuhs. Our study also
confirms Weiner's controllability and locus dimensions. The best predictors are self- and study-
evaluation; moderate predictors are internal causes (e.g., effort, study method, ability, know-
ledge, general interest); and poor but significant predictors are external causes (e.g. help, infor-
mation, fear of exams, difficulty, luck). These predictors can be divided in two parts: controllable
ones (which mostly involve motivational factors) and uncontrollable ones (which mostly include
ability and knowledge factors).

1. INLEIDING

daarom mislukken studenten in hun eerste jaar aan de universiteit? Wat kan daaraan
Verholpen worden? Ondanks 40 jaar onderzoek over dit probleem bhjft het aantal niet-ge-
slaagden in het eerste jaar aan Belgische universiteiten meestal boven de 50%. De bedoeling
Van dit onderzoek is de
affectieve en sociale factoren te onderzoeken die succes en mislukking
aan de universiteit kunnen verklaren.

Onderzoek naar de oorzaken van studiesucces en -mislukking was in het begin sterk gericht
^P cognitieve variabelen. Uit de hteratuur blijkt dat de schooluitslag in het secundair de beste
enkelvoudige predictor is van het studieresultaat aan de universiteit. Indien we de meest
belangrijke onderzoeken (waaronder de International studies of Educational Achievement of
I-E.A. studies, cf. Bloom 1976) samenvatten, komen we tot een gemiddelde correlatie van .50

^'t onderzoek werd uitgevoerd in opdracht van de Vrije Universiteit Brussel. Promoteren van dit
zijn Prof. Dr. O. Steenhaut en Prof. Dr. H. Rigaux, in samenwerking met de Heer
"■recteur-generaal E. Baeten van het Ministerie van Onderwijs. De Heer A. Coppee, voorzitter
dc stedeUjke en gemeentelijke P.M.S.-centra, verleende voor een gedeelte van dit onderzoek
^'jn bereidwillige medewerking. We wensen tevens alle P.M.S.-consulenten te bedanken voor hun
®'^''eve medewerking bij de opzet en de uitwerking van dit onderzoek. Mijn dank gaat ook uit naar
'^cencenten

die vorige versies hebben nagelezen en van wie ik enige nuttige suggesties heb
overgenomen.

'^dres: Vrije Universiteit Brussel, Pleinlaan 2, 1050 Brussel, België.

-ocr page 112-

108 Slagen en mislukken in eerste kandidatuur

tussen secundair en universitair studieresultaat. Aangevuld met schoolbekwaamheidstests en
intelligentietests (vnl. verbale bekwaamheid, cf. Entwistle et al., 1971) kan deze correlatie tot
ongeveer .60 opkhmmen (Wellens, 1980). Nochtans verklaart een correlatie van .60 toch nog
maar 36% van de variantie van het studieresuhaat bij eerstejaarsstudenten. Er bestaan dus
nog andere, niet-cognitieve factoren die het studiesucces mede helpen verklaren.

Ons onderzoek naar niet-cognitieve factoren in de overgang van het secundair onderwijs
naar de universiteit gebeurde in nauwe samenwerking met een 30-tal psychologen en pedago-
gen uit vlaamstalige Psycho-medisch-sociale (P.M.S.) centra, die studenten in hun laatste jaar
secundair begeleiden. De voordelen van deze samenwerking met PMS-consulenten liggen
voor de hand: uitwisseling van concrete ervaringen, werkmethoden en vragen tussen onder-
wijsbegeleiders in het secundair en de universiteit; terugkoppeling van resultaten uit dit
onderzoek niet enkel naar de universiteit, maar ook naar het secundair onderwijs. Over
resultaten van dit onderzoek werd reeds gedeeltelijk gerapporteerd (Van Overwalle, 1982,
1983ab). Van het onderzoek, dat in totaal 4 jaar heeft geduurd, geven we enkel een verslag
van het laatste onderzoek op een representatieve steekproef van de eerstejaarspopulatie van
de Vrije Universiteit te Brussel.

In ons onderzoek zijn we vertrokken van een aantal niet-cognitieve factoren, waarvan uit
de literatuur bekend was dat ze een verband vertonen met het studieresultaat. Hieronder
vatten we de belangrijkste uitgangspunten samen.

1.1. Familiale en schoolse achtergrond

Wat familiale en schoolse achtergrondvariabelen betreft bestuderen we, naast studieresultaat
en intelligentie gedurende het secundair onderwijs als cognitieve factoren, ook sociale facto-
ren zoals sociaal-economische status en familiale gezinsverhoudingen. Uit de literatuur blijkt
dat de sociaal-economische status geen rol meer speelt op het universitair niveau,
wellicht
door een sterke selectie vooraf gedurende de schoolopleiding. Uit de resultaten van ons
onderzoek komt ook naar voren dat familiale gegevens geen enkel rechtstreeks
verband
hebben met prestaties aan de universiteit, tenzij ze specifiek studiegericht zijn.

1.2. Sodale relaties aan de universiteit

Sociale relaties aan de universiteit hebben daarentegen wel een invloed op het studieresultaat,
maar het hangt ervan af over welke soort relaties het gaat. Extracurriculaire aktiviteiten
hebben over het algemeen weinig effect op het studieresultaat, zowel bij vrouwelijke als
mannelijke studenten. Vrouwelijke studenten zijn in tegenstelling tot jongens wel sterk
afhankelijk van nauwe sociale betrekking met medestudenten (Pascarella & Terenzini,
1979).

Naast de contacten tussen medestudenten wordt ook aandacht besteed aan de impact van
informele relaties tussen studenten en het onderwijzend personeel. Pascarella (1980)
maakte
een overzicht van alle onderzoek over informele'student-docent contacten gedurende de
jongste 20 jaar. Vooral contacten waarbij discussies over intellectuele onderwerpen
frequent
voorkomen hebben een positief effect op volhouden en studierendement. Deze informele
student-docent relaties hebben meer impact bij studenten die zich niet erg thuisvoelen in
academische milieus en/of waarvan de ouders een laag onderwijsniveau genoten.

1.3. Persoonlijkheidsfactoren

Persoonlijkheidstrekken zoaXsextraversie vertonen meestal een laag negatief verband met het
studieresultaat. Correlaties liggen rond
-.25. Angst- of neurotismeschalen hebben daarente-
gen meestal geen verband met het studierendement (Entwistle et al., 1971; Smith, 1976; Goh
& Moore, 1978; Irfani, 1978).

-ocr page 113-

F. Van Overwalle 109

Rotter's locus of control concept wordt nu eens als persoonlijkheidstrek en dan weer als
veralgemeende causale verwachting beschreven. Dit concept is vervat tussen twee polen, nl.
extern en intern.
Externe locus of control treedt op wanneer een persoon gelooft dat het
resultaat van zijn handelen niet afhangt van zichzelf maar van de situatie, het lot of machtige
anderen.
Intern duidt op een persoon die gelooft dat het resuhaat van zijn handelen bepaald
Wordt door eigen gedrag of eigen kenmerken. In het lager middelbaar onderwijs is het
Verband tussen locus of control en studieresultaat het grootst (gemiddelde correlatie van .35;
Findley & Cooper, 1983). Bij 32 onderzoeken op een universiteitsbevolking vonden Findley
en Cooper een gemiddelde positieve correlatie van .14 tussen interne locus of control en de
examenuitslag of meer gestandaardiseerde bekwaamheidstesten.

De dalende predictiviteit van het locus of control concept kan verklaard worden door
uitselectie van studenten met interne kenmerken in het vroegere 'onderwijs, of door het
gebruik van locus of control vragenhjsten, die meestal niet geconstrueerd werden met de
specifieke bedoehng het studieresuhaat te voorspellen (Rotter, 1975; Lefcourt, 1981). De
gebruikte instrumenten zijn wellicht helemaal niet aangepast voor de onderzochte onder-
wijssituaties. Rothbaum et al. (1982) hebben een meer fundamentele kritiek op het locus of
control concept. Ze schrijven dat „Rotter.... defined internality in terms of both self-con-
hngency and self-causality. This definition leads to confusion in the case of certain attribu-
tions, such as attribution to limited ability, which imply an absence of self-contingency (inde-
pendence between the selfs response and the environmental outcomes) but the presence of
Self-causality (the selfs inability is the ascribed cause of the environmental outcome)"
(Rothbaum et al., 1982, p. 6). Deze verwarring zou de soms lage en tegenstrijdige resultaten
kunnen verklaren.

Studiemotivatie cn -attitude

Van de affectief getinte factoren, dikwijls samengevat onder de algemene termen studiemoU-
vatie en -attitude, bestuderen we prestatiemotivatie, intrinsieke mohvatie en akademisch
zelfconcept.

Het onderzoek naar prestatiemotivatie is sterk verbonden met de naam van Atkinson en zijn
eollega's (Atkinson & Raynor, 1974; Atkinson, 1978; Atkinson & Birch, 1978). In het begin
Werd de mate van prestatiemotivatie beschouwd als de resultante van 3 factoren: een per-
nianent kenmerk of het zgn. 'need to achieve', de gewenstheid van het doel en de waar-
schijnlijkheid van het succes. Ook hier werd naar relaties gezocht tussen individuele verschil-
len in 'need to achieve' en prestatiegedrag, zoals o.a. studiegedrag. Recent onderzocht
Cooper (1983) opnieuw de belangrijkste aspecten van de prestatiemotivatietheorie. Zoals de
theorie voorspeh zullen mensen met hoge prestatiemotivatie langer volhouden en beter
presteren. Maar Cooper's bevindingen over de voorkeur voor taken verschillend in moeihjk-
heidsgraad, komen helemaal niet overeen met de theoretische voorspeUingen. Daardoor
Vervalt een van de voornaamste formele hypothesen van Atkinson's theorie.

We hebben ook nogal twijfels over de praktische toepasbaarheid van Atkinson's wiskundi-
ge modellen voor reële onderwijssituaties. Het onderzoeken van de
concrcte studie-motivatie
'n de universitaire context lijkt ons een zinniger uitgangspunt. Zowel in vroeger als in meer
recent onderzoek stelde Entwistle vast (Entwistle et al., 1971; 1979) dat een positieve
studiemotivatie en georganiseerde studiemethoden zeer goede voorspellers zijn van stu-
diesucces, naast cognitieve factoren. Aan de Leuvense universiteit vond Laçante (1983) een
gelijkwaardige positieve relatie tussen studie-inzet en studieresultaat.

Intrinsieke motivatie kan omschreven worden als de spontane interesse voor het stu-
dieonderwerp of, op langere termijn, de studiekeuze. Bloom (1976) noemt dit motivatie-as-

-ocr page 114-

110 Slagen en mislukken in eerste kandidatuur

peet het subject related affect. Uit een hele reeks onderzoeken op lager en secundair niveau
waaronder de intemational studies of educational achievement (lEA), besluit Bloom dat het
subject related affect gemiddeld ongeveer .30 correleert met studierendement. In haar
onderzoek aan de Leuvense universiteit vond Laçante (1983) echter geen significante cor-
relatie tussen intrinsieke motivatie en studieresultaat. Een mogeUjke verklaring kan de
groeiende homogeniteit van de universiteitstudenten zijn, na voorselektie op lagere op-
voedkundige niveaus.

Een andere verklaring wordt vanuit sociaal experimenteel onderzoek geboden. Deci en
andere experimentele onderzoekers (Deci, 1975, 1980; Deci & Ryan, 1980; Lepper &
Green, 1978) hebben nameUjk vastgesteld dat externe controle en gevoelens van incom-
petentie de intrinsieke motivatie doet dalen. De grotere externe druk tot prestatie aan de
universiteit of de aanvankeUjke onzekerheidsgevoelens bij beginnende studenten dringen
misschien spontane interesse als mogehjke oorzaak van studiesucces op de achtergrond.

Het academisch zelfbeeld wordt door Bloom ( 1976) gezien als de beste affectieve predictor
van studiesucces. Het zelfbeeld is een veralgemeende evaluatie van zichzelf als student,
waarin vroegere ervaringen met slagen of mislukken in de school geïntegreerd worden. Het
akademisch zelfbeeld kan geoperationahseerd worden in een schatting van de eigen kansen
op slagen. Unaniem wordt een positief verband gelegd tussen een hoge verwachting en een
hoge prestatie (WeUens, 1980). Aan de Leuvense universiteit vond Laçante (1983) een
analoog verband tussen zelfvertrouwen in de studie en hoge studieresultaten.

1.5. Attributies van studieprestaties

Attributietheorie is een cognitieve tak in de psychologie, die aan de hand van persoonUjke
gedachten en ervaringen tracht te verklaren hoe mensen op bepaalde gebeurtenissen reage-
ren. Toegepast in een onderwijskundige kontekst, maakt de attributietheorie een aantal
voorspelhngen over de studiemotivatie op basis van de wijze waarop de student zijn resultaten
cognitief en emotioneel verwerkt, nl. op basis van de factoren waaraan de student zijn slagen
of mislukken toeschrijft of 'attribueert'. Deze subjectieve oorzaken of attributies zetten de
student aan om met meer ijver de studie verder te zetten of voortijdig op te geven. Hoe dit
motivationeel proces functioneert zullen we hieronder in het kort beschrijven.

In het begin was het onderzoek over attributies van prestatiegedrag geconcentreerd rond
vier elementen: bekwaamheid, inspanning, moeihjkheid en geluk (Weiner, 1974). Naarge-
lang de situatie kan deze h jst aangevuld worden met oorzaken die volgens de deelnemers ook
nog van belang zijn om succes of mislukking te verklaren. De meest voorkomende attributies
bij prestatietaken zijn in tabel 1 samengevat. Deze tabel is onderverdeeld naar locus (intern-
extern), controleerbaarheid en stabiliteit van de attributies. Deze driedimensionele taxono-
mie werd bevestigd door Meyer (1980) en Russel (1982) die, na factoranalyse, drie gehjkaar-
dige factoren van causale attributies terugvonden. Deze drie-dimensionele taxonomie on-
dersteunt Rothbaum's (et al.,1982) kritiek op het eendimensionele locus of control concept.
Om het studiegedrag van studenten te verklaren, zijn de causale dimensies uit deze tabel van
groot belang. Weiner en zijn collega's (cf. Weiner, 1974,1979,1980,1984) hebben het effect
onderzocht van causale dimensies op de verwachte kans op slagen en op gevoelens.

Zij stelden ten eerste vast dat hoe stabieler de toegeschreven oorzaken zijn, hoe meer de
verwachte kans op slagen zal veranderen na een onverwacht resultaat (Weiner, Nierenberg &
Goldstein, 1976). Mislukking toegeschreven aan een stabiele factor (Bv. lage intelUgentie) zal
de verwachtingen veel scherper doen dalen, dan mislukking toegeschreven aan een onstabiele
factor (bv. weinig gestudeerd). Op een analoge manier zal succes te wijten aan een stabiele
factor (bv. lage moeihjkheid) meer vertrouwen schenken in de toekomst dan succes op basis

-ocr page 115-

F. Van Overwalle 111

Tabel 1. Causale attributies variërend naar controleerbaarheid, locus en stabiliteit, volgens
Elig en Frieze (1979) en Weiner (1979).

controleerbaar oncontroleerbaar

'ntern stabiel geregelde inspanning algemene intelligentie

verlangen tot goede prestaties
onstabiel inspanning voor deze taak humeur
interesse in deze taak

extern stabiel vooroordeel van de leerkracht moeilijkheid van de taak
onstabiel ongewone hulp van anderen geluk

Van een wisselvallige factor (bv. geluk op de test).

Ten tweede werd vastgesteld dat hoe meer de oorzaken van studieprestaties aan zichzelf
(intern) toegeschreven worden (bv. intelligentie, studiemethode e.d.m.), hoe groter het effect
's op
self-esteem gevoelens: bij mislukking zal het self-esteem dalen, bij succes zal het
subjectieve zelfbeeld stijgen (Weiner, Russell & Lerman, 1978, 1979).

Ten derde volgt uit de learned helplessness literatuur (cf. Seligman, 1975) dat indien
subjecten onderworpen worden aan een reeks onoplosbare en
oncontroleerbare opgaven, ze
sneller zullen
opgeven bij een volgende taak. Dit betekent dat na een reeks mislukkingen (een
examenzittijd bv.) de student zal opgeven tenzij hij het gevoel heeft dat hij of anderen iets aan
^'jn situatie kunnen verhelpen.

Samengevat tonen deze onderzoeken aan dat de subjectieve interpretatie van de studie en
''et studieresuhaat, of m.a.w. het toeschrijven van oorzaken van studiesucces of -mislukking,
een weerslag heeft op de verwachte kans op slagen, op het zelfbeeld als student cn op het
doorzettingsvermogen.

Leerstrategieën

^e onderzoeken naar verklarende factoren in de persoonlijkheid of de motivatie van de
student hebben gemeen dat ze individuele verschillen koppelen aan de leerresultaten. Ze
brengen echter weinig bij over het voorafgaand leerproces, en kunnen niet aantonen hoe
individuele factoren verschillend inwerken op dit leerproces, wat de verschillen in het leerre-
sultaat zou kunnen verklaren. Een aantal onderzoekers hebben zich daarom toegespitst op
bet leerproces, en meer specifiek op de verschillende
leerstijlen en -strategieën waarmee een
studietaak wordt aangepakt. De meeste onderzoekers op dit terrein vertrekken van een
fenomenologisch standpunt; zij baseren hun onderzoek op de waarnemingen en de ervarin-
gen van de studenten zelf. Daartoe gebruiken ze dikwijls materiaal uit interviews in plaats van
gestructureerde antwoorden uit vragenlijsten. In deze subjectieve ervaringen van studenten
boeken ze naar kwalitatieve verschillen in de studieaanpak en leerstijl.

Bij het bestuderen van een tekst vonden Marton & Süljö (1976) verschillen tussen een diepe
en oppervlakkige
aanpak van de studietaak. Wanneer de opdracht erin bestaat de leerinhoud
'e begrijpen, vond Pask (1976) twee contrasterende strategieën: operation en comprehension
'earning. Bij
operation learning verstrekt de student van de verschillende topics in de tekst en
''ouwt daarmee een algemene struktuur op. Bij
comprehension learning zoekt de student eerst
een algemeen kader, en plaatst nadien daarin de gegevens. Een aantal onderzoekers hebben
deze verschillen in leerstijlen en -strategieën gekoppeld aan verschillends vormen van stu-
d'emotivatie. Na een factoranalyse van zijn 'Study Process Questionnaire' vond Biggs (1978)

-ocr page 116-

112 Slagen en mislukken in eerste kandidatuur

drie algemene oriëntaties in motieven en strategieën van het leerproces: reproducing, inter-
nalizing en organising. Bij
reproducing is het dominante motief het vermijden van mislukking,
gekoppeld aan een leerstrategie waarin de student binnen de doelstellingen van de cursus
blijft en van buiten leert om de leerinhoud te reproduceren. Bij
internalising wordt de student
gemotiveerd door intrinsieke interesse en zelf-ontwikkehng, hij probeert de leerinhoud
vooral te begrijpen. Het basismotief bij
organising is de behoefte aan succes dat gepaard gaat
met een gestructureerde en georganiseerde studiestrategie. Deze nieuwe elementen van
Marton & Saljö (1976), Pask (1976) en Biggs (1978) werden door Entwistle (Entwistle et al.,
1979; Entwistle, 1981) in een nieuwe vragenlijst ingebouwd, die ook in ons onderzoek wordt
gebruikt. Entwistle vond drie dimensies, analoog aan de drie oriëntaties van Biggs (1978).

Biggs (1979) onderzocht verder het verband mssen deze oriëntaties in het leerproces en de
kwahteit van het leerresuhaat. Om het kwaliteitsniveau van een bestudeerde leerinhoud te
meten stelde hij een taxonomie op van de 'Structure of Observed Learning Outcome' (Solo).
Deze Solo-taxonomie bestaat uit 5 niveaus, en wordt ook in dit onderzoek gebruikt.

De verdienste van deze onderzoekers is dat zij een verband hebben gelegd tussen ver-
schillende vormen van studiemotivatie en vormen van studiestrategie, m.a.w. tussen motiva-
tionele en cognitieve oriëntaties op de leerinhoud. Door de nadruk op dit verband, is de
voorspellingswaarde van leerstrategieën op de achtergrond geraakt. Er zijn maar weinig
gegevens te vinden die de drie bovengenoemde algemene leeroriëntaties aan het studieresul-
taat relateren. Onderzoeken waar dat wel is gebeurd zijn op heel kleine steekproeven
gebaseerd (cf. een deelsteekproef van 22 studenten in Watkins & Hattie, 1981), of correleren
leeroriëntaties met subjectieve percepties van studieprestaties (Ramsden & Entwistle, 1981)-
Daarom blijft het verband tussen leerstrategieën en studierendement onzeker.

2. METHODE

2.1. Steekproef

De steekproef werd aselect getrokken uit alle eerstejaarsstudenten van alle faculteiten aan de
Vrije Universiteit te Brussel, ingeschreven voor het akademiejaar 1981-1982. Bissers of
studenten die al andere hogere studies hadden gevolgd werden uitgesloten. In totaal omvat de
getrokken steekproef 324 studenten. Dat is zowat een derde van alle eerstejaars ingeschreven
in dat akademiejaar.

Van deze oorspronkelijke, aselecte steekproef hebben 240 (74%) studenten meegewerkt
aan het eerste interview na het eerste semester (maart). Na de examens (november) konden
nog 184 (57%) studenten gecontacteerd worden voor een tweede interview. De groep van
niet-geslaagden is duideUjk ondervertegenwoordigd in het tweede interview. Omdat de
meeste onder hen de universiteit hadden verlaten, was het praktisch zeer moeilijk een
nieuwe
afspraak te maken voor een tweede interview, of was het onmogelijk hen over te halen een
tweede keer aan het onderzoek mee te werken.

Omdat de steekproef aselect gekozen was moesten we voor het bekomen van familiale en
schoolse achtergrondgegevens een beroep doen op P.M.S.-centra die normaal niet aan di'
onderzoeksproject meewerken. In totaal hebben we slechts 104 (32%)
dossiergegevens
ontvangen. Voor dit kleine aantal zijn twee praktische redenen verantwoordelijk. Ten eerste
was een schriftelijke toestemming van elke student noodzakelijk, wat het maximum aantal al
tot 240 (van het eerste interview) reduceert. Ten tweede kregen we zeer weinig
medewerking
van de vrije P.M.S.-sector, van waaruit een belangrijk deel van de studenten aan de Vrije
Universiteit Brussel afkomstig zijn.

-ocr page 117-

F. Van Overwalle 113

2.2. Vragenlijst

Elke student wordt individueel geïnterviewd door een P.M.S.-consulent. Dit gesprek duurt 30
tot 60 minuten. Als hulpmiddel bij het interview beschikt de consulent over een lijst van een
■'O-tal startvragen, die aansluiten op de vragenhjst die achteraf ingevuld moet worden.

Na het gesprek vullen de P.M.S.-medewerker en de student een vragenhjst in. Het grootste
deel van de vragenhjst is identiek voor beide gesprekpartners. De vragenhjst bevat:
Interviewschalen ontwikkeld uit interviews van het vooronderzoek. Een interviewschaal
bestaat uit een aantal type-antwoorden over een specifiek studiethema, van laag naar hoog
studierendement geordend. Aan de student werd gevraagd het antwoord aan te duiden
waarmee hij het best akkoord kon gaan, aan de consulent werd gevraagd aan te duiden
welk antwoord het meest van toepassing was op de student waarmee hij gesproken had.
Voorbeeld: Kans op slagen.

- Ik twijfel er sterk aan om aan de examens deel te nemen.

- Ik twijfel er sterk aan om aan een tweede zittijd mee te doen als ik in de eerste zittijd niet
geslaagd ben.

~ Ik geef mezelf geen of weinig kans (minder dan 50%) op slagen in de eerste of tweede
zittijd.

- etc...

Beoordehngsschalen overgenomen uit het vooronderzoek. Elke schaal bestaat uit 5 ant-
woordmogehjkheden, die elk verduidelijkt worden door enkele trefwoorden. Het nega-
tieve en positieve extreem van elke schaal wordt bij het begin van elke vraag door middel
van een korte omschrijving nauwkeurig gedefinieerd.
Voorbeeld: Voorkennis.

Weinig : toen ik aan deze studierichting begon wist ik niet veel over deze studie, ik had heel

wat in te halen om dit jaar te kunnen slagen,
veel : heel wat dingen die ik dit jaar in de lessen gezien heb kwamen me bekend voor, ik
had al een goede achtergrond voor dit studieprogramma.

• (enkel studenten) Studie-atdtude vragenlijst van Theyssens (1982) na het eerste inter-
view, en de Lancaster Inventory van Entwisde et al. (1979) na het tweede interview. De
student werd gevraagd op een 5-puntenschaal aan te geven in welke mate hij akkoord ging
met elke uitspraak.

Voorbeeld:

^ Ik vind het moeihjk om mijn studiedjd doeltreffend te organiseren.

• (enkel consulenten) Observatieschalen over de verbale uitdrukkingsvaardigheid van de
studenten gedurende het interview. Elke schaal bestaat uit 5 antwoordmogelijkheden, die
elk verduidelijkt worden door enkele trefwoorden. Het negatieve en positieve extreem
Van elke schaal wordt bij het begin van elke vraag door middel van een korte omschrijving
nauwkeurig gedefinieerd.

Voorbeeld: Struktuur.

~ De student spreekt ongestructureerd of verwarrend. Hij springt van de hak op de tak en
diept zijn antwoorden onvoldoende uit.

De student spreekt gestructureerd wanneer hij zijn antwoorden goed ordent, en in een
logische lijn formuleert.

Criterium van studiesucces

dit onderzoek worden als criterium van het studieresultaat 8 categorieën gebruikt die van
naar hoog zijn geordend. Deze geordende categorieën worden gevormd door een

-ocr page 118-

114 Slagen en mislukken in eerste kandidatuur

combinatie van enerzijds het al of niet beëindigen van alle examens en anderzijds de behaalde
graad. (De categorieën zijn: 1 = geen examens afgelegd, 2 = enkele examens afgelegd tijdens
één zittijd, 3 = alle examens afgelegd in één zittijd en niet geslaagd, 4 = alle examens afgelegd
in beide zittijden en niet geslaagd, 5 = voldoening in de tweede zittijd, 6 = voldoening in de
eerste zittijd, 7 = onderscheiding, 8 = grote of grootste onderscheiding).

De studenten die onder de eerste vier categorieën vallen (1 tot 4) zijn niet geslaagd. Hun
positie op dit deel van de criteriumschaal drukt vnl. hun volhouden uit: in hoeverre zetten ze
hun studie voort na een aantal mislukkingen. De studenten uit de vier
daaropvolgende
categorieën (5 tot 8) zijn wel geslaagd in het eerste jaar. Dit deel van het criterium geeft een
idee over het niveau van hun succes.

2.4. Statistische verwerking

Volgens een werkwijze die nogal populair is in de pedagogische literatuur worden de va-
riabelen eerst gegroepeerd in factoren d.m.v. factoranalyse. Achteraf wordt dan gezocht naar
relaties met een studiecriterium. Het nadeel van deze procedure is dat de gevonden factoren,
in de eerste plaats afhankelijk zijn van de ingebrachte variabelen en in de tweede plaats niet
noodzakehjk optimaal gekozen zijn met betrekking tot hun predictiviteit t.o.v. het studiesuc-
ces.

In ons onderzoek gaan we daarom anders te werk. Ten eerste behouden we enkel variabe-
len die significant (a = .01) en rechtstreeks relateren aan het studiesucces. Op deze manier
beletten we dat variabelen die minder of helemaal niet van belang zijn voor het studieren-
dement, het structurele overzicht zouden verstoren. Ten tweede gebruiken we een techniek
die tegehjkertijd (1) onderscheid maakt tussen verschiUende homogene groepen van predic-
tieve variabelen en (2) onderscheid maakt tussen zwakke, middelmatige en sterke predicto-
ren, m.a.w. een techniek die naast de structuur ook de relatie met het studiecriterium in
rekening brengt. De techniek die aan deze dubbele doelstelling voldoet, is meerdimensionele
schaalverwerking waarin een radex wordt gezocht (cf. Van Overwalle, 1984).

In dit onderzoek gebruiken we het MINISSA-programma van Guttman (1968) en Lingoes
(1973). De mate waarin het ruimteUjk model afwijkt van de oorspronkelijke correlaties
drukken Guttman en Lingoes uit d.m.v. een ahënatiecoefficiënt. Deze coëfficiënt kan waar-
den tussen O en 1 aannemen. Hoe kleiner de aliënatie, hoe getrouwer het ruimtelijk model de
oorspronkehjke structuur van de gegevens weerspiegelt. De aliënatie kan beschouwd worden
als een maat voor onverklaarde variantie door het ruimtelijke model.

Door het inverseren van de negatief correlerende variabelen, komt het criterium van
studieprestatie ongeveer in het midden van de ruimtehjke voorstelling te liggen. (1) Met dit
criterium als middelpunt kunnen een aantal
cirkels getrokken worden die de ruimtelijke
configuratie opdelen in circumplexen. Centraal gelegen circumplexen bevatten goede pre-
dictoren van het studieresultaat. Circumplexen die meer langs de buitenkant van de ruimtelij-
ke afbeelding hggen, bevatten zwakkere predictoren. (2) Elk circumplex kan op zijn beurt
opgedeeld worden door een aantal
assen die denkbeeldig door het middelpunt lopen. Door
deze assen worden homogene, onderling hoog correlerende groepen variabelen van elkaar in
afzonderlijke
regionen afgescheiden. De aldus verkregen wiel-struktuur met cirkels en assen,
of m.a.w. circumplexen en regionen, wordt een radex genoemd (Guttman, 1954; Lingoes,
1981).

Om te controleren of onze interpretatie van deze ruimtelijke structuur correct is, wordt de
ruimtelijke configuratie d.m.v. een 'confirmatory monotone distance analysis' (CMDA, Borg
& Lingoes, 1980) onderworpen aan regionale voorwaarden, die overeenstemmen met de
hierboven beschreven indeling in cirkels en assen. De hypothetische structuur wordt
aanvaard

-ocr page 119-

F. Van Overwalle 115

indien de ruimtelijke configuraties, met of zonder regionale voorwaarden, equivalent zijn
(Lingoes & Borg, 1983; Hubert & Golledge, 1981).

Voor een meervoudige regressie-analyse hebben we in het begin van het onderzoek de
niet-metrische versie van Lingoes (1973) gebruikt omdat onze gegevens van ordinaal mee^
niveau zijn. Deze benadering is zeer analoog aan de klassieke lineaire regressie, met dit
Verschil dat op het criterium een monotone transformatie wordt uitgevoerd met de bedoeling
de nauwkeurigheid van de predictie (of meervoudige correlatie) te verhogen. Op onze
gegevens gaf deze monotone transformatie geen enkele verbetering, wat kan duiden op een
criterium dat zeer robuust is, en misschien wel intervalkenmerken bezit. Daarom hebben we
in het verdere verioop van het onderzoek enkel de klassieke lineaire regressie-analyse
(SPSS-package, Nie et al., 1975) toegepast. Van hetzelfde package hebben we een discrimi-
nantie-analyse gebruikt.

3. RESULTATEN EN BESPREKING
^•l- Student- en consulentbeoordelingen

Van alle geselecteerde variabelen in dit onderzoek zijn 41 volledig identiek bij consulent en
student. Deze 41 identieke vragen vormen een geschikte basis om te onderzoeken of de
student en de consulent, na een gemeenschappelijk gesprek van ongeveer 1 uur, over de
studies en over de student hetzelfde oordeel hebben gevormd.

Uit deze vergelijking komt naar voren dat correlaties tussen student- en consulentbeoorde-
"ngen zeer sterk variëren (van .26 tot .90 met een gemiddelde van .53). Student cn consulent
^'jken dus dikwijls af in hun beoordeling over de studie en studie-omgeving van de student.

e vraag is of deze afwijkingen veroorzaakt worden door onnauwkeurigheden of door
systematische verschillen in de beoordeling? Indien afwijkingen door toevallige of onsys-
einatische fouten worden veroorzaakt, zal de gemiddelde beoordeling van consulent en
student niet erg verschillen. Bestaat er echter een systematische vertekening, dan wordt de
•^ans dat die tot uiting komt in een verschil tussen de gemiddelde beoordeling van consulent en
student groter. De verschillen tussen de gemiddelde beoordeling van consulent en student
^erden getoetst aan de hand van de Wilcoxontoets (Siegel, 1956). Iets minder dan de helft (17
■tenis) van de verschillen was significant (p > .01). Om deze verschillen te verklaren werd
ezelfde procedure uitgesplitst naar geslaagde en niet-geslaagde studenten afzonderlijk. De
''esultaten van deze analyse staan in tabel 2 en laten een aantal interessante conclusies toe.

Over de eerste semesterperiode bestaan niet veel systematische verschillen tussen con-
sulent- en student-antwoorden. Het enige wat opvalt is dat de evaluatie van de consulent over
. e student, over de studievorderingen en over de tevredenheid met de gemaakte studiekeuze,
'ets optimistischer uitvalt.
Systematische vertekeningen treden pas op bij de beoordeling van de examenperiode. Deze
eoordeling wordt gemaakt in november, nadat de definitieve uitslag bekend is. Bij deze
eoordeling treffen we het merkwaardige verschijnsel aan dat vertekeningen bij niet-geslaag-
I ^ studenten helemaal anders zijn dan bij geslaagde studenten. Niet-geslaagde studenten
®ten zich meer positief uit dan consulenten over hun studieregelmaat en hun studie-inzet. Bij
geslaagde studenten is het net omgekeerd. Die beoordelen hun studieregelmaat en -efficiën-

'e, hun tevredenheid met studiekeuze en met partiële uitslagen, negatiever dan de consulen-
ten.

Verklaringen voor dit tegengestelde antwoordpatroon kunnen zowel bij de student als bij
^ consulent gevonden worden. Enerzijds zal een student die mislukt is en toch zijn studies

-ocr page 120-

116 Slagen en mislukken in eerste kandidatuur

Tabel 2. Verschillen tussen de gemiddelde beoordehngen van consulent en student over de
studieprestaties van de student

niet geslaagd

geslaagd

consulent

student

consulent

student

EERSTE SEMESTERPERIODE

zelf-evaluatie als student

3.03

2.78

3.58

3.34

tevredenheid met studiekeuze

3.94

3.69

4.52

4.19

uitstellen van studiewerk

2.15

2.47

achterstand in studiewerk

1.67

2.30

EXAMENPERIODE

slagen is belangrijk

3.48

3.79

bijhouden cursussen

1.94

2.20

weerbaarheid tegen studieproblemen

2.83

3.30

op tijd beginnen blokken

2.29

2.57

3.69

3.37

zeer geregeld blokken

3.87

3.38

kent de stof voor de blokperiode

3.47

3.24

op alle examenvragen antwoorden

3.94

3.48

tevredenheid met studiekeuze

4.69

4.50

partiële uitslag was zwak

1.63

1.82

gelooft niet meer in slagen

1.51

1.81

gemakkelijk afgeleid

2.06

2.46

blokken vlotte niet

1.55

1.88

te laat beginnen blokken

2.05

2.48

Noot: De verschillen tussen consulent- en studentbeoordelingen werden getoetst met de
Wilcoxontoets. In de lege cellen is het verschil niet significant (p>.01). Het hoogste gemid-
delde werd bij elke vergelijking cursief gedrukt. De score van het antwoord gaat van 1 t.e.m-
5.

verder wil zetten (studenten die volledig stoppen met hun universitaire studies komen in het
tweede interview immers weinig voor) niet zo gemakkelijk toegeven dat hij ernstige stu-
dieproblemen heeft. En anderzijds zullen studenten die geslaagd zijn en bewezen hebben dat
ze universitaire studies aankunnen, vlugger erkennen dat ze dat resultaat niet zonder moeite
en problemen bereikt hebben.

Consulenten hebben daarentegen de neiging de studieproblemen bij mislukte studenten te
overschatten en bij geslaagde studenten te onderschatten. M.a.w. buitenstaanders hebben, in
tegenstelling tot de studenten zelf, de neiging hun beoordelingen van studieprestaties en
-problemen aan te passen in het licht van het bereikte eindresultaat. Misschien redeneren ze
dat geslaagde studenten het toch niet zo lastig zullen gehad hebben, want hoe kan hun
resultaat anders verklaard worden? Of misschien is deze lichte vertekening naar het stu-
dieresultaat toe het gevolg van het feit dat consulenten over minder preciese
gegevens
beschikken dan studenten (ondanks 1 uur interview) en leemten in noodzakelijke informatie
opvullen en afleiden o.a. uit het bereikte examenresuhaat. Buitenstaanders weze dus ge*

-ocr page 121-

F. Van Overwalle 117

waarschuwd voor dit soort vertekeningen en worden aangeraden zo nauwkeurig mogelijk
informatie over de student te verzamelen.

3.2. Fit van de ruimtelijke voorstellingen

Een aantal cijfers over de kwaliteit van de ruimtelijke voorstellingen staan in tabel 3. De
aliënaties schommelen rond .30, maar blijven toch onder de toevalsgrens (Spence & Ogilive,
1973). De hypothetische radex-structuur van de eerste semesterperiode en de examenperio-
de is aanvaard gezien de Guider-proporties kleiner zijn dan 7% (Lingoes & Borg, 1983) en de
probabiliteit van het verschil groter is dan 1% (Hubert & Golledge, 1981).

Voor een aparte steekproef van 104 studenten (de enigen met dossiergegevens) hebben we
de gegevens over familiale en schoolse achtergrond samengevoegd met gegevens van het
eerste semester (waarin ook items voorkomen over de vooropleiding). Uit tabel 3 blijkt dat
deze gecombineerde set van variabelen niet helemaal identiek is aan de radex van de eerste
semesterperiode, maar in grote trekken toch overeenstemt.

Tabel 3. (a) Guttman-Lingoes aliënatie

(b) Lingoes-Borg Guider beslissingsmodel om de equivalentie tussen de ruimtelij-
ke voorstellen met (CMDA) en zonder (MINISSA) voorwaarden te toetsen.

(c) Hubert-Golledge heurisdc om de equivalentie te toetsen

Periode

secundair en

eerste semester

examens

Aantal variabelen

eerste semester

81

75

67

(a) alienade MINISSA

.326

.300

.306

CMDA

.346

.318

.322

verschil

+ .020

+ .018

+.016

(b) proportionele afwijking

.087

.052*

.061*

(c) probabiliteit van het verschil

.007

.038»*

.035**

noot: de hypothetische structuur is aanvaard gezien de proportionele afwijking kleiner is
^^ dan 7%

noot: de hypothetische structuur is aanvaard gezien de probabiliteit van het verschil groter
is dan 1%

3.3. Predictoren uit het secundair

Öeze resultaten komen voort uit een analyse van 104 studenten, waarover gegevens van
^MS-centra in ons bezit waren. De enige directe voorspellers uit de periode vóór de universi-
taire studies hebben te maken met
h&t secundair onderwijs. Zowat de meeste onderzoekers
(cf. Wellens, 1980) zijn het eens
dat studiecijfers uit het secundair de beste predictoren zijn
Van studiesucces aan de universiteit. Dit gegeven was echter zo schaars dat de variabele uit het
onderzoek is weggelaten. Het is, tussen haakjes, spijtig dat zo weinig P.M.S. -centra beschik-
ken over de examenuitslagen van hun studenten.
In tegenstelling met het vorige, zijn de meeste P.M.S. -centra wel goed gedocumenteerd wat

-ocr page 122-

118 Slagen en mislukken in eerste kandidatuur

gegevens over intelligentie en studiemotivatie betreft. Deze gegevens correleren echter zwak
of niet significant met de studieprestaties aan de universiteit.
Niet-verbale intelligentie (nume-
rieke, technische en ruimtelijke aanleg, concentratie en geheugen, ....) ligt onder de 1%
significantiedrempel.
Verbale intelligentie (woordenschat, verbaal bevattingsvermogen, ver-
bale analogieën, functies van woorden, zinnen, enz.....) correleert significant, maar toch

tamehjk zwak (r = .32). Studiemotivatie in het secundair hgt iets onder de significantie-
drempel (r = .27), maar dat kan verklaard worden doordat bij gebrek aan testgegevens soms
teruggegrepen werd naar ongestandaardiseerde gegevens uit verslagen van de klasseraad. Uit
de ruimtehjke structuur van de aparte steekproef (n = 104) bhjkt dat alle significante
variabelen uit het secundair relateren aan de voorkennis waarmee de student de universiteit
binnenstapt, behalve studiemotivatie dat aansluit op de studie-inzet aan de universiteit.

De beste predictoren uit het secundair (behaalde uitslag niet meegerekend) zijn het aantal
wiskundige en wetenschappelijke lesuren in het laatste jaar. Vreemd genoeg correleert een
wiskundige en wetenschappehjke vooropleiding positief met de einduitslag zowel in exacte als
in humane wetenschappen. Dezelfde trend is zelfs merkbaar in de afzonderhjke faculteiten.

Dit zou kunnen betekenen dat eerstejaars aan de Vrije Universiteit te Brussel in vele
gevallen beoordeeld worden op hun wiskundige en wetenschappehjke voorkennis en be-
kwaamheid, zelfs in studierichtingen van humane wetenschappen. Het zou ook kunnen zijn
dat studenten met een wiskundige achtergrond die besluiten iets als rechtsgeleerdheid te gaan
studeren sowieso tot de betere studenten behoren met een brede belangstelling voor niet-wis-
kundige vakken. Dit zou neerkomen op een 'positieve selektie' binnen de groep van alle
studenten met een wiskundige achtergrond.

3.4. Predictoren tijdens het eerste jaar

De ruimtehjke voorstelhngen van predictoren tijdens het eerste jaar aan de universiteit zijn
afgebeeld in figuren 1 en 2. Figuur 1 gaat over de eerste semesterperiode, figuur 2 over de
blok- en examenperiode.

De overeenkomst tussen de radex-structuren in de periode voor en tijdens de examens is
tamehjk groot. Ten eerste splitst in beide ruimtelijke voorstellingen een verticale as door het
centrum de radex-structuur op in twee hoofdfactoren. Het linkerdeel hebben we
motivatie
genoemd, het rechterdeel bekwaamheid. Motivatie omvat alles wat de student of anderen
voor de studie
doen, bekwaamheid geeft aan in welke mate de student de studie aankan.
Vooral hét motivatiegedeelte gelijkt in beide radexen goed op elkaar. Ten tweede wordt het
centrum in beide ruimtehjke figuren ingenomen door
evaluatie-vragen. Langs de motiva-
tiekant gaat het over een evaluatie van methode en vorderingen in de studie, langs de
bekwaamheidszijde gaat het over een evaluatie van zichzelf als student en de verwachte kans
op slagen. Ondanks de grote overeenkomsten in de radex-structuren voor en tijdens de
examens, zijn er toch kleinere verschillen. Hieronder volgt een beknopte bespreking van de
afzonderhjke perioden.

3.4.2. Het eerste semester (fig. 1)

Motivatie

Motivatie omvat niet alleen wat de student zelf voor zijn studie doet, maar ook de hulp etj
informatie van anderen.
Wat in de literatuur sociaal contact wordt genoemd, krijgt in dit
onderzoek de zeer specifieke betekenis van steun, interesse, uitleg en informatie van ouders,
studenten en onderwijzend personeel. Deze motivationele factor correleert tamehjk
zwak
met het eindresultaat.

-ocr page 123-

F. Van Overwalle 119

Betere motivationele indicatoren houden in wat de student voor zijn studie doet. Geregeld
^'i^deren, volgens een persoonlijke studieplanning werken en notities bijhouden correleren
Positief met de einduitslag. Studenten die het studeren vlug beu zijn, geen werkprogramma
^o'gen of geen initiatieven in de studie nemen, bereiken meestal lage resultaten.
Ookgeregeld
^ollggg ^Qiggf^ jj gg^ goede indicator van studieprestaties. Beide predictoren zijn nauw
herbonden: een student die weinig colleges volgt zal wellicht minder aangespoord worden om
"Notities of cursussen bij te houden, omdat hij nauwelijks weet hoe ver de docent met de stof

gevorderd is.

Hoe de student over zijn studierichting denkt, m.a.w. de tevredenheid met de studielieuze is
?ok een belangrijke motivator van studieprestaties. Deze factor bevat geen items over
'"'eresse en persoonlijke ontplooiing (Entwistle, 1981). Zulke items vallen onder de selek-
'edrempel. Dat spontane interesse in de stof het eerste jaar weinig te maken heeft met het
"dierendement, kan verklaard worden door de samenstelling van het curriculum in de eerste
andidatuur. Veelal wordt dit eerste jaar gevuld met een aantal basiswetenschappen zodat
akken, specifiek voor de studierichting, soms heel weinig of helemaal niet voorkomen,
tudenten aanvaarden dit minder interessante curriculum blijkbaar, wellicht in de verwach-

-ocr page 124-

120 Slagen en mislukken in eerste kandidatuur

ting dat de volgende jaren de eigenheid van de gekozen studierichting meer aan bod zal
komen.

De meest belangrijke motivatoren van studieprestaties zijn studiemethode en- vorderingen.
Een student die een grote achterstand heeft opgelopen zal sneller geneigd zijn om de studie op
te geven. Ook wanneer de student vaststeh dat hij met de beschikbare tijd niet in staat is de
stof op een efficiënte methode te studeren, zal hij zich afvragen of verder doen nog wel de
moeite loont.

Bekwaamheid

Een eerste indicatie over de bekwaamheid van de student, kan een buitenstaander afleiden uit
de
verbale uitdrukkingsvaardigheid tijdens een gesprek. De duidelijkheid, de relevantie en
vooral de structuur van de antwoorden correleren zwak positief met studieprestaties. We
veronderstellen dat vele examinatoren iets hogere punten geven aan studenten, die de stof
niet alleen kennen, maar ook nog duidehjk en gestructureerd kunnen uitleggen.

De bekwaamheid van de student kan ook afgeleid worden uit het gemak of de moeite
waarmee de
student de stof begrijpt en de mate waarin de stof aansluit op de voorkennis van
het secundair. In de ruimtehjke voorstelhng heeft voorkennis een meer centrale positie dan
het begrijpen van de leerstof. In de aparte steekproef van 104 studenten waar we over meer
détailgegevens van het secundair (uit P.M.S.-dossiers) beschikken, nemen beide indicatoren
een gehjkwaardige positie naast elkaar in. Beide factoren, begrijpen van de stof en voorken-
nis, bereiken hooguit middelmatige correlaties met het studieresultaat.

Een betere indicator is de persoonhjke evaluatie van zichzelf als student en de uitslag die de
student in de toekomst verwacht (Bloom, 1976). De
verwachtingen van de ouders leunen ook
dicht aan bij de verwachtingen van de student. Dit kan verklaard worden doordat verwachtin-
gen van ouders zowel een afspiegeling als een stimulans kunnen zijn voor het subjectieve
beeld dat de student van zichzelf heeft.

Zelf-evaluatie neemt samen met evaluatie van de studie een centrale positie in op de
ruimtehjke afbeelding van figuur 1. Subjectieve interpretaties opnieuw de hoogste correlaties
met het studieresultaat. Er is echter een objectief gegeven dat daar een belangrijke uitzonde-
ring op vormt. Dit gegeven zijn de
partiële examenresultaten. Vergeleken met andere items
bereiken gemiddelde resultaten van partiële examens en/of tentamens in het eerste semester
zeer hogp correlaties (tussen .60 en .70). Resultaten van oefeningen of practica correleren
veel lager met het eindresultaat. Deze lage correlaties kunnen toegeschreven worden aan de
kleinere hoeveelheid stof, het geringer belang en de geringere voorbereiding bij oefeningen
en practica in vergehjking met partiële tentamens of examens.

We besluiten dat op het einde van het eerste semester het behaalde examencijfer de beste
voorspeUer is van het studiesucces in het eerste akademiejaar. Na examencijfers volgen
subjectieve evaluaties over zichzelf en de studie als tamelijk goede predictoren.

3.4.3. De blok- en examenperiode (fig. 2)

Ook hier kan de ruimtelijke afbeelding opgesplitst worden in een deel over de motivatie en
een ander deel over de
bekwaamheid van de student. In het deel over de studiemotivatie
vinden we vrijwel dezelfde regionen terug als in de eerste semester.

Motivatie

Bij steun, hulp en informatie van anderen komt nu ook een item voor over de wijze van
examineren door de docent. De mate waarin de examinator gezien wordt als een steun i
.p.v.
een afschrikking, heeft een klein effect op de studie-prestaties.

-ocr page 125-

Van geregeld studeren hebben we enkele items over studieplanning afgesplitst en samen
^et items over het gebruik van een eigen blokrooster tijdens de examens in een afzonderlijke
actor ondergebracht. Deze nieuwe factor hebben
v/c studie-organisatie genoemd. Tevreden-
^'d met studiekeuze
is in deze examenperiode niet zo gemakkelijk te scheiden van Geregeld
"'uderen.

De beste modvationele predictor wordt zoals in het vooronderzoek gevormd door de
^^oluatie van studievordering en -methode in de examenperiode.

bekwaamheid

angs de bekwaamheidszijde, is het beste predictor de zelf-evaluatie als student. Deze factor
°"dt niet alleen het academisch zelfbeeld in, maar ook de verwachte uitslag in de toekomst
en het zelfvertrouwen in een goede uitslag. Ook de mate waarin de student, naar zijn oordeel,
P alle vragen heeft kunnen antwoorden, maakt onderdeel uit van deze zelf-evaluade factor.
Ook de
cognitieve structurering van de leerinhoud (cf. Solo-taxonomie van Biggs, 1979)
eiateert aan het studieresultaat in de eerste kandidatuur. Niet de mate waarin de student zich
'cnteert naar een inzichtelijke vs. memoriserende studiemethode (Entwisde et al., 1979;

F"'

-ocr page 126-

122 Slagen en mislukken in eerste kandidatuur

Biggs, 1978) zijn belangrijk om te slagen. Het louter opsommen van het antwoord op het
examen is ook onvoldoende. Om een goede uitslag te behalen moet de student alle belangrij-
ke informatie van het antwoord in de juiste context kunnen geven en in een gepaste conclusie
kunnen gieten. Biggs (1979) noemt dit het rationeel leerniveau. Ook bij de
verbale presentatie
zijn relevantie, duidelijkheid en structuur aanwijzingen voor een beter examenresultaat.

Een aantal predictoren hebben we samengevat onder de titel oncontroleerbare factoren. Ze
verwijzen naar hindernissen die een goed studieresultaat kunnen belemmeren, maar waar de
student zelf soms niet zoveel aan kan veranderen ondanks veel studie-inspanningen. Het zijn:
voorkennis, moeilijkheidsgraad van de examens, examenangst, black-out op het examen, niet
kunnen antwoorden op de vragen. Oorspronkelijk hadden we een locus-of-control variabele
(Lefcourt, 1981) ook in deze factor willen onderbrengen. De ruimtelijke voorstelling (fig. 2)
laat echter duidelijk zien dat dit niet mogelijk is. De verklaring moet gezocht worden in de
formulering van dit item. Interne factoren zoals inspanning en bekwaamheid worden afgewo-
gen tegen externe factoren zoals toeval, manier van examineren, inhoud van de leerstof, enz.
In dit item worden de twee hoofdfactoren van de ruimtelijke voorstelling, motivatie en
bekwaamheid, met elkaar vermengd. En daarom ligt de locus-of-control variabele in een
'dubbelzinnige' positie.

3.5. Voorspelling van het studieresultaat

Kan het studieresultaat van eerstejaarsstudenten met behulp van de factoren uit de radexen
nauwkeurig voorspeld worden? Uit alle regionen kiezen we één student-item, die alle samen
aan een stapsgewijze regressie-analyse onderworpen worden (Nie et al., 1975). Uit deze
analyse blijkt dat perifere factoren geen bijkomende variantie opleveren. In tabel 4 geven we
daarom de verkorte resultaten weer. De resultaten van analyses op consulent-items zijn sterk
gelijkend, en worden niet besproken.

Een maat voor nauwkeurigheid van de voorspelling is de meervoudige correlatie R-
Volgens Bloom (1976) is de verwachte limiet uitgaande van affectieve factoren ongeveer .50.
Gecombineerd met cognitieve resultaten, verwacht Bloom een maximale correlatie van
ongeveer .80. Dit is ongeveer het resultaat dat we bereikt hebben in de eerste semesterperiode
(tabel 4a). Met partiële examenresultaten klimt de meervoudige R op tot .72. Zonder dit
cognitief gegeven daalt R tot .54.

Bij vergelijking van de twee analyses in tabel 4a, met en zonder partiële examens, valt op
dat het partieel resultaat een zeer hoge predicitiekracht bereikt (P = .55), die deze van de
andere variabelen grotendeels opslorpt. Dat heeft vanzelfsprekend veel te maken met de hoge
intercorrelaties tussen de eerste vier variabelen (cf. de centra in figuren 1 en 2), met als gevolg
dat de hoogst correlerende variabele het hoogste P-gewicht krijgt.

Om een indruk te krijgen van de werkelijke waarde van de andere, subjectieve predictoren
los van het partiële examenresuhaat, werden partiële correlaties berekend waarbij de tus-
sentijdse resultaten constant gehouden worden (tabel 5). Vergelijking van de ruwe en partiële
correlaties uit tabel 5 wijst uit dat de subjectieve opinies over studiemethode, -keuze en
secundair onderwijs enigszins beïnvloed worden door het behaalde resultaat op de
tussentijds
examens. De andere subjectieve evaluaties zoals kans op slagen en geregelde studie behouden
evenwel grotendeels hun unieke bijdrage tot de voorspelling van het criterium.

Bij de examenperiode (tabel 4b) waar geen tussentijdse resultatén in de analyse opgeno-
men zijn, is de hoogste R .67. Echte voorspelling in de strikte zin van dit woord is dit laatste
resultaat niet, want de student kende het examenresultaat al op het ogenblik van het inter-
view. Zoals in een vorige paragraaf aangestipt, is een herinterpretatie van studiekenmerken
en studiegedrag in functie van het bekomen resultaat soms aanwezig.

-ocr page 127-

123

F. Van Overwalle
Tabel 4. Lineaire regressie-analyse op student-items

(a) Eerste semesterperiode (n = 240)

student-item

rs

beta

beta

partiële examenresuhaten
kans op slagen

tevredenheid met studiemethode
kwaliteit van de secundaire opleiding
tevredenheid met studiekeuze
zeer geregeld studeren

.66

.37
.34
.31
.24
.29

.55
.14

.15
.17

(niet op-
genomen)
.26
.05
.20
.17
.14

R nauwkeurigheid)
R2 (= verklaarde variantie)

.72**
.51

.54**
.29

(b) Examenperiode (n = 184)

student-item

h

beta

kans op slagen

tevredenheid met studiemethode
nioeilijkheid van de examens (inv.)
tevredenheid met studiekeuze
doorzetting in de studie

.50
Al
.29
.24
.39

.30
.25
.20
.17
.15

R (= nauwkeurigheid)
R2 ( = verklaarde variantie)

.67**
.45

** significant op p<.001

Tabel 5. Ruwe en partiële correlaties tussen student-items en

het prestatiecriterium

r2

rc^

Partiële examenresuhaten
kans
op slagen

tevredenheid met studiemethode
kwaliteit van de secundaire opleiding
tevredenheid met studiekeuze
Zeer geregeld studeren

.66**
.31**
.34**
.31**
.24**
.29**

.62**
.41**
.36**
.32**
.33**
.30**

.36**

.25**

.16*

.25**

.29**

i-carson correiaucs

partiële correlaties met partiële resultaten constant gehouden
significant
op p< .001; * op p< .05 _

■loot: • Spearman correlaties
^ Pearson correlaties

3

-ocr page 128-

124 Slagen en mislukken in eerste kandidatuur

Met de gegevens uit ons onderzoek bereiken we een multiple R van hooguit .72. Dat is toch
nog ahijd niet .80 die Bloom (1976) verwacht voor cognitieve en affectieve factoren samen.
Misschien kan dit zwakkere resultaat toegeschreven worden aan het feit dat we in dit
onderzoek niet over de studieresultaten in het secundair beschikken. Deze cognitieve in-
gangsvariabele kan misschien bijkomende variantie van het eindresultaat voorspellen.

Met behulp van een discriminantie-analyse (Nie et al., 1975) kunnen we op basis van
dezelfde 6 variabelen van de eerste semesterperiode (afgenomen in maart, m.a.w. 6 maanden
voor het einde van de laatste examens) 80% van de studenten correct classificeren als
geslaagd of niet-geslaagd. Zonder de partiële uitslag daalt dit cijfer tot 72%. In de examen-
periode kan 74% van de studenten juist geklassificeerd worden. Hoewel geen ondubbelzin-
nige predictie mogelijk is, kunnen deze 6 vragen uit tabel 4a, toch redelijk betrouwbare
aanwijzingen geven over het toekomstig studieresultaat.

4. ALGEMENE BESPREKING

Ons onderzoek kan door twee karakteristieke resultaten samengevat worden. Het eerste
kenmerkend resultaat is dat de factoren van studiesucces in twee helften uiteenvallen:
motivatie langs de ene kant en bekwaamheid langs de andere kant. Motivatie omvat items
over wat de student en anderen voor studie
doen, bekwaamheid gaat in hoofdzaak over wat de
student
kan. Het tweede kenmerkend resultaat van dit onderzoek is dat vooral de eigen
interpretatie en evaluatie van de studenten predictief is voor het studieresultaat.
Evaluatie
omvat langs de motivatiezijde: studiemethode, -vorderingen en -timing, en langs de be-
kwaamheidszijde: evaluatie van zichzelf als student en verwachte kans op slagen. Meer
concreet geformuleerd: indien een student gelooft dat hij in de studie een achterstand heeft
opgelopen die hij niet meer kan inhalen, van zichzelf denkt dat hij de leerstof niet aankan of
een laag resultaat verwacht, wordt de kans dat hij op het einde van het jaar lage resultaten zal
bereiken inderdaad groter.

Het gemiddelde resultaat op de partiële examens vormt echter een buitenbeentje tussen al
deze subjectieve factoren van studiesucces. Dit objectief gegeven, 2 tot 3 maanden vóór het
begin van de eindexamens, bereikt de hoogste correlatie (r = .66) met het eindresultaat. Deze
correlatie is echter kunstmatig hoog omdat het eindresultaat voor een gedeelte verrekend
wordt uit.de cijfers van de partiële examens.

In welke mate worden de veronderstelde relaties uit de literatuur bevestigd in dit onder-
zoek? Dat zullen we in de volgende paragrafen kort overlopen.

4.1. Sociale relaties

Uit dit onderzoek blijkt dat niet-studiegebonden relaties weinig verband houden met slagen
of mislukken op het einde van het jaar. Contacten in functie van de studie hebben daarentegen
wel een duidelijke impact (cf. Pascarella, 1980). Niet wie, maar wat het onderwerp van deze
sociale contacten vormt is essentieel: hulp en uitleg over de stof, nuttige en juiste informatie
over het verloop en criteria van de examens, ondersteuning en medeleven van medestudenten
of ouders tijdens de moeilijke examenperiode, en tenslotte de houding van de examinator
zelf.

4.2. Persoonlijkheidsfactoren

Algemene persoonlijkheidstrekken zoals extraversie en angst voor mislukking zijn niet
predictief voor studieprestaties. Daarmee worden de lage tot quasi onbestaande correlaties
uit de literatuur bevestigd (cf. Entwistle et al., 1971).

-ocr page 129-

F. Van Overwalle 125

Wel blijken sommige gedragingen of houdingen, voor zover ze in de specifieke akademi-
sche kontekst gemeten worden, een zwak effect te hebben op het eindresultaat. Zulke
elementen zijn o.a. Studiegerichte contacten (zie vorige paragraaf); of examenangst en
-nervositeit, die bij sommige studenten tot een 'black-out' op het examen leidt.

Studiemotivatie en -strategie

De pure interesse voor de leerstof of het studie-onderwerp, en de daaraan gekoppelde diepe
eerstijl, heeft geen impact op het rendement in de studie. De tegengestelde, oppervlakkige
eerstrategie, waarbij de student binnen de grenzen van de cursus bhjft en de stof vooral
^emoriseert, is evenmin predictief. Heel wat veronderstellingen o.a. door Marton en Säljö
(1976), Biggs (1978) en Entwistle (et al. 1979) naar voren gebracht, worden door dit
onderzoek niet bevestigd. Bij de inleiding hadden we al op het gevaar gewezen van dit type
onderzoek, waarin alleen inhoudelijke en structurele vergehjkingen worden gemaakt, zonder
toetsing aan een algemeen en objectief prestadecriterium.

Een aantal andere motivatiefactoren hebben wel een duidelijke invloed op het studieren-
dement. Hard en geregeld studeren volgens eigen planning, en de algemene interesse voor en
tevredenheid met de studiekeuze zijn significante predictoren van studiesucces. Twee indi-
catoren van de studiemotivatie, methode en verwachtingen, behoren zelfs tot de beste
predictoren (cf. Bloom, 1976). Wat de leerstrategieën betreft, is het bereikte leer- en
begripsniveau (cf. SOLO-taxonomie van Biggs, 1979), in tegenstelhng tot de studie-aanpak
die tot dat niveau heeft geleid, wel een significante voorspeller van de einduitslag.
. Het onderzoek illustreert dat algemene evaluade van bekwaamheid en studie meer predic-
hef zijn dan oordelen over specifieke studiehandehngen. Vragen die zich richten op het
hoe
Van studiehandelingen zijn wellicht weinig predictief omdat verschillende oplossingen en
strategieën naargelang de situatie of persoon optimaal kunnen zijn. Algemene evaluade-vra-
Sen (bv. over de efficiëntie van de studiemethode of verwachtingen over toekomstige
examens) richten zich echter op een bredere context, waarbij verschillende aspecten van de
studie uit het verleden, heden of toekomst subjecdef afgewogen worden naar hun
effect op de
studie. Deze evaluatie-items blijken de beste predictoren te zijn van studiesucces, op tus-
sentijdse examenresultaten na.

Attributies van studieprestaties

êenschijnlijk hebben oordelen over oorzaken van studieresultaten (attributietheorie) en
°Pinies over de studie zelf (dit onderzoek) niet erg veel met elkaar gemeen. Toch blijken de
actoren die studenten aangeven als belangrijke oorzaken van slagen of mislukken (Elig &
rieze,
1979; Weiner, 1979; cf. tabel 1) sterk overeen te stemmen met de factoren die in dit
°nderzoek op basis van de correlades met het eindresultaat werden weerhouden. Er bestaan
rouwens andere gegevens waaruit blijkt dat het onderscheid tussen attribude en opinie niet
essentieel is. Recente bevindingen uit eigen onderzoek wijzen nl. uit dat de correlaties tussen
eausale attributies en beschrijvende opinies zeer hoog zijn (gemiddeld .90). Het verschil
ussen 'ik heb weinig gestudeerd' of 'ik ben niet geslaagd
omdat ik weinig gestudeerd heb' is
''"jkbaar zeer klein.

Er bestaat een bijkomende overeenkomst tussen de attributietheorie van prestatiegedrag
dit onderzoek. Twee dimensies van Weiners (1979) taxonomie, nl. locus en controleer-
aarheid, kunnen ook in figuren 1 en 2 teruggevonden worden. Ten eerste komen de perifere,
l^ediale en centrale circumplexen overeen met externe, interne resp. evaluatie factoren. Ten
Weede omvat het linker gedeelte van de figuren (motivatie) controleerbare factoren, terwijl
et rechter gedeelte (bekwaamheid) allerlei oncontroleerbare elementen omvat. Deze

-ocr page 130-

126 Slagen en mislukken in eerste kandidatuur

Tabel 6. Radex-structuur van onze gegevens volgens Weiners controleerbaarheids- en lo-
cusdimensie

controleerbaarheid (links)

oncontroleerbaarheid (rechts)

evaluatie

studiemethode

partiële resultaten

(centrale cirkel)

studievorderingen

zelfbeeld als student

verwachte resultaten

interne locus

geregeld studeren

voorkennis

(mediale cirkel)

geregeld college volgen

de cursussen begrijpen

tevredenheid met studiekeuze

cognitieve structurering inhoud

organisatie van de studie

verbale uitdrukkingsvaardigheid

examenstress en -angst

externe locus

hulp en steun van anderen

moeilijkheidsgraad examens

(perifere cirkel)

informatie over examens

black-out op examens

houding van de examinator

nieuwe structuur van beide figuren is samengevat in tabel 6. Deze radex-structuur is statistisch
aanvaardbaar (de Lingoes-Borg proporties zijn 4.0% resp. 5.4% en de Hubert-Golledge
probabiliteit op een verschil is .13 resp. .14). De gelijkenis van deze nieuwe struktuur met
tabel 1 is treffend.

Een indeling naar stabiele vs. onstabiele factoren werd niet teruggevonden in de radexen.
Misschien is dat ook niet zo heel toevallig want Wong en Weiner (1981) hebben vastgesteld
dat bij spontane vragen over oorzaken van studieresultaten studenten zich vooral vragen
stellen over de locus en controleerbaarheid van oorzaken.

Dit onderzoek bevestigt ook Weiners vaststellingen dat hoe interner de oorzaak is, hoe
groter de weerslag is op de zelf-evaluatie als student, want interne factoren liggen dichter bij
de centrale evaluatie-items dan externe factoren. Controleerbare en oncontroleerbare facto-
ren werken blijkbaar compensatorisch. Hun afstand tot de centrale evaluatie-items is even
groot. Dit bevestigt de vaststelling van Anderson en Butzin (1974) en van Kun en
Weiner
(1973) dat mensen meestal attribueren volgens de formule: resultaat = motivatie x be-
kwaamheid. Toch leunen controleerbare factoren iets dichter aan bij studie-evaluatie en
liggen oncontroleerbare factoren dichter bij zelf-evaluatie en verwachte kans op slagen.

5. BESLUIT

Zonder afbreuk te willen doen aan de overige theoretische bijdragen die in dit onderzoek
bevestiging vonden, gaat onze voorkeur uit naar de attributietheorie van prestatiegedrag. Niet
alleen de gelijkenis tussen causale attributies door studenten en onze resultaten, of de
strukturele geh jkenis tussen de taxonomie van causale dimensies en onze radex speelt hierbij
een rol. Bovenal trekt de attributietheorie ons aan door zijn sterke'heuristische waarde: ten
eerste is deze theorie in staat om een versnipperde veelheid van factoren van studiesucces te
integeren binnen
één theorie; en ten tweede steunt deze theorie op een cognitieve en
emotionele interpretatie van het individu, die de psychologische dynamiek van de menselijke
motivatie aannemelijk maakt en helder beschrijft. Naar onze mening zijn andere pogingen tot

-ocr page 131-

F. Van Overwalle 127

integratie en theorievorming, zoals deze van Spady (1971) en Tinto (1975) minder geslaagd.

Toch verklaart attributie niet alles. Er is nog een lange, onbekende weg tussen de motivatie
en het uiteindelijk behaalde studieresultaat. De benadering die Biggs (1978) en Entwistle (et
al-, 1979) vooropstellen, loopt blijkens dit onderzoek op een dood spoor. Misschien biedt een
ahributionele aanpak meer perspectieven. Wong en Weiner (1981) vermelden hierover dat
Ine significance of Information on the locus and controlability cause(s) is quite apparant, in
as much as coping actions are very dependent on such information' (p. 662). Hoe allerlei
oorzakelijke factoren in werkelijkheid tot gedragsveranderingen leiden, bijvoorbeeld veran-
dering in studie-inspanning of -strategie, is tot nu toe echter nog zeer weinig onderzocht.

literatuur

Anderson, N. H. & Butzin, C. A. (1974), Performance. = motivation x ability: An integration-theoretical

analysis. Journal of Personality and Social Psychology, 30, 598-604.
Atkinson, J.W., & Raynor, J.D. (1974). Motivation and achievement. Washington D.C.: Winston.
Atkinson, J.W., & Birch, D. (1978). >1« introduction to motivation (2nd ed.). New York: Van Nostrand.
Atkinson, J.W. (1978). Personality, motivation and achievement. London: Hemisphere,
'ggs, J.B. (1978). Individual and group differences in study processes.
British Journal of Educational
Psychology, 48
266-279.

'ggs, J.B. (1979). Individual differences in study processess and the quality of learning outcomes. Higher

Education, B, 381-394.
loom, B.S. (1976).
Human characteristics and school learning. New York: Mc Graw-Hill.

I., & Lingoes, J.C. (1980). A model and algorithm for multidimensional scaling with external
restrictions on the distances.
Psychometrika, 45, 25-38.
ooper, W.H. (1983). An achievement motivation nomologisch
netwerk. Journal of Personality and
Social Psychology, 44, 841-861.
E.L (1975). Intrinsic motivation. New York: Plenum.

E.L., (1980). The psychology of self-determination. Lexington, MA: Lexington Books.
E.L., & Ryan, R.M. (1980). The empirical exploration of intrinsic motivational processess in:
Berkowits (ed.)
Advances in experimental social psychology, vol 13. New York: Academic
El- ''■■ess.

'g> T.W. & Frieze, l.H. (1979). Measuring causal attributions for success and failure. Journal of
p Personality and Social Psychology, 37, 62\-634.

"twistle, N., Hanley, M., & Hounsell, D. (1979). Identifying distinctive approaches to studying. Higher
p Education. 8,
365-380.
ntwistle, N. J.; Nisbet, J.; Entwistle, D., & Cowell, M.D. (197 l)7The academic performance of students:
1 - Prediction from scales of motivation and studymethods.
British Journal of Educational
p Psychology, 41,
258-267.

^."twistle, N.J. (1981). Styles of learning and teaching New York: Wiley.

'ndley, M.J., & Cooper, H.M. (1983). Locus of control and academic achievement: A literature review,
p Journal of Personality and Social Psychology, 44, 419-427.

D.S., & Moore, C. (1978). Personality and academic achievement in three educational levels.
„ Psychological Reports, 43, 71-79.

"'tman, L. (1954). A new Approach to Factor Analysis: The Radex. in: P.F. Lazersfeld (ed.) Mathema-
^ tical Thinking in the Social Sciences.
New York: Free Press,
"ttman, L. (1968). A general nonmetric technique for finding the smallest coordinate space for a

configuration of points. Psychometrika, 33, 469-506.
"Pert, L.J., & Golledge, R.G. (1981). A heuristic method for the comparison of related structures.
J Journal of Mathematical Psychology, 23, 214-226.

S. (1978). Extroversion - introversion and self-rated academic success. Psychological Reports, 43,
508-510.

-ocr page 132-

128 Slagen en mislukken in eerste kandidatuur

Kun, A., & Weiner, B. (1973). Necessary versus sufficient causal schemata for succes and failure. Journal
of Research in Personality, 7, 197-207.

Laçante, M.F.E. (1983). Van intelligentie, persoonhjkheid, studiestrategie, en studeergedrag naar stu-
dieresultaat.
Pedagogische Studiën, 60, 289-299.

Lefcourt, H.M. (ed.). (1981). Research with the locus of control construct. New York: Academic Press-

Lepper, M.R.., & Green, D. (1978). The hidden costs of reward: New perspectives on the psychology of
human motivation.
Hillsdale: Lawrence Erlbaum.

Lingoes, J.C. (1973). The Guttman-Lingoes nonmetric program series. Ann Arbor, Mathesis Press.

Lingoes, J.C. (1981). Testing regional hypotheses in Multidimensional scahng. in : I. Borg (ed.) Multidi-
mensional data representations: When and Why.
Ann Arbor: Mathesis Press.

Lingoes, J.C., & Borg, I. (1983). A mathematical decision model for the Lingoes-Borg criteria in testing
the equivalence hypothesis. University of Michigan, Computer Centre, Technical report, 1>
1-20.

Marton, F., & Säljö, R. (1976). On quahtative differences in learning: 1 - outcome and process. British
Journal of Educational Psychology, 46, 4-11.

Meyer, J.P. (1980). Causal attributions for succes and failure: a multivariate investigation of dimensiona-
lity, formation and consequences. Journal of Personality and Social Psychology. 38, 704-718-

Nie, N.H., Hull, CH., Jenkins, J.G., Steinbrenner, K., & Bent, D.H. (1975). SPSS - Statistical package
for the social sciences. (2nd ed.). New York: Mc Graw-Hill.

Pascarella, E.T., & Terenzini, P.T. ( 1979). Interaction effects in Spady's and Tinto's conceptual models of
college dropout.
Sociology of Education, 52, 197-210.

Pascarella, E.T. (1980). Student-faculty informal contact and college outcomes. Review of Educational
Research, 50, 545-595.

Pask, G. (1976). Styles and strategies of learning. British Journal of Educational Psychology, 46,
128-148.

Ramsden, R., & Entwistle, N.J. (1981). Effects of academic departments on students' approaches to
studying.
British Journal of Educational Psychology, 51, 368-383.

Rothbaum, F., Weisz, J.R., & Snyder, S.S. (1982) Changing the worid and changing the self: a two-pro-
cess model of perceived control.
Journal of Personality and Social Psychology, 42, 5-37.

Rotter, J.B. (1975). Some problems and misconceptions related to the construct of internal versus
external control of reinforcement. Journal of Consulting and Clinical Psychology, 43, 56-67.

Russell, D. ( 1982). The causal dimension scale: a measure of how individuals perceive causes. Journal of
Personality and Social Psychology, 42,
1137-1145.

Sehgman, M. (1975). Helplessness. On depression, development and death. San Fransisco: Freeman-

Siegel, S. (1956). Nonparametric statistics for the behavioral sciences. Tokyo: Mc Graw-Hill.

Smith, D.G. (1976). Personahty differences between persisters and with-drawers in a small women's
college.
Research in Higher Education, 5, 15-25.

Spady, W. ( 1971). Dropouts from Higher Education: Toward an empirical model. Interchange, 2, 38-62.

Spence, I., & Ogilvie, J.C. (1973). A table of expected stressvalues for random ranking in nonmetriC
muhidimensional scaling. Multivariate Behavioral Research, 511-517.

Theyssens, B. (1982). Vragenlijst studie-attitude, hjst 1. EDUCO, Vrije Universiteit Brussel, Brussel-

Tinto, V. (1975). Dropouts from Higher Education: A theoretical synthesis of recent research. Review oj
Educational Research, 45,
89-125.

Van Overwalle, F. (1982). Predicting student achievement at university. Proceedings of the 8th inter-
national conference on Improving University Teaching, Berhn.

Van Overwalle, F. ( 1983a). Social and affective factors of succes and failure at university. Proceedings
the 9th international conference on Improving University Teaching, Dublin.

Van Overwalle, F. (1983b). Motivation, self-esteem and achievement at university. Proceedings of th^
9th international conference on Improving University Teaching, Dublin.

Van Overwalle, F. (1984). An apphcation of multidimensional scahng on prediction: the radex-structurs-
in E. De Greef & J. Van Buggenhaut (eds.) Trends in mathematical Psychology. Amsterdam-
North-Holland.

-ocr page 133-

F. Van Overwalle 129

Catkins, D., & Hattie, J. (1981). The learning processes of Australian university students: Investigations
of contextual and personological factors.
British Journal of Educational Psychology, 51, 384-

W

^einer, B. (1974). Achievement motivation and attribution theory. New York: General Learning Press,
^'ner, B. (1979). A theory of motivation for some classroom experiences.
Journal of Educational
. Psychology, 71,
3-25.
Werner, B. (1980).
Human motivation. New York: Holt, Rinehart and Winston,
emer, B. (1984). Principles for a theory of student motivation and their application within an attribu-
tional framework, in: R. Ames & C. Ames (eds.).
Student motivation. Vol 1, New York:
Academic Press.

®'ner, B., Nierenberg, R., & Goldstein, M. (1976). Social learning (locus of control) versus attributio-
^ nal(causalstabiHty)interpretationsofexpectancyofsuccess.yoMr«a/o/PerTOWiry,4'^, 52-68.
emer, B. Russell, D., & Lerman, D. (1978). Affective consequences of causal ascriptions, in: J.H.
Harvey, W. Ickes & R.F. Kidd (eds.).
New directions in attribution research, vol 2. New Yersey:
^ Erlbaum.

e'ner, B., Russell, D., & Lerman, D. (1979). The cognition-emotion process in achievement-related
^ contexts.
Journal of Personality and Social Psychology, 37, 1211-1220.

ellens, J. (1980). De predictie van het studieresultaat in het hoger onderwijs: een terreinverkenning.
^ EDUCO-rapport, Vrije Universiteit Brussel, Brussel.

P.T.P., & Weiner, B. (1981). When people ask 'why' questions, and the heuristics of attributional
search.
Journal of Personality and Social Psychology, 40, 650-663.

'^"nuscript ontvangen 1-6-1984
^finitieve versie ontvangen 25-10-1984

-ocr page 134-

Tijdschrift voor Onderwijwresearch 10 (1985), nr. 3, pp. 130-140.

Het onderwijsniveau van allochtone leerlingen

M. J. de Jong en J. J. A. Tacq
Erasmus Universiteit Rotterdam

ABSTRACT

With our research on the educational attainment of immigrant children as a starting point, we
carried out a loglinear analysis on a four-dimensional contingency table. Two of the four variables,
educational attainment and ethnic-cultural background, were treated as trichotomies. The other
two, socio-economic status and duration of residence in the Netherlands, have been dichotomi-
zed. Our attempt to find the best fitting model resulted in a model without higher order interac-
tions. Ethnic-cultural background, socio-economic status and duration of residence clearly have
an effect on educational attainment and among the first three variables, the relationship between
ethnic-cultural background and socio-economic status is too important to be factored out. This is
also the case for the relationship between ethnic-cultural background and duration of residence,
but this effect is theoretically less important.

In order to compare the strength of the three effects on educational attainment, we made use of
a logit-analysis. The effect of socio-economic status turned out to be the strongest, the effect of
duration of residence the weakest.

INLEIDING EN PROBLEEMSTELLING

Dat kinderen van migranten het hier op school minder goed doen dan de Nederlanders, zal
wellicht niemand betwijfelen. Maar geldt de achterstand ook voor het zoontje van een
Itahaanse arts, die hier sinds lang verblijft? Is de achterstand even groot voor Surinamers als
voor Turken en zo niet, wordt dit verschil in achterstand na verloop van jaren groter of
kleiner?

Met d'fZP en andere vragen voor ogen werd pon nndpr^nelf verricht naar höt «-iiulafwijs'
niïcttu riin
vijfticnjarisc liuttcrdäime leerlingen (De Jong, 1(182). Nd! hoofddoel was
vcrkfijpn van tien nuuwkuurig hiicltl van het bsïcikii ónderwijsnivcau van aWochtonen in
vergelijking met hun autochtone stadgenoten, alsook van de samenhang met andere
variabe-
len. Uit dat onderzoek kwam naar voren dat het bereikte onderwijsniveau gemiddeld hoger is
naarmate:

- de sociaal-economische status van de ouders hoger is;

- de allochtonen hier langer verblijven;

- de allochtonen afkomstig zijn uit een land dat een geringere culturele distantie heeft tot
Nederland,

In het bovengenoemde rapport werden deze vier variabelen nietin hun onderlinge samen-
hang onderzocht. Dit riep vragen op zoals: zijn sommige verbanden niet schijnbaar? Met
andere woorden: verdwijnen ze wellicht, wanneer één of twee andere variabelen tegelijk in
dc

Adres-. Postbus 1738, 3000 DR RoUerdam.

-ocr page 135-

M. J. de Jong en J. J. A. Tacq 131

analyse worden betrokken? En welk van deze verbanden is het sterkst wanneer wordt
Êecontroleerd voor andere variabelen? Om hierop een antwoord te vinden stellen we in deze
Secundaire analyse de volgende vragen aan de orde:

• Wat is het best passende model, wanneer de vier variabelen sociaal-economische status,
verblijfsduur, culturele distantie en bereikt onderwijsniveau tegelijk in een analyse wor-

^ den opgenomen?

Daaraan gekoppeld de vraag: zijn er interactie-effecten van derde en vierde orde?

• Indien we het bereikte onderwijsniveau als afhankelijke variabele beschouwen, welke
^ variabele heeft dan het sterkste effect?

e eerste twee vragen worden door middel van een log-lineaire analyse beantwoord. Bij de
erde vraag zal een logit-model worden gebruikt. Omdat op enkele uitzonderingen na alle
autochtonen hier vanaf hun geboorte verblijven, is het niet interessant hen bij deze analyse te
■betrekken en zal dus alleen de groep van allochtonen nader worden beschouwd.

DE DATA EN DE VARIABELEN

gegevens werden verzameld in maart 1981. Er werd gekozen voor de vijftienjarigen
onidat zij nog volledig leerplichtig zijn, zodat zij via de school kunnen worden benaderd,
ovendien hebben zij op die leeftijd doorgaans het keuze- en selectieproces, waarmee de
ergang van lager naar voortgezet onderwijs gepaard gaat, achter de rug. Het op dat moment
ereikte niveau geeft dan al een goede indicatie voor het uiteindelijk te bereiken niveau,
angezien de niet-Nederlanders slechts een klein deel van de totale populatie vormen, werd
een disproportioneel gestratificeerde steekproef getrokken, zodat de verhouding allochto-
en-autochtonen evenwichtiger werd (De Jong, 1982, p. 5). In dit artikel wordt de groep
'ochtonen apart geanalyseerd.

e afhankelijke variabele "het bereikte onderwijsniveau" (BON) werd gemeten als een
mbinatie van leerjaar en schooltype. Met schooltype als criterium kan de volgende ordinale
eliaal worden gevormd:

2 Lager onderwijs/Voortgezet buitengewoon onderwijs

y 'SK ■ Inicinalioiiale scliiikL'lklfi.ssc'n (voor ;mdcrsf.ili^cn^
V K ~ L.nger beroepsonderwijs

MAVO = Middelbaar algemeen voortgezet onderwijs
HAVO = Hoger a/genieen voortgezet onderwijs

VWO = Voorbereidend wetenschappelijk onderwijs (Atheneum/Gymnasium)

een verdere indikking dringt zich op, want bij een multivariate analyse lopen de cellen al
leeg. Een dichotomiscring stuit op inhoudelijke en statistische bezwaren. Wanneer we

^et grote aantal mogelijke combinaties van schooltype en leerjaar is in het oorspronkelijke

""derzoek samengetrokken tot een schaal met acht categorieën: LO/VBO/ISK; 2. LBOl/

3. LB02; 4. AV02; 5. LB03; 6. MAV03/LB04; 7. MAV04/HAV03/VW03;
HAV04/VW04.
Een'

leeg. Een dichotomiscring stuit op inhoudelijke cn sianM.^v..^ wv

scheidslijn leggen tussen dc 4c cn 5c categorie leidt dit er immers toe dat leerlingen Uit hct
•'e lee •

Cat het laagste niveau van voortgezet onderwijs terecht komen in de nieuwe

^.^egorie 'hoog', samen met de leerlingen uit hogere opleidingsniveaus. Verplaatsen we, om
^ 'nhoudelijke probleem tc ondervangen, dc scheidslijn tot voorbij dc 6c categorie, dan
Ofdt de verdeling zeer scheef, nl. 199:24.'

-ocr page 136-

132 Het onderwijsniveau van allochtone leerlingen

Als tussenweg kozen we voor de volgende driedeling: 1. (Laag)= tot AV02 (oude catego-
rieën 1 t/m 4); 2. (Midden) = LB03-4/Mavo3 (categorie 5 en 6); 3. (Hoog)=
Mavo4/
Havo3-4/VW03-4 (categorieën 7 en 8). Ook bij deze indehng zijn in de laagste categorie alle
onderwijsniveaus samengevoegd. Het bezwaar is hier echter minder groot, omdat een verblijf
in een eerste of tweede klas van het v.o. op ruim 15-jarige leeftijd niet duidt op een hoog
opleidingsniveau en de kans dat alsnog te bereiken dan klein is.

In het genoemde onderzoek wordt een indeling gemaakt in vijf bevolkingsgroepen: Ne-
derlanders, Mix-groep, Surinamers, Zuid-Europeanen en Turken/Marokkanen. De Mix-
groep bestaat uit leerlingen afkomstig uit een gemengd huwelijk van een Nederlander en een
niet-Nederlander. Aangezien deze vijf categorieën in de hiervoor genoemde volgorde een
zekere ordening naar culturele afstand t.o.v. de Nederlandse samenleving vertonen, opteer-
den we voor de benaming 'cuhurele distantie' (CULDIS).

De samenhang tussen deze variabele en variabelen zoals opleidingsniveau van de ouders,
beroepsniveau vader en woonomstandigheden is vrij sterk en toont steevast een
monotoon
dalende tendens. Des te groter de culturele distantie, des te lager is gemiddeld de score op de
andere variabelen. Niet-hneaire schaalanalyses (met het programma HOMALS) ondersteu-
nen de houdbaarheid van deze ordinaliteitsassumptie.
In het oorspronkehjke verslag werd
een groep 'overigen', afkomstig uit landen die niet indeelbaar waren in
één van de genoemde
categorieën, buiten de meeste analyses gehouden. Naarmate meer variabelen bij een muhi-
variate anlyse worden betrokken, wordt het probleem van de lege cellen steeds nijpender-
Daarom hebben we vanuit de restgroep alsnog 15 Aziaten en 15 Kaap-Verdianen,
alsmede
leerlingen afkomsdg uit andere Derde-Wereld-landen bij de groep van 60 Turken en 20
Marokkanen gevoegd. Voor al deze leerlingen geldt dat zij vergeleken met de anderen,
afkomstig zijn uit gebieden die het verst van de Nederlandse cultuur verwijderd zijn. Een
analyse zonder deze Derde-Wereld-groep
gaf vergelijkbare resultaten.

De variabele 'beroepsniveau vader' wordt door sommige sociologen als een inhoudelijk
magere operationahsatie van socio-economische status beschouwd (Meijnen, 1977, p. 39)1
door andere sociologen als het belangrijkste statuscriterium dat de meeste andere criteria
ondervangt (Mayntz, 1957, p. 92). Beide standpunten sluiten elkaar niet uit. Mede om he'
probleem van de vele ontbrekende waarden bij 'beroepsniveau vader' te ondervangen hebben
wij een SES-index geconstrueerd op basis van de volgende variabelen: beroeps- en op-
leidingsniveau van de vader en de moeder, het aantal boeken thuis en de woondichtheid-

Woondichtheid is het aantal personen in huis gedeeld door het aantal slaapkamers.
laatste twee variabelen dienen ter vervanging van het inkomensgegeven. Een
betrouwbaar-
heidsanalyse over deze zes items leverde een gestandaardiseerde Cronbach's alpha op van
0.83. Bij de bepaling van de SES-scores zijn ontbrekende waarden vervangen door het
populade-gemiddelde van het betreffende item. De variabele SES werd geconstrueerd doOf
de somscore te bepalen. Het theoretische midden hiervan is 18. Bij allochtonen komen zeef
hoge scores bijna niet voor, omdat geen der ouders een hoog beroeps- of opleidingsniveau
heeft. De somscore werd gehercodeerd tot: 1 (Laag) = 4 t/m 15,2 (Hoog -f Midden) = 16t/n'
32.
De empirische verdehng die zo ontstaat komt het best overeen met de door ons gevonden
verdeling bij 'beroepsniveau vader', wanneer uitsluitend geschoolde en ongeschoolde arbei-
ders tot de categorie 'laag' worden gerekend.

De variabele 'verblijfsduur' (VERBLIJF) is in het oorspronkehjke onderzoek ingedikt to'
een driedeling: 1 = aanwezigvoor 1973;2 = aangekomen in de jaren 1973 toten met 1976;^
= gekomen na 1976. Inhoudelijk betekent dit dat de eerste groep gedurende de hele
periode
van het lager onderwijs hier verbleef, de tweede categorie halverwege de l.o.-periode ^^
aangekomen en de laatste groep geen lager onderwijs hier heeft gevolgd, maar rechtstreeks i®

-ocr page 137-

M. J. de Jong en J. J. A. Tacq 133

opgevangen in een internationale schakelklas (ISK) of het reguliere voortgezet onderwijs.
Ten behoeve van dit artikel zijn de categorieën 2 en 3 samengevoegd. We merken hierbij nog
op dat alleen allochtonen, waarvan de verblijfsduur minstens 30 maanden bedroeg, in de
steekproef zijn opgenomen.

De variabele 'sexe' wordt verder weggelaten, omdat deze in onze analyses geen substantiële
bijdrage leverde. Maar we wijzen er wel op dat bij de steekproeftrekking bleek, dat bij de
Turken en Marokkanen 25,4% resp. 27,6% niet bij een school stond ingeschreven. Bij de
Nederlanders en de Surinamers is dit percentage ongeveer 6. Het grote verschil moet bijna
geheel worden toegeschreven aan de vele Turkse en Marokkaanse meisjes, die worden
thuisgehouden.

vergelijking autochtonen-allochtonen

Alvorens over te gaan tot de log-lineaire analyse geven wij hieronder in enigszins gewijzigde
Vorm de belangrijkste tabel uit het oorspronkelijke onderzoeksverslag, waarin zowel
autochtone als allochtone leerlingen waren opgenomen. De lezer kan zich zo een beeld
Vormen van de concrete educatieve achterstanden die er bij bepaalde etnische groepen
estaan. Dat beeld kan dan als kontekst fungeren voor de uitkomsten van de hierna volgende
Secundaire analyses.

'-'it deze tabel blijkt dat de achterstand van de Turken e.a. het grootst is, terwijl de Surinamers
ep Zuid-Europeanen een middenpositie innemen. Beschouwen we binnen elke bevol-
'ngsgroep alleen de leerlingen afkomstig uit een laag sociaal milieu, dan worden de verschil-

Tabel

1. Bereikt onderwijsniveau (BON) naar culturele distantie (CULDIS).

Autochtonen

Allochtonen

NED

MIX

SUR

Z-EUR

T/M/DW

LO/VBO/ISK
LBOl/AVOl
LB02

0

1

I

1

11

2

0

2

4

17

12

3

11

5

30

AV02

2

6

12

11

14

l' LB03

30

7

18

6

22

MAV03/LB04
■ MAV04/HAV03/VW03

41

12

16

9

9

39

10

10

6

5

HAV04/VW04

15

5

1

2

0

Aantal

141

44

71

44

108

Mediaan

6.10

5.92

5.03

4.67

3.30

'0-90-centiel

4.01

4.05

4.02

4.75

4.37

'bemiddelde

5.94

5.71

4.93

4.77

3.61

^'andaarddeviatie

1.41

1.59

1.49

1.75

1.63

-ocr page 138-

134 Het onderwijsniveau van allochtone leerlingen

len kleiner. Voor de Nederlanders is dat gemiddelde 5.6 en voor de Turken e.a. 3.5. Dat
verblijfsduur ook enig effect heeft blijkt uit de stijging van dat laatste gemiddelde tot 4.0
wanneer we alleen de leerlingen beschouwen die al meer dan negen jaar hier wonen. Voor
meer gedetailleerde gegevens verwijzen we naar het eerder genoemde rapport.

BON = var. 1:

CULDIS = var. 2:

SES = var. 3:

VERBLIJF = var. 4:

HET BEST PASSENDE MODEL

Uitgangspunt voor de log-lineaire analyse vormt de volgende vierdimensionele tabel, die we
verkregen na de eerder genoemde hercoderingen:

categorieën: 1 = Laag, 2 = Midden, 3 = Hoog
categorieën: l = Surinamers, 2 = Zuid-Europeanen,
3 = Turken/Marokkanen/Derde Wereld
categorieën: 1 = Laag, 2 = Midden + Hoog
categorieën: l = Lang, 2 = Kort.

Table 2. BON naar VERBLIJF, SES en CULDIS (Allochtonen).

VERBLIJF

SES

CULDIS

BON 1 2 7 15 1 1 1 12 13 47 5 0 1

2 10 10 9 ,4 1 0 13 3 16 2 1 1

3330 231 213 311

Totaal:
(N = 198)

15 20 24

27 17 66

10 2

In het log-lineaire analyseprocédé van Goodman (1972) gebeuren twee dingen. Er wordt
gezocht naar het best passende onverzadigde model van interacties en vervolgens worden
schattingen gemaakt van alle in dat model opgenomen effecten. We bekijken eerst het
iteratief zoeken naar een passend model. De schatting van effecten komt pas in de
volgende
paragraaf aan de orde.

Bij het uitproberen van verschillende modellen bleek dat alle derde- en vierde-orde-inter-
acties mogen worden weggelaten, want alle modellen zonder deze
hogere-orde-interacties
leveren een goede fit op,zolang alle tweede-orde-effecten of alle op één na zijn
opgenomen-
De
toevoeging van een derde-orde-interactie aan zo'n economisch model levert geen signifi'
cante verbetering op. Een en ander kan worden afgelezen uit de volgende tabel.

-ocr page 139-

M. J. de Jong en J. J. A. Tacq I35

Tabel 3. x^-waarden voor enkele onverzadigde modellen.

Hl

lel Opgenomen effecten

VG

P

X^/VG

k

X^+2k

(12)(13)(14)(23)(24)(34)

15.0

16

>0.5

0.94

19

53.0

(13)(14)(23)(24)(34)

28.5

20

0.099

1.42

15

58.5

(12) (14)(23)(24)(34)

27.5

18

0.070

1.53

17

61.5

(12)(13) (23)(24)(34)

24.4

18

0.144

1.35

17

58.4

(12)(13)(14) (24)(34)

26.4

18

0.091

1.47

17

60.4

(12)(13)(14)(23) (34)

23.8

18

0.162

1.32

17

57.8

(12)(13)(14)(23)(24)

15.5

17

>0.5

0.91

18

51.5

(13)(14)(23)(24)

28.7

21

0.123

1.36

14

56.7

(12) (14)(23)(24)

28.5

19

0.074

1.50

16

60.5

(12)(13) (23)(24)

25.4

19

0.149

1.34

16

57.4

(12)(13)(14) (24)

26.9

19

0.107

1.42

16

58.9

(12)(13)(14)(23)

24.3

19

0.185

1.28

16

56.3

(123)(14)(24)(34)

11.2

12

>0.5

0.93

23

57.2

(124)(13)(23)(34)

11.1

12

>0.5

0.93

23

57.1

(134)(12)(23)(24)

15.0

14

0.380

1.07

21

57.0

(234)(12)(13)(14))

14.8

14

0.394

1.06

21

56.8

1 deze tabel zijn enkel passende modellen opgenomen. Hl is het model met alle tweede-or-
e-effecten. Uit de modellen H2 t/m H7 blijkt dat een model mag worden gekozen dat meer
^onomisch is dan Hl, want bij het weglaten van één der effecten blijft het model passend.

odel H7 past het best in deze serie. Hierin is het effect (34) weggelaten. We probeerden nog
een zuiniger model te vinden door systematisch alle modellen te toetsen waaruit twee
Weede-orde-effecten zijn weggelaten. Het geringe belang van het effect SES-VERBLIJF
J 4) blijkt overduidehjk. Overal waar dat is weggelaten (modellen H8 t/m Hl2) blijft de
goodness of fit' behouden. Laten we naast (34) nog twee andere tweede-orde-effecten weg,
an blijkt dit te veel van het goede te zijn.

De modellen H13 t/m H16 zijn ingelast om te tonen dat de derde-orde-interacties geen
^'gnificante bijdrage leveren. Met deze modellen moet H1 worden vergeleken, want het bevat
(Je2e modellen één effect van derde orde minder. Onze verwachting, dat er een
^"'eractie-effect is van CULDIS en VERBLIJF op BON, wordt tegengesproken. Het wegla-
en Van effect (124) resulteert immers in een chi-kwadraat-verschil van 3.9, hetgeen bij een
e^chil van 4 vrijheidsgraden niet significant is.

Welk model moeten we nu selecteren? Er blijkt voor deze gegevens meer dan één conclusie
l^°gelijk te zijn. Laten we bv. H12 en H7 vergehjken. H12 is spaarzamer en geeft een
^ehoorlijke fit. Maar daar staat tegenover dat het weglaten van effect (24) uit H7 een
'gnificante verslechtering betekent (het Chi-kwadraat-verschil is 8.8 bij een verschil van 2
"Jheidsgraden).

Een criterium voor modelselectie is de verhouding xWG, waarin x^ wordt gedeeld door
^'.Jn verwachte waarde. Uit tabel 2 blijkt dat model H7 er volgens dit criterium als het beste
(]Q '' ^ant xVVG = 0.91 is het kleinst. Hetzelfde geldt voor het criterium van Akaike
^3), namelijk x^ + 2k, waarin k het opgenomen aantal parameters is.^ Op formele gronden
°eten we dus aan H7 de voorkeur geven. Vergeleken met H12 bevat het een extra effect van

-ocr page 140-

136 Het onderwijsniveau van allochtone leerlingen

CULDIS en VERBLIJF. Dat dit effect significant bijdraagt aan de verklaring van onze
gegevens is begrijpelijk. Het betekent onder meer dat we meer Surinamers met een korte dan
met een lange verblijfsduur in ons bestand hebben en dit heeft alles te maken met het feit dat
in 1975 Suriname onafhankelijk werd van Nederland. In dat jaar bereikte de immigratie
vanuit deze voormalige kolonie een zeer grote piek. Dit verschijnsel wordt in de migratielite-
ratuur de 'rush to beat the ban' genoemd. Dat de Zuid-Europeanen relatief weinig kort
verblijvenden hebben en de Turken e.a. veel, komt omdat de eersten hier in een eerdere fase
zijn gekomen dan de laatsten. De gezinshereniging nam bij de Turken en Marokkanen sterk
toe op het moment dat het bij de Zuid-Europeanen al achter de rug was.

Deze verschijnselen beantwoorden weliswaar aan historisch-empirische realiteiten, maar
theoretisch gezien zijn zij weinig interessant, omdat niet kan worden verwacht dat deze
contingente omstandigheden zich in de toekomst zullen herhalen. Daarom kan voor de hier
gepresenteerde gegevens model H7 en voor onze theorievorming model H 12 worden
gekozen.

Figuur 2
SES (3)

I

CULDIS (2) ■
VERBLIJF (4)

BON (1)

Model H12
Het best passende
theoretisch model

Samengevat komen we tot de volgende inhoudelijke conclusies:

- De culturele nabijheid, de socio-economische status en de verblijfsduur staan elk in
positiéve relatie met het bereikte onderwijsniveau. Deze effecten blijven bestaan onder
controle van alle andere in het model opgenomen variabelen.

- Allochtone leerlingen met hogere culturele distantie komen systematisch uit de lagere
sociale niveaus.

- Er is geen verband tussen SES en VERBLIJF: de recrutering van allochtonen uit ver-
schillende sociale niveaus was in het verleden niet anders dan vandaag.

- In ons bestand is er een systematisch verband tussen CULDIS en VERBLIJF. Surinamers
en Turken e.a. verblijven hier gemiddeld korter dan Zuid-Europeanen.

- Er zijn geen hogere-orde-interacties van CULDIS, SES en VERBLIJF op BON. De drie
effecten realiseren zich apart.

DE STERKTE VAN DE EFFECTEN VAN SES, CULDIS EN VERBLIJF

Onze derde onderzoeksvraag komt nu aan de orde. We beschouwen BON als afhankelijke en
CULDIS, SES en VERBLIJF als drie onafhankelijke variabelen en vragen ons af welke van

-ocr page 141-

M. J. de Jong en J. J. A. Tacq 137

deze drie het sterkste effect heeft op BON. Om deze vraag te beantwoorden gebruiken we het
•ogitmodel. Dit model is speciaal ontworpen voor gegevens waarbij veronderstellingen van
asymmetrie zijn gemaakt en is vooral bedoeld voor situaties waarin meerdere hiërarchische
stappen zijn opgenomen, m.a.w. waarin niet alleen de oorzaken van BON, maar ook de
oorzaken van deze oorzaken worden onderzocht. In ons model is er slechts één hiërarchische
stap: SES, CULDIS en VERBLIJF als oorzakeH jke factoren van BON of het effect van 2,3 en
4 op 1.

In zo'n analyse dienen de verbanden tussen de onafhankelijke variabelen te worden
Verdisconteerd, met andere woorden de interactie (2 3 4) dient in het model te worden
opgenomen.

Uit tabel 3 kan worden afgelezen dat model H16 aan de orde is. Er bestaat evenwel
discussie over de vraag of model H16 de voorkeur verdient met opname van alle effecten van
(234), ofwel het best passende model H7, waarin enkel significante interacties tussen onaf-
hankelijke variabelen zijn opgenomen (zie Swafford, 1980). Ook al zijn we van mening dat
het effect (23) tussen SES en CULDIS op zichzelf belangrijk is, ook onder controle van BON,
toch zullen we voor het doel van deze paragraaf enkel de effecten op BON (12), (13) en (14)
berekenen ter onderlinge vergelijking.

We beschouwen dan model Hl6. De schattingen van de niet-overbodige parameters staan
in tabel 4.

De computer-uitdraai levert ons reeksen lambda's, maar we bekijken liever de tau's, omdat
de logaritmes daarvan (de lambda's) minder goed interpreteerbaar zijn. Is de tau gelijk aan 1,
dan is er geen effect. Naarmate tau meer van 1 afwijkt, is het betreffende effect groter.
Bijvoorbeeld t* = 0.94 betekent dat een lange verblijfsduur minder voorkomt dan een korte:
de verhouding lang/kort verblijf wordt berekend voor alle combinaties van andere variabelen
en er wordt een geometrisch gemiddelde berekend. Verderop laten we de omslachtige
Volzinnen over verhoudingen van verhoudingen en geometrische gemiddelden weg. We
spreken gewoon over gemiddelde, maar men realisere zich wel dat het om partiële relaties
gaat.

Wanneer een variabele trichotoom is, worden er drie effecten berekend. Deze moeten
Worden geïnterpreteerd als de verhouding van de aangeduide categorie tot het gemiddelde
Van de andere twee categorieën samen, tj =
1.43 betekent dat een laag onderwijsniveau
systematisch meer voorkomt dan een midden en hoog onderwijsniveau gemiddeld samen: de
Verhouding (laag)/(midden plus hoog) is gemiddeld 1.43.

Voor de tweede orde interactie (12) worden er zelfs negen effecten berekend, want beide
Variabelen zijn trichotoom. Het effect =
1.55 betekent dat de verhouding (laag)/(mid-
den plus hoog) onderwijsniveau voor de groep van Turken e.a. 1.55 maal die verhouding voor
de twee andere bevolkingsgroepen is.

Met het grote aantal parameters, die in het geval van trichotomieën door het ECTA-
Programma worden berekend, is het moeilijk een globaal oordeel te verkrijgen over de
sterkte van de tweede orde interacties. Daarom stellen we voor al die effecten te middelen.
Bijvoorbeeld voor BON-SES krijgen we 1.35; 1.37 en 0.54. Echter, aangezien het (geome-
trisch) gemiddelde voor deze tau's per definitie 1 is, moeten alle effecten kleiner dan 1 eerst
Worden geïnverteerd (dus 0.54 wordt 1/0.54 = 1.85) Daarna wordt het geometrisch gemid-
delde berekend.' Dit levert een globaal idee van de sterkte van de associatie. Als we dit op alle
tweede orde associaties met BON toepassen", krijgen we het model zoals afgebeeld in figuur

-ocr page 142-

138 Het onderwijsniveau van allochtone leerlingen

Tabel 4. Effecten op het bereikte onderwijsniveau voor het model H16. (*)

Eerste orde effecten

variabelen

categorieën

TAU's

LAMBDA'S

1 = BON

1

1.43

0.36C)

2

1.17

0.15

3

0.60

-0.51C)

2 = CULDIS

1

1.35

0.30

2

0.82

-0.20

3

0.91

-0.10

3 = SES

2.19

0.78(1)

4 = VERBLIJF

0.94

-0.07

Tweede orde effecten

variabelen

categorieën

TAU'S

LAMBDA'S

1-2 (BON-CULDIS)

van BON

van CULDIS

1

1

0.67

-0.40

1

2

0.96

-0.04

1

3

1.55

0.44

2

1

1.39

0.33

2

2

0.78

-0.25

2

3

0.92

-0.08

3

1

1.08

0.07

3

2

1.33

0.29

3

3

0.70

-0.36

1-3 (BON-SES)

van BON

1

1.35

0.30

2

1.37

0.32

3

0.54

-0.62(»)

1-4 (BON-VERBLIJF)

van BON

1

0.73

-0.32

2

1.20

0.19

3

1.14

0.13

1  Voor de effecten met een sterretje geldt dat de gestandaardiseerde waarde meer dan 2 standaard-
fouten links of rechts van de nulhypothese (
t = 1 of X = 0) gesitueerd is.

We zien dat het effect van SES op BON het sterkst is, gevolgd door dat van CULDIS, terwijl
het effect van VERBLIJF het zwakst is. Het relatief zwakke effect van verblijfsduur werd ook
in ander onderzoek aangetoond (Van Esch, 1983).

-ocr page 143-

M. J. de Jong en J. J. A. Tacq 139

Figuur 3

CULDIS (2)

1.29,^

SES (3) -L51— BON (1)

'1.24-

VERBLIJF (4)-

CONCLUSIES

Dit artikel is de neerslag van een secundaire analyse. De evaluerende vraag die hierbij gesteld
kan worden, luidt: heeft deze tweede beschouwing iets nieuws opgeleverd? We denken van
Wel. In het oorspronkelijke onderzoeksverslag werden sterke verbanden gevonden tussen
bon, SES, VERBLIJF en CULDIS. Middels de techniek van de log-lineaire analyse hebben
we gezocht naar een model van onderhnge interacties tussen deze vier variabelen. Deze
techniek kon worden toegepast omdat zij minder eisen stelt aan de data, m.n. aan het
meetniveau en aan de spreidingen.

Een log-lineaire analyse levert voor een bepaalde data-set betrekkelijk veel goed passende
modellen op. Dat vormt een reden te meer om bij de keuze van het model naast methodolo-
gische criteria ook aandacht te schenken aan criteria van inhoudelijke aard en eenvoud
(parsimony). Drie modellen werden beschouwd. Het eerste model H7 past het best bij de
gegevens, het tweede model H12 is hiervan een vereenvoudiging op grond van theoretische
overwegingen. Het derde model H16 werd uitsluitend gehanteerd om de effecten van de drie
achtergrondvariabelen onderling te kunnen vergelijken. Het sterkste effect is dat met de
socio-economische status van de ouders, vervolgens het effect met de culturele distantie en
het minst sterk (maar niet zwak) is het effect met verblijfsduur.

Welke implicaties heeft onze uitkomst voor het onderwijsbeleid met betrekking tot etni-
sche minderheden? Allereerst dat we niet alle hoop mogen vestigen op de verblijfsduur,
hoewel de onderwijskundige achterstand van allochtonen die hier reeds lang verblijven,
geringer is dan die van de sinds kort hier verblijvenden. Die achterstand wordt ook veroor-
zaakt door de gemiddeld zeer lage socio-economische status van de ouders. Maar allochtone
leerlingen die hier al heel lang wonen en hier het gehele lager onderwijs hebben doorlopen,
Vertonen nog een relatief grote achterstand ten opzichte van de autochtone kinderen afkom-
stig uit een laag sociaal miheu (De Jong, 1982, p. 65). Kortom, ook SES en VERBLIJF samen
kunnen deze achterstand niet ten volle verklaren. Het grote verschil in culturele achtergrond
speelt daarnaast een belangrijke rol.

De door ons onderzochte achtergrondvariabelen zijn niet gemakkelijk manipuleerbaar.
Daardoor lijkt op het eerste gezicht de beleidsrelevantie gering (Ellemers, 1976). Toch is dat
uiaar schijn. Het verblijf in ons land wordt vanzelf langer, maar de manier waarop het
Onderwijs met die extra tijd omspringt is wel manipuleerbaar. Van overheidswege krijgen de
anderstaligen vooral de eerste jaren van hun verblijf hier veel extra aandacht. Daar kan ook
nog wel het een en ander aan worden verbeterd, maar we vinden het belangrijker er op te
wijzen, dat die extra aandacht veel langer door moet gaan.

'Aanspreekbaarheid' in de Nederlandse taal is bij lange na niet genoeg. Ook het sociale
niveau van de ouders kan in positieve zin worden beïnvloed. Analfabeten kunnen worden
gealfabetiseerd en laag geschoolden kunnen worden bijgeschoold.

-ocr page 144-

140 Het onderwijsniveau van allochtone leerlingen

NOTEN

' Multivariate analyses voor deze respectievelijke dichotomieën geven ook heel verschillende resultaten
in vergelijking met een trichotomie voor BON. De analyses met de voorgestelde trichotomie waren
echter consistent met de analyses uit het oorspronkelijke onderzoek, waarin BON acht categorieën
bevatte.

^ Dit criterium, namelijk x^ + 2k zo klein mogelijk, komt erop neer dat log (maximum likelihood) - k zo
groot mogelijk is. Het is, begrepen vanuit de logica van de likelihood-ratio x^, die hier wordt gebruikt,
het statistisch best onderbouwde criterium dat op het ogenblik bestaat.

' De effecten die hier worden berekend, zijn eigenlijk die van het log-lineaire model Hl6. Wanneer dit
laatste wordt omgebouwd tot het logit-model, verkrijgen we y-parameters die gelijk zijn aan het
kwadraat van de hier berekende tau's (of in de gelogaritmeerde versie: p -parameters die gelijk zijn aan
tweemaal de lambda's).

Voor de lambda's van een tweede orde interactie geldt dat het rekenkundig gemiddelde per definitie O
is. We kunnen even goed alle min-tekens van de lambda-effecten weglaten en het rekenkundig
gemiddelde nemen.

LITERATUUR

Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. 2nd
International Symposium on Information Theory. Ed. B.N. Petrov and F.C. Zaki, Budapest,
p. 267-281.

Ellemers, J.E. (1976). Veel kunnen verklaren of iets kunnen veranderen, krachtige versus manipuleer-
bare variabelen.
Beleid en Maatschappij, 11.

Esch, W. van (1983). Toetsprestaties en doorstroomadviezen van allochtone leerlingen in de zesde klas
van lagere scholen. I.T.S., Nijmegen.

Goodman, L.A. (1972). A general model for the ana\yshof surveys. American Journal of Sociology, 77,
1035-1086.

Goodman, L.A. (1973). Causal analysis of data from panel studies and other kinds of surveys./tmerira/i
Journal of Sociology, 78, 1135-1191.

Jong, M.J. de (1982). Wal hebben zij bereikt? Het onderwijsniveau van vijftienjarige allochtone leerlingen.
Rotterdam: Erasmus Universiteit.

Meijnen, G.W. (1977). Maatschappelijke achtergronden van intellectuele ontwikkeling. Groningen.

Swafford, M. (1980). Three parametric techniques for contingency table analysis: a nontechnical com-
mentary./I merican
Sociological Review, 45 (August), 664-690.

Manuscript ontvangen 17-6-1983

Definitieve versie ontvangen 6-11-1984

-ocr page 145-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 3, pp. 141-144.

Notities en Commentaren

Bewijs van het omgekeerde, voor schmidt et al. (i984)

Ben Wilbrink

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO)
Universiteit van Amsterdam

Opmerkelijke ontdekkingen komen nogal eens voort uit de confrontatie met absurde onder-
zoeksresultaten, waardoor de onderzoeker wordt gedwongen te speuren naar niet eerder
opgemerkte fouten in theorie of methode. In de onderwijsresearch zien we af en toe het
Wonderlijke verschijnsel dat de richting van de attributie diametraal anders wordt gekozen: de
absurditeit wordt toegeschreven aan een stand van zaken in de wereld, niet aan een eigen
misvatdng. Een aardig voorbeeld is de onderzoeksconclusie van Crombag, Gaff en Chang
(1975) dat in het w.o. studieresultaten niet afhangen van de manier waarop studenten werken,
noch van capaciteiten of motivatie, zoals ouders naievelijk aannemen. Crombag et al. stellen
Vast dat de studieresultaten in aanzienhjke mate een kwestie van toeval zijn, of grotendeels
afhankelijk van irrelevante factoren, of beide. Het zou maar een rommeltje zijn in het w.o.

Crombag et al. onderzoeken hoe waargenomen verschillen tussen studenten samenhangen
niet verschillen tussen hun studieresultaten. Uit dergelijk onderzoek kan niets worden gecon-
cludeerd over de studieresultaten van Piet, Marie of Hans, wanneer Piet iets slimmer zou zijn
geweest, Marie iets harder zou hebben gewerkt, of Hans een andere vooropleiding zou
hebben gevolgd. Wat u en ik daar naievelijk voor effecten van verwachten is in dit onderzoek
allerminst weerlegd.

Publicatie van bizarre conclusies heeft echter ook iets uitdagends. Crombag et al. stellen dat
Zo: wanneer zinvolle verbanden niet spontaan verschijnen, moeten we manieren proberen te
vinden om correlaties aan te tonen daar waar zij zouden moeten zijn als het onderwijs een
redelijke onderneming is. In de eerste jaargangen van dit tijdschrift zijn velen op de uitdaging
ingegaan, zonder te betwijfelen of de conclusies van Crombag et al. wel pasten op het
uitgevoerde onderzoek. Een notitie van Crombag (1981) betreft zo'n 'zinvolle samenhang';
hij vindt bij toeval dat ouderejaarsstudenten het bij tentamens beter doen dan jongerejaars-
studenten, in een situatie waarin zij hetzelfde onderwijs volgen en hetzelfde tentamen
afleggen. Een fijn resultaat: onderwijs lijkt dan toch verschil te maken. Maar het is een triviaal
resultaat: denk aan wat er zou gebeuren wanneer in de studie wiskunde dc vakken van het
eerste jaar van plaats zouden verwisselen met die in het vierde jaar. De eerstejaars moeten het
stellen zonder drie jaar wiskundige voorkennis, en wat donder, natuurlijk bhjkt dat.

Schmidt, de Volder, Gijselaers en Kerkhofs (1984) interpreteren het resultaat van Crombag
(1981) zo dat met het vorderen van de studie de tentamenscores beter zouden worden. 'Beter'
wil zeggen: een hoger percentage goed. In data van de opleiding geneeskunde in Maastricht
nieenden zij een dergelijk fenomeen waar te nemen. Dat lijkt zinnig vanwege de oppervlakki-
ge associatie dat met het vorderen in de studie de geneeskundige kennis groter wordt. Maar
daar gaat het niet om: de tentamens bestrijken alleen de stof van het betreffende vak, en zijn
geen afspiegeling van het artsexamen. In hetzelfde nummer van het TOR laat Verstralen
(•984) zien hoe er op zinvolle wijze gesproken kan worden over het toetsen van kennisver-
nieerdering over meerdere studieonderdelen heen. Maar daarbij kan niet worden volstaan

-ocr page 146-

142 Notities en Commentaren

met turven van goed beantwoorde vragen per tentamen.

Schmidt et al. proberen de eigen toevallige waarneming in nader onderzoek te bevestigen.
De tweede stap zou dan zijn te onderzoeken of toegenomen voorkennis er een verklaring voor
biedt. De stilzwijgende veronderstelling hierbij is dat toenemende voorkennis noodzakelij-
kerwijs tot hogere percentages goede antwoorden op achtereenvolgende tentamens zal
leiden. Wie zwijgt vraagt zich niet af op welke (theoretische) gronden dat het geval zou
moeten zijn. Daar steekt wijsheid in: ik zie geen enkele mogelijkheid voor de noodzaak van
zo'n grillige relatie. Toch concluderen zij uit het verrichte onderzoek dat er een positief
verband bestaat tussen studiejaar en percentage goed op tentamens. Zonder enige aanduiding
van de zin van een dergelijk resultaat, kan dat slechts duiden op een significante toevalligheid,
een Limburgse eigenaardigheid met enige standvastigheid van jaar tot jaar. Dat zou bijvoor-
beeld een eigenaardigheid in het curriculum kunnen zijn: een verband als door Schmidt et al.
gerapporteerd, kan bepaald worden door een enkel moeilijk vak in het eerste jaar, en een
gemakkelijk in het vierde. Daar wordt niets over gezegd, hoewel de gepresenteerde figuur in
die richting lijkt te wijzen.

Het is niet onmogeHjk dat de vondst van Schmidt et al. een artefact is van de wijze van
scoren, ook al benadrukken zij zelf dat daarvan in ieder geval geen sprake kan zijn. Dat valt na
te gaan. Er blijkt enig gescharrel mogelijk met de wijze van scoring: alleen het aantal goed, of
goed min fout. Voor goed-fout scores is het aangetoonde verband minder sterk dan voor de
goed scores, voor een achterdochtig mens reden genoeg om op dit punt dieper in te gaan.

De auteurs vermelden dat de studenten vragen open mochten laten, maar daar worden geen
kwantitatieve gegevens over verstrekt. Nu geven Schmidt, de Volder en Gijselaers (1982, p.
126) per tentamen zowel de gemiddelde goed score, als de goed-fout score; daaruit valt af te
leiden wat het percentage beantwoorde vragen is, en het percentage foute antwoorden, zie
tabel 1. Met het vorderen in de studie blijken er minder vragen onbeantwoord te worden
gelaten. En ja hoor, ook het percentage fout beantwoorde vragen blijkt in de loop der jaren te
stijgen.

Aan de hand van dezelfde data, en dezelfde 'methode' volgend, kan precies het omgekeer-
de eveneens 'aangetoond' worden. In Maastricht leren de toekomstige artsen kennelijk
fouten maken. Een redenering die tot deze evidente nonsens leidt, kan niet deugdelijk zijn.
Misschien is het mogelijk het onderzoek te redden door de gangbare scoring bij tweekeuze-
vragen te bezien. Dan zou van de open gelaten vragen de helft worden geraden; maar die
raadscore moet bij de goed-fout score opgeteld worden, en niet bij de goed score (om het met
overtuiging maken van fouten te ontmoedigen). Het resultaat van deze exercitie is ook in tabel
1 te vindén: een bijna symbolische correlatie van -0.01. Een rommelig onderzoek, om een
geliefkoosde conclusie overeind te kunnen houden?

Crombag et al. (1975) verrichtten goed onderzoek, en trokken conclusies die voor eenieder
herkenbaar absurd waren. De aansporing aan toekomstige onderzoekers manieren te beden-
ken om onderzoeksresultaten beter te laten sporeh met rationele verwachtingen, kan ver-
schillend opgevat worden. Zo wees Elshout (1977) op een breed scala aan maatregelen die er
toe kunnen leiden dat werkelijk bestaande samenhangen beter in onderzoeksresultaten tot
uiting komen. Het punt van Elshout is correct, maar blijft beperkt tot de implementatie van
reeds gekozen onderzoeksvragen. Van meer belang is de vraag: wat mag redelijkerwijs van
het onderwijs verwacht worden? De armoede van de onderwijsresearch is niet gelegen in een
tekort aan empirische data, maar in te weinig aandacht voor model- en theorievorming. Zelfs
met simpele modellen zoals bijvoorbeeld door Tromp en Wilbrink (1977) voorgesteld voor
studieresultaten, zijn al opmerkelijke resultaten te boeken. De Gruijter paste een variant van

-ocr page 147-

143 Notities en Commentaren

Tabel 1. Hoe de wijze van scoren verschil maakt.

'80-'81
toets

%

goed

%

goed min
fout

O/
/o

gemaakt

%

fout

%

goed-fout
+raadscore

1 (jaar 1)

49

29

69

20

441/2

2

46

30

62

16

49

3

50

35

65

15

52V2

4

42

24

60

18

44

5

48

31

65

17

48'/2

6

49

34

64

15

52

1 (jaar 2)

46

28

64

18

46

2

45

30

60

15

50

4

49

32

66

17

49

5

42

22

62

20

41

6

44

28

60

16

48

1 (jaar 3)

48

28

68

20

44

2

56

28

84

28

34

3

62

41

83

21

49V2

4

60

42

78

18

53

1 (jaar 4)

63

46

80

17

56

3

50

28

72

22

42

6

52

32

72

20

46

Kendall tau

.32

.14

.35

.35

-.01

een dergelijk model toe op tijdbestedingsgegevens in relatie tot studieresultaten, zodoende
redelijk hoge correlaties producerend waar eerder slechts lage correlaties werden gevonden,
^et werk van De Gruijter is onderdeel van Crombag, De Gruijter, Van der Ende en Vos
(1980), en Crombag merkt erover op dat het:

"impliceert dat tentamenresultaat (...) voor een groot deel op begrijpelijke en accepta-
bele wijze tot stand komt, en dat is immers wat men in een welontworpen curriculum
wenst." (Crombag et al., 1980, p. 51).

Met wat meer aandacht voor theorievorming neemt de aandrang tot het doen van bizarre
t'itspraken over het onderwijs af. Met een tikkeltje meer theoretische argwaan zouden
Schmidt et al. (1984) zich niet hebben vertild aan een artefact dat de schijn verspreidde een
Zinvol verband in een redelijk functionerend onderwijs te zijn.

-ocr page 148-

144 Notities en Commentaren

literatuur

Crombag, H.F.M. (1981). Studiejaar en tentamenresultaat. Tijdschrift voor Onderwijsresearch, 6, 247-
248.

Crombag, H.F.M., Gaff, J.G., & Chang, T.M. (1975). Study behavior and academic performance.
Tijdschrift voor Onderwijsresearch, 1, 3-14.

Crombag, H.F.M., De Gruijter, D.N.M., Van der Ende, P., & Vos, P. (1980). De nieuwe propedeuse in de
faculteit der Rechtsgeleerdheid: Verslag over het eerste semester.
Leiden: Bureau Onderzoek van
Onderwijs R.U. Leiden, Rapport nr. 20.

Elshout, J. (1977). Predicting the vahdity of predictors of academie performance. Tijdschrift voor
Onderwijsresearch, 2,
24-31.

Schmidt, H.G., de Volder, M.L., & Gijselaers, W.H. (1982). De relatie tussen studiejaar en tentamen-
resultaat. In H.G. Schmidt.
Activatie van voorkennis, intrinsieke motivatie en de verwerking van
tekst.
Academisch proefschrift. Apeldoorn: Van Walraven.

Schmidt, H.G., de Volder, M.L., Gijselaers, W.H., & Kerkhofs, L.M.M. (1984). Een positief verband
tussen studiejaar en tentamenresultaat, en de rol van toenemende voorkennis.
Tijdschrift voor
Onderwijsresearch, 9,
183-188.

Tromp, D., & Wilbrink, B. (1977). Het meten van studietijd. Congresboek Onderwijs Research Dagen,
186-189.

Verstralen, H. (1984). Rasch scales for extended curricula. Tijdschrift voor Onderwijsresearch, 9,
149-160.

Ontvangen 3-10-1984

-ocr page 149-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 3, pp. 145-147

Notities en Commentaren

wat bewijst wilbrink eigenlijk?

H.G. Schmidt, M.L. de Volder, W.H. Gijselaers en L.M.M. Kerkhofs.
Capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch, Rijksuniversiteit Limburg.

Maastrichtse medische studenten nemen in de eerste vier jaar van hun studie gewoonlijk om
de zes weken deel aan een toets, bedoeld om kennis, verworven in die periode, te meten. In
totaal gaat het daarbij om 20 toetsen. De functie van deze toetsen is een formatieve, dat wil
Zeggen dat zij studenten (en docenten) een inzicht bieden in de kwaliteit van het doorlopen
leerproces, zonder dat een slechte prestatie op deze toetsen consequenties heeft voor de
studievoortgang. (Summatieve beoordeling van studieprestaties vindt plaats op basis van
andere informatiebronnen.) Studenten worden dan ook aangemoedigd niet te raden naar het
goede antwoord, maar door omcirkeling van een vraagteken aan te geven wanneer ze een
bepaald item niet kunnen beantwoorden. Een dergelijk antwoordgedrag verschaft onder-
wijsmakers èn individuele studenten een inzicht in waar de 'zwakke plekken' zitten en is dus in
beider belang.

In een onderzoek dat enige tijd geleden in dit tijdschrift gepubliceerd werd (Schmidt et al.,
1984) ontdekten wij dat het aantal goede antwoorden dat studenten op deze toetsen geven
(omgezet in een percentagescore om vergelijking van resultaten tussen toetsen mogelijk te
maken) over de loop der jaren zowel transversaal als longitudinaal een stijgende tendens
Vertoont. Het verband tussen studievordering (= het aantal 6-weeks blokken dat op een
bepaald moment doorlopen is) en studieprestatie, uitgedrukt in een product-moment cor-
relatiecoëfficient, bleek waarden aan te nemen tussen de 0,40 en 0,50. We probeerden dit
Verschijnsel te verklaren door te veronderstellen dat gedurende de studie voorkennis toe-
neemt, die studenten in staat stelt nieuwe informatie die zij in de loop van hun studie moeten
bestuderen, steeds makkelijker te verwerken. Ter ondersteuning van deze hypothese werden
enige aanvullende gegevens gepresenteerd.

De resultaten van dit onderzoek verontrustten Wilbrink (1985) blijkbaar zozeer dat hij het
nodig vond een nogal fors stuk te schrijven dat ons werk op een aantal punten kritiseert.
Wilbrinks kritiek laat zich ongeveer als volgt samenvatten: er is geen zinnige theorie denkbaar
die een positief verband tussen studiejaar en studieprestatie zou kunnen verklaren, en dus kan
dat verband er ook niet zijn. Wat Schmidt en zijn collega's presenteren is niets meer dan een
artefact, een 'significante toevalligheid' zonder betekenis. En ja hoor, als je nog eens aan het
rekenen slaat, en bijvoorbeeld de totaalscores van studenten corrigeert voor raden, dan vind
je al snel een 'bijna symbolische correlatie' (de woorden zijn van Wilbrink) van -0,01.

Onze reactie hierop komt - ook kort samengevat - op het volgende neer: (1) er is wèl een
zinnige theorie denkbaar die een positief verband tussen studiejaar en -prestatie kan verkla-
ren, en (2) in zijn pogen te bewijzen dat een dergelijk verband niet kan bestaan, maakt
Wilbrink gebruik van een - hem blijkbaar onbekend - statistisch artefact, dat op kan treden
Wanneer verschillende, ondcriing sterk gecorreleerde, variabelen tot één index gecombineerd
Worden. Hij haalt daarmee zijn eigen redenering onderuit.
Deze twee punten worden hieronder nader toegelicht.

-ocr page 150-

146 Notities en Commentaren

(1) In onze bijdrage hebben we een poging gedaan een psychologische leertheorie die sterk
de rol van voorkennis in het leerproces benadrukt (Anderson, 1977; SpiHch et al., 1979)
toe te passen op het onderwijs. We redeneerden daarbij als volgt. Men mag veronder-
stellen dat kennis opgedaan in een eerdere fase van de studie het bestuderen van nieuwe
leerstof, dat wil zeggen leerstof uit een ander vakgebied binnen hetzelfde domein, op een
later tijdstip vergemakkeUjkt. Zo zullen bijvoorbeeld medische studenten die in het
derde of vierde jaar het vak pathologie bestuderen daarbij steun ondervinden van kennis
van anatomie en fysiologie of biochemie, opgedaan eerder in hun studie. Als we nu
aannemen dat de moeihjkheidsgraad van de aangeboden leerstof en de daarop gebaseer-
de toetsen over de jaren heen niet systematisch varieert, dan kan verwacht worden dat
studenten als gevolg van toenemende voorkennis in de loop van hun studie betere
prestades gaan leveren. Immers, bij min of meer constante moeilijkheidsgraad van de
leerstof zal die voor hen relatief steeds 'makkelijker' worden naarmate de studie vordert
en zullen hun prestaties sdjgen. Uiteraard zal het op deze wijze gehypothetiseerde
verband tussen studievordering en prestade niet bijzonder sterk zijn, want leerstof
variëert nou eenmaal wat in moeilijkheidsgraad (er bestaan 'erkend moeilijke' vakken en
voor sommige verderop in een studie aan de orde komende vakken hebben studenten
soms weinig voorkennis). Zolang echter die variatie niet systematisch is, moet enig
verband teruggevonden worden.

Het verbaast ons dat Wilbrink deze toch niet volstrekt onzinnige redenering in zijn
reactie negeert en volstaat met de conclusie dat hij niet ziet op grond van welke theoreti-
sche overwegingen de "noodzaak" van zo'n grillige relatie" gepostuleerd kan worden.

(2) Wilbrink construeert vervolgens een nieuwe index voor studieprestatie, die een lineaire
combinatie is van drie variabelen: het percentage goede antwoorden (% goed), het
percentage foute antwoorden (% fout) en het percentage niet beantwoorde vragen (%
vraagteken). En wel zo: I = % goed - % fout + '/2% vraagtekens. Hij duidt deze
scoringswijze aan als 'gangbaar' wanneer je wilt corrigeren voor raden.' I blijkt -0,01 te
correleren met studievordering, en op grond hiervan meent Wilbrink 'bewezen' te
hebben dat het door ons gevonden verband gewoonweg niet bestaat.

Nu is er een probleem met samengestelde variabelen als I. Wanneer je een dergelijke
variabele correleert met een andere variabele dan wordt de grootte van die correlatie in
belangrijke mate bepaald door de
gewichten die je aan de samenstellende variabelen
toekent. Je kunt een dergelijke correlatie zelfs naar believen manipuleren door gewoon
de betreffende gewichten te wijzigen^. Iedereen die wel eens een multipele regressie heeft
uitgevoerd, zal dat kunnen beamen.

Een voorbeeld. Stel dat Wilbrink bij toeval de volgende formule had gebruikt: 1' = %
goed + % fout - '/2% vraagtekens. 1' is identiek aan I; alleen zijn twee tekens omgewis-
seld. r correleert echter 0,63 met studievordering! Of neem I" = % goed + % fout + %
vraagtekens. Correleert precies 0,00 met studfevordering om de doodeenvoudige reden
dat I" voor iedere student gelijk is, namelijk 100. De lezer wordt uitgenodigd zelf een
index te construeren die een sterk negatieve correlatie met studievordering heeft.

Het zal duidelijk zijn dat de correlatie die Wilbrink met veel aplomb presenteert als
'bewijs' van de onzinnigheid van de uitkomst van het onderzoek van Schmidt, e.a. (1984)
niet anders is dan een statistisch artefact. Een artefact dat vermeden had kunnen worden
als Wilbrink de moeite had genomen een eenvoudige covariantiematrix van de betreffen-
de variabelen te construeren (zie daarvoor bijvoorbeeld Nunnally, 1978, p. 165). Het
had hem veel werk kunnen besparen.

-ocr page 151-

147 Notities en Commentaren

CONCLUSIE.

Wij zijn niet onder de indruk van de kanttekeningen die Wilbrink (1984) bij de resultaten van
ons onderzoek plaatste. Zijn kritiek is deels ongerechtvaardigd en deels gebaseerd op een
onkritisch gebruik van statistische methoden. Hij lijkt te geloven dat een verband als het door
ons ontdekte, niet kan bestaan en gebruikt ongeoorloofde middelen - ongeoorloofd niet in
juridische maar in wetenschappelijke zin - om aan te tonen dat dat verband dan ook niet
wèrkehjk bestaat. Wij zijn daarom van mening dat de omschrijving die Wilbrink in vragende
zin op ons onderzoek van toepassing verklaarde, in bevestigende zin op zijn reactie terugslaat:
"Een rommelig onderzoek, om een geliefkoosde conclusie overeind te kunnen houden".

Noten

1- Wij begrijpen niet waarom een correctieformule voor raden wordt voorgesteld voor een situatie
waarin studenten geadviseerd wordt juist
niet te raden. Ons is altijd geleerd dat scoringsmethoden een
afbeelding moeten vormen van het feitelijke testgedrag van studenten. Overigens is de formule niet
correct. Volgens De Groot en Van Naerssen (1973) had het moeten zijn:
I = % goed +
'/2% vraagtekens.

2. Dat is des te meer het geval als de samenstellende variabelen onderling sterk correleren, zoals dat het
geval is voor de data die Wilbrink bekritiseert. % Goed en % niet-beantwoord correleren bijvoor-
beeld
-0,93. Nogal wiedes natuurlijk, want het gaat om percentagescores en als % goed toeneemt,
moet het % vraagtekens afnemen. Nogal wiedes? Voor Wilbrink blijkbaar niet.

Literatuur

Anderson, R.C. (1977). The notion of schemata and the educational enterprise: general discussion of the
conference. In R.C. Anderson, R.J. Spiro, & W.E. Montague
(Eds.). Schooling and the acquisi-
tion of knowledge.
Hillsdale, N.J.: Erlbaum.
Groot, A.D. de, & R.F. van Naerssen (1973). Studietoetsen, deel 2. Den Haag: Mouton.
Nunnally, J.C. (1978). Psychometric theory. New York: McGraw Hill.

Schmidt, H.G., M.L. de Voider, W.H. Gijselaers en L.M.M. Kerkhofs (1984). Een positief verband
tussen studiejaar en tentamenresultaat, en de rol van toenemende voorkennis.
Tijdschrift voor
Onderwijsresearch,
9, 183-188.
Spilich, G.J., G.T. Vesonder, H.L. Chiesi & J.F. Voss (1979). Text processing of domain-related
information for individuals with high and low domain knowledge.
Journal of Verbal Learning
and Verbal Behavior, 18,
275-291.
Wilbrink , B. (1985). Bewijs van het omgekeerde, voor Schmidt et al. (1985).
Tijdschrift voor Onderwijs-
research, 10,
141-144.

Ontvangen 21-11-1984

-ocr page 152-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 3, p. 148.

MEDEDELING

Van 13-18 juli 1986 vindt in Jerusalem het XXI International Congress of Applied Psycholo-
gy plaats. De
Division of Educational, Instructional and School Psychology organiseert als
onderdeel van dit congres een reeks symposia. Ook Nederlandse onderwijspsychologen
worden uitgenodigd daaraan bijdragen te leveren. Over de volgende themas zullen symposia
worden ingericht: Description and Improvement of Learning; Psychology Applied to In-
structional Problems; Gifted, Developmental and Educational Perspectives; Classroom Cli-
mate; Applications to Higher Education; en Research Methods.

De voorkeur van de Program Committee (voorzitter: Professor Gavriel Salomon) gaat
echter niet uit naar voorstellen voor individuele bijdragen, maar naar voorstellen voor het
hele symposia over de genoemde of verwante thema's. Nederlandse onderwijspsychologen
worden uitgenodigd voorstellen in te dienen. Symposia met uitsluitend Nederlandse bijdra-
gen zijn minder wenselijk, beter is het samenwerking te zoeken met collega's van internatio-
nale herkomst.

Nederlandse initiatiefnemers kunnen voorstellen (in het Engels) indienen bij H. F. M.
Crombag, president-elect van de Division of Educational, Instructional and School Psycholo-
gy van de I AAP (Boerhaavelaan W, 2334 EN Leiden, tel. 071-148333, tst. 5389). Bij hem
kunnen ook telefonisch inlichtingen worden ingewonnen.

-ocr page 153-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 149-160.

Vrijwilligerseffekten in tijdschrijfonderzoek

Amos van Gelderen en Olie ten Cate

Afdeling Niet-Primaire Onderwijsverzorging Geneeskunde, Subfaculteit Geneeskunde,
Universiteit van Amsterdam, Meibergdreef 15, 1105 AZ AMSTERDAM

ABSTRACT

Sample effects in the evaluation of study time.

An investigation of invested study time was undertaken among freshmen in the medical curricu-
lum at the University of Amsterdam. Six times, 60 students were randomly selected from a
population of 323, and asked whether they would be willing to record their study time, each for
the length of one of six curriculum blocks (5 to 9 weeks).

In order to prevent that the whole population would be exhausted after the fifth sample,
samples for former blocks were returned when selecting the fifth and sixth sample. The curriculum
blocks were all concluded with a test. Of the requests to participate 50 to 60% were turned down
for each sample. The remaining 40 to 50% of the samples, who did participate, consistently
received better grades for the block tests than the nonrespondents. It was found that the higher
grades were definitely not the result of a stimulating effect due to the act of keeping track of
study time - as previously has been suggested by other authors - but of a selection effect of using
volunteers.

INLEIDING

In het studiejaar '82-'83 werd aan de Universiteit van Amsterdam een grondig herzien
curriculum voor de artsenopleiding ingevoerd, in het kader van de zogeheten Wet Twee-
fasenstructuur. Hieraan werd een uitgebreide evaluatie verbonden, die in eerste instantie het
Propedeutisch jaar omvatte. Dit evaluatieonderzoek werd uitgevoerd door de afdeling Niet-
Primaire Onderwijsverzorging van de Subfaculteit Geneeskunde.

Eén van de doelen van de evaluatie was het krijgen van inzicht in de feitelijke zwaarte van
het studieprogramma en het vergelijken hiervan met de begrote studielast van de verschillen-
de onderdelen. Het belangrijkste instrument om deze informatie te verkrijgen vormde een
tijdschrijfonderzoek.'

Het nieuwe eerstejaars programma bestaat uit acht verschillende onderwijsblokken, waar-
aan er zeven met een toets worden afgesloten; het achtste blok is een stage. Het zevende blok
hestaat uit colleges die het hele jaar doorlopen op de woensdagochtenden en is dus geen echt
hlok. De overige zes blokken volgen op elkaar in periodes van vijf tot negen kalenderweken.

Aangezien tijdschrijven een vrij inspannende en saaie bezigheid is voor de betrokken
studenten, is er voor gekozen om voorafgaand aan ieder blok telkens een nieuwe aselecte
steekproef van tijdschrijvers uit het totaal van de 323 eerstejaars studenten te trekken. Het
nadeel van deze methode is dat er voor de latere blokken een steeds kleinere groep studenten
overblijft waaruit tijdschrijvers geselekteerd kunnen worden. Dit werd opgelost door voor
'ijdschrijfonderzoeken van de laatste twee blokken de steekproeven van de eerste blokken

Adres: Meibergdreef 15, 1105 AZ Amsterdam

-ocr page 154-

150 Vrijwilligerseffekten in tijdschrijfonderzoek

terug te leggen. De methode biedt echter ook voordelen. In de eerste plaats kan men een
geringere uitval van respondenten verwachten als deze slechts een korte periode hoeven mee
te werken. Bovendien geeft het de unieke mogelijkheid om de verschillende steekproeven
door de tijd heen op de voet te volgen wat betreft hun studieresultaten. Dit laatste is van
belang omdat er gerede twijfels bestaan over de representativiteit van vrijwillige tijdschrijvers
t.o.v. de populatie waaruit zij afkomstig zijn. Crombag en Vos (1982) vonden dat tijd-
schrijvers hogere cijfers behaalden dan niet-tijdschrijvers en noemen twee mogelijke hypo-
thesen voor de verklaring van dit verschil:

- de 'selectie-hypothese': ook al trekt men een aselecte steekproef, toch worden de resulta-
ten van het onderzoek uitsluitend geleverd door degenen die vrijwillig meewerken; volgens
de selectie-hypothese zou deze groep verschillen van de groep studenten die niet wil
meewerken, qua motivatie - dat wil zeggen algemene studiemotivatie, betrokkenheid bij
de studie en ook hoeveelheid studie-inspanning.

- de 'stimuleringshypothese': de groep tijdschrijvers zou (tijdelijk) gestimuleerd kunnen
worden door de aktiviteit van het tijdschrijven zelf; deze zou hen meer bewust kunnen
maken van de tijd die zij aan hun studie besteden en daardoor hun inspanning kunnen
verhogen. In dit geval gaat het dus niet in de eerste plaats om een verschil tussen res-
pondenten en non-respondenten, maar om een tijdelijk verschil tussen respondenten en
alle andere studenten.

Zoals gezegd zijn beide hypothesen opgesteld n.a.v. de waarneming dat tijdschrijvers betere
studieresultaten behalen in de periode dat zij tijdschrijven dan niet-tijdschrijvers (zowel
non-respondenten als de overige studenten uit het betreffende jaar). Om deze reden veron-
derstelt men bijvoorbeeld geen 'afleidings'- of 'destimulerings'-effekt. De implicaties van
beide hypothesen voor de validiteit van de methode van tijdschrijven zijn nogal verschillend.

Terwijl men onder de selectie-hypothese kan uitgaan van een redelijk valide meting voor
een selecte groep met bepaalde eigenschappen, is er onder de stimuleringshypothese sprake
van een beïnvloeding van de werkelijkheid door de onderzoeksmethode zelf Om deze reden
lijkt het ons belangrijk zekerheid te hebben omtrent de mate waarin deze hypothesen de
werkelijkheid adequaat beschrijven. Crombag en Vos spreken zich n.a.v. hun onderzoek
voorzichtig uit voor de selectie-hypothese, maar zekerheid kunnen zij niet bieden. Hun
onderzoeksdesign maakt in feite slechts gebruik van één grote steekproef die een studiejaar
lang tijdschrijft. Zij rapporteren significante verschillen tussen tijdschrijvers (de responden-
ten) en de overige studenten (de non-respondenten en de rest van de populatie): de tijd-
schrijvers behalen over de gehele linie significant hogere cijfers. Het daaropvolgende stu-
diejaar blijkt echter dat dit aanvankelijke voordeel van (voormalige) tijdschrijvers is omge-
slagen in een klein nadeel t.o.v. de overige studenten die tot dat studiejaar zijn toegelaten (na
de selectie als gevolg van het propedeutisch examen). Weliswaar is dit verschil niet significant,
maar ook niet-significante verschillen kunnen consistente verschillen zijn, als zij zich in
andere situaties opnieuw voordoen. Zou dit laatste het geval zijn dan kan de stimulering«
hypothese niet worden uitgesloten.

M.a.w. uit het onderzoek van Crombag en Vos is onvoldoende duidelijk geworden in
hoeverre het in eerste instantie gevonden verschil tussen tijdschrijvers
en niet-tijdschrijvers
alleen kan worden verklaard u\tstabiele eigenschappen van een groep vrijwilligers, tegenover
die van een groep non-respondenten. In aansluiting op Crombag en Vos geeft het volgende
verslag een gedeeltelijke replicatie van het door hen gerapporteerde onderzoek.

Tegelijkertijd zal een meer gedetailleerd inzicht worden geboden in de verschillen qua
studieresultaat tussen vrijwilligers (respondenten) en weigeraars (non-respondenten).
Zoals
gezegd is dit bereikt door voor elk blok opnieuw een steekproef te trekken. Het probleem van

-ocr page 155-

Amos van Gelderen en Olie ten Cate 151

de slinkende populatie, waaruit achtereenvolgende steekproeven getrokken worden is onder-
vangen door bij de laatste twee steekproeftrekkingen de steekproeven voor de eerste blokken
terug te leggen. Deze herhaalde procedure mondt uit in een onderzoeksdesign naar analogie
Van 'time-series' design (Glass et al., 1975), waarin men minder afhankelijk is van significa-
tietoetsen, en men ook kleine verschillen - mits zij zich systematisch herhalen - serieus kan
nemen. Bovendien kan bij dergelijke designs een goed inzicht verkregen worden in karak-
teristieken van steekproeven over een langere periode. Op deze wijze zou een eventueel
stimuleringseffekt dat van tijdelijke aard is duidelijk aan het licht moeten komen.

METHODE

Vóór de aanvang van elk van de zes daarvoor in aanmerking komende onderwijsblokken
Werd een aselecte steekproef getrokken van 60 studenten uit een totale populatie van 323
eerstejaars. Bij de eerste vier blokken gebeurde dat zonder teruglegging. Om te vermijden dat
bij de blokken 5 en 6 een te kleine populatie overbleef werden bij blok 5 de steekproeven van
blok 1 en 2 en bij blok 6 de steekproeven van blok 1, 2 en 3 teruggelegd. Bij de laatste twee
blokken waren dus ook tijdschrijvers die al eerder deze taak hadden vervuld. Bovendien
Werden voor blok 4 en 6 ook recidivisten in de steekproef toegelaten, omdat de stof in deze
blokken voor hen even onbekend was als voor de nieuwe eerstejaars.

Deelname aan het tijdschrijven was volkomen vrijwillig en er stond ook geen beloning
tegenover. Wel werden in een tussentijdse rapportage de resultaten van het tijdschrijfon-
derzoek - alsmede andere evaluatiegegevens - aan de studenten en docenten verstrekt^. We
Verwachtten dat hierdoor de betrokkenheid van de studenten - en dus de bereidwilligheid om
mee te werken - verhoogd zou worden.

De respons lag gemiddeld tussen de 40 en 50%, waarbij men moet bedenken dat in de
steekproef ook studenten zaten die de studie gestaakt hadden, wegens ziekte of anderzins de
toets voor het blok niet voorbereidden, of die onbereikbaar waren omdat hun adres niet
(meer) bekend was. Een dergelijke respons wijkt niet veel af van de respons in ander
tijdschrijfonderzoek, inclusief dat van Crombag en Vos.

De procedure voor het tijdschrijven was grofweg dezelfde als die gevolgd door Crombag en
Vos. Voorafgaand aan elk blok kreeg elke student uit dc steekproef een set tijdschrijffor-
mulieren voor het gehele blok toegestuurd. Bijgevoegd was een instructie die erop aandrong
de formulieren dagelijks in te vullen en wekelijks terug te bezorgen; dit laatste kon op de
Woensdagochtend-colleges gebeuren of - voor dc laatste blokweek - bij de afsluitende toets.
Op de formulieren moest worden aangegeven:

- hoeveel tijd men aan contactonderwijs (colleges, praktika, werkgroepen en andere vor-
men) dagelijks had besteed;

hoeveel tijd men aan zelfstudie had besteed, uitgesplitst voor elk van de vakgebieden in het
betreffende blok;

- hoeveel tijd men besteed had aan activiteiten die weliswaar met het blok samenhingen,
maar niet in specifieke onderdelen van dat blok konden worden ondergebracht.

Gevraagd werd de studietijd tot op een kwartier precies op te geven. Studenten die niet tijdig
hun formulier terug bezorgden werden door middel van ecn herinneringsbriefje verzocht dit
alsnog te doen. Dit werd enkele malen herhaald als het gewenste resultaat uitbleef.

De verschillen tussen de groep studenten die volledig deelnam aan het tijdschrijfonderzoek
en de groep studenten die slechts gedeeltelijk of geheel niet meedeed zijn het centrale
Oogmerk in deze studie.

-ocr page 156-

152 Vrijwilligerseffekten in tijdschrijfonderzoek

RESULTATEN

In tabel 1 is samengevat hoe groot voor de respektievelijke tijdschrijfonderzoeken van blok 1
t/m 6 de populaties (P) waren, hoeveel studenten in de steekproef (S) zaten en hoeveel er niet
werden aangeschreven (NA); vervolgens is ook aangegeven hoeveel van de aangeschreven
studenten respondeerden (R) en hoeveel non-respondenten (NR) er waren. Alleen die
studenten zijn opgenomen, waarvan toetscijfers beschikbaar waren. Hierbij moet men be-
denken dat niet alle 323 ingeschreven eerstejaars studenten aan alle toetsen hebben deelge-
nomen. Zo hebben er 9 bijvoorbeeld aan geen enkele toets deelgenomen. Bovendien wisselt
het aantal studenten dat aan de bloktoets deelnam nogal tussen de blokken.

Tabel 1. Omvang van populade, steekproef en aantal respondenten bij zes tijdschrijfon-
derzoeken.

Blok P=S+NA S=R+NR

1

246

52

194

52

32

20

2

190

51

139

51

29

22

3

143

53

90

53

27

25

4

152

57

95

57

27

30

5

158

53

105

53

22

31

6

186

54

132

54

21

33

De omvang van de populaties waaruit de steekproeven zijn getrokken verschilt voor de
verschillende tijdschrijfonderzoeken als gevolg van de wijze van steekproeftrekking. Aange-
zien geen teruglegging van de steekproeven plaatsvond bij de blokken 1 t/m 4 loopt het aantal
niet-aangeschrevenen hier drastisch terug. Bij blok 4 wordt dit effekt gecompenseerd doordat
hier ook recidivisten (N=61) in de populade zijn toegelaten. Bij de blokken 5 en 6 vond wel
teruglegging plaats, en bij blok 6 werden ook recidivisten toegelaten.

In figuur 1 zijn de gemiddelde blokcijfers weergegeven van de respondenten (R), de
steekprcTef (S)
(inclusief R) en de niet-aangeschreven studenten voor het betreffende blok
(NA). Deze laatste categorie moet niet verward worden met de non-respondenten: zij zijn
vervat in de steekproef.

Het sterretje geeft aan dat tussen het R-punt en de onderste lijn een significant verschil is
gevonden bij een tweezijdige toetsing. De respondenten in het tijdschrijfonderzoek van blok
4 behaalden dus significant hogere cijfers dan de niet-aangeschreven studenten. Om de figuur
overzichtelijk te houden is geen grafiek van de non-respondenten toegevoegd. Men kan er
echter van uitgaan dat het verschil tussen de respondenten en non-respondenten altijd groter
is dan het verschil tussen de respondenten en de steekproef waaruit zij afkomstig zijn.

Het bhjkt dat voor de respondenten van blok 1 t/m 4 hetzelfde opgaat wat ook Crombag en
Vos voor hun tijdschrijvers (over een heel studiejaar) vonden: zij behalen hogere gemiddelde
toetsresultaten dan de steekproef waaruit zij afkomsdg zijn (dus hoger dan de non-res-
pondenten) en eveneens hoger dan de niet-aangeschreven studenten voor de betreffende
blokken. Het verschil is echter alleen significant voor de respondenten van blok 4 t.o.v. de
niet-aangeschreven studenten (3). Bij de tijdschrijvers voor blok 5 en 6 gaat dit niet op: er
bestaat alleen een (klein) voordeel voor R t.o.v. de totale steekproef S en dus t.o.v. de

-ocr page 157-

Amos van Gelderen en Olie ten Cate 153

Figuur 1: Gemiddelde toetscijfers van respondenten (R), steekproef (S) en niet-aange-
schrevenen (NA), betrokken bij de tijdschrijfonderzoeken 1 t/m 6.

Voor omvang groepen: zie tabel 1.

non-respondenten voor hun respectievelijke toetscijfers bij blok 5 en 6; de niet aangeschre-
ven studenten scoren hier gemiddeld (iets) hoger. Deze gegevens zeggen ons dus nog erg
Weinig over de aannemelijkheid van een selectie- of stimuleringseffect.

Als we onze blik verbreden en ook de toetsresultaten bekijken van de respondenten voor
de andere blokken dan waarvoor zij tijdgeschreven hebben, dan krijgen we het beeld zoals dat
'n de figuren 2a t/m f is geschetst. Achtereenvolgens ziet men de toetsresultaten van de
respondenten, de steekproef en de niet-aangeschrevenen voor het tijdschrijfonderzoek van
blok 1 t/m 6; blok 7 werd niet betrokken in het tijdschrijfonderzoek, er kon echter wel een
gemiddeld toetscijfer voor berekend worden. R1 staat voor de respondenten van het tijd-
schrijfonderzoek van blok 1, R2 voor blok 2 etc. De pijl geeft het blok aan waarin de
betreffende respondenten de studiehjd bijhielden. De omvang van de populaties waaruit de
steekproeven zijn getrokken verkrijgt men door het opgegeven aantal bij S en dat bij NA bij
elkaar op te tellen (zie ook tabel 1).

In alle grafieken (dus voor alle zes de steekproeven) ligt de lijn van gemiddelde toetscijfers
Van respondenten boven die van de steekproef waaruit zij afkomstig zijn. M.a.w. de res-
pondenten hebben consistent hogere gemiddelden dan de non-respondenten, met slechts één
uitzondering, namelijk dc resultaten van de respondenten in blok 4 voor hun toets op blok 1.
Men kan een dergelijk consistent patroon niet verklaren door aan te nemen dat de res-
pondenten door het tijdschrijven zelf gestimuleerd worden om hogere cijfers te behalen,
aangezien zij al hogere gemiddelden behaalden
voordat zij tijdschreven. De selectie-hypo-
'hese heeft wél een plausibele verklaring voor dit fenomeen: stabiele(re) eigenschappen van
'^e groep respondenten zijn verantwoordelijk voor het hogere gemiddelde. Het is van belang
hij de grafieken nog de volgende kanttekeningen te maken. Bij de figuren a, b en d hjkt zich
ï^og een ander consistent patroon aan te dienen: de gemiddelde toetscijfers van de studenten
'n de steekproef liggen hier consistent hoger dan die van de niet aangeschreven studenten; bij
grafiek c is dit niet zo duidelijk, en bij de grafieken e en f is het omgekeerde het geval. Dit is
een wat merkwaardige situatie als men bedenkt dat we hier met
aselecte steekproeven te
'naken hebben. De aselecte trekking van de steekproeven voor blok 1, 2 en 4 had kennelijk,
toevalligerwijs, tot gevolg dat er steekproeven ontstonden die systematisch iets hogere
toetsgemiddelden behaalden dan de referentiegroep van niet-aangeschrevenen. Aselecte

-ocr page 158-

154 Vrijwilligerseffekten in tijdschrijfonderzoek

Figuur 2

a Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 1.

b Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet-aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 2.


Riv.

1 2 3 4 S 6 :

Blok

N: NA1=194, Sl=52, Rl=32

c Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet-aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 3.

1 2 3 4 5 6 7

Blok

N: NA2=139, S2=51, R2=29

d Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet-aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 4.


1 2 3 4 5 6;

Blok

N: NA3=90, S3=53, R3=27

e Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet-aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 5.

1 2 3 4 5 6 7

Blok

N: NA4=95, S4=57, R4=27

f Gemiddelde toetscijfers van respondenten
(R), steekproef (S) en niet-aangeschrevenen
(NA), betrokken bij het tijdschrijfonderzoek
van blok 6.


N: NA5=105, S5=53, R5=22
*

N: NA6=132, S6=54, R6=21

-ocr page 159-

Amos van Gelderen en Olie ten Cate 155

steekproeftrekking is, in de praktijk van het empirisch onderzoek, geen garantie voor volledi-
ge overeenkomstigheid, zoals wel vaker is gebleken. Bij de aselecte trekking voor blok 5 en 6
Vond teruglegging plaats van deze (blijkbaar hoger scorende) steekproeven, zoals onder
'Methode' beschreven, met als gevolg dat een groot aantal studenten hieruit in de referen-
tiegroep van niet-aangeschreven studenten voor blok 5 en 6 belandde. Het resultaat hiervan
ziet men in de grafieken 6 en 7: de niet-aangeschrevenen scoren nu hoger dan de steekproe-
ven. Voor sommigen zou dit gegeven aanleiding kunnen zijn om konklusies omtrent stabiele
patronen in bovenstaande grafieken te wantrouwen. Immers, wat een stabiel patroon lijkt,
blijkt bij nadere beschouwing een gevolg van toevalsfactoren te zijn bij aselecte trekking van
steekproeven. Inspectie van de grafieken zelf is echter al voldoende om deze quasi-consisten-
tie te ontmaskeren. Het door ons hierboven aangegeven verschil tussen respondenten en
non-respondenten wordt door geen van de grafieken weerlegd: hoe hoog het gemiddelde
cijfer van de verschillende steekproeven ook is t.o.v. de niet-aangeschreven studenten,
telkens behalen de respondenten uit die steekproeven hogere gemiddelden dan de non-res-
Pondenten, uiteraard met de ene genoemde uitzondering.

Van een formele toetsing van de stimuleringshypothese tegen de selectiehypothese is in de
bovenstaande grafieken echter nog geen sprake. Bovendien kan ook het aangeduide con-
sistente verschil volgens statistische conventies te klein zijn om toevalsfactoren volledig uit te
sluiten. Om significantietoetsing mogelijk te maken zijn de onderstaande tabellen 2 en 3
geconstrueerd. In tabel 2 wordt, per blok, getoetst of de verschillen tussen
alle studenten die
'enminste één maal gerespondeerd hebben
'en' degenen die wel zijn aangeschreven, maar die
>10011 gerespondeerd hebben
(inclusief degenen die slechts een gedeelte van de tijdschrijffor-
mulieren voor een blok terugbezorgden) significant zijn.

In tabel 3 wordt hetzelfde nogmaals gedaan, maar dan exclusief de respondenten en de
^on-respondenten voor het betreffende blok
(bij blok 1 worden de cijfers van de respondenten
en de non-respondenten uit de steekproeven van de tijdschrijfonderzoeken 2 t/m 6 vergele-
'^en; bij blok 2 zijn dit de steekproeven van 1,3,4,5 en 6; bij blok 3 de steekproeven van 1,2,

5 en 6 enz.)

Onder de selectie-hypothese zouden zowel in tabel 2 als in tabel 3 alle verschillen significant
moeten zijn, immers de selecte groep tijdschrijvers blijft zich onderscheiden van de non-res-
Pondenten wat betreft het toetscijfer, ongeacht of zij voor het betreffende blok hebben
t'jdgeschreven Onder de stimuleringshypothese daarentegen zouden uitsluitend de verschil-
'en tussen tijdschrijvers en non-respondenten voor het blok waarin zij (zouden moeten)
tijdschrijven significant zijn. Dit zou kunnen leiden tot significante verschillen in tabel 2, maar
'n geen geval in tabel 3.

Om een idee te geven hoe de verschillende N's in tabel 2 en 3 tot stand zijn gekomen geven we het
Volgende voorbeeld voor de t-toetsen bij blok 1. Van de totale populatie van 323 eerstejaars hebben er
één of meer toetsen afgelegd. Hiervan zijn er 14 nooit aangeschreven om mee te doen aan het
t'jdschrijfondcrzoek als gevolg van de aselectie van de steekproeven. Van de resterende 300 hebben er 21
de toets voor blok 1 niet gedaan. Blijft over: 279. Hieronder zijn 37 recidivisten, die buiten het onderzoek
Van blok 1 zijn gehouden. Bijft over: 242. Hieronder zijn 129 studenten die eens tijdgeschreven hebben
^1113 die nooit gerespondeerd hebben. Dit zijn de aantallen die in tabel 2 voor blok 1 staan. De aantallen
Voor tabel 3 verkrijgen we door van alle respondenten de 32 respondenten voor blok 1 af te trekken
(^97) en van alle non-respondenten de 20 non-respondenten voor blok 1 (=93). De berekening voor de
'"toetsen over dc andere blokken is wat gecompliceerder, doordat - door de procedure van teruglegging
Van eerdere steekproeven - er een categorie respondenten ontstaat die éénmaal wel en éénmaal niet
Serespondeerd hebben. Deze studenten zijn tot de respondenten gerekend, behalve voor het blok waarin
Ze niet respondeerden. Bovendien zijn voor de blokken 4 en 6 recidivisten in het onderzoek betrokken.

-ocr page 160-

156 Vrijwilligerseffekten in tijdsclirijfonderzoek

Tabel 2: Tentamenresultaten van respondenten en non-respondenten over de gehele
jaargroep, (uitleg: zie tekst)

Toets

Tijdschrijvers

Non-respondenten

T-

P-

N

X

Sd

N

X

Sd

waarde

tweez.

BI

129

7.11

1.52

113

6.34

1.77

3.61

.000

B2

125

6.41

1.22

107

5.63

1.53

4.20

.000

B3

126

6.63

1.30

112

5.92

1.49

3.96

.000

B4 *

144

6.61

1.06

140

6.15

1.02

3.72

.000

B5

127

6.48

1.04

106

5.97

1.08

3.64

.000

B6*

142

6.48

1.38

138

6.00

1.40

2.83

.005

Tabel 3. Tentamenresultaten van respondenten en non-respondenten
steekproeven voor de betreffende blokken (uitleg: zie tekst)

Toets

Tijdschrijvers

Non-respondenten

T-

P-

N

X

Sd

N

X

Sd

waarde

tweez.

BI

97

7.11

1.48

93

6.33

1.79

3.27

.001

B2

93

6.40

1.16

88

5.59

1.53

3.98

.000

B3

95

6.62

1.29

90

6.04

1.55

2.76

.006

B4 *

117

6.61

1.07

110

6.13

1.05

3.34

.001

B5

105

6.54

1.04

76

5.95

1.15

3.63

.000

B6*

114

6.54

1.28

112

6.06

1.43

2.67

.008

B7 **

125

6.56

1.19

107

6.19

1.37

2.22

.027

Inclusief recidivisten; alle overige aantallen zijn exclusief recidivisten.
Aangezien voor dit blok geen afzonderlijk tijdschrijfonderzoek kon worden gehouden,
kan er dus ook geen steekproef voor dit blok worden afgetrokken van het totale aantal
respondenten en non-respondenten dat de toets voor blok 7 heeft afgelegd. Om deze
reden staat dit blok wel onder tabel 3 en niet onder tabel 2.

Tabel 2 geeft het geaccumuleerde resultaat weer van de procedure waarbij telkens een nieuwe
steekproef uit de jaargroep wordt getrokken, zodat bijna de gehele jaargroep in twee delen
wordt uitgesplitst: studenten die meewerken aan het onderzoek en studenten die deze
medewerking weigerden. Zoals te verwachten was uit het voorgaande zijn alle
verschillen
tussen respondenten en non-respondenten statistisch significant; respondenten behalen tel-
kens hogere gemiddelden. Tabel 2 geeft een indicatie van de grootte en de stabiliteit van het
verschil tussen beide groepen. Het resultaat vormt een duidelijke waarschuwing tegen de
generalisatie van door vrijwilligers verstrekte onderzoeksgegevens.

De gegevens in tabel 3 spreken eigenlijk voor zichzelf. Het maakt Icennelijk niets uit voor de

exclusief de

-ocr page 161-

Amos van Gelderen en Olie ten Cate 157

significantie van de verschillen in tabel 2 of men de steekproeven van de betreffende blokken
eruit verwijdert. M.a.w. tijdschrijvers behalen inderdaad over de gehele linie hogere toets-
resultaten dan non-respondenten, niet alleen voor het blok waarin zij tijdschrijven (wat de
stimuleringshypothese zou stellen), maar ook in de blokken daarvoor en daarna.

Het resultaat van deze tabellen ontslaat ons verder van de verplichting serieuze aandacht te
besteden aan de enige anomaUe voor de selectie-hypothese in bovenstaande grafieken,
namehjk het gemiddelde cijfer van de tijdschrijvers voor blok 4 op de toets van blok 1. Dit is
trouwens de enige van de (6x7=) 42 uitgevoerde metingen, waarbij non-respondenten een
hoger gemiddeld cijfer behalen dan de respondenten.

KONKLUSIES EN DISKUSSIE

De hierboven gepresenteerde resultaten zijn zeer eenduidig interpreteerbaar: de selectie-hy-
pothese is de enige van de twee genoemde hypothesen die de resultaten kan verklaren. Er
spreken drie argumenten tegen een stimuleringseffect van tijdschrijven:
~ respondenten scoren niet alleen hoger bij het blok waarvoor ze tijdgeschreven hebben,
maar ook bij andere blokken, zelfs voordat er überhaupt van stimulering sprake zou
kunnen zijn; dit kan alleen toegeschreven worden aan
\nislabiele kenmerken van de groep
respondenten.

~ het verschil tussen respondenten en non-respondenten (evenals het verschil tussen res-
pondenten en de niet-aangeschrevenen)
is niet groter voor het blok waarin tijdgeschreven
wordt; vaak is het zelfs kleiner dan bij andere blokken.
~ het
enige systematische verschil is het verschil tussen respondenten en non-respondenten;
dit is een fenomeen dat alleen op grond van de selectie-hypothese, en niet op grond van de
stimuleringshypothese verwacht zou worden.
Dit alles wijst op een selecde-effect, ook wel 'vrijwilligerseffect' genoemd. Bij deze konklusie
Zijn nog enige kanttekeningen te plaatsen. Tot nu toe zijn vooral de overeenkomsten tussen
dit onderzoek en dat van Crombag en Vos benadrukt. Er zijn echter ook verschillen in context
aan te wijzen die invloed kunnen hebben op de interpretatie. Een belangrijk verschil betreft
de soorten curricula waarop de beide onderzoeken betrekking hebben, respectievelijk een
propedeuse geneeskunde en een propedeuse rechtsgeleerdheid. Hiermee hangt een verschil
'n gemiddelde studielast samen. In de Gruyter e.a. (1982) wordt voor het onderzochte
studiejaar van Crombag en Vos een gerealiseerde gemiddelde studielast gerapporteerd van
955 uur, voor een programma dat op 1700 uur is begroot. Het is overigens onduidelijk of het
hier om een netto- of bruto bedrag gaat. (Bruto studielast geeft de totale tijd aan die studenten
'^wijt zijn als gevolg van hun studieverplichtingen: een college-'uur' geldt dan minstens als een
^tir; netto studielast is de zuivere studietijd.) In die 955 uur zijn in ieder geval netto
eollege-uren (3/4 uur) verwerkt. Deze (relatief lage) gerealiseerde studielast moet wel gezien
Worden in het licht van een (eveneens laag) numeriek rendement van 43% na de herkansin-
gen. Bij de propedeuse geneeskunde zijn deze gegevens respectievelijk 1460 gemiddelde
bruto studielasturen voor een 1700-uursprogramma, bij een numeriek rendement na de
•herkansingen van 70% (Ten Cate, 1984).

Een ander belangrijk verschil heeft betrekking op de intensiteit van de begeleiding in de
tWee curricula. Uit de Gruyter e.a. blijkt een gerealiseerde verhouding contacturen/zelf-
studie-uren van ongeveer 1:2 voor de betreffende propedeuse rechtsgeleerdheid. Voor de
propedeuse geneeskunde is deze verhouding ongeveer 1:1.
Het is niet direct duidelijk welke invloed deze verschillen zouden moeten hebben op dc

-ocr page 162-

158 Vrijwilligerseffekten in tijdsclirijfonderzoek

interpretatie van de resultaten van dit onderzoek. Het verschil in gerealiseerde zwaarte van de
gemiddelde studielast (955 tegenover 1460) is zeker een overdrijving van het werkelijke
verschil, omdat het eerste bedrag in ieder geval voor een deel bestaat uit netto studielast.
Bovendien is het verschil in numeriek rendement tussen beide curricula (43% tegenover
70%) wel erg groot. Duidelijk is dat de geneeskunde studenten gemiddeld harder studeerden
en ook betere studieresuUaten behaalden, bij een intensievere begeleiding, dan de rechten-
studenten. Enerzijds kan men stellen dat een stimuleringseffect van het bijhouden van de
bestede studietijd meer kans heeft zich voor te doen bij de betreffende rechten-propedeuse,
waar studenten minder studeren en slechtere resultaten boeken dan bij de geneeskunde
propedeuse. Anderzijds is een dergelijk effect juist heel moeilijk aantoonbaar wanneer veel
studenten weinig studeren, omdat, zoals onze resuhaten aantonen, een selectie-effect vrijwel
zeker ook optreedt, zodat betere studieresultaten van vrijwillige tijdschrijvers net zo goed het
gevolg kunnen zijn van de ongemotiveerdheid van de overige studenten. Bovendien is de
gemiddelde studielast van de geneeskunde studenten ook niet zo hoog, en is het aantal
contacturen ook niet zo groot, dat er geen speelruimte zou bestaan voor het optreden van een
stimuleringseffect. Dit alles overziende leidt ons tot de volgende konklusie. In de onderzochte
propedeuse geneeskunde deed zich uitsluitend een selectie-effect voor. De hierboven gepre-
senteerde resultaten hebben hiervoor voldoende bewijskracht. Gezien de sterkte van dit
aangetoonde effect voor de propedeuse geneeskunde en gezien het feit dat ook Crombag en
Vos op grond van hun onderzoek een (voorzichtige) voorkeur voor de selectie-hypothese
uitspreken, is het vrijwel zeker dat dit effect ook optrad bij de rechten-studenten. Om deze
reden zou elk tijdschrijfonderzoek dat met vrijwillige respondenten werkt rekening moeten
houden met de uit het selectie-effect voortvloeiende beperking van de generaliseerbaarheid
van de resultaten. Of er - naast dit selectie-effect - in sommige gevallen ook een (zwakker)
stimuleringseffect van tijdschrijven kan uitgaan is veel moeilijker te zeggen. Wij neigen tot de
suggestie dat een dergelijk effect aangetoond zou kunnen worden in laboratorium-experi-
menten, waar veel beter dan in onderwijsprogramma's gemanipuleerd kan worden met
taak-zwaarte, spreiding in de tijd en absolute tijdsduur.

Een dergelijk onderzoek zou echter interessanter zijn voor theoretische functie- en ar-
beidspsychologen dan voor onderwijs onderzoekers die nu eenmaal te maken hebben met
onderwijs-prioriteiten en deze niet ondergeschikt kunnen maken aan pogingen om condities
te creëren, waarin een hypothetisch effect eventueel zichtbaar kan worden.

Wij keren terug op de implicaties van de geldigheid van één van beide hypothesen voor de
validiteit van tijdschrijfonderzoek. Het optreden van een selectie-effect in de
aangetoonde
richting betekent dat er uitsluitend gesproken kan worden van een valide meting bij vrijwilli-
gers die bereid zijn hun studietijd bij te houden. Op dit moment valt op empirische gronden
niet te bepalen hoe de resultaten hiervan zich verhouden tot de studietijd van non-res-
pondenten. Aangezien tijdschrijfonderzoek meestal gedaan wordt met de bedoeling prakti-
sche beslissingen te nemen omtrent de zwaarte en de verdeling van de studielast voor
komende jaren is men gedwongen, onder deze omstandigheden, een besluit te nemen op
grond van onvolledige gegevens.

Het is uiteraard zaak zoveel mogelijk in het werk te stellen om de respons van een
steekproef te maximaliseren. Ook bij dit onderzoek is dit - binnen de beperkte mogelijkhe-
den - nagestreefd, d.m.v. het herhaaldehjk sturen van herinneringsbriefjes. Desondanks is cr
een aanzienlijke groep non-respondenten ontstaan, waarover geen studielastgegevens be-
kend zijn. Het blijkt dus de moeite waard enig houvast te hebben omtrent de verschillen

-ocr page 163-

Amos van Gelderen en Olie ten Cate 159

tussen vrijwilligers en non-respondenten, als men de resultaten van tijdschrijfonderzoek
interpreteert. Helaas is hieromtrent alleen bekend dat laatstgenoemden gemiddeld lagere
toetsresultaten behalen, en niet of dit het gevolg is van een geringere tijdsinvestering, van een
minder efficiënte tijdsbesteding, verkeerde studiegewoonten, geringere intellectuele ge-
schiktheid, geringere motivatie, of minder gunstige sociale omstandigheden waar sommige
studenten mee kampen.

Al deze mogelijkheden kunnen verschillende implicaties hebben voor de betekenis van de
gevonden studielast voor de zwaarte van het curriculum. Als bijvoorbeeld zou blijken dat
non-respondenten zich vooral onderscheiden door hun sociale omstandigheden, en aanne-
melijk is gemaakt dat dit verschil ten grondslag ligt aan hun lagere toetsresultaten, dan zou dit
moeten leiden tot een diskussie over de mate waarin het studieprogramma (qua studielast)
hiermee rekening moet houden, of in hoeverre men in deze sociale problemen te hulp moet
schieten.

Het is daarom aan te bevelen, gekoppeld aan een tijdschrijfonderzoek via vragenlijsten,
enquetes of interviews een verkennend onderzoek te houden onder zowel respondenten als
non-respondenten om de waarschijnlijkheid van een aantal van bovengenoemde verschillen
te kunnen bepalen.

Het is eenvoudiger mensen te bewegen tot het invullen van een vragenlijst of het beant-
woorden van interview-vragen dan ze weken lang nauwgezet hun studietijd te laten bijhouden
tegen een - meestal geringe - beloning. Op deze wijze kan men dus verwachten ook over
non-respondenten van het tijdschrijfonderzoek enige gegevens te krijgen. Bovendien hoeft
een dergelijk vragenlijstonderzoek niet te lijden onder grote tijdsdruk; het kan gespreid
Worden over een heel studiejaar, omdat men op zoek is naar vrij stabiele kenmerken van twee
groepen studenten.

Zolang een dergelijk onderzoek niet is uitgevoerd is men aangewezen op de gegevens van
een selecte groep vrijwilligers. Of deze gegevens valide indicatoren vormen voor de door
deze groep bestede studietijd is afhankelijk van andere mogelijke invaliderende effecten,
Zoals (bewuste) vertekening en gebrek aan precisie. Deze worden in andere publicaties over
tijdschrijfonderzoek ruimschoots belicht (zie bijv. Everwijn & Willemsen, 1972, Everwijn &
Muggen, 1973 en de Gruyter, 1982).

NOTEN

1- Onder een tijdschrijfonderzoek verstaan wij een onderzoek naar de studietijd van studenten, waarbij
zij tenminste dagelijks het aantal uren noteren dat zij aan de studie besteden.

2. Ten Cate cn Van Gelderen (1983 1 t/m 7)

3. Crombag en Vos rapporteren allemaal significante verschillen tussen tijdschrijvers en niet-tijd-
schrijvers, maar zij maken geen onderscheid tussen niet-tijdschrijvers en non-respondenten. Boven-
dien maken zij gebruik van p-waarden bij een eenzijdige toetsing, en zijn de aantallen studenten
waarover getoetst wordt bij hen veel groter.

LITERATUUR

Cate, Th.J. ten (1984). Eindrapport evaluatie propedeuse geneeskunde. Amsterdam: Afdeling Niet-

Primaire Onderwijsverzorging Geneeskunde, Universiteit van Amsterdam.
Cate, Th. J. ten, en A. van Gelderen (1983).
Evaluatie propedeuse, deelrapporten 1 t/m 7. Amsterdam:
Afdeling Niet-Primaire Onderwijsverzorging Geneeskunde, Universiteit van Amsterdam.

-ocr page 164-

160 Vrijwilligerseffekten in tijdsclirijfonderzoek

Crombag, H.F.M. en P. Vos (1982). De invloed van tijdschrijven op studie-inspanning en studiere-
suhaat.
Tijdschrift voor Onderwijsresearch, 7, 3, 97-108.

Everwijn, S.E.M. en G. Muggen (1973). Methoden voor het meten van studietijd. In: W.M. van
Woerden e.a.,
Onderwijs in de maak. Utrecht: Het Spectrum, 216-228.

Everwijn, S.E.M. en A.J.J. Willemsen (1972). Vaiidalieonderzoek naar methoden om studietijd te
meten.
Utrecht: Afdeling Onderzoek en Ontwikkeling van Wetenschappelijk Onderwijs,
Rijksuniversiteit Utrecht.

Glass, G.V., V.L. Willsson en J.M. Gottman (1975). Design and analysis of time-series experiments.
Colorado: Colorado Associates University Press.

Gruyter, D.N.M. de (1982). Studietijdmeting. Leiden: Bureau Onderzoek van Onderwijs, Rijksuni-
versiteit Leiden, Memorandum 686-82.

Gruyter, D.N.M. de, J.H. van den Heuvel, W.F. Langerak en E. Bakker (1982). Een tweede tijd-
schrijfonderzoek in de faculteit der Rechtsgeleerdheid; verslag van een onderzoek m.b.t. het
eerste propedeutisch semester in het studiejaar 1981/1982.
Bureau Onderzoek van Onder-
wijs, Rijksuniversiteit Leiden, rapport nr. 24.

Manuscript ontvangen 8-12-1983
Definitieve versie ontvangen 15-1-1985

-ocr page 165-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 161-178.

Vragen en vraagstrategieën

H. van der Meij

Vakgroep Onderwijskunde, Rijksuniversiteit Leiden

abstract

Questions and questioning strategies.

The importance of the understanding of questions has been proclaimed by many but the study of it
has been undertaken by few. As a result hardly anything is known about the conditions and
processes which are basic to questions. This article attempts both to describe this field of study and
the problems facing one who studies it. In the study we conducted the main experimental question
concerns the relationship between someone's open 'slots' in his cognitive structure and the
questions he asks. The experiment seems to elicit the most interesting data on aspects of
questioning we did not intend to investigate. Relevant concepts for the development of a theory of
questions are described.

Inleiding

De frequentie waarmee een leerling een vraag stelt aan de leerkracht is wel eens berekend op
ongeveer één vraag per maand voor 'social science' lessen (Susskind, 1979). En voorzover
'eerlingen op school vragen stellen zijn het vaak vragen die laag scoren in de taxonomie van
Idioom, te weten kennis- en begripsvragen (Marksberry, 1979).

Deze teleurstellende gegevens gaven de aanzet tot een aantal stimuleringsprogramma's
Waarin men tracht leerhngen vaker en beter te leren vragen stellen. Veel van deze pro-
gramma's richten zich op de leerkracht. Deze wordt geïnstrueerd vaker vragen van een hogere
(denk)orde te stellen, namehjk toepassings-, analyse- en synthesevragen. Er wordt veron-
dersteld dat de leerkracht een modellerend effect heeft op dc leerlingen. Naast het potentiële
effect op het niveau van de door de leerhngen aan de leerkracht gestelde vragen moet men
hierbij niet op de laatste plaats denken aan een toenemende bereidwilligheid van leerlingen
Om vragen te stellen.

Deze werkwijze voor het stimuleren van vraaggedrag door leerlingen is nogal gekritiseerd. Zo
suggereert Dillon (1982a, b), dat wanneer leerkrachten frequent vragen stellen er een
negatief effect op het stellen van vragen door leerlingen te verwachten valt. Hij beargumen-
teert dit door onder meer te verwijzen naar de werkwijze van therapeuten en interviewers die
juist door meer terughoudend te zijn in het aantal vragen dat zij stellen hun interactiepartners
'Spraakzamer trachten te krijgen. Een ander kritisch punt is het gegeven dat de vragen van de
'eerkracht meestal geen 'echte' vragen met betrekking tot de leerstof zijn, geen vragen waarop
de leerkracht zelf ook een antwoord zoekt. Het zijn vragen bedoeld om de kennis van de
'eerlingen te tappen. Beoordeeld naar de leerstof zijn het 'known information questions' die
eontrasteren met 'information seeking questions' (Mehan, 1979). De merkwaardige situatie
doet zich dan voor dat dc leerkracht een gedrag modelleert dat niet zozeer nieuwsgierigheid,

-ocr page 166-

162 Vragen en vraagstrategieën

het willen weten van nieuwe zaken over de leerstof, representeert, maar dat het controleren
van de interactie beoogt. Dit is tegengesteld aan het beoogde modeleffect op de leerlingen.
Deze dubbelrol met betrekking tot het stellen van vragen door leerkrachten wordt in veel
stimuleringsprogramma's helaas niet onderkend.

Vanuit sociologisch gezichtspunt bezien valt te verwachten dat de effecten van deze
programma's beperkt zullen zijn wanneer zij zich uitsluitend richten op een veranderd
vraaggedrag van de leerkracht. Mishler (1975; 1978) wijst er bijvoorbeeld op dat in situaties
waarin een machtsverschil bestaat tussen personen, degene met de grootste macht de inter-
actie zal willen controleren. Nu bepaalt een vraag meestal de richting van de interactie. Het is
daarom te verwachten dat leerkrachten op leerlingvragen zullen reageren door zelf vragen te
gaan stellen (zie Van der Meij, 1983).

Een laatste punt van kritiek is dat de werkwijze nogal indirect is. Leerlingen moeten leren
uit het vraaggedrag van de leerkracht de modus van hoger orde vragen stellen te destilleren.

Een andere wijze waarop men het stellen van vragen door leerlingen dan ook heeft willen
stimuleren, is door het direct onderwijzen van vaardigheden in het stellen van vragen. Op dit
terrein kenmerken de activiteiten zich, behalve door hun beperkte omvang, doordat zij noga!
gevarieerd van aard zijn. Zonder deze kritisch te bespreken geven wij daarom slechts enkele
illustraties van deze benadering.

Soms maakt men gebruik van gedragsmodificatie technieken om de leerlingen tc stimuleren
in het stellen van (meer) vragen (Dükes, 1982). Voorts zijn er een aantal instructicprogram-
ma's waarbij men de leerlingen leert vragen van verschillende niveaus te stellen. Dit gebeurt
door hen te confronteren met de taxonomie van Bloom, toegesneden op vraagniveaus, en
deze te leren hanteren bij het stellen van vragen (Sadker & Cooper, 1974; OImo, 1975;
Glover & Zimmer, 1982). Een andere werkwijze wordt gevolgd in de 'inquiry training
programs' (Suchman, 1961; Nash & Torrance, 1974). Suchman splitste het zoekproces op in
een aantal probleemanalyse- en oplossingsfasen en leerde de leerlingen zelf informatie te
verzamelen en te ordenen. Voor elke fase maakten de leerlingen zich een aantal heuristische
procedures eigen, die als leidraad fungeerden bij het stellen van de vragen. Laatstgenoemde
werkwijze kan men zien als representant van programma's waarin men tracht het (leren)
denken en vooral het (leren) probleem oplossen te ontwikkelen. Suchman ging daarbij uit van
een relatie tussen dergelijke vaardigheden en het stellen van vragen. Dit is een
interessant
standpunt, omdat in veel onderzoek rond probleem oplossen een dergelijk verband niet wordt
vermeld (Sicgler, 1977; voor een uitzondering zie Getzels et al., 1976).

Beide benaderingen: het stimuleren van leerlingvaardigheden in het stellen van vragen en
de verandering van leerkrachtvragen, vormen tezamen de 'instructional design' kant van de
zaak; de werkwijzen die men volgt om het vragen stellen te stimuleren. Daarbij gaat men
kennelijk uit van een aantal (impliciete) noties omtrent de genese van vragen, aannamen over
de processen en condities waaronder een vraag ontstaat. In dit artikel willen wij ons
expliciet
richten op deze fundamentele aspecten van het vragen.

Dit onderzoeksterrein is nauwelijks betreden. Er zijn wel enkele interessante aanzetten
gegeven die echter helaas zonder vervolg zijn gebleven (Beriyne, 1965; Shulman, 1965;
Berlyne & Frommer, 1966; Allender, 1969; 1970).

Het is daarom interessant zowel de methoden van onderzoek alsmede de onderzoeksvragen
cn uitkomsten te bestuderen van de handvol meer recente onderzoeken op dit terrein. Deze
onderzoeken richten zich op twee onderzoeksvragen:

1) hoe het komt dat iemand vraagt, en

2) hoe het komt dat iemand juist dät vraagt.

-ocr page 167-

H. van der Meij 163

Het onderzoek kan als volgt worden gekenschetst: men bepaalt vooraf het kennisniveau van
de proefpersonen (Miyake & Norman, 1979; Flammer et al., 1982a, b), of men veronderstelt
dat deze aan minimale eisen voldoet (Schwarz-Türler, 1980; Flammer et al., 1981a; Home,
1983). Vervolgens legt men de proefpersonen een taak voor en stelt men hen in de gelegen-
heid vragen te stellen. Soms moeten de proefpersonen wel vragen stellen omdat dat de enige
mogelijkheid is om de taak op te lossen; soms maken de vragen deel uit van het taakgerichte
gedrag (men leest bijvoorbeeld een tekst en stuit op moeilijkheden).

De verschillen tussen de diverse taken zijn groot. In de experimenten van Flammer et al.
(1982a, b) moeten de proefpersonen bijvoorbeeld een chocolade mousse maken, terwijl de
proefpersonen bij Miyake en Norman (1979) een tekstverwerker leerden bedienen met
behulp van een handleiding. Criteria betreffende de keuze voor deze taken ontbreken. Men
onderzoekt de verbanden tussen iemands voorkennis en de frequentie en inhoud van zijn
vragen. De algemene conclusie is dat een zeker kennisniveau interacteert met het stellen van
vragen. Wie met te weinig kennis begint is niet in staat om via het stellen van vragen
problemen op te lossen of teksten te begrijpen. Wie met teveel kennis begint heeft geen
behoefte aan vragen.

Hoewel de meeste onderzoeken zich voornamelijk richten op de kwestie öf men vraagt,
respectievelijk d^t men vraagt, is er wel enig onderzoek naar
wat men vraagt. Schwartz-Türler
(1980) bijvoorbeeld, liet volwassenen een sterk dan wel zwak gedeformeerde tekst lezen en
ontdekte dat het soort vragen varieerde met de mate van tekstdeformatie. Wanneer de zinnen
in een toevallige volgorde in de tekst waren geplaatst (= sterke deformatie), dan lagen de
vragen vooral op macrostructureel niveau; was de tekst min of meer normaal (= zwakke
deformatie), dan werden er meer vragen gesteld over details. Deze uitkomsten sluiten aan bij
wat men op grond van 'common sense' zou verwachten.

In een onderzoek van Flammer et al. (1981a) vinden we een meer gedetailleerde opzet.
Waarbij de relatie werd onderzocht tussen iemands geactiveerde cognitieve structuur en de
Vragen die hij stelt. Dit onderzoek bespreken wij hier meer uitvoerig omdat het dc basis vormt
Voor de eigen studie.

Flammer et al. (1981a) vroegen volwassen proefpersonen een oproep voor ooggetuigen tc
schrijven. Deze oproep moest betrekking hebben op een recent ongeluk waarbij de automo-
bilist was doorgereden. De proefpersonen konden inlichtingen over het ongeluk inwinnen via
Vragen die zij moesten stellen aan één ooggetuige. Men moest al zijn vragen stellen alvorens
de oproep te schrijven. De belangrijkste onderzoeksvraag was de vraag of dc proefpersonen
ook om die informatie zouden vragen die men later nodig had voor het schrijven van de
pproep. Met andere woorden, in welke mate de inhoud van zo'n oproep bepalend was voor de
mhoud van dc vragen.

Er werd verondersteld dat de proefpersonen bekend waren met het schema van een
dergelijke oproep. Dit schema vatte men op als de geactiveerde cognitieve structuur van de
Proefpersonen. Het schema werd geconstrueerd met behulp van de grammatica van Rumel-
hart (1975). Voordat wij dit schema bespreken, plaatsen wij enkele kanttekeningen bij dit
uitgangspunt. Op de eerste plaats staat de grammatica van Rumclhart ter discussie als
geheugenmodel (zie Kintsch & Van Dijck, 1978; Bower, 1982; Micko, 1982). Op de tweede
plaats bepaalt het schema niet slechts de inhoud van dc oproep, maar wordt er tevens ccn
bepaalde volgorde geïndiceerd. Flammer et al. bespreken dit volgorde aspect als zijnde een
niinder belangrijk gegeven. Wanneer men echter spreekt van een 'cognitieve structuur', dan
Verwijst men naar een
georganiseerd systeem van kennis. Dit impliceert naar onze mening dat
bepaalde kenniselementen zijn samengevoegd in 'clusters', «i dat de volgorde tussen en soms

-ocr page 168-

164 Vragen en vraagstrategieën

binnen clusters een bepaalde regelmaat kent. Bovendien zijn inhoud en volgorde daarbij niet
altijd goed van elkaar te (onder)scheiden. Op deze problematiek gaan wij hier niet verder in.

Het schema (zie figuur 1) is onderverdeeld in drie niveaus; niveau 1 omvat de drie meest
algemene elementen, te weten de situatie, het gebeuren en de oproep. Op niveau 2 wordt elk
van deze elementen verder uitgesplitst, waarbij voor sommige elementen geen verdere
detaillering volgt (bijvoorbeeld reactie dader). Niveau 3 representeert de na te vragen
elementaire informatie-eenheden, zoals de straat waar het ongeluk plaatsvond, de datum, het
aantal gewonden, enz.. Elementen die tussen haakjes zijn gezet vormen de niet-essentiële
onderdelen van de oproep.

De uitkomsten van het experiment waren als volgt: Dc inhoud en de volgorde van elementen
in de
oproepen die de proefpersonen schreven, kwamen zeer goed overeen met het gecon-
strueerde schema. Kennelijk leek daarom de aanname gerechtvaardigd dat men tijdens het
schrijven beschikte over deze kennis. Het
vraaggedrag bleek op minder overtuigende wijze te
corresponderen met de schematische structuur; er deden zich zowel inhoudelijk als sequen-
tieel onvoorziene zaken voor.

Betreffende de inhoud van de vragen werd het volgende opgemerkt. De proefpersonen
deden weliswaar navraag naar het merendeel van de in het schema beschreven inhoudelijke
elementen, maar het kwam toch ook geregeld voor dat zij onvoorspelde vragen stelden of dat
verwachte vragen uitbleven.

Voor de ontwikkeling van een theorie van vragen zijn dit interessante fenomenen. Waarom
stelt men vragen die niet essentieel zijn voor de taak, en waarom stelt men soms geen vragen
als men weet dat men informatie nodig heeft?

Flammer et al. doen de volgende suggesties ten aanzien van de niet-essentiële vragen;
(a) De proefpersonen informeren soms naar zaken waarin zij persoonlijk geïnteresseerd zijn.
Deze interessen kunnen afwijken van wat men verwacht of wensehjk acht. Omdat deze
subjectieve prioriteiten een belangrijke rol spelen bij de keuze van de vragen, is het belangrijk
dat men voor het begrijpen van iemands vragen diens doelen kent (Flammer, 1981b). In dit
verband kan men denken aan het uitgangspunt dat sommige proefpersonen lijken te volgen;
eerst via vragen je een zo volledig mogehjk beeld van het ongeluk te vormen en vervolgens
een selectie uit de antwoorden gebruiken voor de oproep, (b) Sommige elementen die nu
niet-essentieel zijn, zijn dit slechts door wat zij in concreto in het ongeluk inhouden. Wanneer
iemand bijvoorbeeld naar de grootte van de schade vraagt en hoort dat er slechts geringe
materiële schade is toegebracht, komt dit niet in de oproep te staan omdat het
antwoord
weinig informatiewaarde voor de eventuele ooggetuigen heeft. De vraag of iemand vaker
essentiële dan niet-essentiële elementen afvraagt is derhalve niet goed te beantwoorden,
gezien in dit perspectief. Op voorhand kan de vraagsteller soms niet weten of het om al dan
niet essentiële informatie gaat. (c) De proefpersonen stellen soms vragen die, formeel gezien,
overbodig zijn, bijvoorbeeld als zij weten op welk uur van de dag het ongeluk plaatsvindt cn
toch navraag doen of het ongeluk 's morgens of 's avonds gebeurde. Flammer et al. noemen dit
bevestigingsvragen, bedoeld om een restant onzekerheid op te heffen. Een alternatieve
verklaring zou kunnen zijn dat men het eerdere antwoord is vergeten of onvoldoende
gebruik
maakt van dc beschikbare informatie; de vragen zijn dan niet ter bevestiging van iets wat men
al denkt te weten. Het is overigens niet duidelijk op welke wijze de auteurs
bevestigingsvragen
operationaliseren.

In verband met de vragen die niet worden gesteld maar wel waren verwacht, wordt gewezen
op het belang zicht te krijgen op de vraag hoe inferenties tot stand komen en onder welke
condities men infereert in plaats van te vragen, of vraagt in plaats te infereren (zie punt c
boven).

-ocr page 169-

H. van der Meij 165

K

O

■O

3

n

■S

0

s-

n

3

1
n

O

(3

n>

O
<

n
3

n>
n
3

T
O
O

3

D.

5"

OQ

3

-ocr page 170-

166 Vragen en vraagstrategieën

De volgorde in het schema bleek een nogal matige voorspeller van de vraagvolgorde. Als de
proefpersonen deze schematische structuur in het hoofd hadden op het moment van vragen èn
deze zouden volgen voor de te stellen vragen, dan zou de vraagstrategie bestaan uit het
'aflezen' van dit schema (als het ware alsof men met een boodschappenlijst door een super-
markt loopt). Slechts enkele proefpersonen stelden hun vragen echter in de verwachte
volgorde. Anderen leken het schema te volgen, maar 'vergaten' hier en daar elementen na te
vragen. Deze ontbrekende informatie werd later in de goede volgorde opgevraagd. Deze
werkwijze noemde men de 'herhaalde stapsgewijze strategie'. Het merendeel van de
proefpersonen volgde een 'gebeurtenis-georiënteerde strategie'; dit hield in dat zij het ge-
beuren intensief afvroegen en daarbij ook uitkwamen op de overige na te vragen elementen.
Flammer et al. suggereren dat de proefpersonen wel beschikten over het schema op het
moment van vragen stellen, maar dat zij om verschillende redenen ertoe besloten hiervan af te
wijken. Welke deze redenen zouden kunnen zijn wordt door de auteurs echter niet bespro-
ken. Verondersteld wordt dat de proefpersonen kennelijk zo bekend zijn met het schema dat
zij tot alternatieve strategieën in staat zijn zonder het zicht te verliezen op de taak.

2. Probleemstelling

Het onderzoek tracht op dc eerste plaats op een exploratieve wijze het onderzoeksterrein van
de genese van vragen te verkennen. Wij gaan daarbij uit van dezelfde twee algemene vragen
uit het experiment van Flammer et al. en onderzoeken enkele van de door hen genoemde
concepten nader. Indien het zo is dat de doelen die een proefpersoon zich stelt een belangrijke
factor vormen bij de keuze van de te stellen vragen, dan is het wenselijk dat deze doelen zoveel
mogelijk onder controle worden gehouden. Wij hebben daarom een deel van de leerlingen
geïnstrueerd om zich te beperken tot essentiële vragen.

Uitgaande van een conditie waarin de leerlingen geen ander doel nastreven dan het vragen
om de meest essentiële informatie kan dan worden gekeken naar verschillen in het gedrag van
leerlingen die eigen interessen in het vragen naar voren mogen laten komen. Volgens
Flammer et al. beschikten hun proefpersonen tijdens het stellen van de vragen over het
vooronderstelde schema, maar leken zij tevens alternatieve vaardigheden te hebben,
welke
ertoe leidden dat de volgorde waarin zij hun vragen stelden matig met dit schema correspon-
deerde. Kiest men nu leerlingen waarvan men verwacht dat zij wel over het schema beschik-
ken, maar niet vaardig genoeg zijn om hiervan af te wijken tijdens het vragen stellen, dan zou
een goedp correspondentie moeten worden gevonden. Op deze manier kan worden nagegaan
in hoeverre de tekstgrammatica functioneert als basis voor het vraaggedrag, terwijl tevens
allerlei inferentiële processen beter kunnen worden geïnterpreteerd.

3. Methode

3. /. Proefpersonen

Veertig leerlingen van twee vijfde klassen van ecn basisschool namen deel aan het onderzoek-
De leerlingen werden op willekeurige basis over de twee condities verdeeld.

3.2. Procedure

De leerlingen werden individueel onderzocht en de volledige bi"jeenkomst werd op ccn
cassetteband opgenomen. De leerling vernam dat er ecn vraag-antwoord spelletje zou gaan

-ocr page 171-

H. van der Meij 167

worden gespeeld, waarbij de leerling de vragen mocht stellen en de proefleider zou antwoor-
den. Teneinde de leerling te gewennen aan de speciale antwoordwijze en vereiste vragenwijze
kregen zij eerst een oefentaak te vervullen. In de oefentaak moest de leerhng de proefleider
vragen stellen over een voetbalwedstrijd met het doel over de wedstrijd een verslag voor een
krant te kunnen schrijven. Er werd uitdrukkelijk op gewezen dat de leerling moest proberen
alles wat hij te weten wilde komen over die wedstrijd moest vragen voordat hij aan de tekst
begon. Na het vragen stellen werd de oefentaak beëindigd. De leerhng kreeg vervolgens te
horen dat hij een oproep voor ooggetuigen van een auto-ongeluk moest schrijven. Opnieuw
kon de leerhng vóór het maken van de oproep de proefleider om informatie over het ongeluk
vragen. In tegenstelhng tot de oefentaak moesten de leerhngen na het vragen stellen wel de
oproep schrijven. De leerhngen werden in twee groepen ingedeeld. Elk van deze groepen
kreeg een aparte instrucde. In de
essentie-conditie werd het volgende toegevoegd aan de
standaard-instructie:

'Je moet proberen met zo weinig mogelijk vragen toch een goed stukje te schrijven. Als je een
Vraag vergeet te stellen die je eigenlijk zou moeten stellen is dat een beetje jammer, maar als je een
Vraag stelt die niet echt nodig is om het stukje te kunnen schrijven, is het ook een beetje jammer.
Ik kan je niet vertellen welke vragen je echi nodig hebt voor het stukje, dat moet je dus zelf
uitzoeken. Begrepen?'

In de interesse-conditie luidde de toegevoegde instrucde als volgt;
'Probeer straks niet alleen dat te vragen wat je nodig hebt om het stukje te kunnen schrijven,
maar ook vragen te stellen die je leuk vindt of die je misschien nodig hebt'.

In onderzoek naar vragen blijkt nogal eens een grote variantie voor te komen in het aantal
gestelde vragen. Sommige auteurs denken hierbij zelfs aan het bestaan van een habitus van
kinderen in de hoeveelheid vragen die zij stellen. Wij gingen daarom ter controle na of de
'eerlingen in de twee condities sterk van elkaar verschilden in het aantal vragen dat zij stelden
in de oefentaak.

De door Flammer et al. beschreven procedure voor de beantwoording van vragen bleek
djdens een voorstudie onvoldoende in te spelen op een aantal 'communicatieve' problemen.
Het was daarom noodzakelijk een speciale antwoordstrategie te hanteren teneinde de meest
Voorkomende moeilijkheden op een standaardwijze op te lossen. Deze strategie bestond uit
Zeven regels:

Regel I: Als de proefleider niet weet waar een vraag naar refereert, dan beantwoordt hij de
Vraag met een wedervraag. (Bijvoorbeeld: Vraag: 'Wat gebeurde er?' Antwoord: 'Wat wil je
precies weten?').

Regel 2: Als een vraag met meerdere antwoorden van dezelfde 'eindtak" te beantwoorden is,
dan wordt deze beantwoord met een antwoord dat toevallig gekozen is uit de set van
elementen. (Bijvoorbeeld: Vraag: 'Waar vond het ongeluk plaats?' Antwoord: 'In Am-
sterdam' 6f 'In de Kalverstraaf).

Regel 3: Als er vragen komen die uitgaan van een foutieve aanname, dan worden die niet
beantwoord. De achterliggende assumptie wordt ontkend. (Bijvoorbeeld: Vraag: 'Was die
nian in de auto gewond?' Antwoord: 'Er zat niemand in de auto").

-ocr page 172-

168 Vragen en vraagstrategieën

Regel 4: Wanneer een leerling meer dan één vraag stelt, wordt er maar één beantwoord, en
wel de eerste vraag. De leerling moet de overige vragen herhalen als hij daarop een antwoord
wil ontvangen. (Bijvoorbeeld: Vraag: 'Waar was de ooggetuige op het moment van het
ongeluk? Wat deed hij daar? Heeft hij alles vanaf het begin gezien?' Antwoord: 'De oogge-
tuige bevond zich op ongeveer 50 meter van de plaats van het ongeluk').

Regel 5: Wanneer het onduidelijk is of de leerling zichzelf een vraag stelt of deze vraag aan de
proefleider stelt, wordt gevraagd of de leerling dit aan de proefleider vraagt. (Bijvoorbeeld:
Vraag: 'De Kalverstraat is toch een wandelstraat?' Antwoord: 'Is dat een vraag?').

Regel 6: Vragen die begonnen worden met 'weet je' of'mag ik vragen ...' worden beantwoord
volgens hun inhoudehjke bedoeling, niet op het formele kenmerk. (Bijvoorbeeld: Vraag:
'Weet je ook in welke richting de Mercedes wegreed?' Antwoord: 'ln noordelijke richting').

Regel 7: Vragen over de inhoudelijke eisen van de oproep worden niet beantwoord. (Bijvoor-
beeld: Vraag: 'Hoe moet het verslag er uit zien?' Antwoord: 'Dat moet je zelf bepalen').

De eerste twee regels corresponderen met die van Flammer et al. De derde regel verdient
speciale aandacht. Dit is de enige regel waarmee de leerling informatie krijgt die hij niet heeft
opgevraagd. De regels 4 t/m 6 richten zich meer op het interactionele dan op het referentiële
aspect.

Deze regels werden in een voorstudie met zowel volwassen proefpersonen («=10) als
basisschool-leerlingen (n=10) uitgetest. In deze voorstudie werd ook een aantal in figuur 1
opengebleven 'details' ingevuld (zie paragraag 4.4).

4. Resultaten

De belangrijkste onderzoeksvraag betreft de voorspelbaarheid van de inhoud van de vragen.
Wij gingen echter eerst na of de
oproep van de leerlingen correspondeerde met het schema. Er
werd daarbij gekeken naar de overeenstemming qua inhoud en de gelijkheid in volgorde.
Aldus werd het uitgangspunt getoetst of dc leerlingen over het vooronderstelde 'oproep-
schema' beschikten. Vervolgens werden de gestelde
vragen geanalyseerd naar inhoud cn op
volgorde. Tenslotte werden de twee condities met elkaar vergeleken. De scoring werd op de
volgende wijze berekend. Per element (= eindpunt van een 'tak') werd genoteerd welk
percentage van de leerlingen deze basisinformatie vermeldden in hun oproep. Dc vermelding
van één of meer van de basiselementen van ccn hoger gelegen aspect was voldoende voor een
aanwezigheidsscore op de niveaus 1 en 2. De oproep en het schema zijn te vergelijken op (a)
alle inhoudelijke aspecten op alle niveaus cn (b) meer gedetailleerd naar onderscheiden
essentiële en niet-esscntiële onderdelen. Omdat er geen normen beschikbaar waren werd het
volgende overeenkomst criterium gekozen: Het percentage leerlingen dat een essentieel
element noemde moest minimaal 75 zijn en het percentage leerlingen dat niet-essentiëlc
elementen noemde moest tussen de 50 en 75 liggen.

De 'fit' tussen de oproepen en het schema is mager: op niveau 1 wijkt het oproepgedeeltc af.
op niveau 2 en 3 zijn zowel essentiële als niet-essentiële onderdelen onvolledig aanwezig (zie
figuur 2).

-ocr page 173-

H. van der Meij 169

CM

cn

3

3

2

n)

cfl

(U

(U

01

>

>

>

•.nl

'T-l

z

z

c

<u

u
u

c

ca

C3

3
u

TJ

<u
&0

n

u

S ii'

u
E
ü
"u

u
•O

n

u

E

O

0

c ®

1 §

O 2

fli "o
•O -

C 1»
00

<N)

.1

-ocr page 174-

170 Vragen en vraagstrategieën

Als men de oproepen van de leerlingen uit beide condities onderling vergelijkt, is er sprake
van een goede overeenkomst. Alleen ten aanzien van de aspecten 'stad' cn 'uur' zijn de
verschillen groter dan 25%. Kennelijk is er dus sprake van een gemeenschappelijke tekst-
inhoud voor de leerlingen van beide condities. Een inhoud die afwijkt van het vooronderstel-
de schema.

Omdat onder een cognitieve structuur een georganiseerd systeem van kennis op een bepaald
gebied wordt verstaan, is het noodzakelijk dat tevens een indruk wordt verkregen van de
correspondentie tussen de
volgorde vermeld in de oproepen en de volgorde in het schema.
Deze correspondentie wordt als volgt berekend: per niveau wordt gekeken hoe vaak de
elementen of 'zijtakken' in een andere volgorde staan dan in het schema. De score wordt
uitgedrukt in een percentage van het aantal mogelijke volgorde vergelijkingen per niveau en
is ongevoelig voor lacunes in de oproep (zie Flammer et al. voor een meer gedetailleerde
beschrijving van de scoringswijzen).
De resultaten waren als volgt (zie tabel 1):

Tabel 1 Proporties omkeringen in de oproep per niveau en conditie

condities

niveau 1

niveau 2

niveau 3

essentie

0.20

0.27

0.39

interesse

0.20

0.29

0.31

Uitgaande van een criterium van 25 %, is er alleen op niveau 1 - het meest abstracte niveau -
sprake van een correspondentie tussen de volgorde in de oproep en die van het schema. Op de
beide andere niveaus is de volgorde afwijkend. Het zwaartepunt van deze omkering ligt bij de
'situatie' en het 'gebeuren', het 'oproep'-gedeelte is meer standaard aan het eind van de tekst
geplaatst. De aanname dat de oproep is geschreven met behulp van het veronderstelde
schema, wordt op grond van bovenstaande resultaten betwijfeld.

4.1. Vraaginhoud

Omdat de leerlingen kennelijk niet beschikten over de veronderstelde cognitieve structuur
was een vergelijking tussen de nagevraagde elementen cn het schema uiteraard niet zinvol-
Als we echter de vragen vergelijken met dc oproepen, dan is de correspondentie redelijk (zie
figuur 3).

In de 'situatie' is de overeenkomst goed. Bij het 'gebeuren' en dc 'oproep' zijn een aantal
verschillen te zien. Een verklaring hiervoor is dat de leerlingen enkele elementen niet hoeven
te vragen omdat deze vooraf zijn gegeven ('oproep voor ooggetuigen', 'dader is doorgere-
den'). Op andere plaatsen wordt wel gevraagd maar niet opgeschreven ('geen doden' bijvoor-
beeld). Dit illustreert het eerder geconstateerde probleem dat een vraag op het eerste
gezicht
wel interessant of essentieel kan lijken, maar dat het verkregen antwoord niet de moeite
waard blijkt om in de oproep te worden vermeld. Een aantal vragen was niet voorzien. Zo
stelden de leerlingen regelmatig vragen over de ooggctuige(n) (14 leerlingen in de essentie-
conditie en 16 in dc interesseconditie). Minder vaak werden er vragen gesteld over de acties

-ocr page 175-

H. van der Meij 171

3
CO

•rl

Z

3
ra

s:

•rJ

3
ra

<u
>

■5 i;

c S
u _

c

2

O cy
g|

> T3

U U

^ 3
<u

0X1

O O
t- O

O 1/1

ll

ra c

ra
ra

u

>

60 P

<u

u

s

>

c

ra
^

1

(N

.C

ra
ra

O

ra

E

0
•O

>
C

■ë

u

bO

IJ

E

ra
00

ra

2
>

(U
T3
u
60

g g

I ï

II
II

II

0)

a> «H

•U .p^
•H TJ

|!g
C O
u I

I <u
c .' m

• rJ (O

u (U

C M

U 01

n u
w c
e) -H

ï -2

II II

i

-ocr page 176-

172 Vragen en vraagstrategieën

van de politie. Over het geheel genomen blijken beide condities goed overeen te komen op
punten waar men wel vraagt maar niet opschrijft en omgekeerd.

4.2. Vraagvolgorde

Per individuele leerling analyseerden wij de volgorde waarin deze zijn vragen stelde. Zoals te
verwachten viel, bleek geen enkele leerling de vragen in een volgorde te stellen die exact
correspondeerde met het schema. Dit was trouwens ook de bevinding van Flammer et al.. Zij
ontdekten echter tevens dat hun proefpersonen wel hun vragen in de verwachte volgorde
bleken te stellen, maar hier en daar elementen oversloegen om deze, als het ware in een
tweede vragenronde, alsnog op te vragen. Deze 'herhaalde stapsgewijze strategie' werd door
ongeveer 40% van de leerlingen gevolgd. Er bestond daarbij vrijwel geen verschil tussen de
twee condities. Dit resultaat bekijken wij met enig wantrouwen vanwege de matige cor-
respondentie tussen de oproep van de leerlingen en het schema. Slechts 10% van de leerlingen
gebruikte een 'gebeurtenis-georiënteerde strategie'. Deze werkwijze heeft als uitgangspunt
een uitvoerige analyse van het gebeuren. Gedurende het afvragen van het gebeuren komen
ook allerlei vragen over andere elementen aan de orde.

De overige leerlingen stelden hun vragen in een volgorde waaruit geen duidelijke strategie
bleek. De overeenstemming tussen de twee condities qua inhoud suggereerde echter wel een
gemeenschappelijke basis. Het leek daarom nuttig om de vraagvolgorden meer in detail te
onderzoeken. Wellicht volgden de leerlingen allerlei substrategieën waardoor het ontdekken
van een algemene strategie in hun vraaggedrag werd bemoeilijkt. Zo werd onder meer
onderzocht in hoeverre de leerlingen elementen van éénzelfde aspect groepeerden. Dus
bijvoorbeeld achter elkaar diverse vragen over de tijd van het ongeluk stelden. Ook deze
analyses leidden niet tot een duidelijk beeld van (sub)strategieën van waaruit het vragenstel-
len kon zijn georganiseerd.

4.3. Essentie- versus interesse-vragen

Het lag in de bedoeling de scores op de essentie-conditie tc gebruiken als een basisniveau
vanwaaruit allerlei verschillen in de interesse-conditie beter te interpreteren zouden zijn.
Omdat de beide condities te sterk overeenstemden, kon deze analyse niet worden uitgevoerd.

Voorafgaande aan de kwalitatieve analyse van vragen van de leerlingen, werd gecon-
troleerd of beide groepen leerlingen vergelijkbaar waren in de hoeveelheid gestelde vragen.
Zoals uit tabel 2 blijkt, verschillen de twee condities niet op de oefentaak en ook niet op de
experimentele taak.

Er zijn in beide condities nogal grote verschillen tussen de diverse leerlingen, zoals kan
worden afgeleid uit de spreiding en standaard afwijking. Door verschillende auteurs wordt
gewezen'op de mogelijkheid dat verschillen tussen leerlingen in het aantal vragen dat zij
stellen een min of meer stabiel persoonlijkheidskenmerk is (o.a. Suchman, 1961; Allender,
1969; Nash & Torrance, 1974). Deze mogelijkheid werd onderzocht door middel van een
berekening van de correlatie tussen oefen- en experimentele taak. Een significant verband
werd niet gevonden in de interesse-conditie (i=. 11), maar wel in de essentie-conditie (r= .79,
F=5.47, p:.001; ook Miyake & Norman [1981] vonden een significante correlatie van i=.66
tussen oefen- en experimentele taak). De vraag of er zoiets bestaat als een habitueel patroon
van vragen stellen, blijft daarom interessant (vergelijk Torrance's 'question asking test',
1970).

-ocr page 177-

H. van der Meij 173

Tabel 2 Gemiddeld aantal vragen, spreiding en standaardafwijking per conditie en taak

conditie

oefentaak

oproep

essentie

x= 13.55

x= 14.05

S.D.= 7.87

S.D.= 6.47

spreiding: 3-36

spreiding: 7-33

interesse

x= 15.3

x= 15.05

S.D.= 5.72

S.D.= 4.93

spreiding: 7-29

spreiding: 9-23

4.4. Vraag-antwoord interactie

Het geven van antwoord op de verloopvragen (niveau 3) van de leerlingen was niet altijd
eenvoudig. Veel leerlingen beginnen namelijk met heel algemene vragen, zoals 'Hoe is het
gebeurd?', waarbij zij kennelijk een specifiek antwoord verwachten op deze algemene vraag.
Het is mogehjk dat de vraag representatief is voor de vage cognitieve structuur vanwaaruit zij
het vragen stellen aanvangen. Wat ons hier evenwel interesseert, is de methodologische
problemen die het oproept voor de antwoordgever. Onder het kopje 'verloop' wordt door de
proefleider verstaan vragen over
wat er is aangereden, in welke situatie dit gebeurde en wat de
oorzaak
van het ongeluk is. De vage verloopvraag 'Hoe is het gebeurd?' geeft dus nogal wat
antwoordmogelijkheden. Op grond van antwoordregel 1 werd de vraag weer naar de leerling
teruggespeeld. Op de volgende wijzen ontdekken dc leerlingen de verloop-gegevens.

Het afvragen van de uaz-vraag gaat als volgt: bijna de helft van de 25 leerlingen die
hieromtrent een vraag stellen, vraagt min of meer direct wat er is aangcreden:'Wat heeft die
aangereden?', 'Waren het twee auto's op elkaar of een auto en een bromfiets?'. Ongeveer een
kwart van de leerhngen stelt eerst een algemene vraag als: 'Hoe is het gebeurd?' (Antwoord:
Wat wil je precies weten?) en vraagt vervolgens nog steeds algemeen verder: 'Wat er dan
gebeurde' (Antwoord: wat wil je precies weten?'). Als een leerhng er na dfie van deze vragen
nog niet in was geslaagd te specificeren wat hij precies wilde weten, werd 'geantwoord' dat het
om twee auto's ging. De overige leerlingen begonnen met de vraag: 'Wie werd er aangere-
den?', kennelijk ervan uitgaande dat er iemand was aangereden. Op grond van antwoordregel
3 moest worden geantwoord dat het om twee auto's ging.

De meeste volwassenen in dc voorstudie trachtten dc situatie aan de weet te komen door dc
proefleider te vragen een situatieschets te geven. Na een ontwijkend antwoord volgden dan
snel achtereen een aantal hypothescvragen over de situatie (' Was het bij ccn stoplicht, een
kruising, een inhaalmanoeuvre?') cn het antwoord. Dc leerlingen hebben het hier moeilijker
Tiee. Van dc 17 leerlingen die een vraag stellen over de situatie, begint ongeveer de helft
direct met een duidelijke situatievraag: 'Welke situatie was het?' of zij vragen naar een aantal
elementen uit de situatie. De overige leerlingen doen navraag als zij verrast worden door de
mededeling dat er niemand in de auto zat. Zij vragen dan: 'Hoe dat dan kan?' cn horen dat de
auto geparkeerd stond aan de kant van de weg.

Minder dan dc helft van de leerlingen (45%, 11 leerlingen in conditie 1, 7 leerlingen in
Conditie 2) probeert de
oorzaak van het ongeluk te achterhalen. In een aantal gevallen wordt
begonnen met dc algemene vraag 'Hoe is het gebeurd?', waarna latere vragen duidehjk
niakcn dat de leerhng de oorzaak tracht te achterhalen ('Was die man dronken of zo?', 'Is die
tegen die auto opgereden met opzet of was het per ongeluk?').

-ocr page 178-

174 Vragen en vraagstrategieën

Het vragen stellen en beantwoorden vereist een duidelijk omschreven set van regels. Een
aantal vragen kunnen op verschillende wijze worden uitgelegd en beantwoord. Het kan zijn
dat dit komt doordat een leerling een vraag stelt op basis van een vaag concept in zijn hoofd,
wat ze willen weten (Suchman 1961). In dit verband kan worden gewezen op het analoge
verschijnsel dat jongere kinderen (tot ongeveer 7 jaar) de 'waarom'-vraag gebruiken als
'maid-of-all-work' van alle vragen, als een ongedifferentieerde vraag die tal van betekenissen
kan hebben (Piaget, 1959).

Tot dusverre werden de vragen en het vraaggedrag vooral op grond van de inhoud en
volgorde van de vragen beschreven. Hoewel de vorm niet los staat van de inhoud is deze vorm
een nog onbesproken maar zeker geen oninteressant aspect, temeer omdat ook hierin een
teken van strategisch vragen stellen naar voren kan komen (zoals uit het bovenstaande blijkt).
Dit illustreren wij met de twee typen vragen die werden onderscheiden: de hypothese- en de
assumptievraag. Hypothesevragen zijn vragen die verwijzen naar één inhoudelijk element,
bijvoorbeeld 'was het op de rijksweg?'. Deze vragen volgen soms nadat een leerling eerst een
algemene vraag heeft gesteld. De leerling poogt dan via hypothesevragen duidelijk te maken
welke informatie hij wil hebben, informatie die hij met een eerdere vraag niet loskreeg.

Een assumptievraag is een vraag die gebaseerd is op een voor de leerling nog onbekend
element. Bijvoorbeeld: 'Is die gewonde overleden?' (assumptie: er is iemand gewond), of
'Wie is er aangereden?' (assumptie: er is iemand aangereden). Vrijwel elke leerling stelt zo'n
vraag minimaal één keer, in totaal vormen zij ongeveer 10% van alle vragen. Assumptievra-
gen zijn doelmatig als de assumptie juist is, maar werken vertragend als de assumptie onjuist is
en dit niet uit het antwoord blijkt. In de experimentele opzet werden foutieve assumpties
steeds ontkend, assumptievragen zijn hier dus efficiënt. De leerlingen zijn zich echter van de
assumpties meestal niet bewust en assumptievragen worden dan ook niet vanuit strategisch
oogpunt gesteld. In beide condities is er bijvoorbeeld geen verschil in absolute frequentie.
Bovendien blijkt herhaaldelijk uit de volgende vraag dat de leerling verrast is door de
ontkenning van de assumptie. In een aantal gevallen persevereert de assumptie zelfs ondanks
de expliciete ontkenning ervan.

5. Discussie

De vragen en oproepen van de leerlingen stemden matig overeen met het vooronderstelde
schema. Bij de volwassen proefpersonen van Flammer et al. was deze 'fit' zeker op inhoude-
lijk niveau duidelijk aanwezig. Ook daar was echter de correspondentie qua volgorde van de
vragen stukken minder, cn dientengevolge ook de argumentatie dat het schema de basis
vormde voor het vraaggedrag. De auteurs suggereren dat de door hen gevonden strategie-va-
rianten gebaseerd waren op een zekere mate van expertise van hun proefpersonen. Deze
zouden beschikken over additionele (ongespecificeerde) vaardigheden, waardoor zij van het
schema konden afwijken zonder het overzicht te verliezen. Onze gegevens wijzen niet in die
richting. De leerlingen bleken wel tamelijk op elkaar lijkende oproepen cn vragen tc produ-
ceren, maar beide producten weken nogal af van wat volgens het schema kon worden
verwacht. Zeker bij niet-experts en dat waren waarschijnlijk ook dc proefpersonen uit het
experiment van Flammer et al., valt bovendien eerder te verwachten dat men tracht een
eenvoudige, goed werkende vraagstrategie te bedenken dan dat men variaties aanbrengt op
een (denkbeeldige) routine.

-ocr page 179-

H. van der Meij 175

Bij de leerlingen waren nauwelijks algemene vraagstrategieën waar te nemen. Omdat de
leerlingen voor hun vragen kennelijk niet uitgingen van het schema, kan men hun vraaggedrag
moeilijk beschouwen als een op dit schema berustende strategie. Het gegeven dat ongeveer
40% van de leerlingen een 'terugkerende stapsgewijze strategie' volgt, zouden wij daarom
willen afzwakken in betekenis. Ook een analyse van eventuele substrategieën leidde niet tot
de ontdekking van een systematiek in de vraagvolgorde. De vragen werden niet gegroepeerd
rond bovenliggende concepten zoals de 'tijd' of de 'plaats' van het ongeluk. De leerlingen zijn
echter ook weer geen beginners. Zonder enige kennis van zaken zou men namelijk helemaal
niets te vragen weten. Bovendien blijken de vragen van de leerlingen bij nadere beschouwing
niet naar willekeur te zijn gesteld. Zo leidden, zoals gezegd, de beide condities tot inhoudelijk
opvallend gelijkende oproepen en vragen. De leerlingen stelden tevens ruim twee keer zoveel
vragen over de auto van de dader dan over de aangereden auto. Kennelijk speelden zij
hiermee in op de functie van de oproep: ooggetuigen te vinden die op grond van de informatie
omtrent de auto van de dader kon leiden tot diens opsporing.

In de ooggetuige taak is het mogelijk via verschillende strategieën de noodzakelijke informa-
tie voor de oproep te krijgen. Waarom volwassen proefpersonen hierbij gebruik maken van
een specifieke strategie is niet bekend; hoe komt iemand tot het besluit een 'gebeurtenis
georiënteerde aanpak' te volgen? De opdracht biedt veel ruimte voorzover het de volgorde
betreft van de tc stellen vragen. Het zou interessant zijn te onderzoeken hoe het vragen
Verloopt als de taak meer sequentieel moet worden opgebouwd.

Evenals bij Flammer et al. komt dc vraag naar voren onder welke condities men infereert in
plaats van te vragen of vraagt in plaats van te infereren. Men zou verwachten dat wanneer het
vragen kostbaarder is, er meer wordt teruggevallen op het plegen van inferenties. Indien men
de vragen 'duur' maakt, kan dat aanleiding geven tot een betere weging van de vragen en meer
inferenties. Wij slaagden er bij deze leerlingen echter niet in hen tot dergelijke kritische
keuzes te brengen. Een reden hiervoor kan zijn dat dc leerlingen niet competent genoeg
Waren om aan de essentie-eis te voldoen, dat wil zeggen vragen te genereren en tegelijk te
overwegen welke daarvan echt moeten worden gevraagd, welke niet en welke gegevens
kunnen worden afgeleid uit wat men al weet. Een interessant alternatief is de idee dat de
leerlingen misschien bovenal liever niet het risico willen lopen dat zij tc weinig vragen stellen,
terwijl zij beseffen dat er informatie ontbreekt. Overigens is het zo dat in de literatuur
Verschillende types inferenties worden onderscheiden. Als iemand bijvoorbeeld een tekst
leest, pleegt hij moeiteloos een aantal inferenties waarmee zinnen aan elkaar worden gekop
Peld. Andere inferenties vereisen meer inspanning zoals wanneer men twee concepten aan
elkaar tracht te relateren. In dit onderzoek is geen onderscheid gemaakt naar typen en slechts
globaal gekeken naar het infereren. Een verdere uitwerking van dc verschillende inferentiële
processen behorende bij deze typen is van belang voor een goed begrip van de relatie tussen
'nfcrcnties en vragen.

Een onverwacht gegeven was het significante verband dat wij vonden tussen het aantal vragen
Van leerlingen in dc oefentaak cn de experimentele taak. Andere auteurs hebben in dit
Verband gewezen op de mogelijke aanwezigheid van een 'seeking style', een 'consistente wijze
Van initiëren, uitvoeren en beëindigen van een onderzoek die karakteristiek is voor individuen
groepen individuen' (Shulman, 1961, p. 259). Het weinige onderzoek op dit punt richt zich
onder meer op de correlatie met iemands 'locus of control' (Flammer, 1982a, in navolging op
dc bevinding van Davis & Pharcs, 1967), omdat het stellen van vragen het nemen van initiatief
'mpliceert.

-ocr page 180-

176 Vragen en vraagstrategieën

Een ander opmerlcelijlc gegeven was de gebreklcige wijze waarop leerlingen de oorzaak, het
soort ongeluk en de situatie trachten te achterhalen. Het is mogelijk dat dit een gebrekkig
conceptueel onderscheid reflecteert. Het is echter tevens mogelijk dat de communicatieve
situatie hieraan debet was. De leerling moet zijn vraag afstemmen op de antwoordwijze van
de proefleider. Deze is op zijn beurt weer afhankelijk van de gestelde vraag. In de interacties
werden een aantal vaste regels voor het beantwoorden van de vragen gehanteerd. Welke
invloed deze regels hebben op het vraaggedrag van de leerlingen is onbekend.

Opmerkelijk genoeg beginnen tal van leerlingen met één of meer vragen, die nauwelijks
een aanwijzing inhouden omtrent datgene wat zij feitelijk willen weten. Eerst nadat een
leerling gedwongen wordt zijn vraag iets te verduidelijken worden de vragen beter gespecifi-
ceerd. Een interactie wordt kennelijk lang niet altijd gestart met een vraag waarop een
eenduidig antwoord mogelijk is. Misschien is het zelfs zo dat iemand soms bewust een
'voorzetje' geeft en afwacht of er iets interessants op volgt. Pas na één of meer reacties op zo'n
voorzetje worden de vragen dan bijgestuurd in de door hem gewenste richting.

Tijdens de interacties kunnen verschillende overwegingen ertoe leiden dat men een vraag
zó en niet anders stelt. In dit verband wezen wij op het voorkomen van verschillende typen
vragen, zoals de assumptievraag en de hypothcsevraag. Men onderscheidt in dc literatuur
overigens veel meer typen vragen, waaronder bevestigingsvragen en samengestelde vragen
(zie Kearslcy, 1976). De vraag rijst welke communicatieve functie deze verschillende typen
vragen hebben.

Het is opvallend dat juist dit communicatieve aspect nagenoeg onbesproken blijft in het
20-vragenspel. Dit spel heeft lange tijd gefunctioneerd
a\sde methode voor het onderzoeken
van vragen (zie o.a. Taylor & Faust, 1952; Mosher & Hornsby, 1966; Siegler, 1977). De
publicatie van Siegler van 1977 is voorlopig de laatste in deze reeks. Meer recent onderzoek
uitgaande van nieuwe methoden is nog maar spaarzaam van de grond gekomen. Hopelijk
verandert dat.

LITERATUUR

Allender, J.S. (1969). A study of inquiry activity in elementary school children. American
Educational Research Journal, 6,
543-558.

Allender, J.S. (1970). Some determinants of inquiry activity in elementary school children.
Journal of Educational Psychology, 61, 220-225.

Berlyne, D.E. (1965). Structure and direction in thinking. New York: John Wiley & Son.

Berlyne, D.E., & F.D. Frommer (1966). Some determinants of the incidence and content of
6hildrcn's questions.
Child Development, 37, 177-189.

Bower, G.H. (1982). Plans and goals in understanding episodes. In: A. Flammer & W.
Kintsch (eds.).
Discourse Processing (p. 2-15). Amsterdam: North Holland Pu-
blishing Company.

Davis, W.L., & E.J. Phares (1967). Internal-external control as a determinant of information
seeking in a social influence situation.
Journal of Personality, 35, 547-561.

Dillon, J.T. (1982a). The multidisciplinary study of questioning. Journal of Educational
Psychology, 74,
147-165.

Dillon, J.T. (1982b). The effect of questions in education and other enterprises. Journal of
Curriculum Studies, 14,
127-152.

Dukes, L. (1982). Self- and external reinforcement in production of questions. Perceptual and
Motor Skills, 54,
693-694.

-ocr page 181-

H. van der Meij 177

Flammer, A., H. Kaiser & P. Mueller-Bouquet (1981a). Predicting what questions people
ask.
Psychological Research, 43, 421-429.

Flammer, A. (1981b). Towards a theory of question asking. Psychological Research, 43,
407-420.

Flammer, A., A. Grob, Th. Leuthardt & R. Lüthi (1982a). Wissen zum Fragen und Fragen
nach Wissen.
Forschiingsbericht nr. 28. Fribourg Universität, Schweiz.

Flammer, A., A. Grob, Th. Leuthardt & R. Lüthi (1982b). Zur Sicherheit: Frag doch!
Forschungsbericht nr. 30. Fribourg Universität, Schweiz.

Getzels, J.W., & M. Csikszentmihaliyi (1976). The creative vision: A longitudinal study of
problem finding in art.
New York: John Wiley & Son.

Glover, J.A. & J.W. Zimmer (1982). Procedures to influence levels of questions asked by
students. yoMrMfl/
of General Psychology, 107, 267-276.

Home, E.E. (1983). Question generation and formulation: an indication of information need.
Journal of the American Society for Information Science, 34, 5-16.

Kintsch, W., & T.A. van Dijk (1978). Toward a model of text comprehension and production.
Psychological Review, 85, 363-394.

Marksberry, M.L. (1979). Student questioning: an instructional strategy. Educational Hori-
zons, 57,
190-196.

Mehan, H. (1979). 'What time is it Denise?': Asking known information questions in
classroom discourse.
Theory into Practice, 18, 285-294.

Meij, H. van der (1983). Leerling-vragen, een kwestie van durf en nonresponse? In: G. de
Zeeuw, W. Hofstee & J. Vastenhouw (red.).
Funderend onderzoek van onderwijs en
onderwijsleerprocessen.
Lisse: Swets & Zeitlinger.

Micko, H.C. (1982). Text divisions and story grammars. In: A. Flammer & W. Kintsch (eds.).
Discourse processing (p. 29-41). Amsterdam: North Holland Publishing Company.

Mishler, E.G. (1975). Studies in dialogue and dhcoursc. Journal of Psycholinguistic Research,
4,
99-121.

Mishler, E.G. (1978). Studies in dialogue and discourse III: Utterance structure and utterance
function in interrogative sequenccs.7oi<r/;a/
of Psycholinguistic Research, 7, 279-305.

Miyake, N. & D.A. Norman (1979). To ask a question, one must know enough to know what
is not known.
Journal of Verbal Learning and Verbal Behavior, J8, 357-364.

Moshcr, F.A. & J.R. Hornsby (1966). On asking questions. In: J.S. Bruner, R.R. Olvcr, &
P.M. Greenfield (eds.).
Studies in cognitive growth. New York: John Wiley & Son.

'^ash,.W.R. & E.P. Torrance (1974). Creative reading and the questioning abilities of young
children.
The Journal of Creative Behavior, 8, 15-19.

Olmo, R.G. (1975). Teaching students to ask questions. Language Arts, 2, 1116-1119.

Piaget, J. (1959). The language ami thought of the child. London: Routledge & Kcgan Paul.

Rumelhart, D.E. (1975). Notes on a schema for stories. In: D.G. Bobrow & A. Colling (eds.).
Representation and understanding (p. 211-236). New York: Academic Press.

Sadker, M. & J. Cooper (1974). Increasing student higher-order questions. Elementary
English, 51,
502-507.

Schartz-Türler, M.N.K. (1980). Instruction und Titel - Ihre Effekte auf das Erinnern,
Erfragen und Verstehen eines Prosatextes. Fribourg Universität, Schweiz, Disserta-
tie.

Shulman, L.S. (1965). Seeking styles and Individual differences in patterns of inquiry. The
School Review,
258-266.

Siegler, R.S. (1977). The twenty questions game as a form of problem solving. Child Deve-
lopment, 48,
395-403.

-ocr page 182-

178 Vragen en vraagstrategieën

Suchman, J.R. (1961). Inquiry training: Building skills for autonomous discovery. Merrill-
Palmer Quarterly,
147-169.

Susskind, E. (1979). Encouraging teachers to encourage children's curiosity: A pivotal
competence. yoMA/ja/
of Clinical Child Psychology, 8, 101-106.

Taylor, D.W., & W.L. Faust (1952). Twenty questions: efficiency in problem solving as a
function of size of group.
Journal of Experimental Psychology, 44, 360-367.

Torrance, E.P. (1970). Groupsize and question performance of pre-primary children. yoMrwo/
of Psychology, 74, 71-75.

Manuscript ontvangen 8-11-1983

Definitieve versie ontvangen 10-12-1984

-ocr page 183-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 179-188.

Meningen over meerkeuze- versus open
vragen toetsen en verschil in studieactiviteiten
onder invloed van toetsverwachting:
Verslag van een enquete.

John Yang, Ineke C. Verheul, Norman Verhelst en Ed van Essen
Vakgroep Psychonomie, Rijksuniversiteit Utrecht

abstract

Opinions about multiple choice- and open questions-tests and differences in study activities as a
result of lest expectation: Report of a questionnaire.

In total 170 freshmen in psychology were interviewed about their preference for either a multiple
choice (MC)- or open question (OO)-test on preliminary examinations. Sixty-five percent pre-
ferred a MC- and only 18% opted for an OQ-test. An important consideration as to this large
preference for MC-tests is the fact that this type of test is conceivcd of as being less difficult.
Fifty-six percent of the subjects stated to study differently for a MC- than for an OQ-test. These
subjects were further questioned with respect to this alleged difference by presenting them with a
series of explicitly phrased study activities. For each activity they had to indicate on separate
5-point scales to what extent the described activity was deployed during the preparation for a
MC-test and for an OQ-test. It was found that under the expectation of an OQ-test, the majority
of the activities are more intensively used. It seems, therefore, that OQ-tests require a heavier
study effort which might also explain the students' preference for MC-tests. It is proposed that the
more intensive study effort under an OQ-test expectation is related to the necessity of the
construction of a retrieval scheme.

'nieiding

Het verschijnsel dat studenten van te voren willen weten in welke vorm een tentamen gegeven
zal worden, is in de Nederlandse onderwijswereld welbekend. Ook is het zo dat studenten een
duidelijke voorkeur voor een bepaalde toetsvorm blijken te hebben (Rademaker, 1970) en
geven ze aan anders te studeren voor een meerkeuze(MK)-toets dan voor een open vra-
8en(0V)-toets (Van der Flier e.a., 1976; Meyer, 1936; Rademaker, 1970). In dit artikel wordt
Verslag gedaan van een enquete die beide kwesties betreffen. Een groep van 170 eerstejaars
Psychologie studenten werd gevraagd of ze een voorkeur voor een bepaalde toetsvorm
hadden en of ze zich op een MK-toets anders voorbereiden dan wanneer ze een OV-toets
Verwachten.

Om een beter inzicht naar de achtergronden van een bepaalde toetsvoorkeur tc krijgen,
^erd nagegaan hoe men ten algemene over het verschil tussen MK- en OV-toetsen dacht. Een
enquete met een analoge vraagstelling werd ook door Rademaker (1970) uitgevoerd. In

l^e auteurs zijn dank verschuldigd aan Maarten van Eek die assisteerde bij de bewerking van de gegevens.
Adres auteurs: Heidelberglaan 2, 3508 TC Utrecht.

-ocr page 184-

180 Enquete

tegenstelling tot de open vragenlijst die deze onderzoeker gebruikte, werd in de huidige
enquete een reeks gesloten vragen gebruikt, zodat de mening van elke respondent t.a.v. een
breed scala van vaak geopperde opinies omtrent MK- en OV-tentamens op een 5-puntschaal
geregistreerd kon worden. De resultaten van deze peiling zijn neergelegd in deel 1 van het
verslag.

Uit leerpsychologisch oogpunt is de vraagstelling uit deel II van de enquete het interes-
santst. Zijn er veel respondenten die te kennen geven dat ze zich op een MK-tentamen
anders
voorbereiden dan op een OV-tentamen? En zo ja, in welk opzicht verschillen de beide
studiewijzen?

Deze vraagstelling werd eerder door Meyer (1936) aangesneden. In dat onderzoek moes-
ten proefpersonen zich voorbereiden op een MK- of op een OV-toets en achteraf hun
studieactiviteiten rapporteren. Proefpersonen die zich op een MK-toets hadden voorbereid,
zeiden zich vooral gericht te hebben op kleinere informatie-eenheden, details en letterlijke
formuleringen in de tekst, terwijl proefpersonen die zich op een OV-toets hadden voorbereid,
te kennen gaven dat ze zich op de vorming van een algemeen beeld van het studiemateriaal
hadden toegelegd.

Meyer verkreeg deze informatie o.m. door zijn proefpersonen de open vraag te stellen,
'What different methods did you use?'. In de huidige enquete werd aan diegenen die te
kennen gaven zich anders op een MK- dan op een OV-toets voor te bereiden een aantal
concreet omschreven studieactiviteiten voorgelegd waarop kon worden aangegeven in welke
mate ze gebruikt werden bij de bestudering voor elk van de beide typen toetsen. Aldus kon de
mening van respondenten ten aanzien van een 13-tal concrete studieactiviteiten worden
nagegaan. Voor zover ons bekend is, heeft men nog niet getracht het verschil in bestuderings-
wijze door middel van een enquete op deze wijze nader te specificeren. De huidige bijdrage
betreft met name deze specificatiepoging waarbij informatie verkregen kan worden die er toe
kan leiden de theoretisering uit de wat diffuse sfeer van globale noties te halen ('het letten op
details' versus 'aandacht voor de grote lijn').

Methode

De enquete was als volgt samengesteld: de eerste vraag had betrekking op de voorkeur van de
ondervraagden. Hierbij kon gekozen worden uit de volgende alternatieven: (a) een voorkeur
voor OV-toetsen, (b) een voorkeur voor MK-toetsen, (c) geen voorkeur. Daarna moest
worden aangegeven hoeveel ervaring men had met MK-toetsen: alleen bij toelatings-/
eindexamen of ook bij andere gelegenheden. Vervolgens kwamen er twee te
onderscheiden
enquete-delen. Deel I betrof uitspraken over MK- en OV-toetsen, die elk op een 5-punts-
schaal beoordeeld moest worden.
Een voorbeeld:

eens oneens

Open vragen zijn moeilijker dan MK-vragen - 1—2—3—4—5

Aan deel II van de enquete ging de vraag vooraf of men voor ccn MK-tentamen anders
studeerde dan voor een OV-tentamen. De daarna volgende vragen werden alleen ingevuld
door diegenen die hierop positief antwoordden. Voor dit deel van de enquete was een aantal
studieactiviteiten geformuleerd waarbij de respondent op een 5-pyntsschaal kon aangeven in
hoeverre de activiteit gebruikt werd bij de voorbereiding op een MK-tocts en bij de voorbe-

-ocr page 185-

John Yang et al. 181

reiding op een OV-toets. Elke uitspraak moest dus tweemaal op een schaal beoordeeld

worden.

Een voorbeeld:

ja Nee

MK 1—-2—-3—-4—5

Ik probeer verbanden aan te brengen

OV 1—2-—3—-4—-5

De geformuleerde studieactiviteiten waren voor een gedeelte afkomstig uit een vragenhjst die
in een onderzoek van De Jong (1980) gebruikt werd.

De enquete werd voorgelegd aan eerstejaarsstudenten in de psychologie van de Rijksuni-
versiteit Utrecht na afloop van een werkgroepbijeenkomst. Voor hun medewerking kregen ze
1 pp-uur. In totaal 170 studenten namen aan de enquete deel.

Resultaten

Toetsvoorkeur

Evenals bij Rademaker (1970) werd ook hier een duidelijke voorkeur voor MK-toetsen
geconstateerd, namelijk 65%. Een voorkeur voor OV-toetsen had slechts 18% van de
ondervraagden en 16% had geen voorkeur. Alle ondervraagden hadden overigens voldoende
ervaring met MK-toetsen.

Deel I: Algemene uitspraken over MK- en OV-toetsen.

Om na te gaan of de drie voorkeursgroepen zich onderscheiden in hun opinies omtrent
uitspraken over MK- en OV-toetsen werd een speciaal model uit de familie der log-lineaire
modellen gebruikt, nl. het zogenaamde rij-effect model (Agresti, 1983). Voor elke vraag kan
een 3 X 5 tabel worden opgesteld, waarbij de rij-variabele de voorkeur voor tentamineren is en
de kolom variabele het antwoord op de vraag. Er wordt uitgegaan van de veronderstelling dat
de antwoordcategorieën intervaleigenschappen hebben en aan de categorieën worden de
Schaalwaarden v = j (j = 1,...,5) toegekend. Het gehanteerde model kan dan worden
geschreven als

Ln mip u+ u,(i)+ U2(j)+ (Vj- vju*,,,, (1)

Waarin mjjde verwachte frequentie is in cel (i,j);

U|(i)het (rij)effect van de i-de voorkcursgroep;
U2(j)het (kolom)effect van de j-dc categorie;
v=
Vj/5;

u*i(j)het rij-cffect geassocieerd met de interactie.
Indien alle u*i(|) termen gelijk zijn aan nul, heeft men tc maken met het onafliankclijk-
hcidsmodel dat zegt dat de frequentieverdeling van de antwoorden binnen elke voor-
kcursgroep precies dezelfde vorm heeft. Indien een u* term verschillend is van nul, zegt het
model dat de logaritme van de frequentie mjj lineair toeneemt/afneemt met VjCn de mate van
'oe- of afname is precies u*i(j). De interactie heeft dus dc vorm van een verschillende lineaire
trend voor de onderscheiden voorkeursgroepen.

Het toetsen van model (1) voor de 13 vragen afzonderlijk is natuurlijk niet de best
denkbare strategie, omdat de voorkeursvraag slechts één keer gesteld is, en de 13 toetsen
hijgevolg afhankelijk zijn van elkaar. Nu is het technisch gezien niet zo moeihjk om de 13
toetsen in één overall toets in te bouwen, doch in dat geval dient er rekening mee gehouden te

-ocr page 186-

182 Enquete

worden dat het interactiepatroon tussen voorkeur en antwoord per vraag kan verschillen,
zodat een tweede orde interactie voorkeur-antwoordcategorie-enquetevraag in het model
dient te worden opgenomen. Inderdaad, toetsing van dit algemene model gaf een zeer
significante tweede orde interactie te zien. Om tot een deugdelijke interpretatie te komen,
dienen dus de 3 x 13 x 5= 195 interactietermen beschreven en samengevat te worden. Daar
deze aanpak zeer onpractisch is, hebben we de dertien vragen afzonderlijk geanalyseerd
volgens model (1). De analyse werd uitgevoerd met het program GLIM (Baker & Nelder,
1978). Voor twee van de 13 vragen kon het onafhankelijkheidsmodel gehandhaafd blijven;
voor tien vragen gaf model (1) een zeer goede fit en voor één vraag konden noch het
onafhankelijkheidsmodel noch model (1) gehandhaafd blijven, omdat de interactie toch
ingewikkelder was dan een lineaire trend, of omdat de veronderstelling van een intervalschaal
voor de categorieën in dat geval niet opging.

Daar het programma GLIM eveneens (benaderende) standaardfouten en covarianties van
de schatters geeft, is het mogelijk alle soorten contrasten tussen de parameters te toetsen.
Voor elke vraag werden, bij a = .01, de volgende contrasten getoetst:

U*l(l)- U*l(2)= O

u*i(i)-u*i(3)= o (2)

U*l(2)- U*l(3)= O

Voor het toetsen van afzonderlijke contrasten geldt wederom het bezwaar van de onderlin-
ge afhankelijkheid van de toetsen. De hierboven beschreven toetsen zijn zelfs lineair afhan-
kelijk. Voor het toetsen van afzonderlijke contrasten hanteert men meestal een procedure die
de kans op het maken van een fout van de eerste soort kleiner houdt dan een gekozen a (b.v.
Bonferroni), en deze procedure komt neer op het kiezen van een significantieniveau voor de
afzonderlijke contrasten dat kleiner is dan a. Een dergelijke procedure is echter conservatief
en heeft alleen oog voor fouten van de eerste soort. Toepassing van een dergelijke procedure
verlaagt aanzienlijk het onderscheidingsvermogen van de getoetste contrasten, en brengt het
risico met zich mee dat goed onderscheidende vragen, vanwege het zeer strenge significantie-
niveau als onbetekenend worden afgevoerd. Derhalve menen wij dat bij een exploratief
onderzoek een a van 0.01 voor de contrasten (tegenover a= 0.05 voor overall toetsen) een
redelijk compromis is.

De resultaten van deze toetsing zijn grafisch weergegeven in de figuren 1 en 2 door de
groepen die significant (p^ .01) van elkaar verschillen met een lijnstuk te verbinden. De figuur
geeft verder per vraag een overzicht van de percentages der gekozen schaalwaarden (deze
staan onder elke schaalwaarde vermeld) en de posities van de groepsgemiddelden op de
schaal. De groepen worden gesymboliseerd door de letters M (MK-voorkeursgroep),
O
(OV-voorkeursgroep) en G (geen voorkeur).

Figuur 1 hieronder geeft een overzicht van de uitspraken waarmee respondenten met een
MK-toets voorkeur het over het algemeen meer eens zijn dan zij die een OV-toets verkiezen.

De belangrijkste argumenten voor een MK-voorkeur zijn hier: de mogelijkheid om te
gokken, het feit dat men moeite heeft met open vragen en (als mogehjke reden daarvoor) de
onzekerheid die men ondervindt over het te geven antwoord bij open vragen.

De objectiviteit van MK-vragen, die als belangrijkste argument uit de bus kwam in de
enquete van Rademaker, scoort hier duidehjk minder hoog. Er is wel een
significant
groepsverschil, maar de MK-groep scoort dicht in de buurt van de 3 (geen mening).

In vergehjking tot de OV-groep vindt de MK-groep wel dat ze voor een MK-toets minder
tijd gebruikt, maar tegen de verwachting in is geen van de drie groepen van mening dat de

-ocr page 187-

John Yang et al. 183

1

lil-

2 t

5

20

34

19

14

12

lil

I

1

2 1

%

5

13

29

38

12

9

1

2 1

3

5

15

31

16

19

19

1

2

lil
\ 3

G i>
1 4T

5

15

19

23

19

24

1

2

i,

3|

ï}.

5

15

15

19

19

32

1 1

^ M-6

1 12 (

3

4

3

gokken.

gen.

~ Ik heb moeite met open vragen omdat ik ^
Vaak niet precies weet wat er van me verw? '' '
Wordt.

ervan objectiever is dan bij open vragen.

He minder tijd.

Ik denk dat m.k. vragen voor bepaalde stof
geschikter zijn dan open vragen- of omge-
51 18 21 5 S

keerd.

'''guur I Uitspraken waar de groep met een MK-voorkeur het meer mee eens is dan de groep met een
OV-voorkeur.

Voorbereiding voor een MK-toets duidelijk minder tijd kost (het merendeel der scores ligt in
het 'nee'-gebied). Immers, wanneer men meent, zoals uit de enquete van Rademaker bleek,
dat de voorbereiding voor een MK-toets een relatief gemakkelijker bestudering impliceert,
dan zou men ook een geringere tijdsinvestering mogen verwachten. Waarschijnlijk is de
'■jdsinvestering, zoals
beleefd door de studenten, een ogenschijnlijk invariante factor bij de
Voorbereiding op elk soort tentamen. Men begint op een bepaald tijdstip en gaat door tot vlak
Voor het tentamen. Binnen dit tijdsbestek zal de studie-inspanning onder beide typen ten-
'amens toenemen naarmate de toetsingsdatum nadert. In dit opzicht zal men weinig verschil
Bussen de voorbereiding op een MK- of OV-tentamen bij zichzelf ontdekken. Wellicht zou
een sensitivere uitspraak als b.v. 'Voor een OV-toets begin ik iets eerder te studeren dan voor
een MK-toets' beter op zijn plaats zijn geweest. Zo'n uitspraak verdient zeker opname in een
eventuele volgende enquête over dit onderwerp.

-ocr page 188-

184 Enquete

— Ik heb liever open vragen, omdat ik dan
tenminste nog enige persoonlijke inbreng heb.

-M
(

2 (

14

22

1 7

26

22

De duidelijkste opinie die de respondenten koesteren betreft de stelling dat de geschiktheid
van de toetsvorm afhangt van de aard van de bestudeerde stof: Alle groepsgemiddelden liggen
in het gebied waarmee de stelling wordt beaamd.

Figuur 2 geeft een overzicht van de uitspraken waar de studenten met een O V-voorkeur het
meer mee eens zijn.

- M.k. vragen zijn moeilijker dan open vra-
gen.

1

-M

l 3i

_J
24

15

33

27

i

- Ik denk dat als ik studeer voor open vragen,
ik de stof langer zal kunnen onthouden.

_5
29

i_
15

19

23

14

1

M

- Ik heb moeite met m.k. vragen omdat ze
vaak zo ingewikkeld gesteld worden.

32

18

31

13

Figuur 2 Uitspraken waar de groep met een OV-voorkeur het meer mee eens is dan de groep met een
MK-voorkeur.

Het belangrijkste argument voor ccn OV-voorkeur: de mogelijkheid tot een persoonlijke
inbreng, komt in de buurt van Rademaker's 'mogelijkheid tot argumentatie', die door 50%
van zijn ondervraagden als motivatie werd aangegeven. Interessant is verder dat ongeveer 1 /3
van de'respondenten, met name die uit de O V-groep van mening is, dat de stof die ze voor een
OV-tentamen bestudeerd heeft langer beklijfd. Dit antwoord is een duidelijke verwijzing
naar een mogelijk verschil in
effect tussen een OV- en MK-studiemethode.

Op de volgende twee uitspraken worden geen groepsverschillen aangetroffen (zie fig. 3)'
De constatering waarmee dit arfikel begon, namelijk dat studenten (ongeacht hun toets-
voorkeur) van te voren willen weten in welke vörm een tentamen gegeven zal worden,
wordt
nog eens duidelijk bevestigd. Men mag aannemen dat studenten (hier 94%) dit niet voor niets
willen weten. De meest voor de hand liggende reden hiervoor zou kunnen zijn dat de ene
toetsvorm een
andere voorbereiding vergt dan de andere. Zoals uit figuur 3 blijkt, geeft meef
dan de helft van de ondervraagden (56%) inderdaad te kennen voor een OV-tocts anders
tc
studeren dan voor een MK-toets. Drie en dertig procent is deze mening zelfs op uitgesproken
wijze toegedaan. In het hierna te bespreken tweede deel van de enquete werd getracht dit
'anders' specificeren naar verschillen in concrete studieactiviteiten.

-ocr page 189-

John Yang et al. 185

- Ik studeer anders wanneer ik weet dat het O M <?

tentamen uit open vragen zal bestaan dan '---'—-2-5

wanneer het om m.k. vragen gaat. 33 23 8 8 28

Figuur 3 Uitspraken waarop geen groepsverschillen te constateren zijn.

Deel II. Verschillen in studieactiviteiten onder invloed van toetsverwachting.

Voor deel II van de enquete was een dertiental studieactiviteiten geformuleerd (item a t/m

m). Dit deel was aheen bestemd voor die studenten die bij de laatste vraag uit Figuur 3 een 1 of

een 2 omcirkeld hadden en daarmee aangaven, naar hun mening, anders voor beide toetsen te

studeren.

Het aantal respondenten dat dit deel van de enquete heeft ingevuld ligt met 58,4% {n =
101) iets hoger dan het percentage dat de 'anders'-vraag positief beantwoordde. Dit verschil
Werd veroorzaakt door het feit dat sommige ondervraagden die t.a.v. deze vraag geen mening
hadden, deel II ook hebben ingevuld.

Zoals uit Tabel 1 bhjkt is de samenstelhng van deze groep («= 101) voor wat betreft dc
toetsvoorkeur nagenoeg gelijk aan die van de totale groep
{n = 170).

In dit deel van de enquete gaf de respondent per omschreven studieactiviteit aan, in welke
•nate hij of zij van deze activiteit gebruik maakt bij de voorbereiding op zowel een MK- als een
OV-toets. De scores op beide schalen behorend tot hetzelfde item werden daarom door
middel van een t-toets voor gepaarde waarnemingen getest.

De selectieve voorvraag zal er toe bijdragen dat verschillen geaccentueerd zullen worden.
Deze sensitiviteit is geïnduceerd om, ten behoeve van voorgenomen verder onderzoek, elke
Voor het toetsverwachtingseffect mogelijk relevante studieactiviteit boven tafel te krijgen.
Een 'set' om verschillen aan te geven leidt overigens niet tot een beïnvloeding van de
richting
Van het verschil. Indien de respondenten het verschil op random wijze zouden aangeven wordt
de kans op het aantreffen van significante verschillen louter door het toeval bepaald. Wel is

G

,r?

- Ik wil altijd graag van te voren weten of een
tentamen uit m.k. vragen of uit open vragen zal
bestaan.

Tabel 1 Verdeling in voorkeur binnen de totale groep
en binnen de groep anders studerenden

Voorkeur

Totale groep

Anders studerenden

Frequentie

Percentage

Frequentie

Percentage

MK

111

65

65

64

OV

32

18

23

23

Oeen

27

16

13

13

"Totaal

170

99

101

100

■—___

-ocr page 190-

186 Enquete

het zo dat door de voorvraag overgegaan wordt op een 'extreme group design', waardoor ae
uitkomsten alleen nog van toepassing op de gecensureerde populatie zijn. Daarbij laat zich
echter aantekenen dat de 'extreme' groep ongeveer de helft van de populatie betreft.

De verkregen gemiddelde scores per MK- en OV-schaal laten zich vanuit twee aspecten
bekijken. Enerzijds kan t.a.v. elke studieactiviteit worden nagegaan of er een significant
verschil bestaat tussen de voorbereiding op een MK- of OV-toets; het
toetsverwachtingseffect.
Anderzijds geven de gemiddelde scores een indruk van de mate waarin de in het item
verwoorde studieactiviteit
toegepast wordt (waarbij geldt dat de activiteit meer wordt toege-
past naarmate de score 1 wordt benaderd).

Op 7 van de 13 studieactiviteiten wordt een significant toetsverwachtingseffect gecon-
stateerd: p<.01. Tabel 2 geeft een overzicht van deze activiteiten. De items zijn gerangschikt
in afnemende mate van toepassing.

Op alle studieactiviteiten waarop de respondenten een significant verschil tussen MK- en
OV-bestudering aangeven ligt het verschil in dezelfde richting: ze worden consistent méér
toegepast bij de voorbereiding op een OV-toets dan op een MK-toets (zie de lagere schaal-
gemiddelden).

De activiteiten die het duidelijkst door toetsverwachdng worden beïnvloed zijn 'het hardop
samenvatten' (g), 'het maken van uittreksels' (d), 'zoveel mogelijk uit het hoofd leren' (b) en
'hoofdpunten formuleren' (e).

Tabel 2 Studieactiviteiten waarop een toetsverwachtingseffect geconstateerd wordt, ge-
rangschikt naar de mate waarin de activiteit wordt toegepast.

Items

gemiddelde schaalwaarde
OV MK t p

h. Ik probeer verbanden aan te brengen

1.50

1.90

17.09

.0001

e. Ik probeer hoofdpunten te formuleren

1.60

2.10

26.91

.00001

j. Ik probeer vragen te beantwoorden die tijdens de studie

bij me opkomen.

1.96

2.30

17.13

.0001

d. Ik maak uittreksels.

2.20

2.91

44.92

.00001

b. Ik leer zo veel mogelijk uit mijn hoofd.

2.36

3.30

29.48

.00001

g. Ik probeer de stof hardop samen te vatten.

2.98

3.90

57.98

.00001

k. Ik ga na of ik de stof ken door mezelf er vragen

over te stellen.

3.00

3.30

8.33

.005

Tabel 3 omvat de studieactiviteiten waarop géén verandering in bestudering voor MK-
respectievelijk OV-tentamens blijkt op te treden. De activiteiten zijn weer in afnemende
mate van toepassing gerangschikt.

Alle activiteiten worden in gelijke mate van toepassing geacht en laten dus geen toetsver-
wachtingseffect zien. De eerste drie studieactiviteiten van de tabel worden vaak gebruikt
(scores=; 2), de laatste vrijwel niet. De tabel laat zien dat de selectie van respondenten die
menen voor beide typen toetsen anders te studeren, niet zonder meer leidt tot het vinden van
verschillen op alle studieactiviteiten.

Opmerkehjk is overigens, dat het verschil op item i (ik let allgen op hoofdzaken, niet op
details) niet het door ons gehanteerde significantieniveau bereikt, zoals men op grond van het
in de inleiding besproken onderzoek van Meyer zou verwachten. De afwezigheid van een

-ocr page 191-

John Yang et al. 187

toetsverwachtingseffect is waarschijnhjk te wijten aan het niet opgaan van de in de uitspraak
geuitte suggestie, dat men bij de voorbereiding op een OV-toets details 'verwaarloost'.

Tabel 3 Studieactiviteiten waarop een toetsverwachtingseffect afwezig is, gerangschikt naar
de mate waarin de activiteit wordt toegepast.

gemiddelde schaalwaarde
hems OV MK

c.

Ik probeer de stof te begrijpen en leer niet alles uit mijn hoofd.

1.80

1.68

m.

Ik onderstreep belangrijke woorden en passages in de tekst.

1.89

1.87

a.

Ik lees alles een paar keer door.

1.90

1.80

f.

Ik leer steekwoorden uit mijn hoofd.

2.60

2.80

i.

Ik let alleen op hoofdzaken, niet op details.

2.90

3.20

1.

Ik laat me overhoren.

4.20

4.50

Op grond van tabel 2 en 3 kan men voor zowel de MK- als OV-bestudering een rangorde-
ning van de 13 studieactiviteiten naar mate van toepassing maken. Ingrijpende verschillen
tussen de beide hiërarchieën blijken niet op te treden en de rangcorrelatie laat een significante
r van 0.87 zien. Dc grootste verschuivingen treden op t.a.v. item h (verbanden aanbrengen),
item e (hoofdpunten formuleren) en item b (zoveel mogelijk uit het hoofd leren), die bij
OV-bestudering een hogere positie in de activiteitenhiërarchie innemen. Op deze drie activi-
teiten wordt ook een toetsverwachtingseffect geconstateerd (zie tabel 2).

Discussie

Bij het beschouwen van,de tot dusver gepresenteerde resultaten uit deel II springt één
gegeven in het oog: met een OV-toets in het verschiet worden alle studieactiviteiten, met
uitzondering van die vermeld in tabel 3, in hogere mate aangewend. Men zou hieruit kunnen
konkluderen dat de voorbereiding op een OV-tentamen een voor de student zwaardere
studieinspanning oproept. Dit zou dus een belangrijke factor kunnen zijn die bijdraagt tot de
grotere voorkeur voor MK-toetsen. Een en ander zou impliceren dat het verschil in voorbe-
reiding voor de twee typen toetsen slechts een kwantitatief aspect inhoudt: voor een OV-toets
prepareert men zich op identieke wijze als voor een MK-toets, alleen, men gooit er nog een
schepje bovenop. Niettemin dient men de mogelijkheid van een meer kwalitatief verschil
'ussen beide studiemethoden niet uit het oog te verhezen.

In de activiteiten-hiërarchie neemt 'het formuleren van hoofdpunten' cn 'proberen verban-
den aan tc brengen' bij de OV-voorbereiding een hogere plaats in dan bij de MK-bestudering
(eerste cn tweede versus vierde en vijfde plaats). Beide hebben te maken met het organiseren
en structureren van stof.

In eerste instantie zou men kunnen veronderstellen, dat het organiseren van het materiaal
'e maken heeft met het beter begrijpen van de stof. Dit is echter niet waarschijnhjk. Uit Tabel
3 (item c) blijkt dat men zich óók bij dc voorbereiding op een MK-toets (uiteraard) richt op
het begrijpen van de leerstof. Ten aanzien van dit item wordt er geen enkel verschil door
toetsverwachting geïnduceerd. Een mogelijke verklaring voor het meer structureren cn
Organiseren van de stof onder een OV-toets verwachting zou daarom de volgende kunnen
zijn.

-ocr page 192-

188 Enquete

Zoekactiviteiten in het geheugen spelen bij open vragen een belangrijker rol dan bij
meerkeuze vragen. In het laatste geval hoeft pas actief in het geheugen gezocht te worden,
wanneer het 'checken' van de overeenkomst tussen de aangeboden informatie (de MK-alter-
natieven) en de opgeslagen informatie niet voldoende evidentie oplevert om te kunnen
beslissen of die aangeboden informatie 'oud', d.w.z. al eerder gezien, of nieuw is (cf. Mandler
& Boeck, 1974). In het geval van open vragen echter, moet bij het opslaan van de informatie
(leren) al
rekening worden gehouden met de latere zoekactiviteiten, willen die enige kans op
succes hebben. Men mag aannemen dat het structureren en organiseren van de te bestuderen
stof de kans op een betere toegankelijkheid (accessibility) van het opgeslagene vergroot (cf
Kintsch, 1974, 1977; Schmidt, 1983).

Overigens ondersteunen ook de andere studieactiviteiten waarbij verschillen t.g.v. toets-
verwachting optreden de huidige interpretatie. Het 'uit het hoofd leren' van de stof (item b)
refereert sterk aan het kunnen reproduceren van kennis. Het 'maken van een uittreksel' (item
d) zou men op kunnen vatten als het construeren van een retrievalschema en het 'zichzelf
vragen stellen' (item k), tenslotte, kan men interpreteren als het anticiperen op een situatie
waarin informatie op basis van 'cues' gereproduceerd moet worden. Het item (g) dat een zeer
uitgesproken toetseffect vertoont ('stof hardop samenvatten') kan tenslotte eveneens worden
gezien als het uit het hoofd reproduceren van hoofdpunten.

Wij veronderstellen daarom, dat het 'anders' studeren voor de ene dan voor de andere toets
niet louter een kwantitatieve aangelegenheid is (intensiever toepassing van bepaalde stu-
dieactiviteiten), maar ook een kwalitatief aspect heeft. Dit laatste kenmerk is in een vragen-
lijststudie als de onderhavige moeilijk te achterhalen. Een uitspraak in deze vereist onderzoek
waarbij het actuele leerproces onder beide toetsverwachtingen van zo nabij mogelijk gevolgd
wordt. Een dergelijke studie vindt momenteel plaats in het kader van een door SVO gesubsi-
dieerd onderzoeksproject (nr. 1122).

REFERENTIES

Agresti, A. (1983). A survey of strategies for modeling cross-classifications having ordinal variables.
JASA, 78, 184-198.

Baker, R.J., & Nelder, J.A. (1978). The GLIM system. (Manual published by the Numerical Algorithms

, Group, Oxford) Oxford.
Flier, H. van der, Graaf-Stroo, A.A. dc. Huismans, S.E., Kampen, D. van & Leeuw, L. dc (1976).
flet

tentamen getentamineerd. Intern rapport Vrije Universiteit, Amsterdam.
Jong, A.I.M. de (1980).
Leerstrategieën en leerprocessen. Skriptie en stageverslag. Vrije Universiteit,
Amsterdam.

Kintsch, W. (1974). The representation of meaning in memory. New York: Wiley.
Kintsch, W. (1977).
Memory and Cognition. (2nd cd.-) New York: Wiley.

Mandler, G., & Boeck, W.J. (1974). Retrieval processes in recognition. Memory and Cognition, 2,
613-615.

Meyer, G. (1936). An experimental study of the old and new types of examination: 1. Methods of study.

Journal of Educational Psychology......

Rademaker, L. (1970). Studentenprefercnties m.b.t. bcoordelingsvormen in het algemeen, evaluaties
van een 'multiple-choice-toets' in het bijzonder: een kort verslag.
Pedagogische Studiën, 47,
192-195.

Schmidt, S.R. (1983). The cffects of recall and recognition test expectancies on the retention of prose.
Memory and Cognition, 11, 172-180.

Manuscript ontvangen 2-1-1984
Definitieve versie ontvangen 18-4-1985.

-ocr page 193-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 189-194.

Notities en commentaren

enige aantekeningen bij een empirisch onderzoek in het
lager onderwijs te amsterdam

Ita Kreft

Universiteit van Amsterdam. Vakgroep Algemene en Vergelijkende Onderwijskunde

'Een wiel dat draait. Ik niet,
'k stuntel op twee benen...'

Zo begint het proefschrift van Johannes C. van der Wolf, getiteld 'Schooluitval. Een epipirisch
onderzoek naar de samenhang tussen schoolinterne factoren en schooluitval in het regulier
onderwijs' (1984). Tot nu toe ben ik geen motto tegengekomen dat zo compact de essende
Weergeeft van wat daarna komt. De twee benen zijn de twee wetenschapsopvattingen, die elk
'n één fase van het onderzoek een rol spelen. Het ene been, in de eerste fase van het
onderzoek, is een hermeneutische oriëntatie op het veld, o.a. gebruik makend van theorieën
uit het symbolisch interactionisme. Het tweede been, gebruikt in de tweede fase, is het
empirisch onderzoek, door Van der Wolf de traditionele wetenschapsbenadering genoemd.
In feite gaat dit proefschrift vooral over deze fase. Het empirisch onderzoek volgt, zegt Van
der Wolf , voor een groot deel het voorbeeld van Rutter. Deze heeft een internationaal bekend
en gewaardeerd onderzoek naar schoolloopbanen uitgevoerd, dat bekend geworden is onder
de titel van het boek waarin het beschreven wordt: 'Fifteeen thousand hours'. Rutter's
onderzoek vond plaats in de hoofdstad van Engeland van 1970 tot 1979. Het deelonderzoek
dat hier door Van der Wolf wordt gerapporteerd, vond plaats in de hoofdstad van Nederland
'n 1982. Rutter volgt dezelfde leerhngen over een aantal jaren in hun schoolcarrière. Van der
^olf gebruikt éénmalige metingen over leeriingen en leerkrachten.

Beiden, Van der Wolf en Rutter, beginnen eerst met rondkijken op de scholen (de een
hermeneutisch, de ander tamelijk 'theoriearm', Ic, pag. 22), met deels gehjke bedoelingen,
namelijk om methoden en instrumenten te ontwikkelen. Dit doen beide onderzoekers vanuit
de overtuiging dat scholen verschil maken met betrekking tot hun 'zorgbreedte', zoals Van der
Wolf dit noemt. Rutter gebruikt deze Hollandse term niet, maar ook hij verwacht dat de
nianier waarop scholen intern georganiseerd zijn invloed heeft op schooluitval en delinquent
gedrag van leeriingen. Rutter doet onderzoek op twintig (later dertien) middelbare scholen in
Zuid-Londcn en de binnenstad van Londen. Van der Wolf op dertien lagere scholen in
'Amsterdam Nieuw-West.

Van der Wolf heeft op twee punten ernstige kritiek op Rutter. De laatste werkt zonder een
duidelijke theorie, en gaat meer exploratief te werk. Bovendien is het niet duidehjk, aldus
^an der Wolf, welke beleidsconsequenties er uit Rutter's onderzoek gehaald kunnen worden,
^an der Wolf vat het plan op deze 'fouten' niet te maken, en dus Rutter's onderzoek op betere

-ocr page 194-

190 Notities en commentaren

wijze in Nederland te herhalen. Dit zal echter niet het enige verschil met Rutter blijven.
Rutter doet empirisch onderzoek en kent het terrein van de 'traditionele wetenschapsop-
vatting'. Van der Wolf, komend uit de fenomenologische achtergrond van de orthopedago-
giek, begeeft zich duidelijk op onbekend terrein. Het hinken op twee benen wordt daardoor
inderdaad gestuntel, waardoor al na het lezen van het eerste hoofdstuk duidehjk wordt dat het
onderzoek als een mislukking zal eindigen.

De rol van de wetenschapstheoretische opvattingen in dit onderzoek

Met de nadruk op het symbolisch interactionisme en de 'handelende persoon' worden
gegevens over individuen verzameld, hoewel het er bij de conclusies op lijkt dat er scholen
onderzocht zijn. Als het de opzet van dit onderzoek is scholen te onderzoeken dan klopt het
niet dat er 'een instrumentarium dat schoolinterne factoren meet' wordt ontwikkeld, terwijl er
gekozen wordt voor 'zelfrapportage metingen in de vorm van vragenlijsten, die door de
leerlingen en leerkrachten zelf ingevuld kunnen worden' (Ic. pag. 33). Als je wetenschapsop-
vatting eruit bestaat dat je mensen moet bestuderen vanuit hun 'plan of action', vanuit de
'zone van hun naaste ontwikkeling', of vanuit wetmatigheden die in de personen zelf liggen,
zoals Van der Wolfs overtuiging is, dan moet je je ook beperken tot het bestuderen van
personen. In dit onderzoek worden in feite ook personen gemeten, maar de conclusies gaan
daarentegen over schoolsystemen. De metingen van personen gaan met behulp van uitgebrei-
de en voornamelijk reeds eerder gebruikte vragenlijsten, die op hun bruikbaarheid worden
getoetst met behulp van een 'in de hermeneutische oriëntatie gefundeerde theorie'. De
wetenschapsfilosofische uitgangspunten (niet te verwarren met een theorie over schoolse
socialisatieprocessen) kunnen Van der Wolf behoeden, zo meent hij, voor de fouten van
Rutter, die door zijn eenzijdige empirische benadering het gevaar liep 'to deliver the parts of
the machine, but not the enterprise' (Ic. pag. 22). We zullen zien dat Van der Wolf ons de
'enterprise without the parts of the machine' zal leveren. Het lezen van dit boek is niet
gemakkelijk vanwege het verspreid staan van de informatie. Informatie die aangeeft waarom
bepaalde keuzen zijn gemaakt. Veel esssentiële informatie ontbreekt ook, zoals de lecs-
toetsuitslagen en alle items van de 21 schalen en schaaltjes waarmee leerkrachten en leerlin-
gen gerheten zijn. Het ontbreken van deze gegevens, alsmede het gedeeltelijk of helemaal niet
verantwoorden van gemaakte keuzes, bemoeilijkt kritiek op Van der Wolfs werk.

De onderzoeksvragen en onderzoeksantwoorden

'De eerste vraag luidde: Wat is de bijdrage van de school aan schooluitval van kinderen?' (Ic,
pag. 34). Hoewel men zegt te hebben gewerkt aan een gefundeerde theorie hierover, worden
geen aanwijzingen gegeven over wat die theorie wel vermag tc zijn. Als we de verwijzing naar
bijlage A als een verwijzing naar een wetenschapstheoretische verantwoording opvatten,
zullen we bemerken dat in bijlage A slechts verslag wordt gedaan van de fasen die zijn
voorafgegaan aan dit deelonderzoek. Hoewel er in hoofdstuk één wordt verwezen naar een
andere theoretische aanpak van het probleem dan Rutter hanteert, lijkt hier de werkwijze
wezenlijk niet verschillend van de laatst genoemde. Later zullen we zien dat de bijdrage van
de school aan de schooluitval gemeten wordt met behulp van tevredenheidsscores van
leerkrachten, verkregen uit vragenlijsten. Als we daarna de resultaten bekijken, die de analyse

-ocr page 195-

I. Kreft 191

Van de leerkrachtvragenlijsten oplevert, blijkt dat de tevredenheidsschalen (zoals arbeidssa-
tisfactie (SATIS), tevredenheid met het hoofd (HOOFD), tevredenheid met de coUega's
(COLL), en tevredenheid met het curriculum (CURR)) samenhangen met de houding ten
opzichte van de onderwijsvernieuwing (ATMOE) en het door de leerkracht waargenomen
percentage plezierige (NPLEZ) en lastige (LASTIG) kinderen. We vinden dit in tabel 11. Het
is overigens lastig dat hier de (vaak onbegrijpehjke) SPSS-namen worden gebruikt, zonder
Verwijzing naar de verklaring ervan die gegeven wordt in figuur 5 op pag. 56. Het zal daarom
de haastige lezer ontgaan dat leerkrachten, die op deze tevredenheidsdimensie hoog scoren,
het onbegrijpehjke label 'coöperatief krijgen. Uit een tabel onder tabel 11 bhjkt dat deze
coöperatieve leerkracht het meest voorkomt op de scholencluster die 'prestatiegericht' wordt
genoemd en het minst voorkomt op de scholencluster die de 'affectieve welzijnsschool' (met
Veel schooluitval) wordt genoemd. De niet gegeven 'gefundeerde' theorie hierachter kunnen
We nu zelf min of meer reconstrueren: hoe groter de tevredenheid van de leerkracht, hoe
kleiner de bijdrage van de school aan schooluitval.

De tweede onderzoeksvraag luidde; zijn er verschiUen tussen scholen wat betreft de
bijdrage aan de schooluitval van kinderen? (Ic, pag. 35). Na de ontwikkeling van een theorie
over schoolinterne factoren in de hermeneutische fase (over deze theorie worden weer geen
nadere gegevens verstrekt), wordt besloten ervoor te zorgen dat in de daarop volgende
empirische fase alle scholen uit het onderzoek een vergelijkbare populatie leerlingen hebben.
Dit vereenvoudigt immers de vergelijking van de scholen na een aantal jaren. Men vindt deze
scholen in Nieuw-West. Hoewel op het eerste gezicht duidehjk is dat alle dertien scholen hun
kinderen uit dezelfde buurt betrekken, en dus gelijke leerlingpopulaties hebben, poogt men
dit ook aantoonbaar te maken. Men vergelijkt de scholen met betrekking tot het aantal
mediterrane kinderen, en besluit aan de hand van deze gegevens dat de sociale afkomst van de
leerlingen op alle scholen gelijk is. Met een leestoets in de eerste klas gaat men na of het aantal
kinderen met leermoeilijkheden ook gehjk is. Als dit alles inderdaad bhjkt, wordt gecon-
stateerd dat alle scholen in aanvang gelijke leerlingen hebben. In de volgende stap wordt
achterhaald hoe groot het percentage kinderen per school is, dat doorverwezen wordt naar het
buitengewoon onderwijs (gemeten over een periode van zes jaar). Geven deze percentages
Verschillen aan tussen scholen, dan is de tweede onderzoeksvraag eenvoudig met 'ja' te
beantwoorden. De gevonden verschillen worden veroorzaakt door de scholen, de aanvang-
scondities zijn/waren immers gelijk.

Zijn de scholen gelijk?

De bovenstaande veronderstelling dat de scholen gelijke instroom hebben, is cruciaal voor
a'le conclusies die later uit de gegevens worden getrokken. Omdat men overtuigd is van de
gelijkheid van de scholen, vindt men het niet nodig meer informatie te verzamelen dan
doorstroompercentages naar BUO en voortgezet onderwijs. Elk verschil in doorstroom kan
slechts het gevolg zijn van het gegeven onderwijs, zo wordt kennelijk geredeneerd. Om na te
gaan welk soort onderwijs er gegeven wordt, vraagt men dit aan de leerkrachten. Het zijn
dragen over arbeidssatisfactie, de persoonlijke wijze van het oplossen van problemen, opvat-
tingen over de oorzaken van probleemgedrag bij leeriingen, maatregelen bij een dergelijk
gedrag, tevredenheid over de werkomstandigheden en de onderwijsvernieuwing, werkwijze
'n de klas, perceptie van de hoeveelheid probleemkinderen, enzovoorts. De bedoeling van
'^eze vragenhjsten is
niet de school daarmee te typeren als bijvoorbeeld een affectieve
Welzijnsschool of een prestatiegerichte school. Dat wordt met andere gegevens gedaan. De
bedoeling is hier de achterliggende gemeenschappelijke componenten te vinden die achter al

-ocr page 196-

192 Notities en commentaren

deze vragen liggen en die het karakter of het type van de leerkracht beschrijven. Dat daarbij
ook het item 'perceptie van de hoeveelheid probleemkinderen' meedoet, kan alleen verklaard
worden vanuit de gegeven vooronderstelling dat de scholen in aanvang gelijk zijn. Hieruit
volgt immers dat een leerkracht dezelfde leerlingen heeft als andere leerkrachten. Maar de
ene leerkracht beschouwt leerlingen wel als lastiger of gemakkelijker dan andere leerkrachten
doen, of hij maakt zijn leerlingen zelf lastiger of gemakkelijker dan andere leerkrachten. In
beide gevallen is het gedrag van de leerhng een eigenschap van de leerkracht en niet van de
klas of de leerling zelf. Later zal deze gedachte worden uitgebreid tot lastige of moeilijk
lerende kinderen zijn een eigenschap van de school, dus niet alleen van een enkele leerkracht.

Van bovenstaande merkwaardige (hermeneutische?) theorie, dat de leerkracht het gedrag
van de leerling veroorzaakt, blijft echter weinig over als de veronderstelde gelijkheid van
scholen niet opgaat. Uit een tabel op pag. 59-60 moet blijken dat de sociale herkomst van de
leerhngen op alle scholen gelijk is. 'Als maat voor de homogeniteit van de schoolpopulatie is
gekozen voor de punten die toegekend werden in het kader van het stimuleringsbeleid en de
percentages mediterrane kinderen op de scholen' (Ic, pag. 61). We hebben, voor de zekerheid,
de gegeven tabel getoetst op homogeniteit, met behulp van enkelvoudige variantie-analyse op
de logits, voor ieder van de vier jaren. Wevondende volgende x^-waarden. Voor 1979: 39.51
(18.45), 1980: 59.62 (28.89), 1981: 80.59 (44.35), 1982: 109.99 (57.94), alle met 12 (11)
vrijheidsgraden. De getallen tussen haakjes zijn de x^-waarden zonder de dertiende school.
Deze school is ook later door Van der Wolf uit zijn onderzoek verwijderd. School 13 verschilt
sterk van de overige scholen, wat we kunnen zien aan het feit dat er door de ene extra
vrijheidsgraad heel veel aan de x^-waarden toegevoegd wordt. Toch zijn alle x^-waarden (ook
die zonder school 13) significant, zodat we kunnen zeggen dat de scholen zeker niet homogeen
zijn. Bovendien zien we dat de heterogeniteit zeer sterk toeneemt over de jaren.

De tweede belangrijke toets voor gelijkheid is de leestoets. Hierover wordt geconcludeerd:
'Er zijn geen significante verschillen tussen scholen wat betreft de instroom van leeriingen met
leerproblemen' (Ic, pag. 97). Dit laatste gegeven kunnen we helaas niet narekenen. Er worden
geen scores verstrekt van de gebruikte technische en begrijpende leestoetsen. We vinden het
echter moeilijk aanvaardbaar dat een leeytoets, afgenomen in een aanvangklas, voldoende
voorspellende kracht heeft om aan te geven dat er geen leermoeilijkheden zijn of zullen zijn.
Of zelfs dat uitvalpercentages (enkele jaren later) 'niet kunnen worden toegeschreven aan
deze factor' (Ic, pag. 97) (de factor 'aanvangsverschillen'). Een andere vraag die men zich in
dit onderzoek niet stelt is of een toets voor lezen hetzelfde is als een toets voor leer- en
opvoedingsmoeilijkheden. (Rutter stelt vast, dat in zijn onderzoek, behalve leesproblemen
ook emotionele- en gedragsproblemen een rol van betekenis spelen.)

De analysemethoden van de empirische wetenschap

Alhoewel Van der Wolf in eerdere hoofdstukken het land van het harde empirische onder-
zoek een traditioneel wetenschapsland noemt (Ic, pag. 25), vindt hij er toch enkele moderne
computertechnieken. De eerste is Principale Komponenten Analyse. Deze techniek lijkt goed
bruikbaar om de 21 schalen en schaaltjes afgenomen bij de leerkrachten tc ontleden en om tc
zetten in daaronder liggende constructen. Er is hier geen sprake van het bewust meten van een
onderliggend construct met behulp van vragenlijsten. De techniek wordt uitsluitend gehan-
teerd om een gemeenschappelijke factor te ontdekken die aan de schalen ten grondslag zou
kunnen liggen. Met andere woorden, men wil ontdekken (dus toch exploratief!) met
welk
soort leerkrachten men zoal te maken heeft. De schalen worden daarbij allemaal als persoon-
lijkheidsschalen opgevat. De gemeten leerkrachtvariabelen worden tegelijk in één analyse

-ocr page 197-

I. Kreft 193

gestopt. De daarna verkregen oplossing ziet er echter zwak en onbetrouwbaar uit, waarbij we
als criterium het aflopen van de eigenwaarden en het totale percentage verklaarde variantie
nemen (wat niet verwonderlijk is bij een zo breed scala van verschillende metingen). liet
analyseresultaat laat zien dat leerkrachten met veel moeilijke kinderen weinig arbeidssatis-
factie en weinig tevredenheid kennen, en omgekeerd dat tevreden leerkrachten weinig
moeilijke leerlingen waarnemen en ook meer arbeidsvreugde voelen.

Een andere techniek die we in dit onderzoek tegenkomen is clusteranalyse. Men gebruikt
deze techniek vaak om te onderzoeken of men een groot aantal eenheden terug kan brengen
tot een klein aantal. Meestal is dat een groot aantal mensen dat men onder wil brengen in een
klein aantal groepen, op zo'n manier dat de verschillen binnen groepen zo klein mogelijk zijn
en de verschillen tussen groepen zo groot mogelijk. Dat dit datareductie, en daardoor
informatieverlies, met zich meebrengt is bij grote aantallen eenheden juist prettig, omdat je
bij grote aantallen door de bomen het bos niet meer ziet en moeilijk met het blote oog kan
Vaststellen welke mensen nu veel op elkaar lijken cn welke niet. Maar waarom zou je een klein
aantal scholen, op zichzelf al clusters van leerkrachten en leerlingen, nog eens op één hoop
gooien. Er zijn slechts 13 scholen. In het clusterproces dat Van der Wolf toepast gaat daarbij
ook nog één kostbare school verloren (8% van de populatie), omdat deze niet in de drie
gevormde clusters past. Afgezien van deze nutteloze, informatieverspillende clusteranalyse,
Waarbij men informatie weggooit die blijkbaar niet in het wetenschapsbeeld of bij de vooron-
derstellingen past, clustert men bovendien nog verkeerd. Er wordt geclusterd op de afhan-
kelijke variabelen, namelijk de uit- en doorstroompercentages van de scholen. In de literatuur
over multi-level analyse wordt herhaaldelijk gewaarschuwd tegen groeperen op de aflian-
kelijke variabele, met name omdat dit aanzienlijke vertekeningen in de statistische resultaten
kan geven. (De binnengroepsvariantie wordt klein, de tussengroepsvariantie wordt groot.)
Als we daarboven op nog de volkomen uit de lucht gegrepen labels zien, die op de clusters
geplakt worden, dan is dc onzin compleet. Dit labelen is overigens een schoolvoorbeeld van
bet fenomeen 'naming fallacy'. Immers, iedereen heeft wel een beeld van wat men onder een
prestatiegerichte school verstaat en deze beelden zullen waarschijnlijk behoorlijk overeen
komen ook. In dit onderzoek definieert men het begrip evenwel op unieke wijze aldus: een
school met goede prestaties is een prestatiegerichte school (zonder verdere uitleg waarom).
Hoewel dit natuurlijk een drogredenering van jewelste is, is de vooringenomen gedach-
tengang in ieder geval nog te volgen. Moeilijker wordt dit als men zonder nadere toelichting
"leedeelt dat de cluster van scholen met veel uitval naar het BUO en weinig doorstroom naar
hogere vormen van V.O. voortaan 'affectieve welzijnsscholen' genoemd worden. De 'fallacy'
^'t hem natuurlijk in het feit dat verderop, en in latere discussies over de resultaten, de termen
^eer in hun oorspronkelijke 'common-sense' betekenis gebruikt worden en niet meer in dc
afwijkende, hoogst specifieke betekenis waarin men ze in dit onderzoek heeft gedefinieerd.

^an cluster naar cluster naar cluster

donder enig begrip voor de finesses van empirische wetenschapsbeoefening en voor de
problemen van multi-level analyses aggregeert men in dit onderzoek leerlingen over klassen
en Vergelijkt ze vervolgens met hun klasscleraar. Leerkrachten aggregeert men over scholen,
en vervolgens vergelijkt men ze met dc schoolkenmerken (veel/weinig uitval). Waarna
'enslotte de 13 scholen nogmaals geaggregeerd worden tot drie schoolsystemen met volstrekt
Willekeurige labels. Het lijkt me weinig zinvol nog verder op de conclusies van dit onderzoek
'1 te gaan. Ze hebben weinig waarde. De beleidssuggesties aan het eind van het boek doen nog
het meest denken aan een handboek 'Hoe word ik een goed onderwijzer'. Iedereen, dus ook

-ocr page 198-

194 Notities en commentaren

Van der Wolf, kan dit soort suggesties verzinnen, met een even grote waarde. Ze hebben
echter niets te maken met de resultaten van dit onderzoek. Men verlaat met dit soort
aanbevehngen volledig het terrein van het voorafgaande empirisch sociaal wetenschappelijk
onderzoek. Al in eerdere hoofdstukken werden niet-representatieve en niet-betrouwbare
zachte metingen tot 'wetenschap' opgeklopt door tendentieus interpreteren en etiketteren,
maar bij de beleidssuggesties wordt de band met de gegevens geheel doorgesneden.

REFERENTIES

Rutter, M., et al. (1979); 'Fifteen thousand hours'. Secondary schools and their effects on children.

Somerset, England: Open Books Publishing Ltd.
Wolf, J.C. van der (1984):
Schooluitval. Een empirisch onderzoek naar de samenhang tussen schoolinterne
factoren en schooluitval in het regulier onderwijs.
Lisse: Swets & Zeitlinger, (Diss. UvA).

Ontvangen 28.11.1984.

-ocr page 199-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 195-199.

Notities en commentaren

SCHOOLUITVAL IN DE L'ART POUR L'ART-KRITIEK

J.C. van der Wolf

Orthopedagogisch Instituut, Universiteit van Amsterdam

In haar commentaar op mijn proefschrift heeft Kreft een groot aantal interessante overwegin-
gen naar voren gebracht. In een zevental punten zal ik op haar uiteenzetting ingaan.

Dc kritiek op het onderzoek van Rotter et al.

L^it het commentaar van Kreft zou men kunnen opmaken dat ik ernstige kritiek heb op het
onderzoek van Rutter. Het tegendeel is het geval. Ik zeg dat in mijn boek ook heel duidelijk.
Enige citaten: '...Rutters onderzoek is in veel opzichten baanbrekend. Het is longitudinaal
Van opzet, er wordt een grote groep leerlingen gevolgd tijdens hun verblijf in het voortgezet
onderwijs, het onderzoeksdesign en de presentatie van de resultaten zijn van hoge kwaliteit'
(p. 22) en 'Het effect-onderzoek van Rutter werd uitgebreid besproken, omdat dat in veel
opzichten excellent genoemd kan worden. Bij de opzet van ons empirisch-kwantitatieve
onderzoek (...) heeft het een belangrijke rol gespeeld.' (p. 24).

Ik heb niet zozeer een poging ondernomen Rutters onderzoek te verbeteren en alle 'fouten'
eruit te halen. Ik heb me er door laten inspireren en ik ben op een aantal punten andere wegen
"igeslagen. Dat staat ook zo in het boek. 'Op een aantal punten worden echter andere
accenten gelegd en andere werkwijzen gekozen. Zo is het longitudinale aspect om redenen
Van beschikbare onderzoekstijd niet overgenomen en is op een andere wijze dan Rutter deed
tot begripsvorming met betrekking tot de binnenschoolse factoren gekomen.' (p. 23).

Het Schooluitvalprojcct is in 1975 aan het Orthopedagogisch Instituut gestart. Dat was dus
enige jaren voordat Rutter zijn onderzoek rapporteerde. In de kwalitatieve onderzoeksfase,
die Voorafging aan het in het proefschrift gerapporteerde empirisch-kwantitatieve onderzoek,
's anders te werk gegaan dan Rutter in zijn onderzoek deed. Kreft ziet niet veel verschil. Ik
gfbruikte de methode van dc participerende observatie, waarbij ik uitging van de methodolo-
gische aanwijzingen van Glaser en Strauss. Rutter deed dat niet. Hij schrijft: 'Wc developed a
Series of guiding principles in all our work in the schools. The first of these concerned the role
of the research workers in the schools, which we saw as something rather different from the
Participant-observer pattern which has been used in many other studies of institutions.'
(•Gutter et al., p. 55).

Er is wel degelijk sprake van een verschil in aanpak. In de kwalitatieve fase van mijr
Onderzoek is bij voortduring nagegaan of de onderzochten (de onderwijsgevenden en d(
'ecrlingen) zich konden herkennen in de categorieën die werden ontwikkeld om inzicht t(
herkrijgen in het verschijnsel 'schooluitval'. In het boek wordt het als volgt gesteld: 'D
toetsing van de resultaten kan, afhankelijk van de fase waarin het onderzoek verkeen

-ocr page 200-

196 Notities en commentaren

verschillen. Hier is de toetsing gelegen in de mate waarin de respondenten zichzelf in de
resultaten kunnen herkennen. Het gaat om de mate van overeenstemming tussen onder-
zoekers en onderzochten.' (p. 35).

Overigens, Kreft doet het voorkomen of het onderzoek van Rutter algemeen gewaardeerd
wordt en dat ik, handelend vanuit een zekere zelfingenomenheid, het wel eens even beter zou
gaan doen. Het laatste is dus niet waar; het eerste evenmin. Kennehjk heeft Kreft de discussies
niet gevolgd die gevoerd zijn naar aanleiding van het verschijnen van 'Fifteen thousand hours'
(bijvoorbeeld in Oxford Review of Education (1980), in Quality and Quantity (1981), British
Journal of Sociology of Education (1980)). Het commentaar op het werk van Rutter was soms
alles behalve welwillend!

Zo zegt Goldstein tijdens een seminar dat in juni 1979 in Londen werd gehouden naar
aanleiding van het verschijnen van Rutters boek: '...we discover some technical inadequacies
which seem to cast further doubt upon some of the conclusions and which also seem to
contribute to a general picture of a less than fully competent technical expertise.' (p. 23) en
'...but the above should indicate that much is left to be desired and they do not encourage the
reader to place a great deal of confidence in the authors' results.' (p. 24). (University of
London Institute of Education, 1980).
Het lijkt Kreft wel!

2. De rol van wetenschapstheoretische gezichtspunten

Het heeft me enige moeite gekost op basis van de tekst van mijn proefschrift te achterhalen
hoe Kreft op het idee is gekomen dat het mijn wetenschappehjke overtuiging zou zijn dat
mensen bestudeerd moeten worden 'vanuit hun plan of action, vanuit de zone van de naaste
ontwikkehng of vanuit wetmatigheden die in de personen zelf hggen.'

Op p. 32 haal ik Wardekker aan die de eerste twee begrippen gebruikt in verband met
onderwijsinnovatie. Ik leg daar uit dat het mij de moeite waard hjkt om in het kader van
kwahtatief onderzoek niet alleen begrippen te ontwikkelen die door onderzochten geloof-
waardig worden gevonden, maar ook om te proberen samen met de respondenten na te gaan
of het mogelijk is gevonden knelpunten zo te beïnvloeden dat schooluitval kan worden
teruggedrongen (zie bijvoorbeeld de werkwijze op de Landschool, p. 143 e.v.).

Om .deze overweging nu tot mijn wetenschapsopvatting te bombarderen hjkt mij een
ongefundeerde generahsatie van de soort, waar Kreft juist zo'n moeite mee hjkt te hebben
(zie ook verderop).

Wat betreft mijn door Kreft veronderstelde speurtocht naar 'wetmatigheden die in de
personen zelf hggen'; deze vaststelhng heeft me toch wel erg verbaasd.

Onder het hoofdje 'Kinderkenmerken en schooluitval' (p. 4) leg ik uit dat ik bezwaar heb
tegen de in de orthopedagogiek vast te stellen internationale tendens leerproblemen toe te
schrijven aan bepaalde kindinterne oorzaken. Daarom is in mijn onderzoek een andere
werkwijze gekozen. '(Er) werd in eerste instantie niet zozeer gezocht naar "eigenschappen"
van de betrokkenen in de school (zoals bijvoorbeeld bepaalde leerstoornissen), maar naar de
zienswijzen en intenties van de betrokkenen in verband met het te onderzoeken
probleem
(schooluitval).' (p. 28). Hierbij speelden de uitgangspunten van het symbolisch interactionis-
me een belangrijke rol. 'In dit perspectief wordt de mens vooral gezien als een betekenisverle-
ner. Men gaat er van uit dat de interactie tussen mensen niet zozeer bepaald wordt door
disposities die de actoren zouden bezitten en in de interactie "ingebracht" worden, maar door
de aan de interactie toegekende betekenis.' (p. 28). Het zoeken naar 'wetmatigheden' die in
personen liggen, wordt in dit onderzoek nu juist niet gedaan.

-ocr page 201-

J.C. van der Wolf 197

De homogeni$eringsk>vestie; zijn de scholen gelijk?

Kreft verrichtte enig rekenwerk om aan te tonen dat de scholen niet homogeen zijn wat betreft
de factor 'mediterrane leerlingen'. Daartoe maakte zij gebruik van tabellen die staan vermeld
op de bladzijden 59, 60 en 61. Na toetsing blijkt dat de scholen niet homogeen zijn. Hiermee
denkt zij de totale opzet van het onderzoek getorpedeerd te hebben.

Ik denk dat Kreft beter kan rekenen dan lezen.

Vlak onder de tabel op blz. 61 schrijf ik: 'De spreiding (namehjk in percentages mediter-
rane leerlingen, vdW) is groter dan geschat door de medewerkers van de schoolbegeleidings-
dienst. In nadere analyses zal moeten worden uitgemaakt welke rol deze factor speelt.' En
even verderop: 'Als maat voor de homogeniteit van de schoolpopulatie is gekozen voor de
punten die toegekend werden in het kader van het stimuleringsbeleid en de percentages
mediterrane kinderen op de scholen. (...) De eerste werkwijze blijkt niet te voldoen. De
tweede levert een wat gespreider beeld dan werd verwacht. Teneinde na te gaan in hoeverre
de geconstateerde, maar beperkte spreiding al of niet van invloed is, zal bij nadere analyses
berekend moeten worden of het percentage allochtone kinderen per scholencluster (zie
hoofdstuk 6) van invloed is op de schooluitvalindicatoren.' In hoofdstuk 6 ('Nadere analyses')
Wordt hier, zoals beloofd, op teruggekomen: 'Zo is gewezen op het belang van het homogeen
houden van de factor 'sociale herkomst van de leerlingen' (...) Daarom is nagegaan of er
Significante verschillen zijn tussen de drie onderscheiden clusters van scholen op de percenta-
ges mediterrane en andere niet-Nederlandse kinderen. Er zijn
geen significante verschillen
gevonden.' (p. 94). Kreft had zich het rekenwerk kunnen besparen. Zoals in het boek
duidelijk wordt aangegeven is er
na clustering getoetst.

Overigens lijkt me haar werkwijze (een enkelvoudige variantie-analyse op de logits) een
Voorbeeld van zinloos gemethodologiseer. Een kruistabel met een chi-kwadraat toets geeft
precies dezelfde informatie op een eenvoudiger manier.

De clusteranalyse

Ook bij het beoordelen van de gang van zaken bij de clustering op de schooluitvalindicatoren
'ijkt er sprake van een zekere slordigheid bij het lezen van de tekst.

In de eerste plaats valt op dat Kreft meent dat ik school 13 (weinig mediterrane leeriingen)
tilt de clusteranalyse heb verwijderd omdat deze op de 'homogeniseringsfactor' te veel uit de
Pas liep, om vervolgens te stellen (wat waar is) dat na clustering op de uitvalindicatoren één
School uitviel.

Op blz. 94 schrijf ik: 'In de clusteranalyse blijkt dat school 13 weinig overeenkomst
Vertoont met de scholen in de drie clusters. Dit kan verklaard worden uit het feit dat school 13
^owel hoge zittenblijfpercentages heeft als veel uitval naar het buitengewoon onderwijs,
terwijl de school een middenpositie heeft in score op 'doorstroom naar het voortgezet
Onderwijs'. School 13 heeft vrijwel geen variantie met de andere 'clusters van scholen'
gemeen. Daarom wordt deze school niet verder bij de analyses betrokken.' Overigens kan ik
''^e wel enigszins voorstellen dat Kreft bij vluchtig lezen in de war is geraakt. Bij verschillende
^ualyses heb ik de scholen een ander nummer gegeven. Dit om te voorkomen dat de scholen
['erkenbaar zouden worden voor insiders in het Amsterdamse onderwijsveld. School 13 uit de
Sociale herkomst-tabel' (pp. 59 t/m 61) is een andere dan die uit de clusteranalyse (pp. 92 en
Op beide plaatsen vermeld ik dat de nummering is veranderd.

In de tweede plaats heb ik het idee dat Kreft veronderstelt dat ik clusteranalyse heb
toegepast op geagregeerde afhankelijke variabelen. Dit is niet het geval.

Ik heb gegevens verzameld over doubleerpraktijk, verwijzing naar het buitengewoon
Onderwijs en doorstroom naar het voortgezet onderwijs over een aantal cursusjaren. Ik had de

-ocr page 202-

198 Notities en commentaren

clusteranalyse, bij wijze van spreken, al kunnen uitvoeren voordat ik één stap in de scholen
had gezet.

Voor nadere informatie over de gekozen werkwijze verwijs ik naar p. 53.

Tenslotte, hoewel het natuurlijk jammer is dat bij de clusteranalyse één kostbare school
'verloren' ging, is het niet zo dat hier slechts nodeloos informatie werd weggegooid. Er wordt
ook informatie zichtbaar gemaakt, namelijk dat deze scholen op een zinvolle manier ge-
groepeerd kunnen worden. Verder blijkt dat een principale componentenanalyse in essentie
dezelfde resultaten oplevert. Het toevoegen of weglaten van school 13 heeft dus geen
overwegende invloed op de inhoud van de conclusies.

Vreemd vind ik de opmerking dat de 13de school uit de verdere analyses is verwijderd
omdat '...die blijkbaar niet in het wetenschapsbeeld of bij de veronderstellingen past.' Welk
'wetenschapsbeeld' me ertoe gebracht heeft school 13 te verwijderen wordt niet duidelijk
gemaakt.

5. De labeling van de scholenclusters

Het benoemen van factoren, dimensies of clusters is een enigszins arbitrair proces, waarvoor,
ook volgens De Groot, geen vaste regels zijn te geven. Men kan daar strenger en minder
streng bij te werk gaan. Het is niet moeilijk met een onderzoeker van mening te verschillen
over de adequaatheid van een gekozen label.

Het is jammer dat Kreft nalaat te illustreren waarom ik het fout gedaan zou hebben en niet
aangeeft hoe het beter had gekund. Nu is het moeilijk na te gaan hoe reëel haar kritiek is. De
opmerking dat hier sprake is van volkomen uit de lucht gegrepen labels, houdt geen steek. In
mijn dissertatie valt te lezen dat de benoeming van de clusters tot stand is gekomen op basis
van interpretaties van correlaties tussen de clusters van scholen en variabelen die schoolin-
terne factoren bestrijken.

6. De samenhang tussen het onderzoek en de beleidssuggesties

In hoofdstuk 8 wordt een portret geschilderd van een school die weinig schooluitval zal
hebben. Daarbij komen de volgende facetten aan de orde: het functioneren van het schoo!
team, bet functioneren van de schoolleiding, het pedagogisch-didactisch beleid, de
aandacht
voor kennis en structuur en de inzet van interne en externe steun.

Deze aspecten en de erbij geformuleerde beleidssuggesties hebben een nauwe samenhang
met wat in het onderzoek gevonden is. Daar is immers gezocht naar de samenhang tussen een
aantal indicatoren voor schooluitval en schoolinterne factoren als houding ten opzichte van de
collega's, houding ten opzichte van het schoolhoQfd, tevredenheid over de werkomstandighe-
den, werkwijzen in de klas en in de school, kennisgerichtheid en de steun bij hulp aaO
probleemleerlingen.

Ik begrijp niet goed waarom Kreft van mening is dat er sprake is van een absolute breuk
tussen het onderzoek en de beleidssuggesties. Ik heb een aantal aanbevelingen gedaan die de
zorgbreedte van een school zouden kunnen vergroten. Sommige wetenschappers zouden zich
daartoe misschien niet laten verleiden. Ik ervaar het echter als een tekort wanneer onder-
zoekers zich beperken tot het presenteren van de resultaten en'zich niet afvragen wat huf
onderzoeksresultaten voor het beleid zouden kunnen betekenen.
t

7. Het multi-level probleem

Het voorhanden onderzoeksmateriaal liet niet toe een 'mooie' multi-level analyse toe te
passen. Daar heeft Kreft natuurhjk gelijk in. De analyses op leerling-leerkracht-niveau en op

-ocr page 203-

J.C. van der Wolf 199

klasniveau zijn verricht om nadere informatie te verkrijgen over samenhangen binnen het
onderzoekscluster 'schoohnterne factoren'. Dat wordt op blz. 87 ook met zoveel woorden
gezegd. Er is geen sprake van een model waarop de werking van de verschillende niveaus kan
Worden onderzocht en vergeleken. Heeft het onderzoek nu dan ook geen enkel nut, zoals
Kreft stelt? Ik denk van niet.

Elk onderzoek, en zeker onderzoek dat 'veldnabi j' werd uitgevoerd, heeft sterke en zwakke
kanten. Rutter en zijn medewerkers stellen dat ten opzichte van hun eigen onderzoek ook
hast. '...there is a most unfortunate tendency in the social sciences to react to research reports
as if they existed in isolation. As a consequence, some pieces of research are unjustifiably
dismissed because of methodological imperfections, whereas others are equally unjustifiably
acted upon as if they provided the whole truth needed for policy decisions. AU research is
"nperfect and no one study on its own ever settles policy questions (or even more narrowly
defined scientific questions). (...) While we regret the rather negative tone of some of the
critiques and the tendency to dismiss any piece of empirical educational research because it
doesn't provide all answers, some important issues are nevertheless raised.' (University of
London Institute of Education, 1980, p. 40). Afgezien van een aantal uitglijders (de ridicule
Vraag of een toets voor lezen hetzelfde is als een toets voor leer- en opvoedingsmoeilijkheden,
natuurhjk niet; de veronderstelUng dat ik ervan uit zou gaan dat leerlingengedrag
veroorzaakt
Zou worden door het gedrag van de leerkracht, natuurlijk niet) memoreert Kreft een aantal
kwesties die in feite bij elk praktijkonderzoek aan de orde zijn. Haar bedenkingen echter
stammen typisch uit de l'art pour l'art-sfeer. Het wordt tijd dat Kreft uit haar ivoren toren
afdaalt om het prakti jkveld nader in ogenschouw te nemen. Zij zal dan tot de conclusie komen
dat het uitvoeren van onderzoek veel arbitraire momenten kent en niet alleen bepaald wordt
door eenduidige onderzoeksregels die ontleend kunnen worden aan een methodologisch
kookboek in de sfeer van het handboek van Jan Soldaat. Sommige wetenschappers hebben de
neiging onderzoeken waar smetten aan kleven naar de prullenbak te verwijzen. Zo'n houding
kunnen onderzoekers die in en met het veld willen werken zich niet permitteren.

literatuur

'^"'ter. M., et al. (1979): Fifteen thousand hours, secondary schools and their effects on children.
. London: Open Books,

niversity of London Institute of Education, (1980): Fifteen thousand hours, a discussion. London.

Ontvangen 12.4.1985

-ocr page 204-

Tijdschrift voor Onderwijsresearch 10 (1985), p. 200

Mededeling

OPROEP PROF. DR. H.C.J. DUIJKERFONDS

Het prof. Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van uitkerin-
gen de beoefening van de toegepaste psychologie te bevorderen.

Voor het jaar 1985-1986 is een bedrag in de orde van ƒ 25.000,- beschikbaar ten behoeve van een of
meer onderzoekprojekten. De bedoehng is kwalitatief goed onderzoek mogelijk te maken, dat anders
niet gereahseerd zou worden omdat de middelen ontbreken.

Bij voorkeur komen voorstellen in aanmerking in de onderzoeksvoorbereidende sfeer; te denken is
daarbij aan de kosten van een voorstudie of vooronderzoek, danwel aan de uitwerking van een onder-
zoekopzet.

Bij gegeven ruimte komen bijvoorbeeld ook in aanmerking:

- de kosten van een niet omvangrijk onderzoekprojekt of deelrapport

- de kosten van inschakeling van tijdehjke hulpkrachten

- de aanschafkosten van onmisbare apparatuur, literatuur enz.

Subsidie-aanvragen moeten worden ingediend op een aanvraagformulier, dat door het secretariaat op
verzoek wordt toegestuurd.

Aanvragen moeten vóór 1 oktober 1985 in 10-voud worden gericht aan:

De Adviescommissie van het Prof. Duijkerfonds
t.a.v. Dr. W.H.C. Kerkhoff
p/a Stichting ISBP
■ Handboogstraat 2
1012 XM AMSTERDAM
(tel: 020-525.3528)

Ook nadere informatie is op dit adres te verkrijgen.

-ocr page 205-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. 201-216.

Vergelijkbaarheid van scores van leerlingen op de
schoolbelevingsschaal

J-P.M. Mullink

Centrum voor Didaktiek en Onderzoek van Onderwijs,
Th Twente

abstract

Validity properties of the 'School attitude questionnaire' (Dutch abbreviation: 'SBS') are inves-
tigated. Stoel investigated relationships between certain properties of secondary schools and the
attitudes and feelings of their pupils towards school, using the SBS.

135 Pupils from six classes, second year MAVO, are classified into three groups by means of
ratings given by teachers: pupils who feel clearly comfortable at school, pupils who feel clearly
uncomfortable at school and pupils who cannot be classified in the comfortable or uncomfortable
group.

The SBS is able to make a distinction between these groups, within and across classes.
Comparability of SBS-scores seems quite possible if scores of all three groups are compared across
classes. Restriction of range and the procedure for classification are most acceptable explanations
for non-comparibility of SBS-scores of, only, uncomfortable and not clearly classified pupils.

DE SCHOOLBELEVINGSSCHAAL

een landelijk onderzoek (Stoel, 1982b) werd bij 7016 leerlingen van middelbare scholen
Onderzocht of er een relatie bestaat tussen diverse schoolvariabelen en de schoolbeleving van
'eerlingen. Onafhankelijke variabelen in dit onderzoek waren:
grootte van de school/scholengemeenschap (aantal leerlingen);
schooltype (de diversiteit van soorten onderwijs op een school of scholengemeenschap);
Urbanisatiegraad van de gemeente waarin de school of scholengemeenschap zich bevindt;
het leerjaar van de leeriing;
" het geslacht van de leeriing.

J^e afhankelijke variabele, de schoolbeleving van leerlingen, werd gemeten met de school-
belevingsschaal, voortaan SBS. De SBS bevat 75 items die in totaal zeven aspecten van de
sehoolbeleving meten. De aspecten definiëren subschalen van de SBS als volgt:
" algemeen schoolwelbevinden : Alg. SWB

houding ten opzichte van de leerstof : Stof

relaties met leraren/leraressen op persoonlijk gebied : Persoon
relaties met leraren/leraressen op didactisch gebied : Didact
beleving van de organisatie/gebouwensituatie : Organ,

beleving van het eigen verstandelijk functioneren : Acas.
"T relaties met medeleerlingen : Vrienden.

. e achter de omschrijvingen vermelde afkortingen zijn die welke voortaan gebezigd worden
'n dit verslag.

'^dres auteur: Postbus 217, 7500 AE Enschede

-ocr page 206-

202 Score vergelijkbaarheid op Schoolbelevingsschaal

Stoel (1980) vermeldt de items van de SBS, gerangschikt naar de component die zij meten:
inspectie van zijn bijlage VII, deel II, geeft een inhoudeUjke interpretatie van de componen-
ten.

Stoel (1982b) vergeleek, variantie-analytisch, de effecten van de onafhankelijke variabelen
op de schoolbeleving van de leerHngen, nl. de SBS-totaalscores, en op de diverse aspecten van
de schoolbeleving, nl. de subschaalscores.

De systematisch verklaarde variantie bedroeg 12.5% van de totale variantie. Van die
12.5% systematische variantie verklaarde schoolgrootte 2%, schooltype 7%, urbanisa-
tiegraad 0.9%, leerjaar 31% en geslacht 0.7% (allen als hoofdeffect). Stoel (1980) con-
cludeert dat '... de variabele schoolgrootte ... gemiddeld 2.4% van de ... verschillen in
schoolwelbevinden ... verklaart...' (pag. 82, deel I)'... dat de relatie (tussen schoolgrootte
en schoolwelbevinden) afhankelijk (is) van het schooltype en de mate van verstedelijking...'
en '... de variabelen leerjaar, schooltype en urbanisatiegraad... (blijken) ... minstens zo
belangrijk ... (voor)... het welbevinden van leerlingen als ... schoolgrootte ...' (pag. 86/
87, deel I).

'In grote hjnen gedroegen de subschalen zich overeenkomstig de totaal-score' (pag. 77,
deel I), met als 'afwijking' dat Vrienden, qua aantal, minder significante effecten opleverde
dan de andere subschalen en dat voor Acas. 'weinig significante effecten gevonden zijn' (pag-
78, deel I). 'Alg. SWB geeft meestal een hoger gemiddelde voor meisjes' (pag. 78, deel I).

De SBS is de focus van het huidige onderzoek; haar validiteitskenmerken worden onder-
zocht, d.w.z. we gaan na of de SBS schoolbeleving meet en of haar scores over scholen/klassen
vergelijkbaar zijn. Het concurrente criterium 'een beoordeling door leraren/leraressen' ge-
niet hierbij het voordeel van de twijfel (Runkei & McGrath, 1972).

Discriminerend vermogen van de SBS

Ten grondslag aan Stoel's variantie-analyse liggen de volgende assumpties over het meetni-
veau van de SBS:

- een intervalniveau van de SBS-scores (Tversky, 1970);

- zinvolheid en vergelijkbaarheid van de SBS-scores; d.w.z. dat binnen nauw omschreven
grenzen éénzelfde SBS-score éénzelfde mate van schoolbeleving impliceert (Tversky.
1970);

Doel van onderhavig onderzoek is empirisch steun te vinden voor de assumptie van zinvolheid
en vergelijkbaarheid van de SBS-scores. Een methode daartoe is de zgn. 'know-groups
comparison' (Anastasi, 1968): volgens deze methode gaan we te werk.

HYPOTHESES EN GENERALISEERBAARHEID

Stel dat men beschikt over een voor leerlingen constant criterium om hen in drie categorieën
in te delen, nl. één groep leerhngen die zich duidelijk welbevindt op school (voortaan
W-groep, van I^elbevinden), één groep leerlingen die zich duidelijk niet welbevindt op school
(voortaan O-groep, Onwelbevinden) en een 'neutrale' groep leeriingen die niet in één van de
duidelijke categorieën kan worden geplaatst (voortaan N-groep, van A^eutraal). En stel dat
die indeling in totaal bij j klassen uit j verschillende scholen plaatsvindt, zodat de termen klas
cn school in dit verslag synoniem zijn.

Beperken we onze aandacht vooreerst tot de W- en O-grocpen. Dan zijn de volgende
hypothesen afleidbaar.

-ocr page 207-

J. P. M. Mullink 203

a) Zijn W.|j en O ^ de gem. (= gemiddelde) SBS-scores van de leerlingen uit de W- en
O-groep uit klas k, dan kan van een zinvolle meting door de SBS worden gesproken als H^q
verworpen wordt:
Hao : W.^ = a,

Hg] : W.it > 0.|( p = .05; éénzijdig

Voor elke klas moet de gem. SBS-score van de W-groep hoger zijn dan die van de
O-groep.

Wordt uit de diverse W- en O-groepen één W-totaalgroep en één O-totaalgroep gevormd,
dan verejst vergelijkbaarheid van SBS-scores dat Hto verworpen wordt:
Hbo: W. = O..

Hbi : W.. > O.. p = .05; éénzijdig

De diverse W- en O-groepen moeten uit populaties met verschillend gemiddelde en al of
niet veischihende varianties afkomstig zijn.

De gem. SBS-scores van de N-groepen moeten tussen die van de W- en de O-groepen in
'iggen. Gedragen de gem. SBS-scores van de N-groepen zich volgens die verwachting, dan
kan een groter aantal leerhngen zinvol vergeleken worden op hun SBS-scores.
Als pen^nten_van de Hb vloeien voor de N-totaalgroep voort:
Hco : W.. = N.,

Hci : W., > N p = .05; éénzijdig

en

Hdo : Ö,. = N.

H<j| : O < N p = .05; éénzijdig

Op basis van verschillen tussen gehele klassen in gem. SBS-scores (T-k) en eventueel in
varianties, zijn schommelingen te verwachten in de gemiddelden van de diverse W. N. k-
0.|(-groepen.

H(,i, Hji en Hj, moeten tegen die schommelingen bestand zijn, maar spreken zich in
Wezen niet uit over dc eis dat vergelijkbaarheid van SBS-scores idealiter vereist dat elke
W-groep (uit welke klas dan ook) een hogere gem.
SBS-score heeft dan elke andere
N-groep en dat elke
N-groep op haar beurt een hogere gem. SBS-score heeft dan elke
andere
O-groep. Gegeven de verwerping van de H,o in de diverse klassen, is het verwer-
pen van de H(,o, H^o en H^o een
minimale voorwaarde om van vergelijkbaarheid van
SBS-scores te kunnen spreken: zij toetsen verschillen tussen W-, N- en O-totaalgroepen,
zonder wezenlijk rekening te houden met verschillen (in T-k) tussen gehele klassen.
Indien er een onderscheid gemaakt wordt tussen een schooleffcct (verschillen in T.^) en
een classificatie-effect (verschillen tussen
W-, N- en O-groepen als gevolg van de
groepsindeling) op de
SBS-scores, dan moet het classificatie-effect het schooleffcct over-
stijgen willen de
SBS-scores vergelijkbaar zijn.

De gcneraliseerbaarheidscoëfficiënt van de classificatie R^ass (formule 2) spreekt zich uit
over de relatieve sterkte van het classificatie-effect ten opzichte van het schooleffcct. R^i^j,
geeft een getalsmatige indicatie voor de vergelijkbaarheid van de
SBS-scores van W-, N-
en O-groepen.

anienvattend: Onderzocht wordt of de SBS een zinvol onderscheid tussen leerhngen maakt
Per klas (Ha) en of de SBS-scores van school tot school vergelijkbaar zijn (H^, H,,, H., en Rdass)-
b, Hj en Hd zijn op te vatten als minimale voorwaarde om van vergelijkbaarheid van
°S-scores te spreken.

-ocr page 208-

204 Score vergelijkbaarheid op Schoolbelevingsschaal

METHODE

Materiaal

De SBS, in de versie gebruikt in het landelijk onderzoek, wordt afgenomen ter bepaling van
de schoolbeleving van leerhngen. Voor de SBS zij verwezen naar Stoel (1980).

Als criterium van groepsindehng wordt een beoordehngsschaal gehanteerd: drie leraren/
leraressen schatten onafhankehjk van elkaar de schoolbeleving van alle leerhngen in een klas
in. Zij benoemen eerst die leerhngen die zich duidelijk prettig dan wel duidehjk onprettig
voelen op school. Deze beoordehngsschaal kent zes schaalwaarden, waarvan alleen de uiter-
sten zijn aangegeven (Mulhnk, 1981).

Procedure

Een week na aanschrijving van de scholen werd telefonisch contact met de directie opgeno-
men. Elke aangeschreven school verleende haar medewerking aan het onderzoek. Telefo-
nisch werd de directie verzocht een klas met ongeveer 18-23 leerhngen aan te wijzen voor
onderzoek, die als een 'doorsnee'klas qua cijfers was te beschouwen.

Dit verzoek werd te laat gericht tot de directie van de school te Kohum, zodat deze klas
welhcht geen 'doorsnee'klas qua cijfers is. Het onderzoek vond plaats in de periode 10/3 tot
en met 22/4/1980. De SBS werd groepsgewijs afgenomen in het bijzijn van de proefleider,
zodat vragen over invulhng van de SBS beantwoord konden worden.

Respondenten

Respondenten in dit onderzoek zijn 59 jongens en 78 meisjes van zes tweede klassen MAVO
van scholen te Roden, Silvolde, Zutphen, Kollum, Dieren en Scheemda. Na weglating van
twee respondenten (zie protocollering en scoring) zijn de overige respondenten als volgt over
de scholen verdeeld.

Tabel 1: Respondenten, verdeeld naar geslacht en school

klas

jongens

meisjes

totaal

Roden

11

12

23

Silvolde

14

15

29

Zutphen

7

17

24

KoIIum

10

7

17

Dieren

9

12

21

Scheemda

8

13

21

totaal

59

76

135

Het constant zijn van de factoren leerjaar, schooltype (categorale MAVO) en urbanisa-
tiegraad kan ten gunste zijn van de H51, H^ en H^i, omdat leerlingen op die factoren al
vergelijkbaar zijn, maar stelt beperkingen aan de generaliseerbaarheid van de resultaten naar
de populatip van alle middelbare scholieren in Nederiand. Op de vergelijkbaarheid vah onze
steekproef met de populatie van interesse komen we bij de resultatensectie terug.

-ocr page 209-

J. P. M. Mullink 205

ONDERZOEKSONTWERP

Design

Per klas beoordelen drie leraren/leraressen de mate van schoolbeleving van leerlingen uit een
klas. Op basis van de overeenstemming tussen en de som van deze beoordelingen worden
leerlingen in de drie groepen ingedeeld; de SBS-scores worden op de vermelde wijze onder-
zocht.

Criterium

Met het oog op de validiteit van de beoordelingen is het wenselijk dat de leraren/leraressen de
leerlingen in redelijke mate kennen: al te grote scholen Hjken niet in aanmerking te komen.
'^Is restricties aan de benoeming van leraren/leraressen als beoordelaars werden gesteld:
~ dat zij al minimaal drie jaar les gaven op middelbare scholen en

dat de te beoordelen leerlingen vanaf het begin dat ze onderwijs op de onderzochte school
volgden les hadden van deze leraren/leraressen.
Het stond leraren/leraressen vrij de beoordelingstaak te weigeren. Twee leraren wezen het
Verzoek tot medewerking af, omdat ze volgens eigen zeggen niet aan de criteria voldeden als in
de instructie vermeld (zie Mullink, 1981). De 'trio's' leraren/leraressen verschillen van school
'ot school en worden door de schooldirectie zelf aangewezen: variantie-analytisch zijn zij per
klas als een random factor te beschouwen.

De beoordelingsschaal voor leraren/leraressen werd meestal niet ingevuld in het bijzijn van
de proefleider. Uitdrukkelijk werd de leraren/leraressen verzocht de schaal onafhankelijk
Van elkaar in te vullen.

De betrouwbaarheid van beoordelingsschalen is afhankelijk van het aantal schaalwaarden
(Nunnally, 1967): zes schaalwaarden lijken minimaal. De
validiteit van beoordelingen hangt
positief samen met de duidelijkheid van het criterium waarop beoordeeld wordt (Guilford,
^^54). Het beoordelingscriterium wordt omschreven door middel van items van de com-
ponent 'algemeen SWB' van de proefversie van de SBS (Mullink, 1981).

Storende variabelen

^f^striction of range: Indien leerlingen in een klas (of de gehele steekproef) niet al teveel van
elkaar verschillen in schoolbeleving, dan zijn zij minder goed onder te verdelen in duidelijk
^an elkaar te onderscheiden W- en O-groepen,

^lassegrootte: Bij een klein aantal leerlingen in de te onderscheiden groepen zal een verschil
'f ssen die groepen minder snel significant zijn dan wanneer er meer leerlingen in die groepen
houden zijn (Scott & Wertheimer, 1962).

De H30 wordt in beide gevallen minder snel verworpen en bijgevolg de Hbo, H^o en Hjo. Het
1'et verwerpen van de H^o (Hbo etc.), waarvan een te kleine spreiding in SBS-scores en/of in
'Combinatie met een te klein aantal waarnemingen per groep als oorzaak beschouwd moet
J^orden, en niet het onvermogen van de SBS om onderscheid te maken tussen leerlingen,
"etekent dat men de H^
q (H^o etc.) ten onrechte niet verwerpt; een fout van de tweede soort.

Controle van deze storende variabelen heeft plaatsgevonden door de schooldirectie tc
Verzoeken een klas voor onderzoek aan te wijzen die als een 'doorsnee'klas qua cijfers kon
borden aangemerkt en minimaal 18 leerlingen bevatte. Wagner (1975a) komt in een over-
zichtsartikel over het verband van diverse variabelen met houding ten opzichte van school tot
"e conclusie dat cijfers matig tot sterk correleren met schoolbeleving. Voldoende variantie in
etjfers geeft m.a.w. meer waarborg voor voldoende variantie in SBS-scores.
Het niet verwerpen van de nulhypothesen kan te wijten zijn aan
invaliditeit van het criterium

-ocr page 210-

206 Score vergelijkbaarheid op Schoolbelevingsschaal

van groepsindeling in die zin dat leerhngen niet in de 'juiste' groepen worden ingedeeld.
Vertrouwen in een juiste indehng van leerhngen uit één klas in W-, N- en
O-groep wordt
ondersteund in zoverre de drie leraren/leraressen uit die klas overeenstemmen in zowel de
relatieve positie van leerlingen ten opzichte van elkaar, als in de absolute mate ('projectie'
Crano & Brewer, 1973) van schoolbeleving dat zij aan leerlingen toekennen. Denkbaar is dat
beoordehngen in een klas 1.00 met elkaar correleren, maar dat de beoordehngen verschillen
in de absolute mate van schoolbeleving die wordt toegekend (Tinsley & Weiss, 1975).

Aangezien op basis van de beoordehngen beshssingen worden genomen omtrent groepsin-
deling van leerhngen, wordt bij de berekening van de mate van overeenstemming tussen
leraren/leraressen per klas rekening gehouden met absolute verschillen binnen trio's van
eenzelfde klas.

In dit onderzoek wordt voor het overige aangenomen dat de verschillen tussen leraren/le-
raressen binnen eenzelfde klas vahde verschillen zijn: gevolg van de manier waarop/de mate
waarin de leraar/lerares de leerhngen kent. Ze zijn inherent aan de experimentele situatie en
er wordt juist naar gevraagd.

'Leniency' (Crano & Brewer, 1973) is de neiging van beoordelaars anderen in gunstige zin
te beoordelen. De gemiddelde beoordeling van leraren/leraressen zal door het leniency-effect
hoger zijn dan het schaalmidden (3.5) en de kans op absolute overeenstemming zal iets groter
zijn voor leerhngen uit de W-groep dan voor leerhngen uit de N- of O-groep.

Rekening houdend met het leniency-effect is een criterium voor groepsindeling dat de
bovengrens voor indehng in de O-groep 3 x (de gem. beoordeling - één standaarddeviatie)
bedraagt en de ondergrens voor toekenning aan de W-groep 3 x (de gem. beoordehng + één
standaarddeviatie), waarbij gemiddelde en variantie worden berekend op het totale bestand
van leraren/leraressen, d.w.z. zonder rekening te houden met 'tussen'klassenvariantie in
beoordehngen.

Vrijwel absolute overeenstemming tussen leraren/leraressen over de mate van schoolbele-
ving van leerhngen imphceert bijvoorbeeld dat:

- voor indehng van leerlingen in de O-groep minstens twee leraren/leraressen een beoorde-
ling van 3 of minder aan eenzelfde leerling toekennen, terwijl de andere leraar/lerares
daarmee niet in tegenspraak is (d.w.z. een score van ten hoogste 4 toekent);

- voor indehng van een leerling in de W-groep elke leraar/lerares een score van 5 of hoger
aan de leerhng toekent.

De vergelijkbaarheid van het beoordelingscriterium tussen klassen is niet gegarandeerd,
omdat de 'trio's' leraren/leraressen van klas tot klas verschillen. Het ene trio leraren/lerares-
sen kent gezamenlijk een iets hogere of lagere schoolbeleving toe aan leerlingen dan een
willekeurig ander trio. Wij nemen aan dat verschillen tussen trio's leraren/leraressen een
vahde afspiegehng zijn van objectieve verschillen in schoolbeleving van de leerhngen uit de
diverse klassen; we beschouwen trio's als vergelijkbaar. Er is geen controle voor verschillen
tussen trio's.

Protocollering en scoring

Onafhankehjke variabele voor indeling van leerlingen is de somscore van de beoordelingen.
Vertrouwen in de somscore van de lerarenbeoordehng wordt gestaafd als de individuele
verschillen tussen de leerlingen meer gewicht in de schaal van de somscore leggen dan de
verschillen tussen de leraren/leraressen.

Afhankelijke variable is de somscore van de leerlingen op de SBS. De items worden vermeld
door Stoel (deel II, bijlage); bijna de helft van de items wordt gespiegeld alvorens de
SBS-score van leerlingen te berekenen. De items 38'), 40, 50 en 51 werden uit de vragenlijst

-ocr page 211-

J. P. M. Mullink 207

Verwijderd wegens het opvallend hoge percentage missing data (10%) in vergelijking met
andere items (1,5%). Item 17 werd eveneens uit de vragenhjst verwijderd; zij stelt exact
dezelfde vraag als item 1. De items 17,38 en 40 werden ook in het landelijk onderzoek niet bij
de berekeningen betrokken.

Twee leeriingen werden niet in de berekeningen opgenomen, omdat zij een teveel aan
missing data hadden (9%). Voor de overige leerlingen werden missing data vervangen door
het klassegemiddelde van het betreffende item.

STATISTISCH ONTWERP

De generaliseerbaarheidscoëfficiënt Rsomscore houdt rekening met zowel de relatieve over-
eenstemming van de beoordelingen als met de absolute overeenstemming (c.q. verschillen)
tussen de beoordelingen. Aangezien de leraren/leraressen en leerlingen per klas als een
random factor worden beschouwd wordt Rsomscore berekend op basis van een 'two-way random
•iioder. Na aanpassing van formule (15) (Bartko, 1966; pag. 4) middels de Spearman-Brown
formule voor testverlenging luidt R voor de somscore van elk trio leraren/leraressen:

leerlingen

somscore

3o leerlingen"'" beoordelaars ^ O^error ^^^

n(MSP - MSE)

^omscore

nMSP -F MSR - MSE

'"et n als het aantal leeriingen, MSP (fersonen) de mean squares voor leeriingen, MSR
(«aters) die voor leraren/ leraressen en MSE die voor de error. drukt, rekening

houdend met MSE, de door leerlingen verklaarde variantie uit als proportie van de totale
^arjantie.

I^somscore gecft aan in hoeverre een willekeurig ander trio leraren/leraressen tot dezelfde
somscore van de leerlingen zou komen; zij varieert van 0.00 tot 1.00 en is interpreteerbaar als
een correlatie-coëfficiënt (Bartko, 1966). Om vertrouwen te kunnen stellen in de groepsin-
eling wordt als (arbitraire) ondergrens voor Rsomscore een waarde van .60 gesteld.
Coëfficiënt-
® Pha geeft informatie over de overeenstemming binnen trio's over de relatieve posities van de
eerlingen, afgezien van verschillen in gemiddelde beoordeling binnen een trio. Men vat
eraren/leraressen op als een 'fixed' factor.

Toetsing van de H^, Hb, H(, en Hj vindt plaats op de vermelde significantienivcaus met een
"toets met al dan niet gepoolde variantie (Mendenhall et al., 1974).

Een generaliscerbaarhcidscoèfficënt van de classificatie, Rdass, c.q. de vergelijkbaarheid
^an de SBS-scores van W.k-, N.k- en O.k-groepen, wordt berekend met:

b ^ class

•^class^)

O^class + O^cholen "1" O^dass x scholen

^ 'Nummering voor alle items volgens vragenlijstexemplaren; zij stemt voor sommige items niet met
^ Stoel's bijlage overeen.

) C. Lewis, vakgroep Statistiek & Meettheorie, R.U. Groningen, was behulpzaam bij deze formule.

-ocr page 212-

208 Score vergelijkbaarheid op Schoolbelevingsschaal

(i-l)(MS,-MS,3)

Rclass = --(2)-

(i - l)MSe + (i - l)(j - 1)MS„ + jMS,- ijMSe

met MSc als de mean squares voor de classificatie;

MSs als die voor scholen;

MScs a's die voor de interacde;

i als bet aantal classificaties (i =3) en

j als bet aantal scholen (j=6).

Rciass varieert van 0.00 tot 1.00 en drukt de uitsluitend door de classificade verklaarde
variantie uit als proporde van de door alle factoren verklaarde variantie. Aangezien het
classificatiecriterium per assumptie vergelijkbaar is van school tot school is de groepsindeling
op te vatten als een fixed factor niet genest onder de factor scholen. De factor school is een
random factor. Leerlingen zijn genest onder factor school, maar worden opgevat als replica-
ties van elkaar. MS;., MS^, MS^^ en MS^ zijn te berekenen met een tweewegvariantie-analyse
op basis van een mixed model. Rdass's gebaseerd op tabel 8.1.1 (Scheffé, 1964, pag. 269;
'mixed model'). Bij een two-way fixed model zou R^igsj getalsmadg aldjd hoger uitvallen dan
die volgens onze formule.

We moeten verwachten dat ons design variande-analytisch ongebalanceerd is, omdat de 18
cellen geen gelijke aantallen leerlingen zullen bevatten. Door de afhankelijkheid van de
factoren 'classificade' en 'scholen' is de totale verklaarde variantie niet uniek te verdelen
tussen interacde-effect en, met name, hoofdeffecten onderling. Searle (1971) geeft exacte
matrixformules voor de directe berekening van de diverse o^-componenten voor de bereke-
ning van R^iass. We achten de meerwaarde van Searle's 'fitdng constants method' (pag. 443
e.v.) te gering ten opzichte van de door ons gevolgde methode.

Multipele regressie kent een zgn. hiërarchische analyse waarbij voor de berekening van dc
kwadratensom van een factor het effect van eerder ingevoerde factoren wordt uitgepartiali-
seerd. Wij berekenen de kwadratensom voor de beide hoofdeffecten na uitpartialisering van

het andere hoofdeffect. Als SS^assificatie + SS^^hoien -I- SSi„,„actie = SSy • Rj., 2......k-SSnje,.uniek, rnet

k = 17 voor — in die volgorde - twee dummy's voor de classificade, vijf voor de scholen en tien

voor de interacdes (dummy-coderingen; 1,0), dan geldt dat SS^iassincatic = SSy-Rj(i,2.3.....7),

SSschoien = SSy • R2(3.....7. ,2, cn SSj^,„actie = SSy • R^fg.....17.1,.„7) voor onze berekeningen. SS„ie,.u„ick

is de niet-unieke onder te verdelen verklaarde variantie die, door de andere factor niet uit te
pardaHseren, aan SSdassificatie of SSschoien I^ari worden toegewezen.

(2) Geldt voor gelijke aantallen per cel, en het is moeilijk in te zien hoe ongelijke aantallen
zich vertalen in (2). SSnje,.uniek kent strikt genomen geen interpretatie, maar we kunnen
SS„ic,.uniek beschouwen als maat voor niet-orthogonaliteit. D.w.z. bij onafhankelijke design-
faktoren geldt SSnid.uniek = O, bij een positieve samenhang is zij negatief en bij een negadeve
posidef. De invloed van niet-orthogonaliteit als gevolg van ongelijke aantallen per cel kunnen
we aangeven door de mean squares voor (2) te berekenen op basis van het harmonisch
gemiddelde aantal waarnemingen per cel (Winer, 1971); we vermelden berekend
volgens dezé methode. We verwachten dat Searle's 'fitting constants method' minimaal van de
door ons gehanteerde methode verschilt in de getalsmadge hoogte van R^ass' zeker indien
SSnie,.uniek ccn rcladcf klein deel van de totale variande bedraagt.

-ocr page 213-

J. P. M. Mullink 209

RESULTATEN

Vergelijkbaarheid van de huidige steekproef met de populatie van interesse

Tabel 2 vergehjkt de gem. SBS-scores en standaardeviaties van het huidige met die van het
'andelijk onderzoek. Aangezien in het landehjk onderzoek de SBS 75 items telt en in het
huidig onderzoek 77 items, dient van het in huidig onderzoek gevonden gemiddelde van de
SBS, nl. 229.6, het gemiddelde van de items 23, 52, 73 en 81 afgetrokken en dat van de items
50 en 51 opgeteld te worden teneinde de gemiddelden vergelijkbaar te achten. De standaard-
deviaties zijn ongewijzigd gelaten en hebben betrekking op 77 (huidig onderzoek) en 75
(landelijk onderzoek) items.

Tabel 2: Gemiddelde SBS-scores en standaarddeviaties in huidig (n=135) en landelijk (n=7016)
onderzoek; F-tocts voor homogeniteit van varianties; t-toets voor heterogene varianties.

gem. SBS st.dev. F p t p

Huidig onderzoek (229.6) = 224.0 28.8 L24 .05 -1.96 .025

Landelijk onderzoek 228.9 25.9

In huidig onderzoek is gebruik gemaakt van 'clustered sampling'; de steekproef bestaat uit
'eerlingen van zes gehele klassen. Een grotere variantie is te verwachten (Kish, 1965), omdat
de waarnemingen van clusters homogener zijn dan bij een even groot aantal respondenten
getrokken volgens een simple random sample procedure.

Tabel 3 vergelijkt de correlaties van de SBS van de huidige steekproef met die van het
landelijk onderzoek.

L^e betrouwbaarheden van de subschalen zijn hoog en verschillen niet tussen de onderzoeken,
^n het landelijk onderzoek liggen dc correlaties op een iets lager niveau dan in het huidig
onderzoek. Het patroon van de correlaties is voor beide onderzoeken identiek te noemen:
naarmate een correlatie verder van de diagonaal af ligt is de correlatie lager, met uitzondering
Van de schalen Acas en Vrienden.

De huidige steekproef lijkt niet zonder meer vergelijkbaar met de populatie van interesse:
^"e middelbare scholieren in Nederland. Haar gem. SBS-score en standaarddeviatie ver-
schillen ietwat. De sample lijkt wat meer op elkaar dan een random sample: haar correlaties
■net andere variabelen zullen hoger zijn. Naarmate leerlingen, als gevolg van de clustered
Sampling procedure, binnen éénzelfde klas meer op elkaar lijken dan op willekeurige leerlin-
gen, zal de tussenklassenvariantie een relatief groter deel van de totale variantie beslaan dan
|Vanneer leerlingen binnen eenzelfde klas evenveel op elkaar hjken als op willekeurige
'eerlingen. Correlaties van de SBS-subschalen onderhng en met andere variabelen die met
Schoolbeleving samenhangen, zullen hoger uitvallen in onze sample dan in een random
Sample, ook al zijn verschillen minimaal: de intraclasscorrelatie (formule 3.6.2, Lindemann et
1980) voor de SBS-totaal-scores bedraagt .13.

b

cus, per klas

^e generaliseerbaarheidscoëfficiënten van de beoordelingen door leraren/leraressen zijn
l'oor alle klassen, behalve Scheemda, bevredigend. De soms van de beoordelingen komt per
'eerling in belangrijke mate tot stand door de kenmerken van de leerling. Leraren/leraressen

-ocr page 214-

210 Score vergelijkbaarheid op Schoolbelevingsschaal

Tabel 3: Correlaties van de subschalen van de SBS in het landelijk (n=7016, rechter bovendriehoek)
(Stoel, 1980; deel II, bijlage VIII) en in het huidig onderzoek (n=135, linker benedendrie-
hoek).

Stoel

Huidig Stoel Huidig Stoel

Huidig

SBS')

SWB

ST

PE

Dl

OR

AZ

VR

ALPHA

items^)

SBS')

.71

.72

.76

.74

.62

.55

.25

.93')

.94')

77

75

Alg. SWB

.73

.72

.57

.54

.52

.49

.25

.83

.82

8

7

Stof

.74

.78

.61

.61

.55

.45

.16

.79

.78

10

10

Persoon

.78

.61

.67

.78

.59

.46

.19

.85

.83

15

15

Didact

.81

.60

.69

.83

.58

.44

.15

.78

.81

9

9

Organ.

.66

.52

.60

.65

.66

.33

.14

.73

.74

10

10

Acas.

.56

.47

.48

.49

.51

.42

.30

.81

.78

14

13

Vrienden

.27

.32

.10

.29

.26

.15

.23

.84

.79

11

11

') Gecorrigeerd, d.w.z. de correlatie van de subschaal met de totaalscore SBS, zónder die subschaal.
Het aantal items tussen landelijk en huidig onderzoek verschilt soms. Dit zal de correlaties minimaal
beïnvloeden.
') Alpha-stratified (Nunnally, 1967).

Tabel 4: De generaliseerbaarheidscoëfficiënten van de beoordelingen door leraren/leraressen per klas.

Roden Silvolde Zutphen Kollum
.68 .83 .71 .76

.69 .88 .73 .85

R-somscore
alpha's

Dieren Scheemda
.84 .52

.87 .52


Stemmen zowel overeen in de absolute mate van schoolbeleving die zij de leerling toekennen
als in de reladeve poside van leerlingen in een klas ten opzichte van elkaar.

Aangezien de beoordelingen van de leerlingen te Scheemda niet hoger overeenstemmen
dan de arbitraire grens van .60 komt Scheemda feitelijk niet in aanmerking voor verdere
berekeningen. De berekeningen zullen echter zowel exclusief als inclusief Scheemda worden
uitgevoerd.

Beslissingsregel voor classificatie

Het gemiddelde en de standaarddeviade van de beoordelingen voor alle leraren/leraressen is
resp. 4.42 en 1.14 inclusief en resp. 4.37 en 1.09 exclusief Scheemda.

Op basis van het hiervoor ('leniency') genoemde criterium bedraagt de bovengrens voor
toekenning aan de O-groep een somscore van 10 (3 x 3.28) en de ondergrens voor toekenning
aan de W-groep een somscore van 16 (3 x 5.46), beide na afronding.

Combinade met de regel voor vrijwel absolute overeenstemming levert een classificatie op
met in totaal 23 leerlingen in de O-groepen en in totaal 32 leerlingen in de W-groepen. De

-ocr page 215-

J. P. M. Mullink 211

aantallen in de O-groepen zijn voor sommige klassen minimaal; in de volgorde van scholen
van Tabel 4 is het aantal leerlingen in de O-groepen: 6, 9, 3, O, 4 en 1. Een lege cel is
onwenselijk; vier leerlingen per O-groep lijkt minimaal om de resultaten kracht bij te zetten.

De beslissingsregel voor classificatie is om bevredigender aantallen te verkrijgen wat aange-
past aan de data. Zij gaat uit van de somscore van de beoordelingen en luidt als volgt:

- indien de som <:11 én twee leraren/leraressen <3, wordt een leerling ingedeeld in de
O-groep;

- indien de som ^16 öf drie leraren/leraressen >5, wordt een leeriing ingedeeld in de
W-groep;

- alle andere leerlingen worden ingedeeld in de N-groep.

Voor leerlingen uit de O-groep is één score van 5 of 6 toegestaan, mits de andere scores 3 en 3
resp. 2 en 3 zijn. En leerlingen uit de W-groep mogen één minimale score van 4 hebben, mits
die gepaard gaat met tweemaal een 6. Vrijwel absolute overeenstemming wordt niet vereist
Voor classificatie in de O-groep.

Toetsing van de hypothesen H„ Hh, H^ en Hj

Tabel 5: Gemiddelde SBS-scores, standaarddeviaties cn aantallen van W-, N- en O-groepen per klas en
van gehele klassen(T.i(); F-toets voor homogeniteit van varianties; t-toets voor de Hg.

gehele

Hj:t-toets

W-groep

N-groep

O-groep

klas

W-k vs O-k

Roden

n

5

11

7

23

F

1.29

gem.

246.6

216.1

195.0

216.3

t

3.58

st.dev.

22.7

20.7

25.8

28.7

P

<.005

Silvolde

n

6

14

9

29

F

2.00

gem.

228.9

219.5

207.8

217.8

t

1.61

st.dev.

19.6

21.5

27.7

23.7

P

<.07

Zutphen

n

11

7

6

24

F

1.57

gem.

247.2

205.9

212.4

226.5

t

3.20

st.dev.

19.7

27.5

24.6

29.7

P

<.005

Kollum

n

11

3

3

17

F

11.52»)

gcm.

240.0

233.8

204.9

232.7

t

3.28

st.dev.

30.9

13.9

9.1

28.5

P

<.01

Dieren

n

8

8

5

21

F

1.42

gem.

257.7

235.3

237.8

244.4

t

1.87

st.dev.

17.4

29.6

20.8

24.8

P

<.05

._

Scheemda

n

8

10

3

21

F

3.07

gem.

248.8

245.7

242.5

246.4

t

.46

st.dev.

16.7

32.5

29.3

25.8

P

.48

-—

*) Voor alle klassen zijn de varianties gelijkwaardig, behalve bij Kollum. De t-waarde voor Kollum
baseert zich op de 'ongepoolde' variantie van W- en O-groep (Mendenhall et al., 1974).

-ocr page 216-

212 Score vergelijkbaarheid op Schoolbelevingsschaal

Tabel 5 geeft een overzicht van de voor de H^ relevante informatie: de H^o wordt, al dan niet
bijna, voor iedere klas behalve voor Scheemda verworpen. Voor Scheemda (Tabel 4) is de
generaliseerbaarheidscoëfficiënt van de beoordeling door leraren/leraressen echter onvol-
doende, zodat de resultaten met betrekking tot de H^ aan de verwachtingen voldoen: de SBS
maakt per klas een zinvol onderscheid tussen duidehjk te onderscheiden groepen.

Tabel 6: Gemiddelde SBS-scores, standaarddeviaties en aantallen van de 'overall' W-, N- en O-groepen
mèt en zonder Scheemda en voor de steekproef als geheel (Grand Mean); F-toets voor
homogeniteit van varianties; t-toets voor Hb, H^, en Hj.

W- N- O- Grand Ht: H,: Hj:

groep

groep

groep

Mean

W..-0..

W..-

N.. 0..-N..

'overall'

zonder

Scheemda

n

gem.
st.dev.

41
244.6
23.5

43
220.4
24.3

30
210.5
26.2

114
226.5
28.3

F:
t :
p:

1.24*)
5.75
.000

1.07
4.64
.000

1.16
-1.66
.060

'overall'
met

Scheemda

n

gem.
st.dev.

49

245.3
22.7

53
225.1
27.7

33
213.4
28.0

135
229.6
28.8

F:
t:
P:

1.52
5.68
.000

1.49
4.02
.000

1.02
-1.90
.031

*) geen enkele F-waarde op <.05

Tabel 6 geeft een overzicht van de voor de Hb, H^ en Hj relevante informatie, inclusief en
exclusief Scheemda. Hbo en H^q worden, ongeacht de aanwezigheid van Scheemda, verwor-
pen. De Hdo wordt bij aanwezigheid van Scheemda wel verworpen, bij uitsluiting van
Scheemda net niet. De resuhaten met betrekking tot de Hb, H^ en H^ kunnen bevredigend
worden genoemd: de SBS-scores voldoen aan een minimale voorwaarde om vergelijkbaar te
worden geacht over de klassen.

Tevens is uit Tabel 5 en Tabel 6 op te maken dat (exclusief Scheemda) 27% van de
leerlingentotdeO-groepenbehoort, met een gem. score van (210.5 : 77) = 2.73 op een item
van de SBS. Gezien de antwoordcategorieën van de SBS (range 1 tot 4) is het volgens deze
groep leerlingen zélf alleszins redelijk gesteld met hun schoolbeleving.

Figuur 1 geeft de informatie van de Tabellen 5 en 6 visueel weer: de gem. SBS-scores van de
W-, N- en O-groepen van de diverse klassen worden verbonden door een ononderbroken lijn;
de Scheemda-groepen zijn niet in de lijn opgenömen, maar worden door punten weergege-
ven. De gem. SBS-scores van de drie 'totaal'-groepen (alle drie zonder Scheemda) worden
door horizontale stippellijnen aangegeven.

Generaliseerbaarheidscoëfficiënt van de classificatie

Rciass 's berekend inclusief en exclusief Scheemda. Tabel 7 geeft de relevante informatie voor
de berekening van Rj-ias^.

Zowel het effect van de classificatie als dat van scholen is significant; zowel inclusief als
exclusief Scheemda verklaart het classificatie-effect meer variantie dan het schooleffcct. Het
uitsluiten van Scheemda doet de hoeveelheid door de classificahe verklaarde variantie toe-
nemen en de hoeveelheid door de scholen verklaarde variantie afnemen. Dit is te verwachten
op basis van de gemiddelden van de drie groepen leerhngen in Scheemda (men
inspectere
Figuur 1). Het niet-uniek aan classificatie- of schooleffcct toe te schrijven deel van de
variantie is relatief klein.

-ocr page 217-

J. P. M. Mullink 213

Fi,

'Suur 1: Grafiek van de gemiddelde SBS-scores van de W-, N- cn O-grocpcn in diverse klassen.

Stippellijnen: gemiddelde SBS-scores van de drie 'totaal' W-, N- en O-groepen.
Punten: gemiddelde SBS-scores van W-, N- en O-groepen in Scheemda.

I^ciass bedraagt inclusief Scheemda .52 en exclusief Scheemda .70. Toewijzing van de
•J'et-unieke variantie aan school- en classificatie-effect geeft beneden- en bovengrenzen voor
Kciass: en .59 inclusief, .58 en .74 exclusief Scheemda.

Op basis van het harmonisch gemiddelde aantal waarnemingen per cel (resp. 6.10 en 6.27)
bedraagt R^iasj .49 inclusief en .71 exclusief Scheemda. De kwadratensommen worden ver-
Héld door Mullink (1981) en kunnen met tabel 5 berekend worden. De ongehjke aantallen
Per cel beïnvloeden de hoogte vanReUss nauwehjks.

Inclusief Scheemda moet de vergelijkbaarheid van gem. SBS-scores over de scholen als
Onvoldoende worden beschouwd. Exclusief Scheemda kunnen de gem. SBS-scores en W-, N-
en O-groepen ondanks schommelingen over scholen in grove mate vergelijkbaar worden
geacht.

-ocr page 218-

214 Score vergelijkbaarheid op Schoolbelevingsschaal

Tabel 7; Muhipele regressie-analyse van de data uit Tabel 5, inclusief en exclusief Scheemda. SS^ass
berekend na uitpartialisering van schooleffect; SSjchooi na uitpartialisering van classificatie-ef-
fect; SS
„ie,.uniek: zie tekst.

incl. Scheemda

excl. Scheemda

bron

SS

df

MS

F1

SS

df

MS

classificatie

16991

2

8496

14.382

18808

2

9404

16.658

scholen

14214

5

2843

4.813

8007

4

2002

3.546

interactie

6750

10

675

(1.143)

4831

8

604

(1.070)

niet-uniek

4885

-

-

3996

error

69111

117

591

55890

99

565

totaal

111951

134

91532

113

* F-waarden tussen haakjes; niet significant;

alle andere F-waarden significant op minstens p <.05.

^d>ss voor N- en O-groepen alleen

Deze coëfficiënt is berekend met uitsluiting van Scheemda. Tabel 8 bevat de voor de
berekening van de coëfficiënt relevante gegevens.

Tabel 8: Idem als Tabel 7, voor N- en O-groepen alleen, met uitsluiting van Scheemda.

bron

SS

df

MS

F*

classificatie

scholen

interactie

niet-uniek

error

1634
7207
2442
112
36370

1634
1802
611

577

(2.830)
3.121
(1.058)

1
4
4

63

47765

72

totaal

1  F-waarden tussen haakjes: niet significant;
overige F-waarde: p<.05.

Het schooleffect verklaart een significante hoeveelheid variantie, classificatie- en interactie-
effect doen dat niet.

R^ass (N.O) exclusief Scheemda bedraagt .14. M.a.w. de hoogte van R^ass van .70 voor alle drie
de classificatiegroepen is uitsluitend gevolg van het onderscheid tussen W-groepen enerzijds
en N- en O-groepen anderzijds; N- en O-groepen alleen zijn qua SBS-scores volstrekt niet
vergelijkbaar.

Echter, Rdassis een gekwadrateerde correlatiecoëfficiënt en dus'gevoelig voor restriction of
range: de waarde . 14 is moeilijk te interpreteren. Ook al is de reductie in kwadratensom voor
het classificatie-effect het grootst als gevolg van de verwijdering van de W-groepen: dat
moeten we verwachten op basis van restrictie; en al maken we een 'sophisticated guess' als we
stellen dat die reductie groter is dan op basis van uitsluitend restrictie (we kunnen vanuit tabel
7 een verwachting voor (
n.q) uitspreken, rekening houdend met alleen restrictie); de

-ocr page 219-

J. P. M. Mullink 215

interpretatie van rdass (n,o) blijft gecompliceerd omdat er geen dringende reden is te veron-
derstellen dat W-, N- en Ö-groepen gem. SBS-scores hebben die evenver van elkaar afliggen.
d.w.z. W-, N- en O-groepen bestaan dankzij onze classificatieprocedure die niet per sé een
groepsindeling op intervalnivo oplevert.

DISCUSSIE

De empirische steun voor de zinvolheid en vergelijkbaarheid van de meting volgens de SBS is
Voldoende: de SBS maakt een zinvol onderscheid tussen onderscheiden groepen leerlingen en
scores zijn volgens de Hb, H,. en Hj vergehjkbaar. De generaliseerbaarheidscoëfficiënt van de
SBS-scores voor alle te onderscheiden groepen ondersteunt de assumptie van vergelijkbaar-
heid over scholen.

Het is moeihjk te beshssen of de SBS-scores van N- en O-groepen alleen al dan niet
Vergelijkbaar zijn, omdat de lage waarde van R^^i^^^ (
n.q) geweten kan worden aan restrictie of
onze classificatieprocedure. Strikt genomen is het voldoende dat er sprake is van een mono-
tone relatie tussen SBS-scores en classificatie. En we hadden in plaats van te classificeren het
Verband tussen SBS-scores en beoordelingen op continue basis kunnen onderzoeken om
Wellicht een kwadratische trend te constateren. Wellicht ook kunnen leraren/leraressen beter
onderscheid maken tussen leerlingen die zich prettig voelen en de 'rest'.

Wij achten onze assumpties dat de beoordelingen per klas en het criterium voor groepsin-
deling van klas tot klas vergelijkbaar zijn, de enig juiste.

Men zou per trio per klas de leerlingen in W-, N- en O-groepen kunnen indelen of men zou
de variantiecomponenten kunnen berekenen door covariantie-analyse met als covariaat de
gem. SBS-score per klas. Echter, gegeven de verwerping van H^o in de diverse klassen worden
'n beide gevallen de hbi, H^,, Hji en R^ass getalsmatig bevoordeeld. Vergelijkbaarheid van
SBS-scores kan opgevat worden uit een geheel andere invalshoek dan die van dit onderzoek:
nl. als een vraag naar het meetmodel van de SBS (Mullink, 1982). Voldoet de SBS aan de
assumpties van het Rasch-model, dan is vergelijkbaarheid van scores over, bv., scholen
psychometrisch aannemehjk gemaakt (Van Schuur & Niemöller, 1977).

Wil men de resultaten van huidig onderzoek zien als steun voor de vergelijkbaarheid van
SBS -scores over klassen/scholen, dan mag niet vergeten worden dat niet alle scholen catego-
rale MAVO
's zijn zoals de in dit onderzoek betrokken scholen, en niet alle klassen tweede
klassen. Dit stelt beperkingen aan de generaliseerbaarheid van de bevindingen van dit
onderzoek naar èlle middelbare scholen van Nederland. Men mag evenmin vergeten dat het
Constant zijn van de faktor 'tweede klas/categorale MAVO' ten gunste van de Hb, H^, Hj en
Rdass werkt.

LITERATUUR

■^nastasi, A., (1968). Psychological testing. New York: MacMillan Company.
®artko, J.J., (1966). The Intraclass Correlation Coefficient as a measure of reliability.
Psychological
Reports, 19,
3-11.

Crano, W.D. & Brewer, M.B., (1973). Principles of research in social psychology. New York: McGraw-
Hill.

Guilford, J.P., (1954). Psychometric methods. New York: McGraw-Hill,
"^'sh, L., (1965).
Survey sampling New York: Wiley & Sons.

Lindemann. R.H., Merenda, P. F., & Gold, R.Z., (1980). Introduction to bivariate and multivariate
analyses.
Illinois: Scott, Foresman and Company.

-ocr page 220-

216 Score vergelijkbaarheid op Schoolbelevingsschaal

Mendenhall, W., McClave, J.T., & Ramey, M., (1974). Statistics for psychology. Massachusetts: Duxbury
Press.

Mullink, J.P.M., (l98l).Validiteitskenmerken van de SchoolBelevingsSchaal (SBS). HB-EX, Vakgroep
Persoonhjkheidspsychologie, R.U. Groningen.

Mullink, J.P.M., (1982). Analyse van de schoolbelevingsschaal met de HOMALS-techniek en het Rasch-
model.
HB-IN, Vakgroep Persoonlijkheidspsychologie, R.U. Groningen.

Nunnally, J.C., (1967). Psychometric theory. New York: McGraw-Hill.

Runkel, Ph.J., & McGrath, J.E., (1972). Research on human behavior. New York: Holt, Rinehart and
Winston.

Scheffé, H., (1964). The analysis of variance. New York: Wiley & Sons.

Scott, W.A., & Wertheimer, M., (1962). Introduction to psychological research. New York: Wiley &
Sons.

Searle, S.R., (1971). Linear models. New York: Wiley & Sons.

Stoel, W.G.R., (1980). De relatie tussen de grootte van scholen voor voortgezet onderwijs en het welbevin-
den van leerlingen, deel I: Resultaten van een empirisch onderzoek in de Nederlandse onderwijs-
situatie; deel II: De ontwikkeling van een schoolbelevingsschaal.
Haren: Rion.

Stoel, W.G.R., (1982). De grootte van scholen voor voortgezet onderwijs en het welbevinden van
leerlingen.
Pedagogische Studiën, 59, 493-506.

Tinsley, H.E.A., & Weiss, D.J., (1975). Interrater rehabiUty and agreement of subjective judgements.
Journal of Counseling Psychology, 22, 358-376.

Tversky, A., (1970). Psychological Measurement Theory, Chapter I. In: Coombs, Dawes, & Tversky
(Eds.),
Mathematical psychology. Prentice Hall.

Van Schuur, W., & Niemöller, B., (1977). Basic scaling University of Essex.

Wagner, J., (1975). Schülereinstellung als Prädiktor des Schulerfolges - Eine Uebersicht. Psychologie in
Erziehung und Unterricht, 22,
295-313.

Winer, B.J., (1971). Statistical principles in experimental design. New York, McGraw-Hill.

Manuscript ontvangen 7-9-1984

Definitieve versie ontvangen 3-7-1985

-ocr page 221-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. lil-221.

Schoolvoorziening en Schoolbezoek

Thio Sie Liong
abstract

The main purpose of this study was to establish a correlation between local available secondary
schools (MAVO, HAVO and VWO) and the participation in the education offered by these
schools. Against the background of the denominational schoolsystem and carried out on a
municipal level, 'multi-level' analysis showed the importance of local available secondary educa-
tion. As for secondary education, there was a high participation of religious students in cases,
where there was no other choice than attending denominational schools. Under the same cir-
cumstances, however, the participation of non-religious students turned out to be high as well. To
non-religious students and students living in non-religious municipals local availability of second-
ary education was more relevant than the denominational character of the education offered. On
the other hand, to religious students and students living in religious municipals the denomination
of the schools was more important then their sheer presence. In an effort to find other deter-
minants of school participation regression analyses were used. Though generally results were
rather disappointing, the significance of local available secondary education was clearly shown.

INLEIDING

E>e politieke en sociale ontwikkelingen van Nederland zijn in de eerste helft van deze eeuw en
Ook in de daarop volgende jaren in sterke mate bepaald door de konfessionele partijen en de
op godsdienst berustende instellingen en organisaties. Dit als verzuiling bekend staande
Verschijnsel diende in de eerste plaats om de maatschappelijke achterstelling en achterstand
Van verscheidene, veelal konfessionele groepen ongedaan te maken. Nadat dit streven in dc
jaren '60 min of meer bereikt werd, kwam de noodzaak tot verzuiling te vervallen. Het
ontzuilingsproces manifesteerde zich echter niet bij elke zuil even sterk en niet elk maat-
schappelijk terrein werd in even sterke mate of gelijktijdig door deze ontwikkeling geraakt. In
de loop van de jaren '70 doet zich in het onderwijs een verandering voor. Uit lokaal onderzoek
naar het schoolbezoek in het lager onderwijs is gebleken, dat van een sterke samenhang tussen
aangehangen levensbeschouwing en de deelname aan het daarmee in overeenstemmende
onderwijs minder sprake is.' In het later door het Sociaal en Cultureel Planbureau uitgevoerd
onderzoek 'Schoolkeuzemoticven en meningen over onderwijs' vindt men aanwijzingen, dat,
ook wat het voortgezet onderwijs betreft, het verband tussen dc levensbeschouwing cn het
levensbeschouwelijk karakter van het te volgen onderwijs geringer geworden is. Een meer-
derheid van ouders kent bij de keuze van een school minder betekenis toe aan de levensbe-
schouwing. Bij de schoolkeuze zijn andere overwegingen een grotere rol gaan spelen; het
Onderzoek noemt o.m. een goede bereikbaarheid van de scholen, veel kontakt tussen school
en ouders en gelijkgestemde pedagogische opvattingen tussen de ouders en de school.

Adres: c/o B. Mutter, MommscnstraBc 57, 1000 Berlin 12.

-ocr page 222-

218- Schoolvoorziening en Schoolbezoek

Deze studie gaat dieper in op het aspekt van de beschikbaarheid van een onderwijsin-
stelling: in hoeverre beïnvloedt de aanwezigheid van scholen voor het algemeen voortgezet
onderwijs van een bepaalde richting (konfessioneel of niet-konfessioneel) in gemeenten de
deelname aan dat aangeboden onderwijs? Daarbij zal ook aandacht besteed worden aan de
invloed van de levensbeschouwing op het volgen van konfessioneel en niet-konfessioneel
onderwijs.

Met behulp van een zgn. 'muhi-level'-analyse die uitgevoerd werd op bij het Sociaal en
Cultureel Planbureau aanwezige databestanden wordt getracht op de gestelde vragen een
antwoord te geven.

VARIABELEN - ONDERZOEKSEENHEDEN - DATA

Een vraag heeft betrekking op de invloed van de kerkelijkheid op het soort onderwijs (al of
niet kerkelijk) dat gevolgd wordt, de andere richt zich op de zelfstandige invloed van een
schoolvestiging op de deelname aan het daar aangeboden onderwijs.

Voor de beantwoording van de eerste vraag is voor elk thuiswonend kind tussen de 12 en 18
jaar dat een of andere vorm van algemeen voortgezet onderwijs (a.v.o.) volgt, de mate van
kerkelijkheid bepaald. De variabele bestaat uit twee elementen, nl. het lidmaatschap van een
kerkgenootschap en de frekwentie waarmee godsdiensten bezocht worden. Daarnaast zijn
nog een aantal andere variabelen gebruikt, waarvan vermoed werd dat ze een rol zouden
spelen bij het volgen van (niet-)konfessioneel onderwijs: de konfessionaliteit van gemeenten,
de kerkelijkheid van het hoofd van het huishouden (veelal degene met een beslissende stem in
de schoolkeuze) en de sociaal-ekonomische status (van invloed op het besluit een kind een
voortgezette opleiding te laten volgen). In hoeverre deze variabelen relevant zijn, wordt met
behulp van een regressie-analyse onderzocht.

Het onderzoek heeft betrekking op thuiswonende leerlingen, die deelnemen aan het a.v.o.
De groep waaruit het aantal leerlingen is gerekruteerd bestond uit personen van 12 tot 18
jaar; deze groep bestond uit 2282 personen, waarvan 1192 personen a.v.o. volgden. Van deze
1192 personen werden 40 niet in de analyse betrokken, omdat van hen gegevens over de
levensbeschouwing ontbraken. In totaal omvat het onderzoek dus 1152 personen. Dc overige
tot deze leeftijdsgroep behorende personen volgden voor het grootste deel anderssoortig
onderwijs (zie tabel 1).

De tweede vraag, die naar de invloed van schole^n op het schoolbezoek, wordt door middel
van de reeds genoemde 'multi-level'-techniek onderzocht. Een dergelijk onderzoek maakt
het mogelijk vast tc stellen in hoeverre individuele cn strukturele - kontextuele - kenmerken
bijdragen aan het ontstaan en (voort-)bcstaan van een verschijnsel (in ons geval school-
bezoek). Dat houdt in, dat gegevens van meerdere waarnemingsnivo's met elkaar verbonden
worden. Het laagste nivo is het individu, de hogere nivo's - de kontext - omvatten dc
eenheden die deel uitmaken van de groep, waarmee het individu in betrekking staat. Dc
omvang van de groep is gebonden aan grenzen, bijvoorbeeld ruimtelijke (straat, wijk,
gemeente of staat), of .sociale (godsdienst of nationaliteit).

In deze analyse gant het om een tweetal kontcxten: een ruimtelijke, noniclijk dC iliUlWCZig"
hcid van ccn onderwijsvoorziening in ccn gemeente, cn een sociale, de konfCSSionalitCit
Viin
ccn gemeente (waarvan verwacht wordt, dat ZC dc dcclnamc aun nict- cn konfCSSionCCl
onderwijs beïnvloedt). De voor deze kontcxten relevante gegevens hebben betrekking op dC
samenstelling van dc bevolking, leerlingenaantallen, aantallen afdelingen van scholcn cn

-ocr page 223-

Thio Sie Liong 219

Tabel 1. Deelname aan het (niet-) algemeen voortgezet onderwijs (12 tot 18 jarigen).

Aantal

Percentueel

l.o.

139

17.4

b.l.o.

39

4.9

L.b.o.

444

55.6

m.b.o.

121

15.0

h.b.o.

29

3.6

Universiteit

5

0.6

Centrumvakopleiding

23

2.9

Subtotaal

800

100

Deelname aan het alg. voortgezet

onderwijs en betrokken in de

analyse

1152

Idem, maar niet betrokken in de

analyse

40

Geen deelname aan het volledig

dagonderwijs

286

Onbekend

4

Totaal 12 tot 18 jarigen

2282

(Bron: AV079).

Verkiezingsresultaten (Tweede Kamerverkiezingen van 1977).

De aan het C.B.S. ontleende cijfers over leerlingenaantallen en afdelingen van scholen zijn
geregistreerd naar richting en type afdeling (bijv. brugklas, kategoraal gymnasium of
atheneum-afdeling op een scholengemeenschap, MAVO en middenschool). Niet-konfessio-
nele afdelingen en leerlingen zijn die afdelingen en leerlingen, die onder 'gemeentelijk, rijks
en overig bizonder' gerubriceerd zijn. Konfessioneel zijn de afdelingen en leerlingen die deel
uitmaken van en onderwijs volgen aan konfessionele scholen.

Omdat de gegevens over de kerkelijkheid van gemeenten ontleend zijn aan de Algemene
Volkstelling van 1971 en als verouderd kunnen worden beschouwd, is voor de bepaling van de
kerkelijkheid van de gemeenten gebruik gemaakt van de resultaten van de Tweede Kamer-
verkiezingen van 1977. Daartoe is de stemmenverhouding bekeken tussen de konfessionele
en nict-konfessioncle partijen. Indien het percentage stemmen op niet-konfessionele partijen
groter was dan dat op konfessionele, werd de gemeente als niet-konfessioneel aangemerkt.
Wanneer het percentage stemmen op konfessionele partijen dat op niet-konfessionele par-
tijen uitgebrachte stommen overtrof, dan werd dc ecniocntc
als konfessioneel bcschouwtl.

Voorts werd gebruik gemaakt van een aantal bij het Sociaal en Cultureel Planbureau
ftanwezige databestanden. Het ging om de bestanden Gcmecntekennicrken 1980 cn Aan-
VUllond Voorzicningeiigebruikersonderzoek 1979 (A V079), waaraan gegevens over dc ker-
kelijkheid, de sociaal-ekonomische status en de deelname aan het a.v.o. zijn ontleend.

Aanvankelijk was het de bedoeling ook de scholen voor het lager beroepsonderwijs in dc
Analyse te betrekken, maar het bestand Gemeentekenmerken 1980 beschikte niet over dc

-ocr page 224-

220- Schoolvoorziening en Schoolbezoek

volledige gegevens van dit type onderwijs. Wanneer in het vervolg gesproken wordt over
onderwijs of over afdelingen van scholen, heeft dat uitsluitend betrekking op het algemeen
voortgezet onderwijs.

ONDERWIJSVOORZIENINGEN NAAR RICHTING, AANWEZIGHEID

EN PARTICIPATIE

Om vast te kunnen stellen of inderdaad een samenhang bestaat tussen de deelname aan het
a.v.o. en de aanwezigheid van voorzieningen voor dat type onderwijs is tabel 2 gekonstrueerd.
Deze geeft een eerste indruk over de spreiding van de deelname aan het a.v.o. over de
gemeenten, die (g)een school voor het a.v.o. bezitten.

Tabel 2. Deelname aan het niet-konfessioneel en konfessioneel algemeen voortgezet onderwijs naar de
aanwezigheid van schoolvoorzieningen.

Beide aanwezig
Niet-konfessioneel
onderwijs aanwezig
Konfessioneel
onderwijs aanwezig
Beide afwezig

Totaal

Onderwijsvoorziening

Deelname niet-

konfessioneel

onderwijs

40.8%

50 %

9.2%
32.4%

Deelname

konfessioneel

onderwijs

59.2%

50 %

90.8%
67.6%

n/Totaal

706

36

228
182

1152


(Bron: Ay079).

Gemeenten die zowel over konfessioneel als niet-konfessioneel onderwijs beschikken,
bieden potentiële leerlingen de mogelijkheid het door hen gewenste onderwijs te volgen. Dat
geldt in feite ook voor gemeenten, waar het aan enige afdeling voor het a.v.o. ontbreekt, want
daar dient men zijn keuze, weliswaar noodgedwongen, te maken uit dc mogelijkheden die in
andere gemeenten geboden worden. Daar waar meer alternatieven voorhanden zijn, volgt
men naar verwachting het onderwijs dat in overeenstemming is met dc aangehangen levens-
overtuiging. In gemeenten waar het a.v.o. in beperkte mate - d.w.z. slechts konfessioneel of
niet-konfessioneel onderwijs — wordt aangeboden, wordt men verondersteld eerder geneigd
te zijn gebruik te maken van datgene wat er ter beschikking is.

Beziet men echter de tabel (zie tabel 2), dan blijkt dat in gemeenten, waar alleen niet-kon-
fessioneel onderwijs wordt aangeboden, desondanks de helft van het aantal in dergelijke
gemeenten woonachtige leerlingen elders konfessioneel onderwijs volgt. Hoewel dc n klein is,
wordt de incfruk gewekt dat de voorkeur voor het konfessioneel a.v.o. onder die groep
leerlingen zo sterk is, dat men kennelijk bereid is in een andere gemeente aan dat onderwijs
deel te nemen. In gemeenten waar men alleen konfessioneel onderwijs kan volgen, is de
deelname aan dat onderwijs erg groot. Dit laatste is de aanleiding tot een tweetal vragen:
wordt de aanwezigheid van het a.v.o. zo belangrijk gevonden, dat men - in dit geval -

-ocr page 225-

Thio Sie Liong 221

praktisch en masse het konfessionele a.v.o. volgt? Of moet het grote aantal scholieren
Verklaard worden uit hun konfessionele overtuiging?

Om de vraag of de deelnemers aan het konfessioneel onderwijs inderdaad in grote getale
een konfessionele achtergrond hebben te kunnen beantwoorden, moet nagegaan worden in
hoeverre kerkelijkheid een rol speelt bij het volgen van konfessioneel onderwijs.

Tabel 3 geeft een overzicht van de participatie aan het a.v.o. en de (on-)kerkehjkheid van
de leerhng.

Tabel 3. Deelname aan het algemeen voortgezet onderwijs naar de kerkelijkheid van de leerling.

Kerkehjkheid van de thuiswonende leerling
niet- zwak kerkelijk sterk totaal

kerkelijk

kerkelijk

kerkelijk

Deelname niet-
konfessioneel

63.7%

38.1%

19%

12.9%

33.5%

Deelname

konfessioneel

onderwijs

36.3%

61.9%

81%

87.1%

66.5%

Totaal

331

236

158

427

1152

100%

100%

100%

100%

100%

(Bron: AV079).

Daaruit bhjkt, dat vooral onkerkelijke scholieren onkonfessioneel onderwijs volgen. De
deelname aan het konfessioneel onderwijs wordt vooral gedomineerd door konfessionele
'eerlingen. Op basis van de hoge deelnamecijfers aan het konfessioneel onderwijs kan gezegd
Worden dat de kerkelijkheid van de leerhngen en het bezoek aan konfessionele scholen
samengaan. Het bhjft echter een globale vaststelling.

Wat de invloed van een schoolvestiging in een gemeente op het aantal leerlingen dat die
school bezoekt betreft, is in eerste instantie de samenhang bekeken tussen de deelname aan en
de aanwezigheid van het a.v.o. Daarbij is rekening gehouden met de konfessionaliteit van de
gemeente (zie tabel 4).

In zowel konfessionele als niet-konfessioncle gemeenten wordt het konfessionele onder-
wijs beter bezocht dan het onderwijs op niet-konfessionele grondslag. Uitzondering hierop
Vormen de gemeenten, die niet kerkelijk zijn en waar men slechts de beschikking heeft over
Onkonfessioneel onderwijs. Gemeenten met een niet-konfessioneel karakter waar alleen
konfessioneel onderwijs wordt aangeboden, laten een groot deelnamecijfer aan het konfes-
sioneel a.v.o. zien, terwijl een laag percentage leerlingen elders niet-konfessioneel onderwijs
Volgt. Het lijkt erop, dat vooral in niet-konfessionele gemeenten louter de vestiging van een
School, ongeacht de richting, de deelname aan dat aangeboden onderwijs beïnvloedt. In

-ocr page 226-

222- Schoolvoorziening en Schoolbezoek

Tabel 4. Deelname aan het algemeen voortgezet onderwijs naar onderwijssituatie en konfessionaliteit
van gemeenten.

Niet-konfessionele gemeenten.

Totaal

Deelname

Beide vor-
men a.v.o.
aanwezig

273

Konfessio- Niet-konf. Beide vo
neel a.v.o.
aanwezig

a.v.o.
aanwezig

men a.v.
afwezig

14

niet-konf. a.v.o.

22.9%

6%

24.2%

21.8%

20.5%

Deelname

384

92

11

62

549

konf. a.v.o.

32.2%

39.5%

16.7%

30.1%

32.4%

Deelname

535

127

39

99

850

overig onderwijs

44.9%

54.5%

59.1%

48.1%

47.1%

Totaal

1192

233

66

206

1697

100%

100%

100%

100%

100%

Konfessionele gemeenten

Beide vor-

Konfessio-

Niet-konf.

Beide vor-

Totaal

men a.v.o.

neel a.v.o.

a.v.o.

men a.v.o.

aanwezig

aanwezig

aanwezig

afwezig

Deelname

15

7

2

12

36

niet-konf. a.v.o.

14.2%

2.8%

11.8%

6.8%

6.7%

Deelname

34

115

7

61

217

konf. a.v.o.

32.1%

47.5%

41.2%

34.7%

40.1%

Deelname

57

120

8

103

288

overig onderwijs

53.8%

49.6%

47.1%

58.5%

53.2%

Totaal

106

242

17

176

541

100%

100%

100%

100%

100%

(Bron: AV079; a.v.o.: algemeen voortgezet onderwijs).

principe niet op het konfessioneel onderwijs georiënteerde personen schijnen bij gebrek aan
onkonfessioneel onderwijs veel gebruik te maken van het wel beschikbare konfessionele
onderwijs. De mogelijkheid in de woongemeente een school voor het a.v.o. te kunnen
bezoeken, moet voor deze leerlingen van doorslaggevender belang zijn geweest dan het
konfessionele karakter van de school.

Voor leerlingen in kerkelijke gemeenten daarentegen is de richting van grote betekenis
gebleken.

Over het geheel genomen vindt de veronderstelling, dat er enig effekt zou uitgaan van een
aanwezige onderwijsvoorziening evenwel te weinig ondersteuning. We keren daarom ferug
naar de rol van de kerkelijkheid bij het schoolbezoek. De samenhang tussen de deelname aan
het onderwijs en de aanwezigheid van schoolafdelingen wordt nog eens onder de loep
genomen, waarbij dan nu rekening gehouden wordt met de kerkelijkheid van de leerling (zie
tabel 5).

-ocr page 227-

Thio Sie Liong 223

Tabel 5^. Deelname aan het algemeen voortgezet onderwijs naar onderwijssituatie en kerkehjkheid van
leerlingen.

Niet-kerkelijke leerhngen

Méér niet-konfessioneel

Méér konfessioneel

Totaal

a.v.o. aanwezig

a.v.o. aanwezig

Deelname niet-

179

32

211

konfessioneel onderwijs

35.2%

21.9%

32.2%

Deelname kon-

79

41

120

fessioneel onderwijs

15.6%

28.1%

18.4%

Deelname

250

73

323

overig onderwijs

49.2%

50%

49.4%

Totaal

508

146

654

100%

100%

100%

Kerkelijke leerlingen

Méér niet-konfessioneel

Méér konfessioneel

Totaal

a.v.o. aanwezig

a.v.o. aanwezig

Deelname niet-

42

133

175

konfessioneel onderwijs

11.8%

10.8%

11%

Deelname kon-

128

518

646

fessioneel onderwijs

36.1%

42%

40.7%

Deelname

185

582

767

overig onderwijs

52.1%

47.2%

48.3%

Totaal

355

1233

1588

100%

100%

100%

(Bron AV079; a.v.o.: algemeen voortgezet onderwijs).

Indien keuzemogelijkheden bestaan (öf, omdat in een gemeente èn een konfessionele èn
een niet-konfessionele school aanwezig is, 6f, omdat beide ontbreken en elders een geschikte
School gevonden moet worden) kiest men in het algemeen een school, waarvan de levensbe-
schouwing in overeenstemming is met die van de leerling.

Niet-kerkelijke leerlingen, in wier gemeenten meer konfessioneel onderwijs wordt aange-
boden dan onderwijs op een niet-kerkelijke basis, bezoeken meer konfessionele dan niet-
konfessionele scholen, terwijl onder dezelfde omstandigheden van de groep kerkelijke leer-
lingen een groot aantal het konfessioneel onderwijs volgt.

Uit de boven gepresenteerde tabellen is gebleken, dat de vestiging van een school voor het
a v.o. in niet-kerkelijke gemeenten voor leerlingen die in dergelijke gemeenten wonen en

-ocr page 228-

224- Schoolvoorziening en Schoolbezoek

voor niet-kerkelijke leerlingen belangrijker schijnt te zijn om dat onderwijs te volgen dan
haar kerkelijke grondslag. Schoheren in kerkelijke gemeenten en konfessionele scholieren
geven eerder blijk van een grotere binding met de konfessionaliteit van de school; de
kerkelijke basis is voor hen van meer betekenis dan alleen de aanwezigheid van een school
voor het a.v.o. in hun gemeente.

Tot slot een opmerking over het overig onderwijs. In de tabellen 4 en 5 zijn ook de
deelnamecijfers over het overig onderwijs verwerkt. Daarin komen de onveranderlijk hoge
deelnamecijfers duidelijk tot uitdrukking, de kerkelijkheid van de gemeenten en de leerlin-
gen schijnt er niet toe te doen. Men kan zich echter afvragen of en in hoeverre kinderen bij
gebrek aan een gewenste school voor het a.v.o. naar scholen voor het overig onderwijs - van
de wèl aanwezige richting - gestuurd worden.

ANDERE FAKTOREN - REGRESSIE-ANALYSES

Tot dusver is gezocht naar de invloed van de aanwezigheid van onderwijsvoorzieningen op de
deelname aan het aangeboden onderwijs. Daarbij werd rekening gehouden met de konfessio-
naliteit van de gemeente, de kerkelijkheid van het kind en het onderwijs. Het voorgaande
verschafte aanwijzingen, dat van een dergelijke invloed, zij het met mate en vooral bij
leeriingen in niet-konfessionele gemeenten en bij niet-kerkelijke leerlingen, inderdaad ge-
sproken kan worden.

Het volgen van het a.v.o. wordt natuurlijk niet alleen bepaald door het feit of een school al
of niet in een gemeente is gevestigd. Andere faktoren laten zich ook gelden; in deze analyse
wordt o.m. de rol van de sociaal-ekonomische status van (het hoofd van) het huishouden,
waarvan het kind deel uitmaakt onderzocht. Daarnaast wordt gepoogd de invloed van de
kerkelijkheid van het milieu, waartoe het kind behoort, te bepalen. Naast de betekenis van de
bovenstaande variabelen wordt onderzocht of met behulp van een regressie-analyse ook
nagegaan kan worden of en in welke mate scholen voor het a.v.o. meer of minder leerlingen
aantrekken.

De resultaten van de analyse laten zien, dat met uitzondering van de variabelen 'kerkelijk-
heid van het hoofd van het huishouden' en 'konfessionaliteit van de gemeente' alle variabelen
signifikant zijn. De samenhang tussen de genoemde variabelen en de 'deelname aan het
niet-konfessioneel a.v.o.' bedraagt .35, de verklaarde variantie van de variabelen bedraagt in
totaal slechts .12.

Interessanter zijn de ongestandaardiseerde regrèssie-koëfficiënten (B), die voor de aanwe-
zigheid van een niet-konfessionele en een konfessionele onderwijsvoorziening .086 res-
pektievelijk - .067 bedragen. Dat houdt in, dat onder het konstant houden van de kerkelijk-
heid van het kind en het hoofd van het huishouden, van de kerkelijkheid van de gemeente en
de status van het hoofd van het huishouden de aanwezigheid van een niet-konfessionele
school voor het a.v.o. in een gemeente tot 8,6% méér leerlingen aan dat niet-konfessioneel
onderwijs leidt, terwijl de vestiging van een schoolafdeling voor het konfessioneel onderwijs
in een gemeente onder het konstant houden van de eerder genoemde variabelen een vermin-
dering in de deelname aan het niet-konfessioneel onderwijs van 6,7% tot gevolg heeft. Met
andere woorden, indien er een extra school voor het konfessioneel a.v.o. in een gemeente
gebouwd zou worden,
ZOU 6,7% van de niet-konfessioneel onderwijs volgende scholieren aan
dat konfessioneel a.v.o. deelnemen, (zie tabel 6)

-ocr page 229-

Thio Sie Liong

225

Tabel 6. Afhankelijke variabele 'Deelname aan het niet-konfessioneel algemeen voortgezet onderwijs.'

Multiple R

R-square

R

F-waarden

B (afgerond)

Kerkelijkheid
van het kind

.26

.07

-.26

18.488

-.052

Sociaal-ekono-
mische status
van het hoofd
v.h. huishouden

.33

.11

.21

68.791

.083

Aanwezigheid van
niet-konfessio-
neel a.v.o.

.35

.12

.16

15.481

.086

Aanwezigheid
konfessioneel
a.v.o.

.35

.12

-.008

7.679

-.067

Kerkelijkheid
v.h. hoofd
v.h. huishouden

.35

.12

-.24

3.188

-.022

Konfessionaliteit
v.d. gemeente

.35

.12

-.17

2.670

-.036

(a-v.o.: algemeen voortgezet onderwijs)

De regressie op de deelname aan het konfessioneel onderwijs laat zien dat de samenhang
tussen de deelname aan het konfessioneel onderwijs en de overige variabelen een waarde
heeft van .34 en daarmee weinig verschilt van die tussen de deelname aan het niet-konfessio-
neel onderwijs en de andere variabelen. Niet-signifikant bhjkt slechts de variabele 'konfes-
sionaliteit van de gemeente.' De verklaarde variantie is hier eveneens bescheiden,
•^et als bij het piet-konfessioneel onderwijs zijn de ongestandaardiseerde regressie-koëffi-
eiënten het interessantst. Voor de aanwezigheid van het niet-konfessioneel en konfessioneel
onderwijs bedragen de waarden -0.69 resp. .111. Evenals bij het niet-konfessioneel onder-
Wijs bhjkt hieruit, dat de aanwezigheid van een schoolafdeling konsekwenties heeft voor de
deelname aan het in een gemeente aangeboden a.v.o. Onder het konstant houden van 'de
kerkelijkheid van het hoofd van het huishouden, van het kind en de gemeente' en de 'status
Van het hoofd van het huishouden,' zou, als er een niet-konfessionele school gevestigd zou
Worden, het aantal leerhngen dat konfessioneel onderwijs volgt met bijna 7% dalen. De bouw
Van nog een school voor het konfessioneel a.v.o. zou een toename van 11.1% van het
leerlingenaantal, dat dat konfessioneel a.v.o. volgt, tot gevolg hebben. Ook hier valt de
invloed van de aanwezigheid van een onderwijsinstelling op het leerlingenaantal te onder-
kennen (zie tabel 7).

Uit de hierboven beschreven regressie-analyse blijkt, dat van de van vestiging van onder-
Wijsvoorzieningen, ongeacht de levensbeschouwing (van het hoofd van het huishouden, het
kind en de gemeente) en de
sociaal-ekonomische status van het hoofd van het huishouden een

-ocr page 230-

226- Schoolvoorziening en Schoolbezoek

Tabel 7. Afhankelijke variabele 'Deelname aan het konfessioneel algemeen voortgezet onderwijs.'

Kerkelijkheid
van het kind

Sociaal-ekono-
mische status
v.h. hoofd v.h.
huishouden

Kerkelijkheid
v.h. hoofd v.h.
huishouden

Aanwezigheid

niet-konfessioneel

a.v.o.

Aanwezigheid
konfessioneel
a.v.o.

Konfessionaliteit
v.d. gemeente

Multiple R R-square

R
.27

.17
.27
-.07
.04
.07

.27

.08

.32

.10

.33

.11

.34

.12

.34

.12

.34

.12

F-waarden B (afgerond)
13.062 .056

56.722 .097

13.877 .058

6.146 -.069

13.404 .111

.078 .008


(a.v.o.: algemeen voortgezet onderwijs). j

zeker effekt uitgaat op de deelname aan het algemeen voortgezet onderwijs, namelijk een |
stijging van ongeveer 6% (zie tabel 8).

Tabel 8. Effekt van de aanwezigheid van onderwijsvoorzieningen (afgeleid van de ongestandaardiseerde

regressiekoëfficiënten). j

Beide vormen Konfessioneel Niet-konfessio-
a.v.o. aanwezig a.v.o. aanwezig neel a.v.o. aan-
wezig

- 6.7%

-1-8.6%

4

-6.9%
-1.7%

Beide vormen
a.v.o. aan-
wezig

0%

0%

Deelname niet-

konfessioneel

a.v.o.

Deelname kon-
fessioneel a.v.o.

Deelname
overig onderwijs

-Hl.9%

-1-4.2%

-1-11.1%

-6.1%

- 4.4%

0%

(a.v.o.: algemeen voortgezet onderwijs)

-ocr page 231-

Thio Sie Liong 227

KONKLUSIE

de inleiding is opgemerkt, dat de ontkerkelijking in het onderwijs zich relatief laat heeft
ingezet. Op grond van aanwijzingen dat in de schoolkeuze andere overwegingen een grotere
betekenis hebben gekregen, zou men verwachten dat er ook een wijziging zou optreden in de
samenstelling van leerlingen: een sterkere vermenging van konfessionele en niet-konfessio-
nele leerlingen op konfessionele en niet-konfessionele scholen. De veronderstelling was
immers dat er een groter effekt van de beschikbaarheid van scholen zou uitgaan.

Uit deze analyse is gebleken, dat voor niet-kerkelijke leerlingen en scholieren in niet-ker-
kelijke gemeenten beschikbaar a.v.o. meer van betekenis schijnt te zijn voor het school-
bezoek dan voor kerkelijke leerlingen en scholieren in konfessionele gemeenten, die nog een
sterke binding tonen met de levensbeschouwelijke grondslag van de school die ze willen
bezoeken.

De zelfstandige invloed die uitgaat van de aanwezigheid van een school heeft een ver-
schillende uitwerking op konfessionele en niet-konfessionele leerlingen.

Met dank aan het Sociaal en Cultureel Planbureau

Zie:

- Verslag van een onderzoek naar de faktoren, die van invloed zijn op de keuze van de school bij het
kleuter- en lager onderwijs, van de Afdeling Onderzoek en Statistiek der gemeentesecretarie.
Eindhoven, 1972;

- De rol van de voorkeur van ouders voor onderwijsrichting bij de planning van scholen, van de
gemeentesecretarie Tilburg, 1979.

2

Aangezien een aantal cellen een tc geringe vulling zouden krijgen, zijn een aantal kategorieën
Samengevoegd. Voor niet-konfessionele leerlingen gaat het om 'Beide vormen a.v.o. aanwezig' en
'Niet-konfessioneel a.v.o. aanwezig' enerzijds en om de kategorieën 'Konfessioneel a.v.o. aanwezig' en
'Beide vormen afwezig' anderzijds. In plaats daarvan worden de kategorieën 'Méér niet-konfessioneel
a.v.o. aanwezig' respektievelijk 'Méér konfessioneel a.v.o. aanwezig' gehanteerd. Iets dergelijks vond
ook plaats voor kerkelijke leerlingen. 'Beide vormen a.v.o. aanwezig' en 'Konfessioneel a.v.o. aanwe-
zig' werden vervangen door 'Méér konfessioneel a.v.o. aanwezig', terwijl 'Beide vormen a.v.o. afwezig'
en 'Niet-konfessioneel a.v.o. aanwezig' de kategorie 'Méér niet-konfessioneel a.v.o. aanwezig' uitma-
ken. Een en ander staat een vergelijking van de uitkomsten van de tabellen 4 en 5 niet in de weg.

Voorts moet nog opgemerkt worden, dat de uiteindelijke totalen van de tabellen 4 en 5 een verschil
van 4 laten zien. Dit verschil wordt veroorzaakt door het feit, dat van een enkele gemeente in het
databestand Gemeentekenmerken 1980 de gegevens niet opgenomen waren. Het gering verschil is
echter niet bezwaarlijk voor een vergelijking van de tabellen.

Manuscript ontvangen 1-2-1984
definitieve versie ontvangen 18-7-1985

-ocr page 232-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. 228-238

Zelfstudie als functie van
onderwijsdeelname: hypothesetoetsing

p. Vos

Bureau Onderzoek van Onderwijs, Rijksuniversiteit Leiden
ABSTRACT

Independent study as a function of class attendance

Detailed time studies of student behavior in eight university curricula in the Netherlands reveal
that the average net time spent on independent study is strongly related to the average net time per
year spent on class attendance: a negative exponential function describes exactly the relation
between hours of independent study per class hour and total class attendance per year. From this
relationship can be deduced that there is no practical possibility of attaining an average net total
study load of more than 1300 hours (equal to the average net productive hours in full-time jobs in
the Netherlands) per year, unless major changes in degree of formative, summative and social
control are implemented into curricula.

INLEIDING

Gedurende een aantal jaren zijn aan verschillende universiteiten en hogescholen eva-
luatiestudies van curricula verricht via tijdschrijfonderzoek bij studenten. Dat onderzoek
heeft tot doel, de totale omvang van de studielast en de verdeling ervan over het studiejaar
vast te stellen. Per onderzoeksproject bieden de metingen de mogelijkheid om
marginaal
verbeteringen in het studieprogramma aan te brengen: maatregelen ter optimalisering van het
lesprogramma, wegwerken van knelpunten, etc. Om het effect van verdergaande veranderin-
gen, zoals bijvoorbeeld verandering van de omvang van het onderwijsprogramma, te kunnen
voorspellen is een vergelijking tussen studieprogramma's met systematisch verschillende
kenmerken nodig. In de reeks tijdschrijfprojecten van het Bureau Onderzoek van Onderwijs
te Leiden wordt dat nagestreefd. In het afgelopen jaar heeft die systematische vergelijking
opmerkelijke resultaten opgeleverd. Een eerste vrucht daarvan was een bijdrage aan de
Onderwijs Research Dagen (ORD '84) (Vos, 1985) waarin de hypothese werd verdedigd,
dat bij universitair onderwijs het gemiddelde aantal uren zelfstudie per uur onderwijsdeel-
name afneemt naarmate de totale gemiddelde onderwijsdeelname per jaar toeneemt. Een
dergelijk verband valt te verwachten, omdat zelfstudie en onderwijsdeelname tot op zekere
hoogte uitwisselbaar zijn en zij samen bovendien een maatschappelijk aanvaarde maximum
werkdruk niet zullen overschrijden. De veronderstelde relatie kan worden uitgedrukt als een
negatief exponentieel verband tussen enerzijds de verhouding zelfstudie :
onderwijsdeelname
en anderzijds onderwijsdeelname. In formulevorm luidt deze relatie:

y/x = a e*-"'' (1)

Adres auteur: Boerhaavelaan 2, 2334 EN Leiden

-ocr page 233-

P. Vos 229

Waarbij y = gemiddelde jaarlijkse zelfstudie en x = gemiddelde jaarlijkse onderwijsdeel-
name.

Toetsing van deze, eerder in varianten door Crombag et al. (1981) en Vos (1983) voorge-
stelde hypothese, aan de hand van gegevens over een zestal studieprogramma's, leverde een
Zeer verrassend resultaat op: alle variantie wordt verklaard (kleinste kwadratenoplossing:
1,00; parameters van de functie a=6,88 en b=0,00308).
Door formule (1) met x de vermenigvuldigen, ontstaat een nieuwe functie, die het theore-
tische verband tussen zelfstudie en onderwijsdeelname uitdrukt:

y = xa e("'"') (2)

De totale studielast is de som van onderwijsdeelname en zelfstudie. Om de theoretische
samenhang tussen de totale studie-inspanning en de onderwijsdeelname te beschrijven, moet
dus bij formule (2) de onderwijsdeelname (x) worden opgeteld:

t = X + xa (3)

Waarbij t staat voor de gemiddelde netto totale studielast.

Het is zeker niet noodzakehjk een exponentiële functie te gebruiken ter beschrijving van
het verband tussen zelfstudie en onderwijsdeelname. Een afnemende hoeveelheid zelfstudie
hij een toenemende onderwijsdeelname kan heel goed met een rechte lijn worden weergege-
ven. Wij gaan dan niet uit van de zelfstudie per uur onderwijs', maar van de totale jaargemid-
delden voor zelfstudie en onderwijsdeelname. Een lineaire functie krijgt dan de volgende
Vorm:

y = - ax + b (4)

Waarbij y en x dezelfde betekenis hebben als in de eerste drie functies.

De theoretische relatie tussen zelfstudie per bijgewoond lesuur en de totale onderwijsdeel-
name kan nu worden gevonden door formule (4) door x te delen. Formule (5), die dus analoog
's aan formule (1), heeft grafisch gezien de vorm van een hyperbool:

y/x = - a + b/x (5)

Toetsing van deze tweede hypothese aan de hand van dezelfde gegevens uit zes verschillende
t'jdschrijfonderzoeken (zie tabel 1, nrs. 1 t/m 6), levert een even overtuigend resultaat op als
toetsing van hypothese 1 (r^ = 0,99; parameters van dc functie: a=0,43; b=908,16). Op
Srond van de gegevens kan dus niet gekozen worden tussen de twee hypothesen.

iJit formule (4) kan natuurlijk ook op basis van hypothese II de relatie tussen de gcmiddel-
'len van de totale studielast (t) en de onderwijsdeelname (x) worden afgeleid door bij de
Zelfstudie (y) de onderwijsdeelname (x) op te tellen. Zo ontstaat nog ccn laatste nieuwe

functie:

t = (1 - a) X + b (6)

Dc veronderstelling, dat dc zelfstudie per uur onderwijs een lineair verband heeft met de totale
onderwijsdeelname, zou de absurditeit van ccn negatieve zelfstudie per lesuur impliceren cn een totale
studielast die kleiner is dan dc onderwijsdeelname die daar een deel van uitmaakt.

-ocr page 234-

230 Zelfstudie als functie van onderwijsdeelname: hypothesetoetsing

TOETSING BIJ NIEUWE GEGEVENS

Inmiddels zijn de gegevens beschikbaar gekomen van twee nieuwe tijdbestedingsonderzoe-
ken, die aan de Leidse Universiteit hebben plaatsgevonden: de propedeuse Psychologie
1982/83 (Langerak, 1984 b, c en Meyknecht, 1984) en de propedeuse Biologie 1983/84 (Van
der Drift, 1984). In tabel 1 zijn de oude gegevens samen met de nieuwe weergegeven. De
gegevens van de niet-Leidse projecten zijn omgerekend volgens de Leidse norm voor de
berekening van de netto studielast (zie Vos, 1984 a, 1985).

De uitgesproken verwachting, dat het gevonden verband op een toevalstreffer zou berusten
(Vos, 1984 c), wordt niet bevestigd: de nieuwe gegevens blijken perfect bij de oude te passen.
De kleinste kwadratenoplossing voor formule (1) bij de gegevens over acht tijdschrijfon-
derzoeken is nagenoeg identiek aan de eerdere uitkomst (alle variantie verklaard: r^= 1,00;
parameters van de functie: a=6,94 en b=0,00310). Wat voor hypothese I geldt, gaat natuur-
lijk ook bij hypothese II op: de nieuwe gegevens vallen precies in het patroon. Ook een
hyperbool past vrijwel exact bij de empirische punten (r^=0,99; parameters voor formule (5):
a=0,49; b=932,00).

Tabel 1. Studielastgegevens uit oude (1-6) en nieuwe (7 en 8) onderzoeksprojecten

omgerekende netto studietijd

nr.

project'

jaar

totaal

onderwijs

zelfstudie

zelfstudie/on-

deelname

derwijsdeelname

(t)

(X)

(y)

(y/x)

1

prop. Biol. VUA

76/77

1265

742

523

0,71

2

2ej. Tandh. RUG

76/77

1148

374

774

2,07

3

prop. Rechten RUL

79/80

1006

220

786

3,57

4

prop. Gencesk. UvA

82/83

1225

597

628

1,05

5

prop. Schei. RUL

82/83

1275

617

658

1,07

6

prop. Duits RUL

82/83

1136

304

832

2,74

7

prop. Biol. RUL

83/84

1247

610

637

0,96

8

prop. Psychol. RUL

82/83

1095

-270

825

3,06

' De projectgegevens zijn ontleend aan: 1: Van Os & Brants, 1982;2: Vermeer, 1977;3: Crombag et al-.
1980; 4: Ten Cate, 1983, 1984; 5: Vos, 1984a; 6: Langerak, 1984a; 7: Van der Drift, 1984; 8:

Langerak, 1984c.

Grafisch is de nieuwe uitkomst voor beide hypothesen weergegeven in figuur 1. De perfectie
van het verband in beide gevallen is binnen het domein van de empirische gegevens vanzelf-
sprekend.

In figuur 1 is zichtbaar dat er boven de 200 netto uren onderwijsdeelname geen reële
verschillen bestaan tussen de curves. Dat is wel het geval beneden de 200 uur.
Volgens
hypothese I moet in dat gebied ecn duidelijk geringere hoeveelheid zelfstudie per genoten uur

-ocr page 235-

P. Vos 231

y/x
8

7

6

5

4

3

2

1

O 100 200 300 400 500 600 700 800 900 1000 1100 x

^'guur 1 Twee empirisch equivalente hypothesen (I cn II) over het verband tussen netto onderwijsdeel-
name per jaar (x) en aantal uren zelfstudie per uur onderwijsdeelname (y/x) bij 8 tijdschrijfon-
derzoeken (nrs. zie tabel 1).

Onderwijs worden verwacht dan volgens hypothese 11. Het is duidelijk dat tussen dc hypothe-
sen kan worden gekozen op grond van nieuwe tijdschrijfgegevens over curricula met een
extreem laag onderwijsgebruik. Het is echter de vraag of dergelijke curricula in de praktijk
^el voorkomen.

Bij figuur 2 is natuurlijk hetzelfde fenomeen - het gaat immers om simpele transformaties -
zichtbaar.
In deze figuur is het verband tussen de gemiddelden van de totale zelfstudie en
Onderwijsdeelname per jaar weergegeven (formules
(2) en (4)).

Ook hier komen belangrijke verschillen tussen de hypothesen alleen voor bij lage waarden
^an de onderwijsdeelname. Volgens hypothese I valt in dat gebied een sterke groei van de
Zelfstudie bij toenemende onderwijsdeelname te verwachten. Een maximum van gemiddeld
825 netto uren zelfstudie wordt bereikt bij een gemiddelde onderwijsdeelname van netto 320
per jaar. Hypothese II voorspelt een gemiddelde jaarlijkse zelfstudie van meer dan 900
^tir in het gebied waar praktisch geen sprake is van de stimulerende werking van een formele
Onderwijssituatie. Iedere functie die daar een lagere zelfstudiewaarde voorspelt is meer
P'ausibel. Het ontbreken van zelfstudie als men niet aan onderwijs deelneemt cn dc maximale

-ocr page 236-

232 Zelfstudie als functie van onderwijsdeelname: hypothesetoetsing

' I ■ ' I ■ » ■ I t

O 100 200 300 400 500 600 700 800 900 1000 1100 x

Figuur 2 Hypothetische samenhang (I en II) tussen gemiddelde onderwijsdeelname (x) en gemiddelde
zelfstudie (y) per jaar bij 8 tijdschrijfonderzoeken.

zelfstudie bij een matig omvangrijke onderwijsdeelname volgens hypothese I maken deze
hypothese zo op het oog aantrekkelijker.

De exponentiële curve hjkt niet alleen meer plausibel dan de rechte lijn, maar ook
nauwkeuriger. Beide hypothesen beschrijven het verband tussen zelfstudie en
onderwijsdeel-
name als een functie met twee te schatten parameters. Hun verklarend vermogen is duS
theoretisch equivalent.
De voorkeur voor één van beide kan daarom rechtstreeks ontleend
worden aan de nauwkeurigheid waarmee de functies het empirische traject volgen. Wij
kunnen daartoe een berekening uitvoeren, analoog aan die van een standaard-meetfout:

RMSE = \/T2(y- y)^

waarbij RMSE = Root Mean Squared Error en N = het aantal meetpunten.

(7);

-ocr page 237-

P. Vos 233

Berekeningen volgens formule (7) bij hypothese I levert een meetfout op van 20,38. Deze
uitkomst is aanzienlijk kleiner dan die bij hypothese II (35,77). Op grond van de meetfouten
Tioet dus de voorkeur gegeven worden aan hypothese I.

Het derde niveau waarop de hypothesen vergeleken kunnen worden, is dat van de gemid-
delde totale netto studielast per jaar. Het theoredsche verband met de onderwijsdeelname
^ordt beschreven door de formules (3) en (6). Grafisch is het resultaat voor de acht tijd-
schrijfonderzoeken weergegeven in figuur 3. Aangezien hypothese II in feite heeft afgedaan,
's in figuur 3 het traject ervan niet meer aangegeven. Natuurlijk zou ook in dit geval de curve
Van hypothese I superieur zijn geweest, omdat het enige verschil met de situatie in figuur 2 is,
dat de onderwijsdeelname bij de zelfstudie is opgeteld.

^an links naar rechts kijkend zien wij in figuur 3 bij hypothese I eerst een sterke toename van
de totale studielast door de sterk toenemende zelfstudiecomponent (zie figuur 2). Dan
ontstaat er een plateau als gevolg van de afnemende hoeveelheid zelfstudie tussen een
Onderwijsdeelname per jaar van 320 en 1000 uur. Theoretisch ontstaat bij een onderwijs-
deelname van meer dan 1000 uur weer een groei in de totale studielast, gelijk aan de toename
Van de onderwijsdeelname, omdat de zelfstudie dan praktisch geheel tot stilstand is gekomen,
'n de praktijk van het Nederlandse W.O. komen dergelijke waarden voor onderwijsdeelname
echter niet voor. Onder de normale omstandigheden in het universitaire onderwijs bestaat er
Volgens hypothese I een limiet van bijna 1300 uur voor de gemiddelde netto studielast per
jaar.

DISCUSSIE

'Alternatieve interpretaties

Het geconstateerde verband tussen zelfstudie cn onderwijsdeelname vraagt om een verkla-
ring. Crombag et al. (1981) geven er een, gebaseerd op aanpassing aan de maatschappeHjke
norm, voor een volledige baan. In de eerder aangehaalde congresbijdrage (Vos, 1985) wordt
die verklaring herhaald en samen met een tweede mogelijkheid als volgt omschreven:
(') de gemiddelde totale studielast bij een intensief lesprogramma benadert het maat-
schappelijk aanvaarde maximum voor 'volledige' werktijd en naast de grote aantallen
lesuren blijft dus maar weinig tijd over voor zelfstudie;
(2) in een intensief onderwijsprogramma worden waarschijnlijk nogal wat zaken uitgelegd,
die de studenten ook zonder begeleiding hadden kunnen begrijpen, zij het dan wel in een
lager tempo.

Ieder apart of samen kunnen zij een verklaring voor de geconstateerde effecten geven,
^oncurrentie-hypothese

I^c eerste verklaring kan met 'concurrentie-hypothcse' worden aangeduid: onderwijsdeel-
name gaat ten koste van zelfstudie, zodra de som van beide in de buurt komt van
± 1300 uur
Per jaar. Eigenlijk heeft deze verklaring niets te maken met een verband tussen zelfstudie en
Onderwijsdeelname, want het verschijnsel wordt veroorzaakt door een externe factor.
Om te
•bezien hoe volgens dc concurrcntic-hypothese de verhouding tussen zelfstudie en onderwijs-
deelname verloopt, moeten de logische mogelijkheden wat verder worden uitgewerkt.

De concurrentie-hypothcse, zoals hierboven geformuleerd, veronderstelt geen intrinsieke
relatie cn gaat er dus van uit dat zelfstudie en onderwijsdeelname in beginsel onafhankelijk
^an elkaar zijn. Te verwachten is dan (a) een onderwijsdeelname die afhangt van het

-ocr page 238-

234 Zelfstudie als functie van onderwijsdeelname: hypothesetoetsing

O 100 200 300 400 500 600 700 800 900 1000 1100 x

Figuur 3 Theoretisch verband (volgens hypothese I) tussen gemiddelde onderwijsdeelname per jaar (x)
cn gemiddelde totale studielast (t) bij 8 tijdschrijfonderzoeken.

aangeboden lesprogramma en (b) een min of meer constante hoeveelheid zelfstudie, die
echter vermindert zodra de totale studielast in de buurt van het maximum komt.

Deze beschrijving is geheel in overeenstemming met de verzamelde gegevens. De verkla-
ring is echter in strijd met hypothese I die een afnemende hoeveelheid zelfstudie per uur
onderwijsdeelname veronderstelt over het gehele traject van de toenemende onderwijsdeel-
name. Door toetsing bij een curriculum met een zeer beperkt onderwijsprogramma, kan

-ocr page 239-

P. Vos 235

Worden nagegaan in hoeverre de concurrentie-hypothese voldoende is om de verhouding
Zelfstudie/onderwijsdeelname ook daar te verklaren. Met dat doel voor ogen wordt in het
studiejaar 1984-85 een tijdschrijfonderzoek gedaan bij avondstudenten (le jaar pedagogiek
I^U Leiden), die een onderwijsprogramma volgen met minder contacturen dan enig tot nu toe
onderzocht curriculum.

De concurrentie-hypothese kan ook anders worden geformuleerd, door bijvoorbeeld een
Vaste relatie tussen zelfstudie en onderwijsdeelname te veronderstellen voor een deel van het
haject (lage waarden van onderwijsdeelname). De hoeveelheid zelfstudie neemt pas af door
concurrentie bij hogere waarden van onderwijsdeelname. In de situatie van figuur 1 moet dan
Voor de eerste 200 uur onderwijs een horizontale hjn als verband tussen zelfstudie per lesuur
cn onderwijsdeelname worden verwacht. Ook hier zal het onderzoek bij curricula met een
Beringe hoeveelheid onderwijs duidelijkheid moeten brengen.

Vervangingshypothese

Als alternatief voor de concurrentie-hypothese is hierboven een verklaring gegeven die
'vervangingshypothese' genoemd kan worden: onderwijs vervangt tot op zekere hoogte
Zelfstudie en bij toenemende onderwijsdeelname is dus relatief weinig zelfstudie nodig.
Bij de
Vervangingshypothese bestaat er wel een causale relatie tussen zelfstudie en onderwijsdeel-
name. In overeenstemming met de curve van hypothese
I is hier sprake van een negatief
Verband dat zich over het gehele verloop van de onderwijsdeelname uitstrekt.
Een negatief
Verband is echter niet het enige logische alternatief voor de concurrentie-hypothese.

Wat op voorhand kan worden uitgesloten als alternatief voor een negatief verband, is een
Vaste relatie tussen zelfstudie en onderwijsdeelname over het hele traject van de onderwijs-
deelname. Dit verband - een onveranderlijke zelfstudie-opslag per contactuur, zoals meestal
Wordt verondersteld door curriculumplanners - is in strijd met de feiten. Hetzelfde geldt voor
een positief verband tussen zelfstudie cn onderwijsdeelname. Als verklaring voor het gevon-
den verband blijven dus voorlopig alleen de vervangingshypothese en de twee versies van dc
eoncurrentie-hypothese als alternatieven over.

Het al eerder genoemde onderzoek bij de propedeuse pedagogiek 1984-85 biedt de
•nogelijkheid om nadere gegevens te verzamelen. Behalve de avondstudenten werken daar
Ook de dagstudenten als proefpersoon aan het onderzoek mee. De beide groepen zijn wat hun
studie-opzet betreft vergaand vergelijkbaar: zij volgen in dezelfde periode dezelfde stu-
dieonderdelen en hetzelfde tentamenprogramma in hetzelfde tempo. Alleen het onderwijs-
aanbod verschilt: de avondstudenten hebben minder lesuren dan de dagstudentcn. Mocht de
Onderwijsdeelname bij dc avondstudenten lager blijken tc liggen dan gemiddeld 200 uur
netto per jaar, dan moet een keuze tussen concurrentie- en vervangingshypothese mogelijk
Z'jn. De avond- en dagstudenten kunnen rechtstreeks vergeleken worden qua zelfstudicpa-
'"■onen, tempo van tentamenvoorbereiding en tentamenprestaties.

'beperkte geldigheid van dc uitkomsten

'Afgezien van het vinden van een verklaring voor het gevonden verband, moeten wij ons
afvragen binnen welke grenzen de wetmatige relatie tussen zelfstudie en onderwijsdeelname
h'ijft bestaan.
De acht curricula die wij tot nu toe hebben vergeleken, vertonen een indruk-
wekkende variëteit.
Zij verschillen qua studierichting, qua onderwijsopzet, qua studiejaar en
SUa universiteit. Weinig variatie is er op het gebied van de studieomgeving. Alle onderzochte
Opleidingen vinden plaats binnen de traditionele structuur van de
Nederlandse universiteiten,
^'c een relatief grote vrijheid van studieaanpak toelaten.
Sociale controle op studeren,
'uitgaande van de studieomgeving (bijvoorbeeld door medestudenten, docenten en ouders).

-ocr page 240-

236 Zelfstudie als functie van onderwijsdeelname: hypothesetoetsing

vormt daardoor een factor die in dit onderzoek vermoedelijk een betrekkelijk constant
gemiddeld gewicht heeft. Voortgangscontrole op studieresultaten, daarentegen, bijvoorbeeld
door in te leveren huiswerk, door practicumrapportage of door opdrachten en overhoringen
bij werkgroepen of responsiecolleges, varieert sterk in omvang door de koppeling aan het
onderwijsaanbod. Op twee manieren gelden dus beperkingen: bij een andere intensiteit van
sociale controle en bij ontkoppeling van doceren en voortgangscontrole kan de relatie tussen
zelfstudie en onderwijsdeelname veranderen.

In eerdere publikaties (Vos, 1984 c, 1985) is al gewezen op enkele beperkingen wat betreft
de generaliseerbaarheid: de geldigheid van het verband tussen zelfstudie en onderwijsdeel-
name kan niet zonder meer worden uitgebreid naar curricula waar de rol van de docent sterk
afwijkt van de traditionele onderwijssituatie aan Nederlandse universiteiten. Een
voorbeeld
van zo'n veranderde studieomgeving is de opleiding aan de RU Limburg, waar de taak van de
docent is verlegd in de richting van cursusontwikkeling en waar de behandeling van de leerstof
en de dagelijkse voortgangscontrole voor een groot deel zijn overgenomen door studenten
die in taakgerichte groepen werken. Andere voorbeelden zijn schriftelijke individuele stu-
diesystemen (ISS) en computergestuurd onderwijs (CGO), waar presentatie en voortgangs-
controle in de geïndividualiseerde leerstof zijn ingebouwd. De begrippen zelfstudie en
onderwijsdeelname krijgen in die veranderde context een nieuwe betekenis en die situaties
zijn dan ook niet meer eenvoudig vergelijkbaar met de hier besproken curricula.

Bij de voorbeelden hierboven wijkt de rol van de docent radikaal af van die in het
traditionele onderwijs. Er zijn ook minder extreme gevallen denkbaar, waar de rol van de
docent als presentator en controleur ongewijzigd blijft, terwijl toch de controlefunctie ver-
sterkt wordt: daar waar een docent een omvangrijke taak kan voorschrijven, die toch zeer snel
gecontroleerd kan worden. Een voorbeeld van zo'n taak kan zijn, het maken van een
tekening, technisch of anderszins, waarbij een kenner in het eindproduct vrijwel onmiddellijk
de fouten kan aantonen, terwijl zeer veel tijd in de vervaardiging moet worden gestoken. Bij
opleidingen waar handvaardigheidstechnicken worden onderwezen, zou op die grond ecn
andere relatie tussen zelfstudie en onderwijsdeelname moeten worden verwacht. Er zijn
aanwijzingen in die richting. In het artikel van Van Deynse et al. (1984) worden studielast-
gegevens gepresenteerd over de eerstejaarsopleiding voor burgerlijk ingenieurs te Leuven-
Die gegevens passen niet in het patroon van dc Nederlandse opleidingen: dc gemiddelde
zelfstudietijd is aanzienlijk groter dan de maximale hoeveelheid uren zelfstudie bij de
acht
studieprogramma's die hier worden behandeld. Een van de factoren die bij dit verschil ccn rol
kunnen spelen, is de zware belasting in de tekenweken, waarin de studenten grafische
oefeningen moeten maken. Overigens is het ook waarschijnlijk - maar het artikel geeft geen
aanwijzingen in die richting - dat de studie-inspanning bevorderende sociale controle aan de
K.U. Leuven sterker is dan aan Nederlandse universiteiten. Ecn aanwijzing in die richting
vormt het feit dat studievertraging in het Belgische W.O. veel minder voorkomt dan in
Nederland, omdat overschrijding van dc officiële studieduur hoogstens in ccn gering aantal
individuele gevallen wordt toegelaten.

CONCLUSIE

Wanneer wij de invloed onderzoeken die uitgaat van deelname aan onderwijsactiviteiten op
de werkelijke studietijd, dan blijkt cr een wetmatig (negatief exponentieel) verband tc
bestaan tussen de gemiddelde jaarlijkse netto onderwijsdeelname en de gemiddelde hoeveel-
heid zelfstudie per bijgewoond uur onderwijs. Gezien de grote variëteit van de onderzochte

-ocr page 241-

P. Vos 237

gegevens lijkt het waarschijnlijk dat het gevonden verband geldig is voor een groot deel van de
Nederlandse universitaire curricula, zolang de docenten daar hun traditionele rol als presen-
tator en controleur behouden en de studenten een uniform jaarprogramma doorlopen.

De interpretatie van het gevonden verband is voorlopig nog niet duidelijk. Of nu dc
Concurrentie-, de vervangingshypothese, dan wel nog een andere interpretatie uiteindefijk de
overhand zal krijgen, de uitkomsten leiden in ieder geval tot een aantal praktische con-
sequenties op beleidsgebied. Het zal de lezer bijvoorbeeld niet ontgaan zijn, dat een belang-
rijk element in de gebruikelijke schattingsmethode voor de studielast bij het inrichten van
curricula, een vaste zelfstudieopslag per contactuur, op drijfzand berust. Naarmate de om-
vang van de onderwijsdeelname toeneemt, daalt immers de hoeveelheid zelfstudie per uur
onderwijsdeelname (zie figuur 1). Het gevolg is dat zo ongeveer alle studielastberekeningcn,
die niet op tijdbestedingsonderzoek berusten, achterhaald zijn. Gelukkig kan nu met een
simpele procedure de gemiddelde totale netto studielast van iedere traditioneel ingerichte
studie met een ongedifferentieerd, afgerond jaarprogramma nauwkeurig geschat worden. Als
enige gegeven is daarvoor nodig de proportie van het aangeboden onderwijs, waaraan de
geslaagde studenten hebben deelgenomen. Die proportie wisselt per studierichting. In de hier
aangehaalde onderzoeksprojecten varieert de deelname van 50% tot 90% van het onderwijs-
aanbod volgens het rooster. De schattingsproccdurc is zeer eenvoudig. Voor een studicrich-
t'ng met bijvoorbeeld 650 roosteruren met verschillende onderwijsactiviteiten en 75% deel-
name door dc geslaagde studenten, kan dc gemiddelde netto studielast als volgt worden
•berekend:

H) De onderwijsdeelname (bruto) is 0,75 x 650 = 488 roosteruren;

(2) Een kwart van de roostertijd valt uit door pauzes. De netto onderwijsdeelname is dus
0,75
X 488 = 360 uur;

(3) In figuur 3 kan worden afgelezen dat de gemiddelde netto studielast 1180 uur zal
bedragen.

^en zou de conclusie kunnen trekken dat een gemiddelde netto studielast van 1180 uur per
jaar aan de lage kant is, gezien bijvoorbeeld de opvatting dat 1700 netto uren een normaal
gemiddelde hoort te zijn. Figuur 3 laat de peperdure consequenties van die opvatting zien: om
alleen al een studielast van 1300 netto uren te bereiken (een toename van 10,9%), moet een
onderwijsdeelname van 950 uur worden bereikt (een toename met 164%). Rekenen wij dat
om in de roosteruren van ons voorbeeld hierboven, dan resulteert een jaarprogramma met
'690 contacturen, een volstrekt onrealistische gedachte. Het is uitgesloten dat onder de
gebruikelijke omstandigheden aan Nederlandse universiteiten een netto studielast van 1700
Uur financierbaar is.

Een mogelijke consequentie van het verband tussen zelfstudie en onderwijsdeelname,
al'een geldig onder aanname van hypothese I, is dat de optimale omvang van een onder-
wijsprogramma kan worden bepaald, door het punt te kiezen waar zelfstudie met zo min
"hogelijk onderwijs kan worden uitgelokt. Figuur 2 laat zien dat bij hypothese I een maximaal
Aantal uren zelfstudie (825) optreedt bij een onderwijsdeelname van 320 uur. In termen van
Urcnopbrengst is dit de meest rendabele omvang van onderwijs. Kijken wij nog eenmaal naar
net rekenvoorbeeld hierboven, dan zou het lesprogramma van 650 uur kunnen worden
teruggebracht tot 570 uur, waarbij dc totale studielast maar 30 uur terugloopt (tot 11.50 uur)
Vanwege de toenemende zelfstudie. Zo'n winst kan echter bedrieglijk zijn, als men aanneemt
dat een uur studeren op leerstof die al is uitgelegd, productiever is dan dezelfde tijd, besteed
®an onbehandelde stof. Bovendien kunnen tussen uren zelfstudie grote verschillen in con-
centratie bestaan. Bij tijdschrijfonderzoek wordt daar in het geheel geen rekening mee
gehouden. Een onderwijsprogramma dat in urcnopbrengst een optimaal rendement oplevert,

-ocr page 242-

238 Zelfstudie als functie van onderwijsdeelname: hypothesetoetsing

hoeft dus geenszins de optimale studiebegeleiding te betekenen in termen van leeropbrengst.

Onder het regime van de Wet op de Twee-fasenstructuur is de hoeveelheid per jaar
behandelde leerstof drastisch toegenomen. Het kan natuurlijk lukken om alle stof te behan-
delen door het bijbehorende onderwijs mee te verschuiven, maar dan moet wel rekening
worden gehouden met een afnemende hoeveelheid zelfstudie per bijgewoond lesuur. Ook
kan de begeleidingsgraad worden verlaagd. De hoeveelheid zelfstudie neemt dan weliswaar
niet af, maar de leersnelheid waarschijnlijk wel. In beide gevallen zal een toenemend aantal
studenten niet klaar komen met het tentamenprogramma, tenzij de eisen worden verlaagd. Er
blijven dan maar twee mogelijkheden over: öf het numerieke rendement öf de kwaliteit van
afgestudeerden loopt achteruit.

REFERENTIES

Cate, Th.J. ten, (1983). Evaluatie Propedeuse (Deel I t/m Deel VIII). Amsterdam: Niet-Primaire
Onderwijsvoorziening Geneeskunde, Universiteit van Amsterdam.

Cate, Th.J., ten, (1984). Eindrapport evaluatie propedeuse geneeskunde. Amsterdam: Niet-primaire
Onderwijsverzorging Geneeskunde, Universiteit van Amsterdam.

Crombag, H.F.M., Gruijter, D.N.M. de. Vos, P. & Bakker, E.A., (1980). De nieuwe propedeuse in de
Faculteit der Rechtsgeleerdheid: Determinanten van propedeutisch studiesucces.
Leiden: Bureau
Onderzoek van Onderwijs, rapport nr. 22.

Crombag, H.F.M., Gruijter, D.N.M. de & Cohen, M.J., (1981). 1700 netto uren? Universiteit en
Hogeschool,
27/6, 348-363.

Deynse, N. van, Smet, M., Henderikx, P. & Neve H. de, (1984). Studietijd en studieresultaten bij
Eerstejaars Burgerlijk Ingenieur aan de KU Leuven.
Tijdschrift voor Onderwijsresearch, 9/4,
171-179.

Drift, K.D.J.M. van der, (1984). Tijdbesteding en studiesucces in een geblokt curriculum: de propedeuse
Biologie 1983/84.
Leiden: Bureau Onderzoek van Onderwijs, rapport nr. 31.

Langerak, W.F., (1984a). De studielast van de propedeuse Duits in hel studiejaar 1982/83. Leiden;
Bureau Onderzoek van Onderwijs, rapport nr. 30.

Langerak, W.F., (1984b). Propedeuse Psychologie 1982/83: verloop van de studie-inspanning in het
eerste semester.
Leiden: Bureau Onderzoek van Onderwijs, memorandum 801-84.

Langerak, W.F., (1984c). Propedeuse Psychologie 1982/83: de studie in het tweede semester. Leiden:
Bureau Onderzoek van Onderwijs, memorandum 806-84.

Meyknecht, F.V., (1984). Studiebelastingsonderzoek Psychologie 1982/83. Leiden: Subfaculteit Psy-
chologie.

Os, W. van, & Brants, J., (1982). Evaluatie propedeuse Biologie. Amsterdam: Afdeling Onderwijs-
research Vrije Universiteit, O.R.V.U.-nr. 5.82.

Vermeer, E., (1977). Studietijdbesteding tweede jaar tandheelkunde Groningen 1976/77. Groningen:
Onderwijsontwikkeling Tandheelkunde, bulletin nr. 8.

Vos, P., (1983). Extensivering, een kwestie van boekhouden: Voordracht CRWO-studiedag 14 december
1983.
Leiden: Bureau Onderzoek van Onderwijs.

Vos, P., (1984a). De propedeuse Scheikunde 1982/83: studiebelasting en studiesucces. Leiden: Bureau
Onderzoek van Onderwijs, rapport nr. 29.

Vos, P., (1984b). De scheikundepropedeuse in 1982/83: voordracht colloquium Scheikunde. Leiden:
Bureau Onderzoek van Onderwijs, memorandum 792-84.

Vos, P., (1984c), Pretentie en werkelijkheid bij universitaire studieprogramma's: voordracht ORD'84.
Leidén: Bureau Onderzoek van Onderwijs memorandum 797-84.

Vos, P., (1985). Pretentie en werkelijkheid bij universitaire studieprogramma's. In: J.F.M.C. Aarts,
W.H.E.W. Wijnen (1985)
Studierichtingen in het Hoger Onderwijs. Lisse: Swets & Zeitlinger.

manuscript ontvangen 4-1-1985

definitieve versie ontvangen 1-7-1985

-ocr page 243-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. 239-244.

The Psychometric Equivalence of Two Types of
Spelling Tests

Margo G.H. Jansen
University of Groningen

Samenvatting

Momenteel worden meerkeuze-toetsen veelvuldig gebruikt voor het meten van onderwijsleer-
resultaten. Niettemin zijn er toch aanwijzingen, dat meerkeuze-toetsen niet in alle opzichten
essay-toetsen kunnen vervangen. In dit onderzoek wordt nagegaan in hoeverre dictee's en
meerkeuze-toetsen voor spelling psychometrisch equivalent zijn. Uit de resultaten blijkt dat dit in
hoge mate het geval is.

introduction

Although multiple choice tests arc almost universally used for the evaluation of educational
achievement in many different contexts for many different purposes, their validity is still
Occasionally questioned. Also it is argued that multiple choice tests measure at least different
aspects of achievement than their traditional counterparts, e.g. essay tests, and this argument
finds some support in the literature, especially in the domain of language testing (Ingenkampf,
1962; Freyberg, 1970; Wesdorp, 1972, 1982 and many others). This also applies to spehing.

In the literature we usually find moderate, occasionally higher, correlations between
dictation spelling tests and muhiple choice tests (Nisbct, 1939; Ingenkampf, 1962; Wesdorp,
1972). For the
Amsterdamse Schooltoetsen, the fore-runner of the Eindtoets Basisonderwijs,
Correlations of respectively .62 and .42 were found between the multiple choice and the
dictation spelling test, which were part of the 1966 and 1967 versions.

In general, dictation tests have the role of criterion variables in studies on the vahdity of
spelling tests. Their validity as a criterion for spelling ability is questioned by Ingenkampf
( 1962) and Frcyberg ( 1970). The latter argues that the ultimate criterion should be sought in
evcrday writing. In his study it is shown that so-called recall-tests, where the pupils have to
Write down the words to be spelled, are more valid than rccognition-tcsts, of which mc-tests
are an example, against an every day writing measure.

method

In the present study we investigated the psychometric equivalence of multiple choice spelling
tests and traditional dictation tests containing the same spelling problems. Items were con-
shucted, where the choice was between the correct answer and three alternatives selected
from meaningful error categories (Ojemann, 1978). These errors consisted of the deletion,
substitution or addition of letters, phonetically plausible but wrong ways of spelling and wrong
application of spelling rules. From a larger pool of items two subtests of 25 items each were
Selected, using an informal matching procedure to insure that each subtest contained the same
kind of spelling problems in about the same amount.

-ocr page 244-

240 The Psychometric Equivalence of Two Types of Spelling Tests

These two tests were administered to four classes of third grade primary school pupils. The
same spelling words were also given in traditional dictation format. The order in which the
four tests were given was varied systematically. The initial sample consisted of 78 pupils.
Respectively 75 took both multiple choice tests (Mc 1 and Mc 2) and 77 the classical dictation
tests (Diet 1 and Diet 2).

The responses on both types of tests were binary coded, that is for spelling words that were
spelled wrongly or for which one of the wrong alternatives was chosen, a one (1) was given and
for correctly spelled words a zero. The test scores consisted of the total number of misspelled
words.

RESULTS

An item-analysis performed on the four tests indicated that the multiple-choice spelling tests
were somewhat less reliable and significantly less difficult than their traditional counterparts.

Table I. Mean*, standard deviation and reliability of the two multiple choice and the two
dictation tests.

N

Mean

St. Dev.

a

MC 1

75

7.2

4.69

0.83

MC2

75

8.9

4.37

0.77

Diet 1

77

11.5

5.01

0.84

Diet 2

77

13.4

5.39

0.86

* Note that we deal with error scores, c.q. the number of items wrong.

In an analysis of variance with the total error score as the dependent variable and test type
(multiple-choice or dictation format) and test version (first or sccond set of 25 words) as
within-subjects factors, both main effects proved to be significant. See Table 2.

Table 2. Results of an Analysis of Variance performed on the error scores with test type and
test version as within-subjects factors.

Source

SS

df

MS

F

P

Type

1451.28

1

1451.28

97.62

.00

Type X Subjects

1040.72

70

14.87

Version

216.56

1

216.56

34.58

.00

Version X Subjects

438.43

70

6.26

Type X Version

.35

1

.35

.06

.80

Type X Version X Subj.

382.65

70

5.46

-ocr page 245-

Margo G.H. Jansen 241

The imphcation of these results is, that the four tests in their present form cannot be viewed
as strictly parallel tests in the definition given in classical test theory (Lord & Novick, 1968).
Classical test theory assumes that a test score x is the sum of a true score
t and an error score e,
Where x and e are uncorrelated. A set of test scores Xi,..,Xp is said to be strictly parallel if the
•rue scores are identical and the error scores have equal variance. Some consequences of these
definitions are that parallel measurements x,,..,xp have the same means, variances and
'ntercorrelations. Parallel tests, in other words, measure exactly the same thing, in the same
scale and, in a sense, equally well for all persons.

Differences in means (and variances) can be corrected by simply choosing suitable linear
transformations of the observed scores Xi,..,Xp. Therefore, the study of the covariance struc-
ture is of more importance, for deciding if the tests measure the same thing, or not. For this we
Used the method for analyzing covariance structures developed by Jöreskog and co-workers
(1971, 1974; 1978).

The classical test theory model for the scores of our four tests can be written as follows:

X = n + fix + e,

where is the vector of observed scores, is the vector of regression coefficients, t' is the vector
of error scores,
p is the mean vector of x and x the true score, scaled to zero mean and unit
Variance. The elements of .r,
e and x are regarded as random variables for a population of
subjects. The model is illustrated in the path diagram of Figure 1. (See Jöreskog, 1974).

Fu

'gure I Four tests, measuring the same true score.

Now let 02,.., 62 be the error variances. The true score variances arc jhe variance-co-

variance matrix is given by

where 0 = diag (0|,..,0p). Parallellism and other less restrictive models can be specified by
'"iposing restrictions on "the (Vs en O's. For parallel tests we have:

P] = ... = and e? = ... =

^ less restrictive model is tau-equivalcnce, where the tests have equal true score variances but
Possibly different error variances. Congeneric tests merely measure the same true score but
"eed not satisfy further restrictions.

-ocr page 246-

242 The Psychometric Equivalence of Two Types of Spelling Tests

Since it seemed unlikely that all four tests were parallel, we started with examining the
model where the two multiple choice tests (Mc 1 and Mc 2) and the two classical dictation tests
(Diet 1 and Diet 2) were assumed to be pair-wise parallel and all together measuring the same
true score. So:

P? = PL P§ = PI and
0f = , e§ = ej.

The goodness-of-fit test yielded y} = 14.76, with 6 degrees ot ireeaom and a probability
level of P = 0.022. Obviously, this model did not fit the data. The same applied to the
model
assuming pair-wise tau-equivalence and the model where the four tests were assumed to form
one set of congeneric tests. See Table 3b.

Table 3a. The variance-covariance matrix (N=71).

MC 1

MC 2

Diet 1

Diet 2

MC 1

21.902

MC 2

13.891

19.625

Diet 1

14.282

12.209

24.305

Diet 2

15.287

13.834

21.926

28.302

Table 3b. Summary of the LISREL-analyses

Hypothesis

no.par.

df P

One set:

1. Pair-wise parallel

2. Pair-wise tau-equivalent

3. Congeneric
Two sets:

4. Pair-wise parallel

14.76
14.43
13.11

2.38

6
4
2

0.022
0.006
0.001

0.794

Table 3c. Summary of the results of the analysis based on the fourth model: Two sets of

pair-wise parallel tests.

B

0

P, = P2 = 3.727(.401)*

gf = S^ = 6.873(1.162)

P3 = P4 = f683(.437)

g? = S| = 4.377(.740)

e = .797(.069)

* The numbers in brackets are estimated standard errors

-ocr page 247-

Margo G.H. Jansen 243

The next step involved assuming that the four tests consisted of two sets of two tests each,
measuring different, though correlated, true scores. This model can be written as follows:

x = fi + Bx + e,

where t' = (t,, T2) and fi is a matrix of regression coefficients:

B =

Pl

0

P2

0

0

h

0

P4

S = B r B' + 02 .

As before we assume true scores to be scaled to mean zero and unit variance. The correlation
matrix of r is represented by F. See also Figure 2.

The next model tested assumed that the multiple-choice tests formed a set of parallel tests
and the classical dictation tests like wise. Both sets were assumed to measure different but
Correlated true scores. This model fitted the data well, with x^ = 2.38, df = 5 and a probability
'evel of P = .79. The estimated correlation was equal to .797. See also table 3c.

CONCLUSIONS AND DISCUSSION

The results given in the scction above support the expectation that multiple-choice tests are
•^pt completely exchangeable with essay tests. Informal analysis of the responses on the
dictation tests, indicated a somewhat different error pattern, so-called 'orientation' errors
^cre relatively less frequent in the mc-tests and errors against the ruler relatively more, which
's also supporting the assumption that dictation tests and multiplc-choice tests present
different tasks to the subjects and thus provide us with different information.
. We must bear in mind however, that the sample-size was not large, in any event smaller than
's recommended for the use of LISREL (Boomsma, 1984). Though sample size does not seem
'o impair the goodness-of-fit tests, the estimates of the standard errors are not to be trusted.

-ocr page 248-

244 The Psychometric Equivalence of Two Types of Spelling Tests

Secondly, the differences between mc- and dictation tests are probably too small to be of
much importance in most practical assesment situations.

ACKNOWLEDGEMENT

We are indebted to Adriaan Hoffman and Harry Ganliema, (former) students of the Vakgroep Onder-
wijskunde, who designed the tests, collected the data and performed some of the preliminary analyses,
and to Anne Boomsma for his critical comments on a former draft of this paper.

REFERENCES

Boomsma, A., (1984). On the robustness of LISREL (maximum likelihood estimation) against smal'
sample size and non-normality. Groningen. (Unpublished doctoral dissertation).

Freybcrg, P.S., (1970). The concurrent validity of two types of spelling test. British Journal of Educalionfl
Psychology, 40,
86-71.

Heyerick, L., (1980). Het gebruik van foute woordbeelden in spellingtoetsen. Pedagogische Studiën, 57,
268-272.

Ingenkampf, K., (1962). Die Deutschen Schulleistungs Tests. Winheim: Beltz.

Jöreskog, K.G., (1971). Statistical analysis of sets of congenetic tests. Psychometrika, 36, 109-133.

Jöreskog, K.G., (1974). Analyzing Psychological Data by Structural Analysis of Covariance Matrices. In:
D.H. Krantz, et al.
Contemporary developments in mathematical psychology. San Francisco:
Freeman & Co.

Jöreskog, K.G., & Sörbom, D., (1978). LISREL IV. A general computer program for estimation of linear
structural equation systems by maximum likelihood and least squares methods. User's guide-
University of Uppsala, Department of Statistics.

Lord, F.M., & Novick, M.R., (1968). Statistical theories of mental test scores. Reading, Massachusetts.

Nisbet, S.D., (1939). Non-dictated Spelling Tests. The British Journal of Educational Psychology,
24-44.

Ojemann, P.C., (1972). Fouten kijken u aan. TOR, Amsterdam.

Samenwerkende Instituten Nutsseminarium en RITP, (1967). Amsterdamse Schooltoetsen. Groningen:
Wolters Noordhoff.

Wesddrp, H., (1972). De validiteit van de subtoetsspelling uit de schooltoetsen basisonderwijs van hc<
CITO. Memo no. 34. Arnhem: CITO.

Wesdorp, H., (1982). Backwash effects of language testing in primary and secundary education. SCO
Cahier no. 4, Amsterdam.

Manuscript ontvangen 19-3-1985
Definitieve versie ontvangen 18-6-/985

-ocr page 249-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. 245-246.

Notities en commentaren

De relatie tussen snelheid en precisie bij tests
Met tijdslimiet

Öato N.M. de Gruijter

^'jksuniversiteit Leiden

Onlangs presenteerde Van den Wollenberg (1985) nieuwe gegevens met betrekking tot de
relatie tussen snelheid en precisie in tests met een tijdslimiet. De gevonden positieve correla-
ties tussen snelheid en precisie impliceren volgens hem dat er in het algemeen geen sprake is
^an een compensatorische relatie tussen snelheid en precisie. De samenhang tussen variabe-
len binnen een groep zegt echter weinig over de samenhang tussen variabelen binnen perso-
nen. Dat wordt hier aan de hand van een eenvoudig model gedemonstreerd.

Daarbij wordt ervan uitgegaan dat personen hun totaalscore op een test trachten te
•Maximaliseren, zoals de toetsconstructeurs ongetwijfeld hopen. Voorts wordt verondersteld
'lat een persoon snel kan werken ten koste van de precisie en nauwkeurig kan werken ten
''oste van de snelheid. De vraag is welke combinatie van snelheid en precisie optimaal is.

Bij het gehanteerde model nemen wij aan dat de items van gelijke moelijkheidsgraad zijn.
'^e kans op een goed antwoord op een item bij een tijdsinvestering
t door persoon p wordt
gegeven door

. ('-«rop

»"rob (t/=l|Op, t) = --t ê a, (1)

1+ {t-a)%

baarbij f)^ de persoonsparameter is, t de bestede tijd en a de over personen constant geachte
leestijd voor een item. Laten we aannemen dat een persoon zijn tijd per item constant houdt:
"'j/zij beantwoordt
n van de in het totaal m items {nèm), en besteedt per beantwoord item
" 'c tijdseenheden, waarbij c de toegestane tijd is. De verwachte score is nu gelijk aan

n {n-^c-ay\

S = - , (2)

1+ {n-k-a)%

baarbij aangenomen wordt dat « 'c groter is dan a voor elke mogelijke waarde van n. Voor
een bepaalde waarde van
n is S maximaal. Deze waarde, ^max» is een monotoom stijgende
Junctie van d. Figuur 1 geeft de bij S^ax behorende snelheid in termen van proportie
beantwoorde vragen en precisie, Prob (t/=l|0, /), voor enkele waarden van fl, en voor r=2,
1 en a =0.025. De punten voor de verschillende waarden van özi jn met elkaar verbonden,
^etgeen in een oplopende zaagtand resulteert. De tendens is duidelijk: bij een trade-off
binnen personen is er sprake van een positieve relatie tussen snelheid en precisie binnen een
heterogene groep personen als zij hun snelheid optimaal instellen. Gezien de samenhang

-ocr page 250-

246 Notities en commentaren

1.0

Prob

.5

.5 1.0

proportie beantwoorde vragen

FiguurI De relatie tussen snelheid en precisie als functie van

tussen 5n,ax en d is de traditionele scoringswijze bovendien zeer wel te verdedigen bij een
instructie om zoveel mogelijk items goed te beantwoorden.

Het demonstratiemodel is ongetwijfeld onrealistisch. Met Van den Wollenberg kan men
hopen dat meer onderzoek met realistische procesmodellen zal worden verricht.

LITERATUUR

Van den Wollenberg, A.L. (1985). Tijdschrift voor Onderwijsresearch, 10, 69-81.
Ontvangen 10.5.1985

-ocr page 251-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 5, pp. 247-248

Mededelingen

Ontvangen publikaties

H. en J.B. Hoeksma. Optellen geschaald. De constructie van beoordelingsschalen voor vijf
schrijfopdrachten. Amsterdam, SCO, 1984. SCO-rapport no. 45.
"ooi, p
.c. van den, J.K. Koppen en P.L.J.M. Schings. Leren in school en bedrijf. Verslag van de
activiteiten in het eerste jaar van het project Arbeidsoriëntatie voor jongeren in het Rijn-
mondgebied. Rotterdam/Amsterdam. COA/SCO, 1984. SCO-rapport no. 41.
"'jk, W. van en J.H. Boonman. Probleemoplossen in kleine groepen. Onderzoeksverslag project onder-

wijs in kleine groepen. Utrecht. Vakgroep Onderwijskunde, 1984, 85.02a.
"'jk, W. van en J.H. Boonman. Taken bij groepswerk. Onderzoeksverslag project onderwijs in kleine

groepen. Utrecht. Vakgroep Onderwijskunde, 1985. 85.02b.
"e effecten bij universitaire studenten van het volgen van een (na)scholingscursus: creatief denken in het
basisonderwijs. G. Erkens, A. Pennings, J. Boonman e.a. Utrecht, Vakgroep Onderwijskunde,
1985. VOU 85.04.

^fuyter, D.N.M. de. Itembanken met dBASE II. Leiden, Bureau Onderzoek van Onderwijs, 1985.
Rapport no. 33.

Jaarverslag Jaarboek 1984 SVO met bijdragen van M. Boekaerts, B.P.M. Creemers, W.K.B. Hofstee e.a.

Den Haag, SVO, 1985. Selecta-reeks,
■^anselaar, G. cn G. Bakker. Beroepsonderwijs en nieuwe informatietechnologie. Een momentopname
van de integratie van NIT in enkele sectoren van het onderwijs. Utrecht, Vakgroep Onderwijs-
kunde, 1984.

^fuger-Nagelkerken, W. Allochtone leerlingen in het voortgezet onderwijs; een onderzoek naar de
schoolloopbanen van schoolverlaters van drie basisscholen met hoge koncentratie allochtone
leerlingen. Rotterdam, Erasmus Universiteit, Juridisch Instituut, 1985. Mededehngen van het
Juridisch Instituut van de Erasmus Universiteit Rotterdam, no. 29.
"ykx, M. en P. Uniken Vcnema. Wegblijven van school. Een onderzoek naar het verzuim en het
voortijdig verlaten van de school bij 14-17 jarige Turkse, Marokkaanse en Nederlandse meisjes.
. Utrecht, Vakgroep Onderwijskunde, 1985.

Moedertaalonderwijs in onderzoek. Recente onderzoeksresultaten gepresenteerd op het VIOT-congres
1984. H. Blok, G. Rijlaarsdam, J.B. Hoeksma cn K. de Glopper. Amsterdam, SCO, 1984.
SCO-cahier no. 28.

choling. Inleiding gehouden op een Symposium over SchoHng ter gelegenheid van het afscheid van
Professor Dr. Willem Jan Brandenburg te Groningen, op vrijdag 7 december 1984. Onder
„ redactie van J.J. Peters. Haren, Sassenhein, 1985. Typoscript reeks no. 5.

'^hoolorganisatie en schoolloopbaan. P. de Koning, H. Bronkhorst, L. Veeken en A. Vermeulen,
j Amsterdam, SCO en Vakgroep Onderwijskunde UvA, 1984. SCO-rapport no. 42.
ynposiumverslag beroepsonderwijs en nieuwe technologieën 8 en 9 november Den Haag. Onder
redactie van G. Kanselaar en L. den Rooijcn-Hengstman. Utrecht, Vakgroep Onderwijskunde,
y 1985. Rapport no. 85.01.

efbreding van het onderwijs cn de kansen van meisjes en vrouwen. J. Arends, E. van Eek, E. Jacobs e.a.
y Amsterdam, SCO, 1985. SCO cahier, no. 29.

E. en E. Keuken. Werken aan schoolidentiteit. Beschrijving en verantwoording van een aanpak.
Hoevelaken, CPS, 1984. Uitgegeven in samenwerking met de Vakgroep Onderwijskunde van
^ de Rijksuniversiteit Utrecht,
eerden, J.J. van. De bepaling van leerlingcffecten van gezondheidseducatie in het basisonderwijs. De
onderwijskundige evaluatie van het GVO-project Nijmegen. Nijmegen, Hoogveld Instituut,
1984.

-ocr page 252-

248 Mededelingen

Inhoud Pedagogische Studiën

Jaargang 62

Januari 1985

Ten geleide, door P.N. Appelhof

Tweetahgheid en tweetalig basisonderwijs, door G. Extra en L.Th. Verhoeven
Leesvaardigheid van Nederlandse en cumi-leerlingen, door J.M. Wijnstra
Onderzoek naar psycho-sociale problemen van migrantenkinderen: een literatuurstudie doof
H.M.Y. Koomen en M.C.T.G. Rögels

Zelfbeeld en minderheidspositie, door D.H.A.M. de Waele-van Helvoort
Februari 1985

Het voorspel tot de nieuwe basisschool (1960-1980): de initiatie van een innovatieproces,
door K. Doornbos

Leraarverwachtingen en het beeld van eigen bekwaamheid en de presentatie-oriëntatie van
leerlingen, door B.W.G.M. Smits

Het ontwikkelen van zelfverantwoordelijkheid leren op school. I: Fundering van een onder-
wijsleermodel, door C.J. de Brabander

Maart 1985

Het ontwikkelen van zelfverantwoordelijkheid leren op school II: Concretisering, evaluatie
en herziening van het onderwijsleermodel, door C.J. de Brabander

Oplossingstrategieën van eersteklassers bij eenvoudige redactie-opgaven over optellen en
aftrekken, door E. de Corte en L. Verschaffel

Projectonderwijs als innovatie in het hoger onderwijs, door W.M. van Woerden.
April 1985

Ten geleide, door J. Sixma en S. de Witt

Het schoolconcept van de nieuwe basisschool; vernieuwing en integratie door K. Doornbos
Van kleuter tot schoolkind; continuïteit in het leren?, door C.F. van Parreren
De canon van het onderwijsaanbod in het basisonderwijs, door J.C. van Bruggen en R-J'
Gorter

Enkele innovatiebenaderingen voor implementatie van een nieuwe basisschool, door R. van
den Berg

Het project Vernieuwd Lager Onderwijs in België, door R. Vandenberghe
Mei 1985

Verschuivende opvattingen over onderwijstechnologie, door M. Beishuizen
Differentiatie binnen en tussen scholen in het lager onderwijs; op zoek naar
hedendaagse
varianten van het standenonderwijs, door P. Jungbluth

Taakdifferentiatie en schoolwerkplanontwikkeling, door JjG.M. Imants, A.J. Jansen
Schoonhoven, J.C.P.J. de Groot

Juni 1985'

Voorbereidend leesonderwijs aan kleuters. Een vergelijkend onderzoek naar een auditief'
visueel oefenprogramma van auditieve analyse en synthese, door A.G. Bus
Het kunnen structureren van visuele en auditieve gegevens in relatie tot leren lezen en spellen-
door M.J.C. Mommers, C.A.J. Aarnoutse en B.W.G.M. Smits

Kroniek: Education for cognitive development. Third international symposium on activity
theory, door B. van Oers

-ocr page 253-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 249-262.

Leskenmerken en Taakgedrag van Leerlingen

Ontwikkeling en eerste resultaten van een gestructureerd observatiesysteem.

Ton Mooij

Katholieke Universiteit Nijmegen, Instituut voor Toegepaste Sociologie,

abstract
Lesson characteristics and pupil's task behaviour.

Variables at the teaching situation level are assumed to function as motives influencing a
pupil's task behaviour. A structured observation system has been developed in order to assess
the relationship between lesson characteristics and pupil's academic on-task behaviour. With
this instrument 774 lessons in 4 different school subjects given in 10 schools within secondary
education (school-year 1 and 2) have been observed. The first results show that teacher's
management and specific didactical and organizational methods may function as motives
influencing a pupil's academic on-task behaviour.

1. INLEIDING

Een persoon kan veelal kiezen uit verschillende mogelijkheden tot handelen, die in zijn of haar
Situatie aanwezig zijn. Dit keuzeproces en de uitingen hiervan in het gedrag, de opvattingen en de
beleving van de persoon worden onder andere bestudeerd in de motivatiepsychologie. Heckhau-
sen (1980, p. 25) definieert motivatie als een proces waarin een persoon kiest uit verschillende
handelingsmogelijkheden en waarin het handelen zelf gestuurd wordt met het oog op de realisatie
Van bepaalde motieven.

Leerlingmotivatie is dan op te vatten als het proces waarin een leerling(e) kiest uit verschillende
handelingsmogelijkheden wat betreft onderwijssituaties en zijn of haar handelen stuurt in verband
"let de realisatie van bepaalde onderwijsmotieven. Het waarneembaar resultaat van leerlingmoti-
vatie is het gedrag van een leerling(e) in of met betrekking tot onderwijssituaties (zie ook De Bruyn
en Van den Bereken, 1983).

In theorie en oi)derzoek rond motivatie van leeriingen wordt onder andere aandacht
geschonken aan de relatie tussen kenmerken van de klas of de school en leeriingkenmerken (zie
Heckhausen, 1980, hoofdstuk 13). Een voorbeeld hiervan is Rheinberg( 1980), die aantoont dat er
een relatie bestaat tussen de evaluatie van leerprestaties van leerlingen en de faalangst van
'eerlingen: wanneer leerprestaties vergelijkend beoordeeld worden dan treedt er meer faalangst op
dan in geval van beoordeling naar individuele inzet (vgl. ook Van Oudenhoven, 1983). Het gaat
'lier om een variabele op het niveau van de onderwijsleersituatie (aard van de beoordeling) die een
Variabele op het niveau van de leerling (faalanpt) beïnvloedt. Van belang is dan vervolgens
hoe dit
''eïnvloedingsproces verloopt. Bij de bestudering van onderwijsprocessen is het vaak verhelderend
®ni te onderkennen wanneer er een samenhang of (wederzijdse) beïnvloeding zou dienen te
^staan tussen kenmerken van eenzelfde respectievelijk verschillend niveau (vgl. Burstein, 1980;
^ooij, 1980, 1983,1984; Van den Eeden e.a., 1982; Van den Eeden en Hüttner, 1982).

-^dres: Graafseweg 274,6532 ZV Nijmegen.

-ocr page 254-

250 Leskenmerken en Taakgedrag van Leerlingen

In SVO-project 0483 wordt onderzoek uitgevoerd naar de oorzaken en reductiemogelijkheden
van leerlingdemotivatie en voortijdig schoolverlaten. De probleemstelling van het project kan
geformuleerd worden in de vraag welke leerlingkenmerken, onderwijsleersituatiekenmerken en
schoolkenmerken bijdragen in de ontwikkeling in onderwijsmotivatie en onderwijsprestatie van
leerlingen in lbo, ibo en mavo. Ten behoeve van het onderzoek op het niveau van de onderwijsleer-
situatie respectievelijk de interactie tussen onderwijsleersituatie-kenmerken en leerlingkenmerken
is een gestructureerd observatiesysteem ontwikkeld. In dit artikel worden de ontwikkeling van en
eerste exploratieve resultaten met dit observatiesysteem aan de orde gesteld. In de eindrapportage
van het project (Mooij, in voorbereiding) zullen de met het observatiesysteem verkregen gegevens
onder andere gerelateerd worden aan motivationele en prestatiegegevens van de leerlingen in de
geobserveerde klassen.

2. KENMERKEN VAN DE LES EN TAAKGEDRAG VAN EEN LEERLING(E)

Een onderwijsleersituatie wordt hier gedefinieerd als de omgeving waarin en met behulp waarvan
het onderwijsleerproces voor één leerling(e) of een groep leerlingen gerealiseerd kan worden. Een
les is de actualisering van het onderwijsleerproces in een onderwijsleersituatie gedurende een
bepaalde periode. Tijdens een les functioneren de omgevings- of onderwijsleersituatiekenmerken
als motieven, waaruit elke leerling(e) kiest en zich overeenkomstig gedraagt. Als een leerling(e)
leskenmerken kiest uit het onderwijsaanbod van de leerkracht, dan is het resulterend taakgedrag
van de leerling(e) in overeenstemming met de wensen van de leerkracht. Het leerlinggedrag kan
echter, in velerlei vorm, niet in overeenstemming zijn met de leerkrachtwensen (bijvoorbeeld
lesondergravend of apathisch gedrag; zie Mooij, 1982a, Mooij e.a., 1984). In de mate waarin
bepaalde leskenmerken als motief functioneren, zullen deze kenmerken samenhangen tonen met
het percentage leerlingen dat bijvoorbeeld taakgericht is. Een leerling(e) dient de vaardigheid te
bezitten om de leskenmerken te percipiëren en intra-individueel te verwerken in cognitief en
motivationeel opzicht. Bij deze verwerking spelen voorafgaande ervaringen met vergelijkbare
situatiekenmerken een rol (vgl. ook Boekaerts, 1984). Het resultaat van dit verwerkingsproces
wordt mede geuit in het gedrag van de leerling(e). In concreto wordt dit resultaat zichtbaar in het
taakgedrag van een leerling(e) tijdens de les.

Op het niveau van de leerling kunnen verschillende soorten motivationele begrippen onder-
scheiden worden. Ten eerste gaat het om begrippen waarin de leerling(e) zelf zijn of haar
handelingsgerichtheid ten aanzien van leskenmerken aangeeft, bijvoorbeeld met behulp van een
vragenlijst. In SVO-project 0483 zijn in dit verband de begrippen schoolvakgerichtheid en
schoolvakcompetentie ontwikkeld. Ook een schoolvakprestatie-score wordt als indicator
gebruikt. Ten tweede kan deze handelingsgerichtheid in de vorm van leerlinggedrag door anderen
(observatoren) gescoord worden. In dit artikel wordt van deze tweede mogelijkheid gebruik
gemaakt.

Het taakgedrag van een leerling(e) kan gericht zijn op het inhoudelijk dan wel procedureel
uitvoeren van de taak, die volgens de wensen of normen van de leerkracht aan de orde is op dat
moment voor die bepaalde leeriing(e) (vgl. Evertson e.a., 1980). Deze soorten taakgedrag worden
respectievelijk genoemd
inhoudelijk taakgericht en procedureel taakgericht. Een categorie leerling-
gedrag die gerelateerd is aan procedureel taakgericht gedrag is het
wachtendgtdrag van leerlingen,
dat in bepaalde situaties meer en in andere minder voorkomt. Een volgende categorie is het
niet-taakgericht gedrag van een leerling(e): de leerling(e) doel al dan niet opzettelijk andere dingen
dan de leerkracht verwacht. Tenslotte kan een leerling(e) op
regels (gedragsregels) gewezen
worden. Deze soorten taakgedrag zijn nevengeschikt aan elkaar en worden in paragraaf 3.2
nauwkeurig gedefinieerd.

-ocr page 255-

Ton Mooij 251

Op een zeker moment tijdens een les kan elke leerling(e) in één van deze 6 categorieën geordend
Worden. Het percentage leerlingen in elke categorie (ten opzichte van alle leerlingen in de
onderwijsleersituatie) indiceert dan de mate waarin een soort taakgedrag zich voordoet op het
niveau van de les. Deze 6 percentages zijn dan leskenmerken.

Op het niveau van de onderwijsleersituatie kunnen verschillende soorten leskenmerken door
een leerling(e) waargenomen worden en het keuzeproces wat betreft de gedragsalternatieven
beïnvloeden: dus als motief functioneren. De resultaten van participerende observatie in het lager
beroepsonderwijs (zie Mooij, 1982a; Mooij e.a., 1984) en relevante literatuur (De Corte e.a., 1976;
Cronbach en Snow, 1977; Bossert, 1977; Rheinberg, 1980) leiden tot de suggestie dat de
inhoud van
de leerstof,
de wijze van leerstofoverdracht (zoals: verbaal mondeling, verbaal schriftelijk, construc-
bef),
de organisatie van het onderwijsleerproces (klassikaal, groepsgewijs of individueel) en het
^anagement-gedrag van de leerkracht van belang zijn. De resultaten van de participerende
observatie leiden bovendien tot de idee dat het
aantal leerlingen in de onderwijsleersituatie en de
lestijd ofwel het uur van de dag ook een rol kunnen spelen. Deze begrippen zullen in paragraaf 3.2
gedefinieerd en geoperationahseerd worden.

3. METHODE

1. Ontwikkeling van een gestructureerd observatiesysteem

De methode die gehanteerd wordt om gegevens over leskenmerken en het leerlinggedrag te
Verzamelen bestaat uit onderzoek met behulp van gestructureerde observatie van lessen in de
onderwijspraktijk. De gestructureerde observatie dient gericht te zijn op zowel de leerlinggedrags-
variabelen als de leskenmerken. Aanzetten tot een dergehjk observatiesysteem zijn te vinden in de
onderzoeken van Bossert (1977) en Evertson e.a. (1980), maar een systeem dat de in par. 2
genoemde variabelen meet is niet beschikbaar (zie bijvoorbeeld Rosenshine en Furst, 1973; Simon
en Boyer, 1974). Het is dan noodzakelijk een geëigend observatiesysteem te ontwikkelen. Dit is
gebeurd met behulp van enkele proefversies, die in de onderwijspraktijk uitgeprobeerd werden
door twee of drie observatoren die tegelijk dezelfde les scoorden. Ook de instructie bij het
gestructureerd observatiesysteem is op deze wijze ontwikkeld (zie Mooij, 1982b, bijlage 8).

Bij de constructie van het observatiesysteem moesten prioriteiten bepaald worden wat betreft de
op te nemen variabelen. Dit leidde er toe dat met name de variabele 'inhoud van de leerstoP niet
Opgenomen werd in het systeem. De twee redenen hiervoor waren: de complexiteit in de scoring
Van deze variabelen, en de suggestie uit de observaties dat 'wijze van leerstofoverdracht' en
''eerkracht-management' de belangrijkste variabelen zouden kunnen zijn.

In de uiteindelijke versie wordt de gestructureerde observatie uitgevoerd door twee getrainde
observatoren die onafhankelijk van elkaar een eigen observatieformulier invullen. Elke les wordt
begonnen met de registratie van enkele administratieve gegevens (leeriinggroepsnummer, leer-
•^""achtnummer, lestijd, schoolmaand, e.d.). Vervolgens let de observator op welke organisatori-
sche werkvorm(en) en welke wijze(n) van leerstofoverdracht worden gehanteerd tijdens deze les;
Welke zijn in deze periode van de les actueel; hoeveel leeriingen zijn er in de klas; wat doen zij in
deze periode van de les. Ook wordt gelet op het management-gedrag van de leerkracht en de
Organisatie (interne differentiatie).

Tijdens een les wordt de aandacht van de observatoren 3 maal zeer uitdrukkelijk gericht op het
taakgedrag van de leerlingen, de organisatorische werkvorm, en de wijze van leerstofoverdracht,
^et is de bedoeling dat elke observator de stand van zaken wat betreft deze variabelen op één
bepaald moment vaststelt, onthoudt en dan direct scoort. De observatoren bereiden deze momen-
'^ne vaststelling voor door na te gaan wat elke leeriing(e) doet, wat de organisatiekenmerken zijn
en Wat de wijze(n) van leerstofoverdracht is (zijn). Precies 10 seconden voor zo'n moment geven de

-ocr page 256-

252 Leskenmerken en Taakgedrag van Leerlingen

observatoren elkaar een teken om te waarschuwen dat het moment van vaststelling bijna is
aangebroken. Het moment van de les dat gescoord dient te worden is voor beide observatoren
gehjk (zij hebben horloges die gehjk lopen). De tijdstippen van vaststelling zijn respectievelijk exact
10 minuten, 25 minuten en 40 minuten na aanvang van de les. Door deze verdeling van momenten
over de les wordt geprobeerd indicaties over de les als geheel te verkrijgen (met behulp van
berekening van het gemiddelde). De scoring van de variabelen duurt niet langer dan ongeveer één
minuut. Belangrijk is hierbij wel dat een observator de noodzakehjke informatie paraat heeft.

Tenslotte worden, tegen het einde van een les, de items betreffende het management-gedrag van
de leerkracht tijdens de les en de organisatie (interne differentiatie) van de les gescoord. De
observatieprocedure vereist van de observatoren een trainingsperiode van ongeveer drie weken.
De procedure bhjkt in de onderzoekspraktijk en onderwijspraktijk vrijwel probleemloos te
kunnen functioneren. De bruikbaarheid ervan hgt met name in de eenvoudige hanteerbaarheid èn
in het feit dat - met name door de herhaalde momentane meting - een beeld van een gehele les
verkregen wordt.

3.2. Operationalisatie en meting

De operationalisatie en meting van de variabelen is als volgt. Het taakgedrag van een leerhng(e)
wordt onderscheiden in 6 categorieën (vgl. ook Evertson e.a., 1980):

1. taakgericht inhoudelijk:

de leerling(e) is zeker of waarschijnlijk bezig met de aan de orde zijnde lestaak (volgens
de normen van de leerkracht), bijvoorbeeld: handvaardigheid, rekenen, inhoudelijke
aanwijzing van leerkracht opvolgen, vraag stellen terwijl de overige leerlingen "wach-
ten", al aan het werk zijn terwijl de leerkracht nog steeds organisatorisch bezig is;

2. taakgericht procedureel:

de leerling(e) is zeker of waarschijnlijk organisatorisch voorbereidend, ondersteunend
of afrondend bezig met de (voor hem of haar) aan de orde zijnde lestaak, bijvoorbeeld:
punt slijpen, boek pakken, materiaal halen, procedurele aanwijzing van leerkracht
opvolgen;

3. wachtend:

de lÊerling(e) wordt verondersteld niet met een taak bezig te zijn, bijvoorbeeld: wachten
(op elkaar of op de leerkracht), klaar met werk en niets anders opgekregen wat betreft de
hoofdtaak, vinger opsteken terwijl de leerkracht dit niet constateert, leerkracht nog niet
of niet meer aanwezig terwijl de leerlingen geen opdracht gekregen hebben;

4. niet-taakgericht:

de leerling(e) is niet met de taak bezig terwijl hij of zij verondersteld wordt dit te zijn,
bijvoorbeeld: een leerling die leest terwijl hij geacht wordt een wiskunde-opgave tc
maken, een leerling die door zijn gedrag de les stoort, een leeriing die zich ongevraagd
verbaal uit in storende zin;

5. regels:

de leerling(e) wordt op regels (gedragsregels) gewezen, bijvoorbeeld: ten aanzien van
communicatieregels, bij ordeverstoring;

6. onbekend:

de leeriing(e) is niet (goed) te zien of kan niet gescoord worden.

Elke observator gaat van elke leerling(e) na in welke categorie hij of zij geordend moet worden. Op
het observatieformulier wordt binnen elke onderscheiden categorie het aantal leerlingen, dat in de
respectievelijke categorie valt, genoteerd. De som van de leerlingen over de 6 categorieën is dan
gelijk aan het totaal aantal leerlingen, dat op een bepaald moment in de les aanwezig is. Door

-ocr page 257-

Ton Mooij 253

berekening van het percentage leeriingen in elke categorie ontstaan hier scores op het niveau van
de les respectievelijk onderwijsleersituatie.

De organisatorische werkvorm op een bepaald moment is geoperationaliseerd met behulp van een
nominale variabele met 30 categorieën. Op grond van de verschillende mate van voorkomen van
bepaalde categorieën tijdens het onderzoek is de informatie herleid tot scores op drie dichotome
variabelen:

~ organisatie van leeriingen (klassikaal dat wil zeggen één gezamenlijk onderwijsleerpro-
ces versus subgroepsgewijs of individueel onderwijsleerproces);

- aard van de lestaak (dezelfde versus verschillend);

- proefwerk of repetitie bedoeld als onderdeel van het rapportcijfer (nee versus ja).

De wijze van leerstofoverdracht op een bepaald moment wordt gemeten door het toekennen van
een dichotome score (nee, ja) aan elk van de volgende varianten:

- verbaal mondeling (sprekend, bijvoorbeeld uitleg, voordracht, gedragsregels);
~ verbaal schriftelijk (schrijvend, bijvoorbeeld boek, schrift, bord);

~ visueel (bijvoorbeeld film, dia, aanschouwelijk lesmateriaal van leerkracht of leeriingen,

overhead-projector, gebruik van passer, geodriehoek e.d.);
~ auditief (luisterend naar een instrument, bijvoorbeeld bandrecorder);

- motorisch (bijvoorbeeld bewegingsspel, lichamelijke opvoeding);

~ constructief (driedimensionele activiteit, bijvoorbeeld werkstuk maken, proef doen);
~ creatief (eigen inbreng qua vorm, kleur, inhoud (zoals spreekbeurt over onderwerp naar

keuze), spel in lesmateriaal, ontwerp maken);
~ buitenschools (bijvoorbeeld excursies).

De categorieën van de organisatorische werkvorm en wijze van leerstofoverdracht worden onaf-
hankelijk van elkaar gemeten, omdat niet bij voorbaat duidelijk is welke categorieën in welke mate
niet elkaar samenhangen. Bij de operationalisatie van het
management-gedrag van de leerkracht is
rekening gehouden met de onderzoeksresultaten van Kounin (1970), Evertson e.a. (1980) en met
de resultaten uit de observatie (Mooij, 1982a). De items waarin dit gedrag geoperationaliseerd
Wordt hebben vooral betrekking op de duidelijkheid en het orde-handhavend gedrag van de
leerkracht. Elk item heeft 5 antwoordalternatieven: nauwelijks, een beetje, midden, tamelijk
(goed) en zeer (goed). De items, item-resttotaal correlaties en alpha-coëfiïcienten zijn opgenomen
■n par. 3.4 (zie tabel 3). Deze variabele is een eenmalig gemeten indicator gescoord tegen het einde
Van de les (en verschilt hierin van de herhaald gemeten: aard van de lestaak (zie bij organisatorische
Werkvorm).

De differentiatie binnen de onderwijsleersituatie is geoperationaliseerd naar de mate waarin
'ijdens de les sprake is geweest van dezelfde: leertijd, leerstof, leeractiviteiten en leermiddelen. Elk
onderdeel wordt gescoord met behulp van de antwoordalternatieven: nauwelijks, een beetje,
midden, tamelijk veel en zeer veel. De item-resttotaalcorrelaties en alpha-coëfficienten zijn ver-
meld in par. 3.4 (zie tabel 3).

Het aantal leerlingen in de onderwijsleersituatie wordt verkregen door het gemiddelde te nemen
Van het aantal leerlingen dat aanwezig is op elk moment waarop het taakgedrag gescoord wordt.
De
lestijd (het uur van de dag waarin het grootste deel van de geobserveerde les valt) wordt
ëeoperationaliseerd als: 8 uur - 9 uur; 9 uur - 10 uur; enzovoorts.

3.3. Dataverzameling

De dataverzameling van het longitudinale onderzoek in SVO-project 0483 gebeurt in 10 scholen
daarin met name lager technisch onderwijs maar ook individueel beroepsonderwijs, lager econo-
misch en administratief onderwijs, en middelbaar algemeen vormend onderwijs gegeven wordt.

-ocr page 258-

254 Leskenmerken en Taakgedrag van Leerlingen

De scholen liggen verspreid in Nederland. De observaties waarover hier gerapporteerd wordt,
vonden plaats in het eerste schooljaar (1981 -1982) en tweede schooljaar (1982-1983) van het gehele
jaarcohort leerhngen dat in 1981-1982 in de eerste klassen van deze scholen aanwezig was.

Na de ontwikkelings- en trainingsperiode in october-december 1981 zijn van januari 1982 tot en
met juni 1982 in totaal 292 lessen geobserveerd in het eerste schooljaar. Vanwege de relatieve
'belangrijkheid' van bepaalde vakken is er geobserveerd in de vakken Nederlands (96 lessen),
wiskunde/rekenen (1(X) lessen) en handvaardigheid (96 lessen). Vanuit het onderzoek is steeds
bepaald op welke dag en welke lestijd een bepaalde les geobserveerd zou worden. Hierbij is er op
gelet dat elke groep leerlingen binnen elk vak zoveel mogehjk een even groot aantal malen
geobserveerd zou zijn als de andere groepen leerhngen in het onderzoek.

In de vakken Nederlands en wiskunde/rekenen was de indeling van groepen leerlingen identiek
aan de indeling naar klassen. In deze vakken waren er 39 eerste klassen c.q. groepen, die elk
gemiddeld 2,5 maal geobserveerd zijn. De precieze verdeling van het aantal geobserveerde lessen
per groep is opgenomen in tabel 1. In deze tabel blijkt dat, in het vak Nederlands van het eerste
schooljaar, 3 groepen slechts 1 maal geobserveerd zijn, 18 groepen 2 maal, 16 groepen 3 maal,
enzovoorts. In het vak handvaardigheid waren in school 7 de 4 klassen steeds ingedeeld in 6
vakspecifieke groepen leerlingen. Omdat de geobserveerde groep leerhngen de eenheid van
observatie is, zijn er in het vak handvaardigheid dan 41 groepen.

aantal aantal
groepen geobser-
veerde
lessen

Tabel 1: Aantal geobserveerde lessen per groep, per schooljaar en schoolvak,
n geobserveerde lessen per groep

1 2 3 4 5 6 7 8 !

Schooljaar 1

nederlands 3

wisk./rekenen 1

handvaardigh. 5

Schooljaar 2

nederiands 5

wisk./rekenen 5

handvaardigh. 5
alg. technieken 12

18

19

20

16
15
14

39
39
41

96
100
96

18
24
11
15

123
133
80
146

11

9
12
7

44
46
32
48

In het tweede schooljaar van de leeriingen (1982-1983) is op dezelfde wijze gewerkt als in het
eerste schooljaar. De volgende punten zijn echter van belang voor een juiste interpretade van de
verkregen resultaten. Tijdens of aan het einde van het eerste schooljaar verlaten 64 van de 884
leerlingen het onderzoekscohort (wegens: zittenblijven, overstap naar een andere school, voortij-
dig schoolverlaten). Aan het begin van het tweede schooljaar komen er 135 leerlingen bij, en in de
loop van dit schooljaar nog eens 28. In 5 van de IO scholen waren de klassen in het eerste schooljaar
heterogeen samengesteld (ibo, lbo, mavo). In deze scholen worden de klassen in het tweede
schooljaar nieuw geformeerd op een (meer) homogene basis (de leeriingen worden met name op
grond van hun wiskunde-cijfer naar een bepaalde klas geselecteerd).

Daarnaast treden veranderingen op in de groep leerkrachten: de helft van de leerkrachten
(50,5%) geeft les aan zowel het eerste en tweede leerjaar, terwijl de anderen slechts in de eerste of de
tweede klassen doceren. Het vak handvaardigheid wordt in enkele scholen tijdens het tweede

-ocr page 259-

Ton Mooij 255

schooljaar niet meer gegeven; wel wordt overal het vak algemene technieken onderwezen. Omdat
dit laatste vak ook veel variatie in didactische werkvormen biedt, is besloten om 'algemene
technieken' ook te observeren. In dit tweede schooljaar wijkt de indeling van de leerlingen zoals zij
per groep de les volgen, per schoolvak soms aanzienlijk af van de indeling naar klas (n = 41). De
verdeling van de in het tweede schooljaar per schoolvak uitgesplitste aantal geobserveerde lessen
per groep is opgenomen in tabel 1.

Informatie over de verdeling van lessen over scholen, de verschillende onderwijstypen, en
relevante schoolkenmerken wordt opgenomen in de afsluitende rapportage (Mooij, in voorbe-
reiding). In dit artikel is de les de eenheid van onderzoek: daarom kan hier volstaan worden met de
boven verstrekte gegevens.

3-4. Betrouwbaarheid

Bij de bepaling van de interbeoordelaarsbetrouwbaarheid per variabele wordt gebruik gemaakt
van een door Cohen (1960,1968) ontwikkelde index: de kappa. Deze kappa indiceert de voor kans
gecorrigeerde proportie overeenstemming (tussen observatoren). De mate van overeenstemming
zegt iets over de identiteit van scoringen en kan daarmee afwijken van een associatiemaat zoals
Pearson's r, die een lineaire transformatie toelaat. Popping (1983: 133-134) toont dat ten aanzien
van dezelfde gegevens een hoge associatie maar een lage overeenstemming gevonden kan worden;
het omgekeerde kan niet. De kappa is dus 'strenger' dan Pearson's r. De maximale waarde van
kappa is gelijk aan 1. De minimale waarde is theoretisch gelijk aan —1, maar in de praktijk komt
deze extreme waarde (bijna) niet voor.

Voor elk item in het observatie-formulier is deze kappa berekend. Hierbij zijn de volgende
opmerkingen noodzakelijk. De kappa's met betrekking tot de taakgedrags-scores worden bere-
idend op het aantal leeriingen dat op elk moment in elke categorie vermeld is. Dit aantal kan
gebaseerd zijn op per observator verschillende leerlingen. Dit (mogelijk) nadeel wordt gecompen-
seerd door het volgende. De taakgedrag-categorieën zijn onderling afhankelijk: naarmate méér
leerlingen in een categorie gescoord zijn, kunnen minder leerlingen in een andere categorie
gescoord worden. Bij de bepaling van de interbeoordelaarsbetrouwbaarheid per categorie is deze
afhankelijkheid slechts van belang voorzover een observator een onjuiste scoring in één categorie
moet laten volgen door een onjuiste scoring in een andere categorie: deze afhankelijkheid leidt
noodgedwongen tot een lagere kappa (in de tweede categorie). In geval van minder dan 100%
overeenstemming resulteert kappa dus in een onderschatting van de interbeoordelaarsbetrouw-
baarheid per taakgedrag-categorie: zonder afhankelijkheid zouden de kappa's hier hoger uit-
vallen. De tweede opmerking is dat bij de berekening van de kappa's ten aanzien van de
organisatorische werkvorm een 30 bij 30 tabel gebruikt is (zie de oorspronkelijke nominale
variabele met 30 categorieën in par. 3.2). Bij de wijze van leerstofoverdracht is de berekening
uitgevoerd met betrekking tot de dichotomieën; bij de items omtrent het managementgedrag van
de leerkracht en de lesdifferentiatie over de 5 antwoordalternatieven; en bij lestijd over de indeling
Volgens aantal uren (zie par. 3.2).

De resultaten van de berekening op dc gegevens van het eerste en tweede schooljaar zijn
Opgenomen in tabel 2. Omdat het aantal leeriingen berekend wordt op grond van de taakgedrag-
gegevens, is geen aparte interbeoordelaarsbetrouwbaarheid van het aantal leeriingen in de klas
Vermeld. Elke kappa-coëfficient is positief en dus hoger dan op basis van kans verwacht zou
Worden. Bovendien is bij elke kappa het 99%-betrouwbaarheidsinterval berekend. In het algemeen
'igt de ondergrens van een 99%-betrouwbaarheidsinterval boven O (zie tabel 2). De conclusie is dan
Ook dat er duidelijke indicaties zijn dat de geobserveerde variabelen betrouwbaar gemeten zijn.

Na de bepaling van de interbeoordelaarsbetrouwbaarheid is voor elke variabele de gemiddelde
seore van de twee observatoren berekend. De berekening van het gemiddelde levert (slechts)

-ocr page 260-

256 Leskenmerken en Taakgedrag van Leerlingen

Tabel 2: Interbeoordelaarsbetrouwbaarheid (kappa-coëfllciënten) van de leskenmerken, per schooljaar, over
schoolvakken.

schooljaar 1

schooljaar 2

(n-292)

{« = 482)

moment

moment

10

25

40

10

25

40

Taakgedrag:

taakgericht inhoudelijk

.53

.47

.52

.58

.48

.55

taakgericht procedureel

.62

.58

.62

.60

.58

.62

wachtend

.73

.75

.65

.79

.75

.73

niet-taakgericht

.39

.38

.45

.47

.38

.43

regels

.86

.88

.87

.92

.84

.97

onbekend

.37

.45

.33*

.61

.29

.56

Organisatorische werkvorm

.95

.97

.95

.99

.97

.98

Wijze van leerstofoverdracht:

verbaal mondeling

.95

.96

.97

.97

.95

.96

verbaal schriftelijk

.98

.95

.99

.94

.98

.99

visueel

.98

.97

.94

.98

.96

.98

auditief

1.00

.89

1.00

1.00

.66

1.00

motorisch

I.OO

.86

1.00

1.00

.50»

1.00

constructief

.99

.98

.97

1.00

.98

.97

creatief

1.00

.96

.96

.99

.97

.99

buitenschools

1.00

.86

1.00

.92

.75

.95

Leerkrachtmanagement:

in communicatieregels duidelijk voor leerlingen

.43

.54

in gewenst leerlinggedrag duidelijk

voor leerlingen

.44

.56

de orde bewaart

.33

.53

in eigen gedrag toont dat leerkracht weet wat

leerlingen doen

.48

.35

bij ordeverstoring de juiste leerlingen corrigeert

.38

.52

bij ordeverstoring direct corrigeert

.34

.51

Lesdiffèrentiatie:

dezelfde leertijd

.54

.67

dezelfde leerstof

.67

.69

dezelfde leeractiviteiten

.51

.56

dezelfde leermiddelen

.56

.64

Lestijd

.97

.96

Van deze coëfficiënt ligt de ondergrens van het 99%-betrouwbaarheidsinterval onder 0.

problemen op indien de betrokken variabele van nominale aard is. In de gegevens van het eerste
schooljaar was er 29 maal geen overeenstemming ten opzichte van de organisatorische werkvorm
op een bepaald moment. Met behulp van de door de observatoren geijiaakte aantekeningen op het
observatieformulier was het mogehjk om in 23 van de 29 gevallen de (volgens beide observatoren)
juiste organisatorische werkvorm alsnog vast te stellen. In de 6 overige situaties is de uiteindelijke
score steeds random gekozen uit de twee relevante scores van de observatoren. In de data van het
tweede schooljaar was 35 keer sprake van geen overeenstemming bij deze variabele. Hiervan
waren 27 waarden alsnog te achterhalen; de overige 8 zijn random bepaald. Na berekening van de

-ocr page 261-

Ton Mooij 257

gemiddelde score van de twee observatoren is ten aanzien van de management- en lesdifferentiatie-
items schaalanalyse uitgevoerd. De gegevens van het eerste respectievelijk tweede schooljaar zijn
opgenomen in tabel 3. De resultaten leiden tot de conclusie dat beide schalen betrouwbaar geacht
mogen worden.

De variabelen met (gemiddelde) observator-scores kunnen gebruikt worden om een les respec-
tievelijk het taakgedrag van leerlingen in die les te karakteriseren. Van elke op 3 momenten
gemeten variabele wordt daartoe eerst elke score uitgedrukt als percentage, en vervolgens wordt
Van deze 3 percentages het gemiddelde berekend. Om een concreet beeld te geven van deze
'esvariabelen zijn in tabel 4 de gemiddelde percentages en de gemiddelden en standaardafwij-
kingen (over lessen) van de overige 4 variabelen opgenomen voor zowel het eerste als het tweede
schooljaar. De variabelen met een gemiddeld percentage kleiner dan of gelijk aan 2 zijn weggela-
ten; het gaat hierbij om de variabelen: regels, onbekend, auditief, motorisch, en buitenschools. De
organisatorische werkvorm is in deze en de volgende tabellen uitgedrukt in de 3 dichotomieën: vgl.
par. 3.2.

"leerkrachtmanagement" en "lesdifferentiatie" (per

Schaal: Leerkrachtmanagement:

Tabel 3: Betrouwbaarheid van de schalen
schooljaar).

hem-resttotaal correlatie:

eerste schooljaar tweede schooljaar

^ö'e waarin de leerkracht^):
l" communicatieregels duidelijk is voor leerlingen
'1 gewenst leerlinggedrag duidelijk is voor leerlingen

orde bewaart

eigen gedrag toont dat leerkracht weet wat leerlingen doen
bij ordeverstoring de juiste leerlingen corrigeert
°ij ordeverstoring direct corrigeert

Semiddelde itemscore:

aantal:

alpha

.87

.87

.83

.79

.81

.83

.85

.71

.84

.76

.81

.71

4.39

4.65

290

475

.94

.91


Item-resttotaal correlatie:

eerste schooljaar tweede schooljaar

Schaal: Lesdifferentiatie:

■^ate van dezelfde^):

'ccriijd
'eerstof
'«eractiviteiten

'«ermiddclen

Semiddelde itemscore:

aantal:

alpha:

.87
.83
.88
.90

2.13
292

.95

.85
.82
.86
.90

2.20
482

.94

) De scoring van de antwoordalternatieven varieert van nauwelijks = I tot en met zeer (goed) = 5.
' Ten behoeve van een gemakkelijker interpretatie is deze score berekend als 6 — (itemscore),
waardoor de scores variëren van I (= zeer veel dezelfde...) tot en met 5 (= nauwelijks dezelfde...): zie ook
par. 3.2.

-ocr page 262-

258 Leskenmerken en Taakgedrag van Leerlingen

Tabel 4: Gemiddelde percentages respectievelijk gemiddelden en sd's van lesvariabelen (per schoolvak en over
schoolvakken, per schooljaar).

nederl.

wisk/rek.

handvh.

alg.
tech.

schoolv.
tesamen

schoolj.
1 2
(n = 96) (n =

schoolj.
1 2
123)(n= 100)(n =

schoolj.
1 2
133)(n= 96) =

sch.j.
2

80)(n=l

schoolj.
I 2
I46)(n = 292)(n = 482)

Gemiddelde percentages:

taakgericht inh.

74

60

69

63

56

55

55

66

58

taakgericht proc.

09

14

09

10

21

20

18

13

15

wachtend

09

16

12

18

14

11

15

12

15

niet-taakgericht

06

08

08

08

08

12

11

07

10

organisatie V. lln

40

46

49

45

74

81

69

54

58

aard lestaak

04

05

13

08

51

56

28

23

21

proefw. of repet.

09

09

06

16

01

00

03

05

08

verbaal mondeling

74

60

76

64

59

63

72

69

65

verbaal schriftel.

86

85

90

89

33

45

76

70

77

visueel

03

04

14

05

19

30

25

12

15

constructief

00

00

00

01

69

77

36

23

24

creatief

15

08

00

00

55

71

08

23

16

Gemiddelden en sd's:

leerkrachtmanagement:

m itemscore

4.47

4.71

4.54

4.74

4.15

4.46

4.64

4.39

4.65

sd

.58

.40

.42

.42

.55

.47

.41

.54

.43

lesdifferentiatie:

m itemscore

1.47

1.75

1.47

1.35

3.49

3.59

2.58

2.13

2.20

sd

.68

.73

.65

.42

.92

.63

1.10

1.21

1.11

aantal leerlingen (m) 20.84

21.54

20.80

20.80

19.26

18.34

20.80

20.31

20.58

sd

3.20

3.97

2.82

4.81

3.38

4.73

4.25

3.21

4.54

lestijd (m)

3.20

3.60

3.62

3.50

3.43

3.89

3.53

3.42

3.60

sd

1.57

1.90

1.87

1.63

1.87

1.62

1.81

1.78

1.75

3.5. Design en analyse

Met betrekking tot het design en de analyse van )iet onderzoek in dit artikel zijn de volgende
opmerkingen van belang.

Ten eerste: in par. 3.3 is naar voren gekomen dat de groep leerlingen tijdens een les niet altijd
identiek is aan de groep leerlingen in de klas. Teneinde de verzamelde informatie zo adequaat
mogelijk te analyseren, wordt daarom de les c.q. de groep gekozen als de eenheid van analyse.

Ten tweede: in par. 3.3 is ook gebleken dat de lessen c.q. groepen leerlingen binnen een
schooljaar per schoolvak anders samengesteld kunnen zijn. Bovendien zijn er aanzienlijke wisse-
lingen in de groepssamenstelling bij de overgang van schooljaar 1 naar schooljaar 2. Hieruit volgt
dat er geen design te construeren is, waarin (variantie-) analyses tussen de 3 respectievelijk 4
schoolvakken per schooljaar of tussen schooljaren uitgevoerd kunnen worden. Het is wel mogelijk
om binnen een schooljaar per schoolvak te analyseren.

Een derde opmerking is dat eenzelfde groep leerlingen één of meer keren per schoolvak gemeten

-ocr page 263-

Ton Mooij 259

is (zie tabel 1). De data per schoolvak zijn dus niet onafhankelijk. Bovendien vinden lessen (vrijwel)
steeds plaats in een bepaalde school. Het is daarom noodzakelijk elk lesgegeven te corrigeren voor
het groepsgemiddelde (per schooljaar), alsmede voor de afwijking van dit groepsgemiddelde ten
opzichte van het schoolgemiddelde (zie Finn, 1974, p. 78-83; Cronbach en Snow, 1977; Burstein,
1980). Deze correctie is uit te voeren door vermindering van elk lesgegeven met zijn gemiddelde
(per schooljaar) én dit resultaat weer te reduceren met de afwijking van dit gemiddelde ten opzichte
Van het schoolgemiddelde. Het gevolg hiervan is dat de betekenis van elke variabele getransfor-
meerd wordt tot de (relatieve) mate waarin het leskenmerk afwijkt van zijn eigen gemiddelde en
schoolgemiddelde (vgl. ook Hox en Willemse, 1985).

Ten vierde: om (te) sterke verdelingseffecten uit te sluiten, wordt een gemiddeld percentage
slechts in de analyse betrokken indien dit gehjk aan of groter is dan 10 respectievelijk gehjk aan of
kleiner dan 90 (zie tabel 4).

Tenslotte: bij de analyse is de aandacht gericht op de vraag of, en zo ja, welke leskenmerken
samenhangen met het inhoudelijk taakgericht gedrag van leerhngen. Om deze reden wordt ervoor
gekozen om de leskenmerken die in belangrijke mate {p ^ .05) het inhoudelijk taakgericht
'eerlinggedrag kunnen voorspellen te selecteren met behulp van multiple regressie analyse. Dit
gebeurt sequentieel door van het leskenmerk dat het sterkst samenhangt met het bedoelde
leerlinggedrag na te gaan of het 'significant* bijdraagt aan de (statistische) voorspelling van dit
'eeriinggedrag. Vervolgens wordt nagegaan of er nog een tweede leskenmerk is dat - na uitpartia-
lisering van de bijdrage van het eerste leskenmerk - ook significant prediceert, enzovoorts.

4. RESULTATEN

Öe resultaten van de in paragraaf 3.5 beschreven multiple regressie analyse op de voor groep en
school gecorrigeerde lesgegevens zijn weergegeven in tabel 5. De berekeningen zijn per schoolvak
én schooljaar apart uitgevoerd. In de tabel zijn b-coëfficiënten met de bijbehorende standaardfou-
ten (tussen haakjes) opgenomen indien deze in de vergelijking tenminste op .05-niveau bijdragen
aan de (statistische) predictie van inhoudelijk taakgericht leerlinggedrag. Bij variabelen die wel in
de analyse betrokken zijn maar - volgens het .05-criterium - niet van belang zijn, is in de
betreffende kolom een streepje geplaatst. Bij variabelen die niet in de analyse betrokken waren
Omdat het gemiddelde percentage te hoog of te laag was (zie paragraaf 3.5), is in de relevante
kolom geen teken vermeld. In alle multiple regressie-vergelijkingen is de intercept gelijk aan .00
(wegens de correcties voor groep respectievelijk school).

De resultaten in tabel 5 tonen dat er verschillende leskenmerken zijn die samenhangen met het
'nhoudelijk taakgericht leerlinggedrag. De meest voorkomende samenhangen zijn die met het
'eerkrachtmanagement, de verbaal schriftelijke wijze van leerstofoverdracht, en de organisatie van
leeriingen. Dit duidt erop dat leeriingen tijdens een les zich meer inhoudelijk taakgericht gedragen
Wanneer de leerkracht méér of duidelijker 'managt', er schriftelijk gewerkt wordt, en de leeriingen
"idividueel of in subgroepen werken. Deze leskenmerken zouden daarom voor een leerhng(e)
motiverend kunnen zijn (vgl. paragraaf 1 en 2). Minder vaak of incidenteel voorkomend zijn de
samenhangen met de leskenmerken verbaal mondeling, visueel, constructief, lesdilTerentiade en
lestijd. Hierbij speelt een rol dat bepaalde leskenmerken (bijv. constructief) slechts in bepaalde
Vakken (handvaardigheid, algemene technieken) gebruikt worden. Na inbreng van de hiervoor
genoemde variabelen, worden in tabel 5 géén samenhangen meer gevonden tussen enerzijds de
leskenmerken: aard van de lestaak, proefwerk, creatief, het aantal leeriingen in de klas, en
anderzijds het inhoudelijk taakgericht leerlinggedrag.

-ocr page 264-

260 Leskenmerken en Taakgedrag van Leerlingen

Tabel 5: Multiple regressie analyse (sequentieel, voorwaarts) over voor groep en school gecorrigeerde
gegevens, ter voorspelling van inhoudelijk taakgericht leerlinggedrag.

Schoolvak:

nederi.

2
123

wisk/rek.

2
133

1

96

1

100

1

96

Schooljaar:
Aantal lessen:

handvaard. algem.

techn-

2
80

2
146


Predictoren:
organis. lln.

aard lestaak

proefwerk

+ .19
(.07)

+ .30
(.08)

+ .12
(.04)

+ .42
(.07)

verb, mondei,
verb, schrift,
visueel

+ .19
(.05)

+ .21
(.07)

+ .21
(.09)

— .16
(.07)

+ .67
(.10)

+ .16
(.07)

+ .50
(.09)

+ .73
(.09)

+ .09
(.03)

constmctief
creatief

+ .24
(.08)

+ .10
(.04)

leerkrachtman.

+ .31
(.06)

+ .14
(.04)

+ .19
(.04)

+ .08
(.02)

+ .12
(.04)

-.05
(.02)

lesdiffer.

aantal lln
lestijd'

— .08
(.04)

— .03
(-01)

.40
18.31"

.32
21.60»»

.29
12.08»»

.36

.48
39.20»»

.48

.25

F

13.35»

28.11*

13.09»

'p<.01

5. CONCLUSIES

In dit artikel wordt een gestructureerd observatiesysteem gepresenteerd, waarmee lessen in de
onderwijspractijk geobserveerd kunnen worden. Met dit systeem zijn in totaal 774 lessen geobser-
veerd in 4 verschillende schoolvakken, in het eerste en tweede schooljaar van het ibo, lbo en mavo.

De analyses met betrekking tot de verzamelde gegevens leiden tot verschillende conclusies. Een
eerste conclusie is dat de ontwikkeling van het gestructureerd observatiesysteem (vooralsnog)
geslaagd lijkt te zijn gezien de kwaliteiten van de interbeoordelaars-betrouwbaarheid en de
betrouwbaarheid van de ontworpen schalen leerkrachtmanagement en lesdifferentiatie. De
tweede conclusie betreft de inhoudelijke aspecten van de resultaten. Na correctie voor het

-ocr page 265-

Ton Mooij 261

groepsgemiddelde en schoolgemiddelde, hangen met name de leskenmerken leerkrachtmanage-
nient, de verbaal schriftelijke wijze van leerstofoverdracht, en het subgroepsgewijs of individueel
Werken van leeriingen samen met het inhoudelijk taakgericht leerlinggedrag. Deze leskenmerken
zijn dan mogelijk motiverend voor leerlingen (zie par. 1 en 2). Enkele van de onderzochte
leskenmerken tonen weinig of geen (unieke) relatie met inhoudelijk taakgericht leeriinggedrag. Dit
geldt zowel voor sommige organisatorische en didactische werkvormen als voor het aantal
leerlingen.

Overigens dient ermee rekening gehouden te worden dat de observaties plaats gevonden hebben
in scholen, waarin interne differentiatie in de klas weinig toegepast wordt. De resultaten geven een
indruk van de gangbare onderwijspraktijk: het is mogehjk dat de rol van bijvoorbeeld lesdifferen-
'iatie anders wordt indien op een systematische wijze intern gedifferentieerd wordt. Bovendien
kunnen de resultaten niet zonder meer gegeneraliseerd worden naar (de) verschillende typen
Voortgezet onderwijs, hoewel de wiskundegegevens in tabel 4 omtrent de percentages taakgedrag
van leerlingen nauw aansluiten bij de vergelijkbare resultaten van Tomic (1985) in tweede klassen

' kunde van havo en vwo en de percentages van De Kuijer (1985) in het speciaal onderwijs. Ook
uicnen de uitkomsten van de regressie-analyse omzichtig behandeld te worden. Bij de hier
gepresenteerde resultaten vindt er, door de sequentiële aard van de multiple regressie-analyse, een
kapitalisatie op kans plaats. Deze exploratieve resultaten zouden in een kruisvahdatie getoetst
moeten worden.

Tenslotte volgen nog een tweetal opmerkingen over de verdere bruikbaarheid van de gestructu-
reerde observatie. De eerste is dat de verkregen observatie-gegevens gebruikt worden in verdere
analyses in SVO-project 0483. Dit gebeurt bijvoorbeeld door alle onderzochte leskenmerken per
Schooljaar én groep te aggregeren en deze vervolgens te gebruiken als predictoren ter verklaring
Van de ontwikkeling in motivatie (schoolvakgerichtheid, schoolvakcompetentie) en schoolvak-
Prestaties die bij elke groep leeriingen aan het begin en einde van een schooljaar schoolvakspecifiek
gemeten zijn met behulp van een vragenlijst en tests: vgl. par. 2. Deze analyses leveren inzicht op
over de relatie onderwijsleersituatie - motivatie - prestatie en daarom ook over de validiteit van het
Ontworpen gestructureerd observatiesysteem (zie Mooij, in voorbereiding). In feite zijn deze
soorten analyses ook de aanleiding tot het ontwikkelen van het gestructureerd observatiesysteem
(zie par. 1). De tweede opmerking is dat inmiddels nagegaan wordt of het systeem verbeterd kan
Worden door het gebruiken van percentage-schattingen en grootte-schattingen in plaats van
dichotomieën of Likert-antwoordcategorieën.

LITERATUUR

Boekaerts, M. (1984). Some new developments in the study of motivational processes in a classroom context.
Paper presented at the symposium on motivation and information processing, Acapulco, 1984.

Bossert, S.T. (1977). Tasks, group management, and teachter control behavior; a study of classroom organiza-
tion and teacher style.
TTie School Review, 85, 552-565.

Bniyn, E.E.J, dc, & Bereken, J.H.L. van den, (1983). Het meten van het prestatiemotief: het probleem van het
gedragscriterium. In: Bergen, Th.C.M., Roede, E. (Eds.):
Motivatie gemeten? Hariingen: Flevodruk, p.
227-239.

Burstein, L. (1980). The role of levels of analysis in the specification of education effects. In: Dreeben, R.,
Thomas, J.A. (eds.):
Analysis of educational productivity. Volme I: Issues in micro-analysis. Cambridge,
MA.:BalhngerPress,p. 119-190.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
20,
1,37-46.

Cohen, J. (1968). Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial
credit.
Psychological Bulletin, 70, 4,213-220.

-ocr page 266-

262 Leskenmerken en Taakgedrag van Leerlingen

Corte, E. de, Geeriigs, C.T., Lagerweij, N.A.J., Peters, J.J., & Vandenberghe, R. (1976). Beknopte didaxologie.
Groningen: Wolters-Noordhoff.

Cronbach, L.J., & Snow, R.E. (1977). Aptitudes and instructional methods. New York: Invington Publishers.

Eeden, P. van den. Graaf, C. de. Hüttner, H., Mooij, T., & Oosthoek, H. (1982). School- en klasse-effecten: het
multilevel paradigma toegepast op onderwijssystemen.
Amsterdam: Vereniging voor Onderwijsresearch,
VOR-publicatie 10.

Eeden, P. van den, & Hüttner, H.J.M. (1982). Trend report multi-level research. Curren: Sociology, 30, 3,
1-182.

Evertson, C.M., Emmer, E.T., & Clements, B.S. (1980). Report of the methodology, rationale and instrumenta-
tion of the Junior High Classroom Organization Study.
Austin: University of Texas, Research and Devel-
opment Center for Teacher Education.

Finn, J.D. (1974). A general modelfor multivariate analysis. New York: Holt, Rinehart and Winston.

Heckhausen, H. (1980). Motivation und Handeln: Lehrbuch der Motivationspsychologie. Berlin: Springer.

Hox, J.J., & Willemse, J.M. (1985). De empirische samenhang van sociometrische scores: een analyse op twee
niveau's.
Tijdschrift voor Onderwijsresearch, 10, 2,82-85.

Kounin, J.S. (1970). Discipline and group management in classrooms. New York: Holt, Rinehart and Winston.

Kuijer, P.J. de (1985). Motiveren en motivatie in het speciaal onderwijs. Lisse: Swets & Zeitlinger.

Mooij, T. (1980). Multi-level onderzoek van samenwerking in het part-time onderwijs. Mens en Maatschappij,
55. 2,
148-169.

Mooij, T. (1982a). Onderwijsleersituatie en lesondergravend gedrag van Ito-leerlingen. In: Diekerhof, E. (ed.):
Leren, wat moet je ermee? Muiderberg, Coutinho, p. 39-52.

Mooij, T. (1982b). Voortgangsrapport in het kader van SVO-projekt 0483 over de periode januari-december 1982.
Nijmegen: Instituut voor Toegepaste Sociologie.

Mooij, T. (1983). Interactief meten van leeriing(de)motivatie. In: Bergen, Th.C.M., Roede, E. (eds.): Motivatie
gemeten?
Harlingen: Flevodruk, p. 77-92.

Mooij, T. (1984). Multiniveau-aspecten in de verklaring van leerling(de)motivatie. In: Eeden, P. van den,
Hauer, J.:
Analyse van multiniveaudata: theorie en toepassing. 's-Gravenhage: SVO, p. 103-123.

Mooij, T., Pupil motivations and achievement as an interactive multi-level process. In voorbereiding.

Mooij, T., Schenaarts, J. & Sieben, J. (1984). Onderwijsleerprocessen en motivatie van Ito-leerlingen. Didak-
tief,14.
10,21-23.

Oudenhoven, J.P.L.M. van (1983). Onderwijsongelijkheid en evaluatieve feedback. Apeldoorn: Van Walraven.

Popping, R. (1983). Overeenstemming en associatie in sociologisch onderzoek. Mens en Maatschappij, 58, 2,
132-150.

Rheinberg, F. (1980). Leistungsbewertung undLemmotivation. Göttingen: Hogrefe Verlag für Psychologie.

Rosenshine, B., & Fürst, N. (1973). The use of direct observation to study teaching. In: Travers, R.M.W. (ed.):
Second handbook of research on teaching. Chicago: Rand Mc Nally & Company, p. 122-183.

Simon, A., & Boyer, E.G. (1974). Mirrors for behavior III. An anthology of observation instruments. Wyncote:
Communication Materials Center.

Tomic, W. (1985). Wat gebeurt er in de klas tijdens wiskundelessen? Didaktief, 15, 1,24-26.

-ocr page 267-

Tijdschrift voor Onderwijsresearch 10 (1985), pp. 263-273.

De Invloeci van Anonimiteit op de resultaten van
Tijdschrijfonderzoek

Th.J. ten Cate

Afd. Niet-Primaire Onderwijsverzorging Geneeskunde, U.v.A.

ABSTRACT

The influence of anonymity on the results of time-on-tasic research.

The results of a series of time-on-task investigations with medical students at the University of
Amsterdam indicate that students spend less time on studying than they are supposed to. However, the
program is subjectively felt to be rather 'heavy'. One explanation for this descrepancy can be a failing
methodology of the research. This could result in too little time the students appear to study. The
nonanonymous method of investigation was suggested to possibly cause too low figures. In three
experiments this hypothesis was falsified. For several reasons a nonanonymous method in time-on-
task research is recommended.

1. INLEIDING

Aanleiding voor het onderzoek

Studielastonderzoek staat sinds enige jaren in toenemende mate in de belangstelling. Dit hangt
samen met het sinds 1982 geldende wettelijke voorschrift dat de faculteiten studieprogramma's
dienen op te stellen die een zodanige omvang hebben dat de gemiddelde student (1) per jaar
Ongeveer 1700 uur studie-inspanning verricht. Dit komt overeen met een gemiddelde studielast
Van 40 uur per week, gedurende 42 weken. Bovendien zijn de faculteiten gehouden de studielast
Van het programma te evalueren (Academisch Statuut, 1981).

Het geneeskunde curriculum aan de Universiteit van Amsterdam is met ingang van het
studiejaar 1982-1983 grondig herzien, onder meer om aan de eisen van het nieuwe Academisch
Statuut te kunnen voldoen. Met name met betrekking tot de studielastvoorschriften werd de
i^erprogrammering zeer planmatig voorbereid en uitgevoerd. Alles werd in het werk gesteld om de
nieuwe, bloksgewijze, studie zodanig in te richten dat door de gemiddelde student inderdaad ca.
'700 uur per jaar aan de studie zou worden besteed. Ondanks alle voorzorgsmaatregelen lijkt de
subfaculteit hierin echter niet te kunnen slagen. Althans, het studielastonderzoek dat sinds 1982 bij
de studenten wordt verricht (2) wijst uit dat voor geen enkel onderdeel van het programma de
'lormlast' (afgeleid van de 1700 uur) door de gemiddelde student in de praktijk wordt gerealiseerd
(Ten Cate & Van Gelderen, 1983; Ten Cate, 1985).

De bevindingen bij het studielastonderzoek zijn evenwel niet congruent met de mening van
^tudenten, van veel docenten en zelfs van het bestuur van de subfaculteit. Zij zijn van mening dat
l'et programma van de meeste blokken 'zwaar' genoemd kan worden en die van sommige blokken
^eer zwaar'. Het feit dat uit het studielastonderzoek blijkt dat de gemiddelde student voor geen
^an de blokken 40 uur of meer gemiddeld per week heeft gestudeerd kan men niet goed verklaren.

'^dres: Meibergdreef 15,1105 AZ Amsterdam

-ocr page 268-

264 Invloed van anonimiteit op de resultaten van tijdschrijfonderzoek

Dit gegeven druist in tegen de subjectieve beleving van de zwaarte van tenminste een aantal van de
onderwijsblokken.

Bovendien schrijft de in de subfaculteitsraad tevoren vastgestelde evaluatieprocedure voor dat
in enkele gevallen de zwaarte van het blokprogramma moet worden vergroot, omdat niet voldaan
wordt aan de evaluatiekriteria omtrent de studielast. In geen enkel geval kan - althans volgens deze
kriteria - een verlichting van het programma worden toegestaan. Dit ervaren velen als onrecht-
vaardig.

Deze discrepantie tussen 'subjectief beleefde' studielast en 'objectief gevonden' studielast vraagt
erom verklaard te worden. Twee verklaringen zijn denkbaar:

A. De normstelling zou onrealistisch kunnen zijn. Dat wil zeggen dat men niet van de
gemiddelde student zou mogen verwachten dat hij bereid of in staat is 1700 uur of meer
per jaar te studeren.

B. Het zou ook kunnen liggen aan de vahditeit van de onderzoeksmethode. Met een betere
methode zou dan blijken dat het programma meer studie-uren vergt dan tot nu toe werd
gevonden.

Voor verklaring A zijn elders wel argumenten aangedragen (Crombag et al., 1981; Vos, 1985).
Wanneer deze verklaring juist zou blijken te zijn zou dit betekenen dat een gemiddelde
studielast
van 40 uur per week voor de gemiddelde student te hoog gegrepen is.

Ook verklaring B is niet op voorhand uit te sluiten. De vahditeit van tijdschrijfonderzoek is
onderwerp van enkele betrekkehjk recente studies (Everwijn en Willemsen, 1972; Crombag & Vos,
1981; Van Gelderen en Ten Cate, 1985). Verklaring B werd geopperd door het bestuur van de
subfaculteit. Men poneerde de volgende stelling: 'Doordat er geen anonieme procedure wordt
gevolgd zullen studenten geneigd zijn minder uren op te geven dan zij werkelijk aan de studie
hebben besteed, omdat zij niet als 'dom' beschouwd willen worden'. Voorgesteld werd om deze
hypothese te toetsen bij een nieuw studielastonderzoek.

Inderdaad werd tot dusver geen anonimiteit bij het onderzoek betracht. Hiervoor waren drie
redenen:

a. Verondersteld werd dat het nuttig zou zijn om de studenten zo nodig tussentijds te herinneren
aan het tijdig inzenden van studielastformulieren.

b. Aan het eind van ieder tijdschrijfonderzoek kregen diegenen die volledig hadden deelgenomen
een beloning thuisgestuurd.

c. Last but not least: wij waren geïnteresseerd in niet alleen de studielast van alle studenten, maar
vooral van de studenten die het onderwijs van een blok
met succes volgden, d.w.z. slaagden
voor de bloktoets. Hiervoor is het nodig de respondenten te kunnen identificeren.

Hoewel dus geen anonimiteit werd betracht werd wel steeds strikte geheimhouding van persoon-
lijke studielastgegevens gegarandeerd.

<

Verwachtingen over de invloed van anonimiteit

Over de invloed van een al dan niet anonieme procedure op de resultaten van studietijdonderzoek
kon geen literatuur worden gevonden. Over de invloed van anonimiteit op onderzoeksresultaten in
algemene zin is wel wat bekend.

Men neemt aan dat het al of niet anoniem ondervragen van proefpersonen de validiteit van
onderzoeksresultaten beïnvloedt (DeLamater, 1982). De openheid en eerlijkheid van de respon-
dent zou groter zijn wanneer vragen anoniem kunnen worden beantwoord, hoewel ook het
tegengestelde niet altijd is uit te sluiten (Hyman, 1967).
Er wordt maar weinig sociaalwetenschape-
lijk onderzoek verricht waarin werkelijk strikte anonimiteit wordt betracht. Van groter belang is
echter de door de proefpersoon
gepercipieerde anonimiteit, danwel om de mate waarin de gegevens
- in hun ogen - vertrouwelijk zullen worden behandeld. (Hyman, 1967). De (gepercipeerde)
anonimiteit van onderzoek kan invloed hebben op enerzijds de mate van deelname aan het

-ocr page 269-

Th. J. Ten Cate 265

onderzoek door proefpersonen en anderzijds op kwaliteit van hun antwoorden. Het laatste heeft
direkt zijn weerslag op de validiteit van de onderzoeksresultaten. Ook het eerste kan echter indirect
de validiteit beïnvloeden, vooral wanneer de respondenten sterk verschillen van de non-
respondenten. Zo is het bekend dat non-respondenten bij tijdschrijfonderzoek lagere cijfers halen
dan de respondenten (Crombag & Vos, 1981; Van Gelderen & Ten Cate, 1985). Verlaging van de
respons verlaagt bij tijdschrijfonderzoek dus ook de representativiteit van de bevindingen.

Het niet volgen van een niet-anonieme procedure heeft waarschijnlijk weinig of geen negatieve
gevolgen voor de mate van deelname (King, 1970, Wildman, 1977; Futrell & Swan, 1977;
McDaniel & Rao, 1981). Fuller (1974) vindt zelfs een grotere coöperatie bij niet anonieme
enquetering. Mogelijk heeft het zetten van de eigen naam of handtekening een geringe verlaging
van de respons tot gevolg (Hyman, 1967; Bradburn & Sudman, 1979). De snelheid waarmee
vragenformulieren teruggezonden worden is voor tijdschrijfonderzoek van belang, omdat men
niag verwachten dat naarmate formulieren later worden ingeleverd, de betrouwbaarheid van de
opgegeven studietijd geringer is. De snelheid van inlevering lijkt echter niet door een al of niet
anonieme procedure te worden beïnvloed (Wildman, 1977). Ook een eigen peiling bij non-
respondenten van tijdschrijfonderzoek (i.e. bij dezelfde populatie als waarbij het onderhavige
onderzoek is verricht) in het cursusjaar 1983-1984 geeft weinig aanleiding te veronderstellen dat de
niet-anonieme procedure een belangrijke belemmering vormt voor de medewerking. Het lijkt
dienstig in het kort de resultaten te presenteren. Er werden in totaal 167 enquêtes verstuurd, naar
alle studenten die - ondanks verzoek - niet hadden deelgenomen aan een of meer van de zes
tijdschrijfonderzoeken waarbij deze peiling werd verricht. Hen werd gevraagd naar de reden van
hun weigering. Zij konden kiezen uit 9 in de enquête opgenomen mogelijke redenen of een andere
reden vermelden (meer dan één antwoord was toegestaan). 47 Enquêtes werden geretourneerd
(38%); niet zo'n laag getal, als men bedenkt dat het oorspronkelijk om non-respondenten ging. De
onderstaande antwoorden werden gegeven, met daarachter de frekwentie:
Geen verzoek tot deelname ontvangen 7x

Pormulieren kwijtgeraakt 6x

Geen tijd voor dit soort dingen 5x

Niet anoniem 2x
Beloning te gering Ox
Ik vind dit soort onderzoek zinloos 3x

Onderwijs niet voldoende serieus gevolgd 12x

Ik denk dat ik niet representatief ben 6x

Persoonlijke reden 7x
Andere reden, nl..........14x

Hoewel verstokte non-respondenten ook aan deze peiling niet hebben meegedaan krijgt men niet
de indruk dat de niet-anonieme procedure een belangrijke reden is om niet mee te doen.

De kwaliteit van de beantwoording van vragen valt te onderscheiden in (a) de nauwkeurigheid
van de antwoorden, (b) het al dan niet onbeantwoord laten van vragen en (c) het bewust
verstrekken van onjuiste informatie. McDaniel & Rao (1981) vinden een nauwkeuriger bean-
twoording van enquêtevragen door niet-anonieme respondenten dan door anonieme responden-
ten. Overigens hoeft dit geen systematische vertekening van de onderzoeksresultaten te geven.
Putrell & Swan (1977) vinden geen grotere omissie van vragen bij niet-anonieme beantwoording;
Bradburn & Sudman (1979) vinden wel een groter percentage onbeantwoorde vragen als men de
geheimhouding niet duidelijk benadrukt in een toelichting bij de vragen. Het bewust verstrekken
Van onjuiste informatie is afhankelijk van het soort vragen dat men stelt. Vragen die bij de
geënquêteerde sociaal wenselijk antwoordgedrag ontlokken (Hoogstraten, 1979) zijn als regel
Vragen over de persoonlijke levenssfeer, over laakbaar of juist sociaal wenselijk gedrag en vragen

-ocr page 270-

266 Invloed van anonimiteit op de resultaten van tijdschrijfonderzoek

waarvan de antwoorden kritiek op anderen impliceren (Hyman, 1967; Bradburn & Sudman,
1979). De respondent zou geneigd zijn in enquêtes een (te) gunstig beeld van zichzelf te schetsen.
Deze vertekening zou minder sterk optreden bij een anonieme onderzoeksprocedure (Hyman,
1978; Fuller, 1974; Bradburn et al., 1978; DeLamater, 1982). Echter, Ash & Abramson (1952),
King (1970) en Berman et al. (1977) vinden tussen anoniem en niet-anoniem ondervraagden geen
verschil in de frekwentie van gerapporteerd illegaal, immoreel of beschamend gedrag.

Als anonimiteit al invloed heeft op de resultaten van tijdschrijfonderzoek dan hangt dat
waarschijnlijk vooral af van de vraag op het opgeven van veel, danwel weinig studietijd door de
respondent als 'wenselijk' of juist als 'onwenselijk' wordt beschouwd. Het is niet direkt duidelijk
welke van deze altematieven het geval kan zijn.

Er zou een zekere sociale wenselijkheid kunnen optreden. De door het subfaculteitsbestuur
geopperde veronderstelling ('studenten zijn bang om dom gevonden te worden als zij veel
studie-uren opgeven') is daar een voorbeeld van. Wellicht speelt vertekening door 'sociale wense-
lijkheid' sterker in een niet-anonieme context. Het probleem is in dit geval echter dat niet te
voorspellen is in welke richting de vertekening zal optreden. Met evenveel recht kan men immers
veronderstellen dat de student redeneert: 'Als ik meer uren opgeef dan ik werkelijk besteed, dan
zien ze tenminste dat ik goed mijn best doe' of iets van dien aard. Ook zou men een soort
'politieke' wenselijkheid bij het invullen van de formulieren kunnen veronderstellen. Wanneer de
student weet dat de onderzoeksresultaten van invloed zijn op een eventuele bijstelling van de
zwaarte van het programma, kan hij door bewuste vertekening de zwaarte in de gewenste richting
beïnvloeden. Het hgt voor de hand te veronderstellen dat hij dan eerder teveel dan te weinig uren
zal opgeven. Misschien is anonimiteit hierbij in zoverre van invloed dat de anonieme tijdschrijver
de werkehjkheid eerder geweld durft aan te doen dan de niet-anonieme. Als men al in dit
mechanisme gelooft, dan zit men nog met de veronderstelling die dit met zich meebrengt in de
maag: inderdaad A)u men bij niet-anonieme tijdschrijvers in dat geval minder bestede studietijd
vinden dan bij anonieme. Maar men wil natuurhjk niet overgaan op een anonieme procedure om
fraudering in de hand te werken!

Kortom, het is niet duidehjk of een niet-anonieme procedure een vertekening van de onder-
zoeksresultaten geeft en men kan de richting van een eventuele vertekening niet voorspellen.
Daarom werd besloten de handschoen, opgeworpen door het subfaculteitsbestuur, op te vatten en
bij de drie eerstvolgende tijdschrijfonderzoeken met anonimiteit te experimenteren. Er werd een
kort tijdschrijfonderzoek (A) uitgevoerd bij eeh onderwijsblok van drie weken, gevolgd door een
replicatie-onderzoek (B), eveneens bij een onderwijsblok van drie weken en een tweede replicatie-
onderzoek (C) bij een onderwijsblok van vier weken. Ieder van de blokken werd afgesloten met een
bloktoets over alle stof die in de betreffende tijdsperiode was behandeld (3).

2. METHODE

Proefpersonen

Aan het onderzoek werd deelgenomen door derdejaars studenten geneeskunde aan de Universiteit
van Amsterdam. De steekproeftrekking vond plaats voorafgaand aan elk van de drie onderwijs-
blokken A, B en C. De totale populatie bestond uit 290 studenten, die volgens de onderwijsadmini-
stratie van de subfaculteit op 30 juli 1984 het tweedejaars onderwijs (net) achter de rug hadden.
Lang niet alle studenten waren op dat moment voor alle tweedejaars tentamens geslaagd; een
aantal van hen zou zelfs waarschijnlijk niet aan het derdejaars onderwijs deelnemen, hoewel
volgens de vigerende examenregehng ieder van hen daartoe het recht had. Daarom werd besloten
slechts die studenten te betrekken bij tijdschrijfonderzoek van het derdejaar, die op 30 juli (d.w.z.

-ocr page 271-

Th. J. Ten Cate 267

nog voor de herkansingsperiode in augustus) voor tenminste twee tweeQ>*jaars tentamens waren
geslaagd. Hieraan voldeden 244 studenten. Vervolgens werd rekening gehouden met de mogelijk-
heid dat sommige studenten in de tijdschrijfperiode nog een tweedejaars tentamen zouden willen
voorbereiden. Omdat dit hun inspanning voor het derdejaarsonderwijs zou kunnen beïnvloeden
werd besloten dat slechts die studenten zouden worden gevraagd deel te nemen voor wie dit niet
het geval kon zijn. Tijdens de derdejaars blokken A en B vond - grofweg - het tweedejaars blok X
(3) plaats (duur: vijf weken); tijdens het derdejaarsblok C vond het tweedejaarsblok Y plaats (duur:
zes weken). Van de 244 studenten waren er 119 op 30 juli 1984 geslaagd voor het X en 125 nog niet.
Deze 119 studenten werden aselect verdeeld in twee groepen A en B, met respectievelijk 60 en 59
studenten. Hen werd niet gevraagd opnieuw bij blok C aan het tijdschrijfonderzoek deel te nemen.
Derhalve resteerde een populatie van 125 studenten voor onderzoek C. Hiervan waren 97 op 30
juli 1984 geslaagd voor blok Y en 28 nog niet. Van de 97 in aanmerking komende studenten werden
aselect 60 uitgekozen en aangeschreven met het verzoek deel te nemen aan het tijdschrijfonderzoek
van blok C. 37 studenten werden niet aangeschreven. In alle steekproeven werden de studenten
aselect toegewezen aan de anonieme (I) danwel de niet-anonieme (II) conditie. AI, All, BI, Cl en
CII bestonden ieder uit 30 studenten, BII uit 29 studenten. Uit elk van beide B-groepen kwam een
student te vervallen (zij bleken zich niet te hebben ingeschreven voor de cursus 1984-1985), zodat
respectievelijk 30,30,29,28,30 en 30 aangeschrevenen overbleven. In de onderstaande tabel is een
samenvatting gegeven van de steekproeven met hun respectievelijke populatie-achtergrond.

Aan alle aangeschrevenen werd enkele dagen voor het blok een drietal (voor A en B) resp. viertal
(voor C) weekformulieren toegezonden. Verzocht werd om per dag hierop aan te tekenen hoeveel
uren - tot op kwartieren nauwkeurig - men had besteed aan studie, uitgesplitst naar contactonderwijs
(hoorcolleges, werkcolleges, werkgroepen, praktika en ander contactonderwijs) en zelfstudie (voor 9
vakken bij A, 8 vakken bij B en 6 vakken bij C), alsmede een categorie 'overige studie-aktiviteiten'.
Bovenaan de formulieren stond vermeld 'respondentiekode:'. In de niet-anonieme conditie volgde
daaronder - op alle formulieren - een gestempeld nummer. Een toelichting vermeldde dat de
bijbehorende naam (slechts) bekend was bij de afdeling N.P.O.G., die het studielastonderzoek
uitvoerde. De studenten in de anonieme conditie werd verzocht om direkt bij ontvangst zelf op alle
formulieren onder 'respondentiekode:' eenzelfde, verzonnen schuilnaam of-kode te noteren.

Alle aangeschrevenen werden verzocht wekelijks het formulier van de vorige week in een
daartoe bestemde doos op de onderwijslokatie te deponeren en het laatste formulier te overhan-
digen in ruil voor een tegoedbon (è ƒ 2,— per tijdschrijfweek) voor diktaten, als beloning voor het
tijdschrijven. De evaluatiedoos werd op alle werkdagen geleegd, waarna de datum van ontvangst
op de formulieren werd aangetekend.

Aan de studenten in de niet anonieme conditie werd na twee weken een rappel'gezonden
Wanneer op dat moment nog geen formulier was ontvangen. Ook werd aan hen de tegoedbon
thuisgezonden wanneer hun laatste formulier in de evaluatiedoos was aangetroffen.

Tabel 1. Achtergrond steekproeven _

Totale groep 290--46

Geslaagd voor minimaal 2 2e jrs. tentamens 245 -->■ 1?5 ^28

Geslaagd voor blok X "

Geslaagd voor blok Y ^

In de steekproef 60 (A) 59 (B) 60 (C)

Ingeschreven voor 84-85 60 (A) 57(8) 60 (C)

Conditie I (anoniem) 30 (AI) 29 (BI) 30 (Cl)

Conditie II (niet anoniem) 30(AII) 28 (BII) 30 (CII)

37

-ocr page 272-

268 Invloed van anonimiteit op de resultaten van tijdschrijfonderzoek

3. RESULTATEN

Mate van deelname

Aan het einde van de tijdschrijfperiodes bleken uit de groepen A, B en C respectievelijk 41,33 en 28
studenten alle formulieren te hebben ingeleverd (respons resp. 69%, 58% en 47%).

Het aantal deelnemers van de anonieme groep (I) en van de niet-anonieme groep (II) was bij A en B
nagenoeg gelijk: bij A waren dit 21 studenten (70%) in conditie I en 22 studenten (67%) in conditie
II; bij B waren dit er 17 (59%) in conditie I en 16 (57%) in conditie II. Bij onderzoek C was de
deelname van de anoniemen geringer dan van de niet-anoniemen, resp. 10 (33%) (conditie I) en 18
(60%) (conditie II). In de drie onderzoeken tezamen respondeerde van de aangeschreven ano-
niemen 52% en van de niet-anoniemen 63%. Dit verschil is niet significant op 0,05 niveau
(chi-kwadraat = 2,60). Slechts bij onderzoek C is sprake van een significant lagere respons in de
anonieme groep in vergelijking met de niet-anonieme groep (chi-kwadraat = 4,28; P < 0,05).

Tijdens de tijdschrijfperiodes waren 42 rappellen aan studenten in de niet-anonieme conditie
verzonden, 16 bij onderzoek A, 12 bij B en 14 bij C. Uiteindelijk werden 95 tegoedbonnen
verstrekt: aan alle niet-anonieme respondenten en aan 41 van de 46 anonieme respondenten.

Toetsing van verschillen tussen respondenten en non-respondenten en van verschillen tussen steek-
proeven.

De uitval van proefpersonen kan tot een vertekening van de onderzoeksresultaten leiden. Daarom
werd getracht de aard van de uitval enigszins te achterhalen. Daarbij stuitten wij op twee
problemen:

1. Uiteraard is de studietijd van non-respondenten niet bekend, zodat zij op dit punt niet
vergeleken konden worden met respondenten. Hetzelfde geldt voor hun gevoeligheid voor een
al dan niet anonieme onderzoeksmethode, waar het in dit onderzoek om ging.

Wel waren van alle studenten in de steekproef blok-tentamencijfers bekend; een kenmerk dat,
bij gebrek aan beter, wel gehanteerd wordt bij de vergelijking van respondenten en non-
respondenten bij tijdschrijfonderzoek.

2. Wij konden bij studenten in de anonieme conditie geen onderscheid maken tussen responden-
ten en non-respondenten. Slechts in de niet-anonieme conditie was dit mogelijk.

In de onderstaande tabel zijn de verschillen in cijfers tussen respondenten en non-respondenten
in de niet-anonieme conditie (hierboven aangeduid met conditie II) samengevat, achtereenvolgens
van de drie onderzoeken tezamen en van A, B en C apart.
Tabel 2. Cijfers van respondenten en non-respondenten in conditie II

alle groepen

deelnemers
onderz. A

deelnemers
onderz. B

deelnemers
onderz. C

RII

NRIl

RII

NRII

RII

NRII

RII

NRII

Gem. cijfer A:

7.0

6.8

7.1

6.9^

7.3

7.2

6.4

6.3

st. deviatie:

(0.9)

(0.9)

(0.6)

(0.6)

(1.0)

(1.0)

(0.9)

(0.8)

N =

(53)

(31)

(20)

(8)

(17)

(12)

(16)

(11)

Gem. cijfer B:

6.8

6.5

6.8

6.1

7.3

7.2

6.1

6.2

st. deviatie:

(1-0)

(1.1)

(0.8)

(1.3)

(0.9)

(0.9)

(0.9)

(0.9)

N =

(55)

(31)

(21)

(8)

(17)

(12)

(17)

(11)

Gem. cijfer C:

6.9

6.9

7.1

7.0

7.0

7.3

6.5

6.1

st. deviatie;

(1.0)

(1.0)

(1.0)

(.8)

(1.0)

(1.0)

(1.0)

(1.1)

N =

(56)

(26)

(21)

(7)

(17)

(12)

(18)

( 7)

-ocr page 273-

Th. J. Ten Cate 269

Over het algemeen behalen de non-respondenten iets lagere cijfers. Het verschil is evenwel niet
groot (gemiddeld 0,18 punt) en in geen enkel geval significant. De verschillen zijn kleiner dan
meestal gevonden worden (Crombag & Vos, 1982; Van Gelderen en Ten Cate, 1985), zodat op
grond hiervan niet geconcludeerd kan worden dat de uitval erg selektief is geweest.

Behalve de uitval van proefpersonen kan ook de wijze van steekproeftrekking een invloed op de
onderzoeksresultaten hebben. Men zou een verschil kunnen verwachten in de aard van enerzijds
de steekproeven bij A en B en anderzijds de steekproef bij C (zie tabel 1). Tabel 3 geeft de
gemiddelde cijfers weer van de studenten in de verschillende steekproeven.

Tabel 3. Cijfers van de studenten in de steekproeven A, B en C.

steekpr. A

steekpr. B

steekpr. C

Gem. cijfer A

7.2

7.1

6.1

st. deviatie:

(0.7)

(0.9)

(1.0)

N =

(58)

(56)

(56)

Gem. cijfer B

6.8

7.0

5.8

st. deviatie:

(1.1)

(I.O)

(1.0)

N =

(59)

(56)

(55)

Gem. cijfer C:

7.0

7.1

6.2

st. deviatie:

(0.9)

(0.9)

(1.0)

N =

(56)

(55)

(50)

Bij toetsing blijkt dat de cijfers van de studenten in de steekproeven A en B onderling niet
Verschillen, maar dat die van de studenten in steekproef C lager zijn dan bij zowel A als B (in alle
gevallen P < 0.001). Bovendien is de deelname aan toetsen door studenten uit steekproef C

Tabel 4. Gemiddelde inleversnelheid van de formulieren.

anoniemen
Gem. SD

niet-anoniemen
Gem. SD

t

P-2z

Onderzoek A

N=(20)

N = (2I)

formulier 1

2.4

(1.9)

2.8

(2.0)

.60

ns

formulier 2

4.2

(0.7)

4.0

(0.8)

-.83

ns

formulier 3

1.4

(1.3)

1.9

(1.3)

1.02

ns

fonn. l-f-2+3

8.1

(2.9)

8.7

(3.2)

.60

ns

Onderzoek B

N=(I6)

N = (I7)

formulier 1

2.7

(1.6)

2.5

(1.5)

-.50

ns

formulier 2

3.2

(1.4)

3.5

(1.2)

.62

ns

formulier 3

1.9

(0.7)

1.5

(0.5)

-1.87

0.071

form. 1+2+3

7.8

(2.9)

7.4

(2.5)

-.42

ns

Onderzoek C

N =(10)

N = (18)

formulier 1

1.9

(I.O)

2.9

(1.9)

1.54

ns

formulier 2

2.6

(2.2)

2.7

(1.8)

.09

ns

fonnulier 3

3.6

(0.8)

3.8

(I.l)

.58

ns

formulier 4

1.7

(1.3)

1.9

(1.1)

.42

ns

form. 1+2+3+4

9.8

(3.2)

11.3

(4.3)

.95

ns

^n hoog getal impliceert een lage inleversnelheid.

-ocr page 274-

270 Invloed van anonimiteit op de resultaten van tijdschrijfonderzoek

geringer dan bij de studenten uit steekproef A en B (P < 0.005, chi-kwadraat = 13,19). Dit
impliceert dat het tweede replicatieonderzoek bij een populatie van wezenlijk andere aard is
verricht.

Inleversnelheid van de formuleren

De snelheid van binnenkomst van de formuHeren werd als volgt met punten (1-7) gewaardeerd: 1
= ingeleverd op de eerstmogelijke dag; 2 = op de 2e of 3e dag; 3 = op de 3e of 4e dag; 4 = in de
eerste week daama; 5 = in de tweede week daarna; 6 = in de derde week daama; 7 = in de vierde
week daarna. In tabel 4 zijn de gemiddelde inleversnelheden samengevat.

De relatief hoge waarden voor het tweede formulier van A en B en het derde formuher van C zijn
een gevolg van het feit dat in de laatste blokweek er weinig (B) of geen (A en C) contactonderwijs
werd gegeven, zodat het tijdig inleveren van formulieren bemoeilijkt werd. In geen van de gevallen
werd met de t-toets een significant verschil tussen de condities gevonden.

Studietijd

In tabel 5 zijn van de respondenten in beide condities de gemiddelden van de opgegeven studie-
tijden samengevat.

Tabel 5. Gemiddelde studietijd in uren

anoniemen

niet-anoniemen

Gem.

SD

Gem.

SD

t

P-2z

Onderzoek A

N = (20)

N = (21)

totale studietijd

100.1

(31.0)

97.2

(28.1)

-.44

ns

contacturen

34.6

( 7.5)

32.1

( 9.1)

-.94

ns

zelfstudietijd

60.1

(24.8)

60.0

(23.5)

-.06

ns

Onderzoek B

N = (16)

N = (17)

totale studietijd

92.0

(22.6)

100.8

(27.6)

.99

ns

contacturen

39.8

(15.6)

41.8

(15.8)

.35

ns

zelfstudietijd

48.1

(11.6)

56.5

(18.3)

1.58

ns

Onderzoek C

N = (10)

N = (18)

totale studietijd

136.3

(36.8)

126.7

(49.3)

-.53

ns

contacturen

52.0

(11.8)

52.1

(18.5)

.02

ns

zelfstudietijd

80.5

(30.8)

70.9

(34.2)

-.74

ns

In geen van de gevallen werden significante verschillen tussen condities gevonden. Ook het
totaal aantal opgegeven uren, besteed aan hoorcolleges, werkcolleges, werkgroepen, praktika en
alle vakken, alsmede de categorie 'overige studietijd^ werden vergeleken. In totaal werden hiervoor
38 significantietoetsingen verricht. In slechts één geval werd een significant verschil gevonden (P
0.013, tweezijdig): voor één vak werd in onderzoek B door de anoniemen meer tijd besteed dan
door de niet-anoniemen. Gezien het grote aantal toetsingen mag aan deze P-waarde evenwel geen
betekenis worden gehecht (Hays, 1981). Ook een uitsplitsing van de studietijd naar weken leverde
in geen van de gevallen significante verschillen tussen condities op.

-ocr page 275-

Th. J. Ten Cate 271

4. CONCLUSIES EN DISCUSSIE

Er werden geen verschillen in studietijd, noch in snelheid van retourneren van de formulieren
gevonden tussen studenten in de anonieme en de niet-anonieme conditie. De deelname aan het
onderzoek was iets geringer onder de studenten in de niet-anonieme groep. Dit verschil bestond
echter alleen in het tweede replicatieonderzoek. De geringe, niet-significante verschillen in inlever-
snelheid en studietijd vertonen geen consistent patroon, waardoor het waarschijnlijk is dat zij op
toeval berusten.

Er kan dus geconcludeerd worden dat het voor de resultaten van tijdschrijfonderzoek niet
uitmaakt of men wel of niet een anonieme procedure volgt, althans in de onderzochte populaties.

Als gevolg van de wijze van steekproeftrekking verschilden de steekproeven bij enerzijds de
onderzoeken A en B en anderzijds onderzoek C: in behaalde cijfers, in deelname aan toetsen en in
gevoeligheid voor anonimiteit voor wat betreft de
deelname aan het tijdschrijfonderzoek. Dit was
enigszins te verwachten. Studenten in steekproef C waren geen van allen op 30 juh geslaagd voor
het zware tweedejaars tentamen van blok X en wel voor het minder zware tentamen Y. De
studenten in de steekproeven A en B waren op dat moment wel voor X, en veelal ook voor Y
geslaagd. Dit waren dus iets succesvollere studenten.

Tegen de verwachting in (King, 1970; Wildman, 1977;Futren&Swan, 1977;McDaniel&Rao,
1981), maar conform de bevindingen van Fuller (1977) was in groep C de respons bij de
niet-anoniem aangeschreven studenten aanmerkelijk groter dan bij de anoniem aangeschrevenen.
Dat dit kan leiden tot een vermindering van de representativiteit bij de conditie met de meeste
uitval (i.e. bij de anonieme groep) lijkt mogelijk. We kunnen dit niet aflezen aan de cijfers van
anonieme respondenten en non-respondenten (hun cijfers zijn niet bekend); wel wordt enig
verschil in opgegeven (zelf-)studietijd gevonden. Het verschil is bij deze groep evenwel niet
significant. Aanvullend onderzoek bij een grotere groep is nodig om dit verschijnsel te kunnen
objectiveren (4). Het is mogelijk dat een grotere gevoeligheid voor de anonieme procedure bij
steekproef C gezocht moet worden in het niet kunnen rappelleren van non-respondenten. Men zou
dan echter bij de niet-anonieme respondenten, ook bij A en B, een lagere inleversnelheid van de
formulieren verwachten, hetgeen niet werd gevonden. Het verschil in deelname tussen de condities
in groep C duidt waarschijnlijk op een vorm van sociale wenselijkheid: niet zozeer het opgeven van
veel of weinig studie-uren wordt als sociaal wenselijk beschouwd, maar wel - bij sommige
populaties - het überhaupt deelnemen aan tijdschrijfonderzoek. Dat is verklaarbaar uit het feit dat
dit cohort studenten vanaf het begin van hun studie in 1982 regelmatig gevraagd is deel te nemen
aan tijdschrijfonderzoek; voor veel studenten is 'tijdschrijven' wellicht een zo aan de studie
verbonden activiteit geworden, dat het zich openlijk daaraan onttrekken als sociaal laakbaar
gedrag wordt beschouwd. Dat bij dc beide wezenlijk verschillende steekproeven A/B en C geen
significante verschillen in studietijd tussen de anonieme en niet-anonieme respondenten gevonden
Wordt pleit wel enigszins voor de generaliseerbaarheid van deze bevinding.

Resumerend kan worden geconcludeerd dat het al of niet toepassen van een anonieme proce-
dure bij tijdschrijfonderzoek weinig of geen gevolgen heeft voor de gevonden studietijd en voor de
snelheid waarmee de respondenten de formulieren inleveren. Tegen een anonieme procedure zijn
echter vijf argumenten in te brengen:

1- Men kan niet beschikken over studietijdgegevens van geslaagde studenten.

2. Men kan geen rappellen verzenden. Dit beïnvloedt de snelheid van het inleveren van formulie-
ren niet, maar mogelijk wel de mate van deelname.

3. Men loopt het risico dat minder succesvolle studenten eerder zullen afiiaken als de procedure
anoniem is. Dit kan mogelijk een te hoge empirische studielast opleveren.

Men heeft niet de mogehjkheid om de aard van de uitval van proefpersonen te bepalen, en
zodoende de representativiteit van de bevindingen te schatten.

-ocr page 276-

272 Invloed van anonimiteit op de resultaten van tijdschrijfonderzoek

5. Het is minder eenvoudig studenten te belonen voor hun medewerking aan tijdschrijfonder-
zoek.

Tenslotte kan nog iets worden gezegd over het probleem dat de aanleiding vormde om het
anonimiteitsonderzoek uit te voeren. Het is nu duidelijk dat de niet-anonieme procedure die werd
gevolgd er niet de oorzaak van was dat er 'weinig' bestede studietijd was gevonden bij het
tijdschrijfonderzoek. Nu is dit niet het enige methodologische aspekt dat invloed kan hebben op de
resultaten van het onderzoek. Een belangrijke andere factor is de mate van uitval van proetpersonen.
Het is bekend dat de respondenten bij tijdschrijfonderzoek niet representatief zijn voor de gehele
populatie. Zij behalen gemiddeld (iets) hogere cijfers dan andere studenten (Crom'bag & Vos, 1981;
Van Gelderen en Ten Cate, 1985). Het is echter niet zeker, en zelfs onwaarschijnlijk, dat hierdoor bij
tijdschrijfonderzoek een te geringe bestede studietijd wordt gevonden.

Ook de wijze van steekproeftrekking kan, zoals in dit onderzoek is gebleken, invloed uitoefenen
op de representativiteit van de respondenten voor de gehele populatie. Echter, de richting van een
vertekening, zoals die bij de wijze van steekproeftrekking die hierboven werd beschreven ontstaat,
varieert. Bij de onderzoeken A en B was sprake van een - in termen van behaalde cijfers -
gemiddeld wat succesvollere steekproef. Naarmate het aantal tijdschrijfonderzoeken groter is
benadert de totale gevonden studielast (de som van de bevindingen bij de individuele onderzoeken)
de studielast van de 'gemiddelde' steekproef. In hoeverre een eventuele verminderde representati-
viteit qua behaalde cijfers ook een verminderde representativiteit qua studielast betekent is niet
bekend.

Al met al zijn er geen aanwijzingen dat de methode van onderzoek in het algemeen, en de
niet-anonieme procedure in het bijzonder, aan de discrepantie tussen 'objectief gevonden' en
'subjectief beleefde' studielast ten grondslag ligt. Het ligt meer voor de hand dat de normstelling -
1700 uur studie per jaar - niet realistisch is.

(1) Het Academisch Statuut spreekt van de "..met betrekking tot zijn geschiktheid in alle opzichten voor de
desbetreffende studierichting als gemiddeld aan te merken.." student. 'Gemiddeld' slaat dus waarschijnlijk
op de populatie van alle potentiële studenten (in dit geval alle potentiële geneeskunde studenten). Het lijkt
verantwoord om dit te operationaliseren als de populatie studenten die daadwerkelijk studeert.

(2) Dit onderzoek wordt hier aangeduid met de term 'tijdschrijfonderzoek', omdat beoogd werd dat dagelijks
door de deelnemende studenten de bestede studietijd werd genoteerd. Omdat echter eens per week een
weekformulier werd ingeleverd spreken Everwijn en Muggen (1973) in zo'n geval van een '..combinatie van
schattings- en tijdschrijfmethode..'; het is immers mogelijk dat de studenten aan het einde van dc week
weekschattingen maken.

(3) In dit artikel worden de relevante blokken voor de leesbaarheid aangeduid met de letters A, B en C
(derdejaars blokken) en X en Y (tweedejaars blokken). De werkelijke namen luiden:

A: Immuunapparaat en bloed (blok 17)

B: Vegetatieve regulaties en het endocrien systeem (blok 18)

C: Bewegingsapparaat en motoriek (blok 19)

X: Bouw en functie van het zenuwstelsel (blok 9)

Y: Psychisch functioneren en dysfunctioneren (blok 10)

«

(4) Wanneer deze bevinding wordt bevestigd pleit dit tegen het hanteren van ecn anonieme procedure, omdat
hierdoor bij bepaalde populaties de opgegeven studietijd kunstmatig wordt vergroot. Vooralsnog is deze
redenering echter speculatief, omdat men niet kan onderscheiden of een eventueel verschil in opgegeven
studietijd wordt veroorzaakt door een steckproefeffekt of door de gevoeligheid voor een anonieme
procedure.

-ocr page 277-

Th. J. Ten Cate 273

LITERATUUR

Ash, P. & Abramson, E. (1952). The effect of anonimity on attitude-questionnaire response. Journal of
Abnormal and Social Psychology 47,
722-723.

Bradbum, N.M., & Sudman, S. (1979). Improving interview method and questionnaire design. San Francisco
Jossey-Bass.

Bradbum, N.M., Sudman, S., Blair, E., & Stocking, C. (1978). Question threat and response bias. Public
Opinion Quarterly, 42,
221-234.

Cate, Th.J. ten (1985). Evaluatie kernblokken doctoralefase deel I t/m 8. Afd. Niet-Primaire Onderwijsverzor-
ging Geneeskunde, Universiteit van Amsterdam.

Crombag, H.F.M., De Gruyter, D.N.M., & Cohen, M.J. (1981). Zeventienhonderd netto uren? Universiteit en
Hogeschool. 27. 6,M6-363.

Crombag, H.F.M., & Vos, P. (1981). De invloed van tijdschrijven op studie-inspanning en studieresultaat.
Tijdschrift voor Onderwijsresearch, 7, 1982,3,97-108.

DeLamater, J. (1982). Response effects of question content. In: W. Dijkstra & J. van der Zouwen, Response
behavior in the survey interview.
Londen: Academic Press.

Everwijn, S.E.M., & Muggen, G. (1973). Methoden voor het meten van studietijd. In: W.M. van Woerden,
T.M. Chang, & L.J.M. van Geuns-Wiegman,
Onderwijs in de Maak. Aula, 508, Utrecht: Het Spectrum.

Everwijn, S.E.M., & Willemsen, A.J.J. (1972). Validatieonderzoek naar metoden om studietijd te meten. Afd.
Onderzoek en Ontwikkeling van Onderwijs, R.U. Utrecht en Centrum voor Onderzoek van het Weten-
schappelijk Onderwijs, U. van Amsterdam.

Fuller, C. (1974). Effect of anonimity on return rate and response bias in a mail survey. Journal of Applied
Psychology. 59.
3,292-296.

Futrell, C.M., & Swan, J.E. (1977). Anonimity and response by salespeople to a mail questionnaire. Journal of
Marketing Research, 14.
4,611-616.

Gelderen, A. van & Cate, Th.J. ten (1985). Vrijwilligerseffekten in tijdschrijfonderzoek. Tijdschrift voor
Onderwijsresearch, 10,
4.

Hays, W.L. (1981). Statistics (3e druk). New York: Holt, Rinehart and Winston.

Hoogstraten, J. (1979). De machteloze onderzoeker, Meppel: Boom.

Hyman, H.H. (1967). Interviewing in Social Research, (Sedruk). Chicago: University of Chicago Press.

King, F. (1979). Anonymous versus identifiable questionnaires in drug usage surveys. American Psychologist,
25,
982-985.

McDaniel, S .W. & Rao, C.P. (1981). An investigation of respondent anonimity's effect on mailed question-
naire rate and quality.
Journal of the Market Research Society, 23, 150-160.

^os, P. (1985). Pretentie en werkelijkheid bij universitaire studieprogramma's. In: J.F.M.C. Aarts, &
W.H.F.W. Wijnen,
Studierichtingen in het hoger onderwijs. Lisse: Swets & Zeitlinger.

Wildman, R.C. (1977). Effects of anonimity and social setting on survey response. Public Opinion Quaterly, 41,
1,74-79.

Manuscript ontvangen 20-2-1985.

Defmitieve versie ontvangen 20-8-1985.

-ocr page 278-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 274-284.

De invloed van samenwerking en gezamenlijke
beoordeling op spellingprestaties*

Jan Pieter van Oudenhoven, Gonda van Berkum en Tineke Swen-Koopmans

Vakgroep Sociale Psychologie, Rijksuniversiteit Groningen

ABSTRACT

Recently a large number of studies were published on the influence of cooperative teaching
methods on academic achievement. Generally, favorable effects on achievement are reported. A
common explanation is that the achievement improvement is due to a more adequate information-
processing. As a consequence of cooperation, students apply better reasoning strategies: low
achievers because they get more explanation; high achievers because they have to verbalise the
explanations. In addition to the information-processing argument we assume a motivational
principle. As a consequence of cooperation students will experience pressure from their fellow
students to do their best. In a field experiment among third grade students we compared the usual
group-based teaching method of spelling with two forms of cooperative instruction: one with the
same group-based feedback, the other with shared feedback. The outcomes of the
experiment
showed that cooperation produces positive effects on spelling achievement and students' effort as
rated by their teachers. No effect of form of feedback was found, possibly because the manipula-
tion of feedback was not convincing enough. Cooperation did not lead to improved reasoning
strategies. This unexpected result may be due to an incomplete measurement of the reasoning
strategies.

De laatste jaren is vrij veel onderzoek verricht naar de invloed van samenwerking op
onderwijsprestaties. Uit het merendeel van de studies (voor een overzicht, zie: Johnson et al-
1981) bhjkt dat de prestaties van leerlingen die samenwerken meer vooruitgaan dan de
prestaties van leerlingen die voor zichzelf werken. De laatste werkvorm is in het onderwijs
echter gebruikelijk.

Hoe.wel dc preciese formulering per onderzoeker verschilt, is de meest aangevoerde ver-
klaring voor deze grotere vooruitgang in prestaties dat de leerhngen tot een betere infor-
matieverwerking komen: als leerlingen samenwerken wisselen zij informatie uit; hierdoor
ontwikkelen zij hun denkstrategieën (o.a. Lomov, 1978; Skon et al., 1981; Harris & Sherman,
1973). Hieronder geven we deze verklaring schematisch weer:

samenwerking —betere denkstrategieën —^ prestatieverbetering

Eveneens plausibel is de verklaring dat samenwerken tot een toename in de motivatie van
leerlingen leidt, die op haar beurt de prestatieverbetering veroorzaakt. Pepitone (1980) stel'
dat het centrale kenmerk van samenwerken de onderhnge afhankelijkheid is. Dh betekent dat
samenwerkende leerlingen elkaar meer zuUen stimuleren om zich in te zetten dan
wanneer
ieder voor zich werkt. Immers als een leerhng zich onvoldoende inzet, dupeert hij degene met

* Met dank aan Prof. dr. Klaas Koster, Drs. Frans Siero, Bert Wiersema en Nico van Yperen voor hun
commentaar. Ook zijn wij Rinse Dijkstra en Rink de Vries van de
Onderwijsbegeleidingsdienst
in Drachten erkentehjk voor hun medewerking.

Adres: Kraneweg 2, 9718 JP Groningen

-ocr page 279-

J.P. van Oudenhoven et al. 275

Wie hij samenwerkt. De consequentie hiervan is dat de inzet van de leerling niet alleen voor de
'eerkracht, maar ook voor de samenwerkingspartner van betekenis is. Dit zal vooral het geval
zijn als samenwerkende leerlingen ook een gezamenlijk oordeel van de leerkracht ontvangen.
In de gangbare onderwijssituatie daarentegen, waar iedere leerling voor zichzelf werkt, is het
alleen de leerkracht die de inzet van de individuele leerling bekrachtigt.

We veronderstellen dat wanneer leerlingen samenwerken en gezamenlijk beoordeeld
Worden vooral de zwakke leerlingen gevoelig zullen zijn voor de extra bekrachtiging van de
"nzet. Voor hen immers is het verschil met de gebruikelijke klassikale onderwijs- en beoorde-
lingssituatie het grootst. Want terwijl de betere leerlingen met een geringe inspanning meestal
een goed cijfer halen, krijgen de zwakke leerlingen veelal een onvoldoende, ook al spannen zij.
zich in. Het klassikale onderwijs is voor zwakke leerlingen een ontmoedigende onderwijs-
vorm (van Oudenhoven, 1983). Deze motivationele redenering biedt een mogelijke verkla-
ring voor het onderzoeksgegeven dat vooral de lage presteerders als gevolg van samenwerking
tot betere prestaties komen (Pepitone, 1980; Skon et al., 1981; Wodarski et al., 1973).
Schematisch kunnen we de redenering als volgt samenvatten:

Samenwerken + gezamenlijke —f extra bekrachtiging door —

beoordeling samenwerkingspartner

hogere inzet (vooral van de —prestatieverbetering (vooral van dc
Zwakke leerling) zwakke leerling)

In het hieronder te beschrijven onderzoek worden dc volgende hypothesen getoetst.

Hl: Samenwerking leidt tot betere denkstrategieën dan wanneer leerlingen alleen werken.

Samenwerking leidt tot betere prestaties dan wanneer leerlingen alleen werken.
H3: De combinatie van samenwerking en gezamenlijke beoordeling leidt, vooral voor de
zwakke leerlingen, tot een hogere inzet dan samenwerken zonder gezamenlijke
beoordeling.

H4: De combinatie van samenwerking en gezamenlijke beoordeling leidt, vooral voor zwak-
ke leerlingen, tot betere prestaties dan samenwerking zonder gezamenlijke beoordeling.

Het onderzoek heeft betrekking op het spellingonderwijs zoals dat in de derde klas van de
basisschool gegeven wordt. Het voordeel van spellingonderwijs is dat het van school tot school
Weinig verschilt. De meeste bekende taalmethoden, zoals 'de Taaltuin', 'Taal voor het Leven',
Cn 'Jouw Taal Mijn Taal', schrijven voor het onderdeel spelling klassikale oefeningen voor die
ongeveer anderhalf uur per week in beslag nemen. Het merendeel der leerkrachten neemt
Wekelijks een controlcdictce af, dat vrijwel op alle scholen op gelijke wijze wordt nagekeken
en beoordeeld. Deze grote overeenkomsten stellen ons in staat vergelijkingen tussen de
Scholen te maken. Hoewel dc meeste methoden erop gericht zijn dat de leerlingen de
Oefeningen alleen maken, leent de leerstof zich goed voor dc verwerking in tweetallen.

METHODE

I-'itgaandc van de wijze van werken en dc manier van beoordelen, die ieder twee niveau's
hebben, kunnen we ecn design met vier condities creëren (zie schema 1).

-ocr page 280-

276 De invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties
Schema 1: Het design

Wijze van werken

leerlingen werken
alleen

leerlingen werken
samen in duo's

klassikale norm,
terugkoppeling
per leerling

Beoordeling
klassikale norm
terugkoppeling
per duo

Conditie 1
leerlingen werken
alleen, terugkop-
peling per leerling

Conditie II
leerlingen werken
samen, terugkop-
peling per leerling

Conditie III
leerlingen werken
samen, terugkop-
peling per duo


De lege cel in het design verwijst naar een onderwijssituatie waarin de leerlingen de oefenin-
gen alleen maken, maar wel als duo beoordeeld worden. Omdat uit een vooronderzoek bleek
dat zowel leerkrachten als leerlingen het onbillijk vonden om leerlingen samen te beoordelen,
terwijl ze niet de gelegenheid kregen elkaar te helpen, hebben we besloten deze conditie niet
te realiseren.

Vergelijking van de condities I en II stelt ons in staat de eerste twee hypothesen te toetsen.
Omdat we ervan uitgaan dat het motivationele principe hoofdzakelijk optreedt als samen-
werking in combinatie met gezamenlijke beoordeling plaatsvindt, toetsen we hypothesen 3 eH
4 door conditie III met conditie II te contrasteren. We achten het evenwel mogelijk dat
samenwerking ook zonder gezamenlijke beoordeling een hogere inzet tot gevolg heeft.
Daarom zullen wij bij de vergelijking van conditie I en II eveneens nagaan of er een

verandering in de inzet optreedt.

Proefpersonen

Aan het onderzoek namen 14 derde klassen deel van even zoveel basisscholen gelegen in de
provincies Friesland en Groningen. Eén school is niet bij de analyse betrokken, omdat na
controle door een onafhankelijke beoordelaar bleek dat de leerkracht de experimentele
manipulaties niet op de juiste wijze uitvoerde. Van de resterende 13 scholen met 2l8
leerlingen bevatte conditie I vijf scholen met 87 leerlingen. Voor de condities II en III, met elk
vier scholen, waren dit respectievelijk 64 en 67 leerlingen. De klassen zijn volgens het lot aa"
de condities toegewezen. Alle scholen gebruikten een klassikale spellingmethode.

Ontwerp en statistische analyse

Teneinde te kunnen vaststellen of er na verloop van tijd in de ene conditie een verhoging van
de inzet of een verbetering van de prestaties optrad in vergelijking met de andere condtie is
een 2 (condities) x 2 (niveaugroepen) x 4 (tijdstippen) factorieel design toegepast met
herhaalde metingen op de laatste factor.

De mate van inzetverhoging en prestatieverbetering werd uitgedrukt in een lineaire trend.
Voor de analyse hebben wij gebruik gemaakt van het programma Muhivariance van
Finn
(1978), waarmee de uit de herhaalde metingen af te leiden effecten via een muhivariate
procedure te toetsen zijn.

-ocr page 281-

J.P. van Oudenhoven et al. 277

De toets ter bepaling van het denkstrategisch niveau is eenmalig aan het eind van de
onderzoeksperiode afgenomen. We hebben voor een eenmalige afname gekozen, omdat we
de leerlingen niet met onze metingen wilden overbelasten en onze aanwezigheid als onder-
zoeker op de scholen binnen acceptabele grenzen wilden houden. Om te kunnen controleren
Voor initiële verschillen in denkstrategisch niveau tussen de groepen is een covariantie-ana-
'yse uitgevoerd op de resultaten van deze toets met de prestaties op de eerste spellingtoets als
covariaat.

Voor de analyse waren de leerlingen op grond van de resultaten op de eerste spellingtoets in
twee niveaus ingedeeld. Per klas werd 25% van de leerlingen met de meeste spelfouten tot de
'age en de overige 75% tot de midden en hoge presteerders gerekend.

Alle effecten zijn eenzijdig getoetst bij een significantieniveau van 5%.

'nstrumenten

Om de inzet van de leerlingen te meten, is de leerkracht gevraagd vier maal gedurende de
Onderzoeksperiode een beoordeling te geven van de inzet van de leerlingen bij de spel-
'•nglessen. De scores op deze inzetschaal konden variëren van 1 (laag) tot 6 (hoog). De test-
hertest betrouwbaarheid van de schaal, afgenomen met een maand tussentijd, bedroeg .80.

Als prestatiemaat zijn vier parallelle versies van een spellingtest (woorddictee) gebruikt
(zie: van Oudenhoven, 1983).

De denkstrategietoets1 bestond uit acht schriftelijke opdrachten met spellingproblemen,
^oor een juiste uitvoering van deze opdrachten moesten de leerlingen een aantal uiteenlo-
pende spellingregels toepassen. De toets omvatte een selectie uit de spellinggevallen die in de
derde klas aan de orde komen, zoals de verdubbeling van de medeklinker na een korte klank
of de verandering van f in v en s in z bij meervoudsvorming. De opdrachten werden in twee
Vormen aangeboden: bij drie opgaven moesten de leerlingen de fout geschreven woorden
Aanstrepen; de overige vijf waren invulopdrachten. Elke opdracht bestond uit acht è tien
'tems. Het aantal foutief beantwoorde items vormde de score op de test. De test - hertest
betrouwbaarheid, bepaald aan de hand van twee parallelle versies, bedroeg .77. De toetsen
Waren met een week tussentijd afgenomen.

•"rocedure

Omdat het gevaar bestond dat bij onvoldoende instructie de condities te veel op elkaar
Zouden gaan lijken, vonden voor de aanvang van het onderzoek twee instructiegesprekken
P'aats. Tijdens het introductiegesprek werd de leerkrachten verteld wat hun te doen stond. De
tweede keer werd hun een schriftelijke beschrijving van hun conditie overhandigd, die wij
Zeer gedetailleerd bespraken. Daarin stond puntsgewijs samengevat waar zij zich aan moesten
houden. De eerste maand van de onderzoeksperiode bezochten we alle scholen nog eens
enkele malen om eventuele onduidelijkheden te bespreken en om het spellingonderwijs en de
beoordeling van de dictee's zonodig bij te stellen.

Begin september vond de eerste meting van de inzet en de prestaties plaats. Direct daarna
Werden de verschillende condities gerealiseerd.

De volgende drie metingen werden telkens met tussenperioden van vijf weken uitge-
roerd. In alle condities verzochten wij de leerkrachten anderhalf uur per week aan spelling te
besteden en naast de omwille van het onderzoek gewenste wijzigingen, geen veranderingen in
''nn onderwijs aan te brengen. In alle drie condities gaf de leerkracht klassikaal spellingon-
'lerwijs, dat wil zeggen dat alle leerlingen in een klas dezelfde oefeningen maakten.

1  Ontwikkeld door Fredcnek Klein in het kader van een stage-onderzock.

-ocr page 282-

278 De invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties

Het samenwerken in de condities II (samenwerking) en III (samenwerking en gezamenlijke
beoordeling) vond als volgt plaats: het maken van de spellingoefeningen gebeurde in groepjes
van twee. Deze duo's werden direct na de eerste meting van spellingprestaties en inzet
gevormd. Op grond van de spellingprestaties deelden we de leerlingen van een klas in vier
niveaus in. De beste leerling uit het eerste niveau koppelden we aan de beste leerling uit het
tweede niveau. De daaropvolgenden uit beide niveaus vormden eveneens een duo. Hetzelfde
gebeurde met de leerhngen uit het derde en vierde niveau. Op deze manier was het verschil in
prestatieniveau tussen de leerhngen binnen elk tweetal niet te groot en ongeveer constant. Bij
een oneven aantal leerlingen vormden we een trio. De samenwerking zoals die zowel in de
condities II als III plaatsvond, was gebonden aan drie regels waarover de leerkracht voor elke
spellingles instructies gaf:

1. De leerhngen moesten op elkaar wachten totdat beiden telkens dezelfde oefening af
hadden. Het was hun exphciet toegestaan elkaar bij het maken van de oefeningen te raadple-
gen. 2. Daarna moesten ze eikaars werk nakijken en 3. de eventueel gemaakte fouten
bespreken. De eerste regel was erop gericht de onderlinge afhankelijkheid te benadrukken en
te vermijden dat er een competitiesfeer binnen de samenwerkingsgroepjes zou ontstaan. Me'
de twee laatste regels werd beoogd de basis te creëren voor een wederzijdse beïnvloeding van
de denkstrategieën van de leerlingen. Overigens weken de instructies en het lesgedrag van de
leerkracht in de beide samenwerkingscondhies (conditie II en III) niet af van wat de
leerkrachten in de controleconditie (I) deden. Ook in de controleconditie moesten de leerlin-
gen (zelf) hun oefeningen nakijken en hun fouten verbeteren.

In alle drie condities nam de leerkracht elke week klassikaal een auditief controle-dictee af.
Hierop vond de beoordehng van de leerlingen plaats. Deze beoordehng gebeurde door hel
aanstrepen van alle fouten. In de condities I en II zette de leerkracht, zoals gebruikelijk, het
aantal fouten onder het dictee en/of gaf een cijfer. In conditie III streepte de leerkracht ook
alle fouten aan, maar werd het gemiddeld aantal fouten en/of het daarmee corresponderende
cijfer van het tweetal (of drietal) waarvan de leerhng deel uitmaakte onder het dictee gezet.

Controle op de experimentele manipulaties

Elke keer dat de metingen plaatsvonden, gingen wij na of de spellinglessen en de beoordeling
van dé dictee's volgens instructie verliepen. Na twee maanden bezocht een leerkracht, die
verder niet bij het onderzoek betrokken was, de scholen die aan het onderzoek meededen. Zi]
ging aan de hand van de hieronder beschreven check-list na of de experimentele manipulaties
correct werden uitgevoerd. Tevens woonde zij een spellingles bij. Op grond van deze controle
besloten wij, zoals gezegd, één school niet bij de analyse te betrekken, omdat de
spellinglessen
zonder toezicht van de leerkracht plaatsvonden én er zodoende geen garantie bestond dat de
leerhngen volgens de instructie werkten. Alle overige scholen werkten volgens de instructies-
Alleen moet wel gezegd worden dat het met elkaar praten over de fouten meestal erg
moeizaam verliep.

RESULTATEN
Alleen werken (conditie I) versus samenwerking (conditie II)

In hypothese 1 voorspelden we dat samenwerking tot betere denkstrategieën zou leiden. Een
vergelijking tussen conditie 1 (de leerhngen werkten alleen, terugkoppeling per leerhng) en
conditie II (de leerlingen werkten in duo's, eveneens terugkoppeling per leerhng) liet evenwe'

-ocr page 283-

J.P. van Oudenhoven et al. 279

Check-list ter controle van de experimentele manipulaties*

Conditie

beoordeling I H UI

^ordt er elke week een controledictee afgenomen? x x x

^ordt er een klassikale beoordelingsnorm gehanteerd? x x x

Worden alle fouten onderstreept? x x x

Wordt het aantal fouten of het daarmee corresponderende

"Cijfer onder het dictee gezet? x x O

Wordt er per duo (trio) dezelfde waardering gegeven door

''et totaal aantal fouten door twee (drie) te delen O O x

Oefeningen

Besteedt men meer dan één, maar minder dan twee

Uur per week aan spelling? x x x

Maken alle kinderen dezelfde oefeningen? x x x

Werken de kinderen alleen? x O O

Wachten de kinderen op elkaar totdat beiden

(alle drie) klaar zijn? O x x

kijken ze eikaars werk na? O x x

''raten ze met elkaar over de fouten? O x x

Wordt gewerkt in door de onderzoeker voorgestelde

«iuo's (trio's)? O X x

* X betekent: moet van toepassing zijn op die conditie
O betekent: mag
niet van toepassing zijn op die conditie

geen significante verschillen zien, zodat hypothese 1 niet ondersteund werd (zie tabel 1).

Hypothese 2 voorspelde dat samenwerken tot een prestatieverbetering leidt. Zoals tabel 2
'aat zien, gaan kinderen die samenwerken na verloop van tijd inderdaad meer vooruit dan
'hinderen die alleen werken. Er werd een multivariaat effect gevonden (F (2,146) = 20,43),
dat bij univariate toetsing zowel aan een effect op prestaties (F (1,147) = 14,37) als op inzet
(P(l,147) = 25,4) moet worden toegeschreven. Samenwerken leidt kennelijk niet alleen tot
een verbetering van de prestaties maar ook tot een verhoging van de inzet (zie tabel 3).
'Aangezien de leerlingen in conditie II bij dc aanvang van het onderzoek lager scoorden op
Prestaties dan de leerlingen in conditie I, is ter controle voor deze non-equivalentie een
eovariantie-analyse uitgevoerd op de laatste meting met de prestaties op de eerste meting als
eovariaat. Bij deze nadere analyse waren de verschillen in prestaties eveneens significant (F
(',146) = 9,44). Op grond van beide analysen concluderen we dat hypothese 2 voldoende
Ondersteuning vindt.

Samenwerking met terugkoppeling per leerling (conditie II) versus samenwerking met terug-
J">ppeling per duo (conditie
III)

'n hypothese 3 en 4 voorspelden we dat een combinatie van samenwerking en gezamenlijke
•beoordeling, vooral voor de lage presteerders, tot een hogere inzet en een prestatieverbete-
■■'ng zou leiden. Vergelijking van beide condities (zie tabel 2 en 3) gaf geen significante
Verschillen te zien zodat geen van deze twee hypothesen wordt ondersteund.

-ocr page 284-

280De invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties
Tabel 1. Gemiddeld aantal fouten op de denkstrategietoets en standaarddeviaties (conditie I, II en III)

midden en hoog

10.5

alleen werken/

(N = 63)

(5.4)

terugkoppeling

laag

19.0

per leerling

(N = 21)

(7.6)

(I)

totale groep

12.6

(N = 84)*

(7.0)

midden en hoog

15.2

samenwerken/

{N = 46)

(8.3)

terugkoppeling

laag

25.5

per leerling

N = 15)

(7.1)

(II)

totale groep

17.8

(N = 61)*

(9.2)

midden en hoog

10.6

samenwerken/

{N = 46)

(7.1)

terugkoppeling

laag

19.2

per duo

{N = 17)

(7.9)

(III)

totale groep

12.9

(N = 63)*

(8.2)

* De in deze tabel genoemde aantallen zijn iets kleiner dan in de volgende tabellen. Dat komt doordat
tijdens de afname van deze toets enkele leerlingen ziek waren.

Tabel 2. Gemiddeld aantal spellingfouten en standaarddeviaties voor twee prestatieniveaus (conditie I.
II en III)

sept.

Okt.

nov.

dcc.

midden en hoog

10.9

8.8

8.5

9.1

alleen werken/

(Af = 64)

(4.1)

(3.1)

(4.0)

(4.2)

terugkoppeling

laag

18.9

15.8

14.7

15.6

per leerling

(N = 23)

(2.8)

(4.0)

(5.1)

(4.4)

(I)

totale groep

13.0

10.7

10.1

10.8

(N = 87)

(5.2)

(4.5)

(5.1)

(5.1)

midden en hoog

13.2

11.3

10.2

9.6

samenwerken/

(N = 48)

(5.0)

(5.8)

(5.6)

(4.9)

terugkoppeling

laag

23.4

18.4

20.0

16.8

per leerling

(N = 16)

(4.3)

(6.0)

(5.9)

(5.1)

(II)

totale groep

15.8

13.1

12.7

11.4

(N = 64)

(6.5)

(6.6)

(7.0)

(5.8)

midden en hoog

10.7

' 9.1

8.0

8.1

samenwerken/

(N = 49)

(4.4)

(3.8)

(4.3)

(4.2)

terugkopf)eling

laag

19.5

14.6

14.5

14.0

sper duo

{N = 18)

(3.3)

(4.1)

(5.0)

(4.7)

(III)

totale groep

13.1

10.5

9.7

9.7

(N = 67)

(5.7)

(4.6)

(5.3)

(5.1)

-ocr page 285-

J.P. van Oudenhoven et al. 281

Tabel 3. Gemiddelde inzetbeoordelingen en standaarddeviaties voor twee prestatieniveaus (conditie I,
II en III)

sept.

okt.

nov.

dec.

midden en hoog

4.7

4.4

4.6

4.5

alleen werken/

{N = 64)

(1.1)

( -9)

( .9)

(1.1)

terugkoppeling

laag

4.6

4.3

4.5

4.5

per leerling

(N = 23)

( -8)

( -7)

(1.0)

( -9)

(I)

totale groep

4.7

4.4

4.6

4.5

(N = 87)

(1.0)

( -9)

(1.0)

(1.1)

midden en hoog

4.7

5.1

5.2

5.1

samenwerken/

(N = 48)

(1.2)

(1.0)

( -7)

( -8)

terugkoppeling

laag

3.9

4.5

4.8

4.5

per leerling

{N = 16)

(1.1)

(1.4)

( -9)

(1.0)

(II)

totale groep

4.5

4.9

5.1

5.0

(N = 64)

(1.2)

(1.2)

( .8)

( -9)

midden en hoog

5.1

5.0

4.9

5.1

samenwerken/

{N = 49)

( -9)

( -7)

( -7)

( -7)

terugkoppeling

laag

3.6

4.1

4.3

4.3

per duo

(N = 18)

(1.1)

(1.0)

( .8)

( -9)

(III)

totale groep

4.7

4.8

4.7

4.9

{N = 67)

(1.2)

( .9)

( .8)

( .8)

Alleen werken met terugkoppeling per leerling (conditie I) versus samenwerking met terug-
koppeling per duo (conditie
III)

Contrastering van conditie I en III liet evenmin als de vergelijking tussen conditie I en II
significante verschillen in denkstrategieën zien (zie tabel 1). Wel bleken er verschillen tussen
conditie I en III te zijn wat inzet en prestaties betreft, zoals tabel 2 en 3 laten zien. Er werd een
significant multivariaat effect gevonden (F (2,149) = 6.51). Bij univariate toetsing blijkt dat
dit effect zowel aan verschillen in inzet (F (1,150) = 5,62) als aan verschillen in prestaties
(F (1,150) = 6,56) toe te schrijven is.

DISCUSSIE

Wanneer leerlingen samenwerken leidt dat tot betere prestaties dan wanneer leerlingen
alleen werken. Anders dan verwacht bleek het toevoegen van een gezamenlijke beoordeling
geen effect te hebben op de inzet en de prestaties van de (zwakke) leerlingen. Een verklaring
Voor het achterwege blijven van dit effect kan zijn dat de manipulatie niet overtuigend genoeg
is geweest. De taak waarop de leerlingen een groepsbeoordeling kregen (het wekelijks
controledictee) werd namelijk nog individueel gemaakt. Bovendien bleven de leerlingen
individueel informatie over de gemaakte fouten ontvangen. Het is gewenst in vervolgonder-
zoek de manipulatie gezamenlijke beoordeling zo uit te voeren dat de groepjes leerlingen ook
de beoordeling krijgen over een taak die zij gezamenlijk hebben gemaakt.

Samenwerking laat bij beide vormen van beoordeling een gunstiger beeld zien wat inzet
betreft zoals bij inspectie van de tabellen 2 en 3 blijkt. In de figuren 1 en 2 valt te zien dat de
Verschillen in inzet tussen de conditie waar de leerlingen alleen werkten en de condities waar

-ocr page 286-

282 De invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties

KONO I EN KONO 11*111

6 I—

£ 2

«KOCI 1 IRLLENl
«KONO 11*111 (ALLEN)

sr

TIXSTIP

Figuur I. Gemiddelde inzet op vier tijdstippen voor de controleconditie (I) en de beide samenwerkings-
• condities (II en III)

leerlingen samenwerkten (in de figuren zijn beide condities samengevoegd) grotendeels in de
eerste periode tot stand kwamen, terwijl de verschillen in prestatieverbetering vooral in de
laatste periode optraden. Dat maakt het aannemelijk dat inzet een mediërende factor is.

Voor de veronderstelling dat samenwerking via een verbetering van denkstrategieën tot
een prestatieverbetering leidt, hebben we geen ondersteuning gevonden. Hoe kunnen we dit
verklaren? Ten eerste is het natuurlijk mogelijk dat samenwerking niet of nauwelijks invloed
heeft op de ontwikkeling van denkstrategieën. Een tweede verklaring is dat denkstrategieën
onvoldoende gemeten zijn. Om een ontwikkeling vast te kunnen stellen was het beter
geweest
de denkstrategieën op verschillende momenten tc meten.

Een geheel andere niet motivationele verklaring voor het gunstige effect van samenwerking
op prestaties is dat de leerlingen beter op de hoogte zijn geraakt van de juiste schrijfwijze van
de woorden, zonder dat hun besef van spellingregels is verbeterd. Dit is aannemelijk gezien dc
manipulaties van samenwerking. De leerlingen moesten elkaar immers op de
gemaakte
fouten wijzen. Dit kan bijgedragen hebben tot een betere kennis van woordbeelden hetgeen
tot uitdrukking komt in een hogere score op de spellingtoets.
Om de veronderstelling tc
toetsen dat leerlingen via een frequente feedback die zij elkaar over fouten geven, tot een

«r

-ocr page 287-

J.P. van Oudenhoven et al. 283

KONO I EN KONO IIMII

•KCN) I (fLLEN)
«KeND II»m IfiLLEN)

i

i
ti

>......

^..........■»•■

TIXSTIP

figuur 2. Gemiddeld aantal spellingfouten op vier tijdstippen voor de controleconditie (I) en de beide
samcnwerkingscondities (II en III)

betere schrijfwijze van woorden komen, is het aan te bevelen in vervolgonderzoek een extra
Conditie te creëren waarin de leerlingen niet samenwerken of elkaar uitleg geven maar elkaar
Wel op de gemaakte fouten wijzen.

De in deze studie onderzochte vorm van samenwerking was gemakkehjk te realiseren. Wel
duurde het ongeveer vier weken voordat de kinderen aan de nieuwe vorm van samenwerking
gewend waren. Dat verklaart wellicht waarom de relatieve leerwinst bij samenwerking pas in
een later stadium optrad. Samenwerken biedt een mogelijke oplossing voor grote klassen.
Waarbij het moeilijk is voor de leerkracht om leerhngen individuele aandacht te geven.

-ocr page 288-

284 De invloed van samenwerking en gezamenlijke beoordeling op spellingprestaties

LITERATUUR

Finn, J. (1978). Multivariance: Univariate and multivariate analysis of variance, covariance, regression and
repeated measures. User's guide.
Chicago; International Educational Services.

Harris, V. W., & Sherman, J.A. (1973). Effect of peer tutoring and consequences on math performance of
elementary classrooms students.
Journal of Applied Behavior Analysis, 6, 587-597.

Johnson, D.W., Maruyama, G., Johnson, R., Nelson, D., & Skon, L. (1981). Effects of cooperative,
competitive, and individuahstic goal structures on achievement; A meta-analysis.
Psychological
Bulletin, 89,
47-62.

Lomov, B.F. (1978). Psychological process and communication. Soviet Psychology, 1, 3-22.

Oudenhoven, J.P. van (1983). Onderwijsongelijkheid en evaluatieve feedback. Apeldoorn; van Walraven.

Pepitone, E.A. (1980). Children in cooperation and competition. Lexington, MA; Lexington Books.

Skon, L., Johnson, D.W., & Johsnon, R.T. (1981). Cooperative peer interaction versus individual
competition and individualistic efforts; Effects on the acquisition of cognitive reasoning strate-
gies.
Journal of Educational Psychology, 73, 83-92.

Wodarski, J.S., Hamblin, R.L., Buckholdt, D., & Ferritor, D. (1973). Individual consequences versus
different shared consequences contingent on the performance of low-achieving group members.
Journal of Applied Social Psychology, 3, 276-290.

Manuscript ontvangen 1-4-1985

Definitieve versie ontvangen 7-10-1985

-ocr page 289-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 285-288.

Notities en Commentaren

In het jaarboek 1984 van de Stichting voor Onderzoek van het Onderwijs (S.V.O.) schreef
Hofstee een bijdrage over evaluatieonderzoek. Omdat het de redactie belangrijk leek het
daarin vervatte standpunt meer publiekelijk ter discussie te stellen, heeft de redactie aan
Hofstee een bewerking van zijn bijdrage gevraagd, toegespitst op de evaluatie van de kwaliteit
van het onderwijs en de daarmee samenhangende problematiek van de relade tussen onder-
wijsevaluatoren en 'bestuurders'. Aan een aantal adviseurs is hun commentaar gevraagd.

Evaluatie: beoordelen van kwaliteit^)

W.K.B. Hofstee^

Evaluatie en evaluatieresearch spelen zich in verband met het onderwijs af op twee niveau's:
(1) beoordeling van de kwaliteit van onderwijs, en (2) beoordeling van de kwaliteit van de
onderwijsresearch. Voorzover die onderwijsresearch zelf evaluatieresearch is, is bij (2)
sprake van evaluatie van evaluatie. Men zou dat meta-evaluatie kunnen noemen, ware het
niet dat die term tegenwoordig (ten onrechte) in een andere betekenis wordt gebruikt, nl. die
van samengevoegd evaluatieonderzoek. In deze beschouwing ligt het accent op het eerste
niveau, dus evaluatie van onderwijs.

EVALUATIE VAN ONDERWIJS

Onderwijsbeleid speelt zich af in een macht- en belangencontext; datzelfde geldt voor de
evaluatie ervan. Beleidsprogramma's en programevaluatie vormen de bal die tussen de
partijen heen en weer wordt geschopt. Hoewel aan geen van de betrokken partijen idealen
kunnen worden ontzegd, kan hun opstelling het best worden begrepen vanuit hun belangen.
Het eerste belang van politici is, te worden gekozen; het tweede, te worden hergekozen. Het
belang van de departementale ambtenaar die zichzelf respecteert is vergroting van de 'span of
control': over financiële beleidsruimtes en aantallen ondergeschikten. Het belang van de
'eerkracht en de onderwijsverzorger/begeleider is de promotie van dat deel van de kwartaire
sector met het oog op werkgelegenheid en satisfactie. Het belang van de onderzoeker is
vergroting van de eigen reputatie. Het belang van de leerling is het verwerven van zo hoog
mogelijke diploma's met zo weinig mogelijk inspanning; dat van de ouders loopt daarmee
parallel onder de aantekening dat de bewaardoelstelling van het onderwijs voor hen een
belangrijker rol speelt naarmate de emancipatie voortschrijdt. Het belang van de belas-
tingbetaler tenslotte is zonder meer duidehjk.

Deze schets kan aanzienlijk worden genuanceerd en dat moet ook gebeuren. Want iedere
theorie over beleid of over programevaluatie die niet begint met een analyse van de (materiële

' Dit artikel bevat passages uit een stuk geschreven ten behoeve van het SVO Jaarverslag 1984.
^ Schrijver is prof. dr. K.B. Koster en Prof. dr. M. van der Kamp erkentelijk voor commentaar op een
eerdere versie.

-ocr page 290-

286 Notities en Commentaren

en immateriële) beloningsstructuren waaraan de betrokken partijen onderhevig zijn, de
daaruit af te leiden motieven en belangen, en de machtsmiddelen waarover ze beschikken om
die veilig te stellen, hangt in de lucht. Hetzelfde geldt voor iedere concrete toepassing van die
theorie. Het eerste echte handboek voor evaluatieresearch moet dan ook nog worden ge-
schreven.

Bij wijze van illustratie van deze gedachtengang volgt hier een enkele kanttekening bij de
analyse (SVO-memo 4) van de evaluaties van de onderwijsinnovaties Middenschool, Open
school en Basisschool (zie ook Scheerens, 1983 a en b). Bekend is dat het verloop en de
resultaten van de betreffende evaluatieprogramma's te wensen hebben overgelaten. Bekend
is ook dat daarvoor een veelheid van oorzaken kunnen worden aangewezen, zoals onwennig-
heid van zowel opdrachtgever als onderzoekers, ingewikkelde overlegstructuren,
animositeit
tussen Departement en SVO, enzovoort. Niettemin blijft als overheersende indruk achter dat
één factor centraal stond bij de afkalving van deze onderzoeksprojecten: de opstelling van het
betreffendd deel van de onderwijskundige provincie, annex onderwijsverzorgingsstructuur.
Het effect van die opstelling kan voorts niet los worden gezien van het feit dat omstreeks het
midden van de jaren '70 de politieke macht van de kwartaire sector een absoluut en historisch
hoogtepunt had bereikt. In die situatie was de behoefte zich via o.a. resultatencontrole te
legitimeren tot een evenredig nulpunt gedaald.

Het zal duidelijk zijn dat mijn interpretatie enigszins anders is dan de - overigens veel
doorwrochtere en genuanceerdere — bestuurskundige reconstructie die Scheerens (op. cit.)
geeft van de toedracht. Cronbach (1982) hanteert het onderscheid tussen een 'context of
command' en een 'context of accommodation', zo men wil een beheersings- of besturings-
context en een onderhandelingscontext. De niet-commerciële dienstverlening, voorwerp bij
uitstek van evaluatieresearch, beweegt zich onveranderlijk in een onderhandehngscontext; in
de eerste plaats omdat het percentage van het nationaal inkomen dat aan deze sector
wordt
besteed voorwerp is van permanente en fundamentele politieke tegenstellingen, en in de
tweede plaats omdat in de Westerse samenlevingen de kwartaire sector zelf een (electoraal-)
politieke macht van grote betekenis is. Dat zijn redenen om te vermoeden dat besturingspara-
digma's weinig toe - of afdoen aan de machtsverhoudingen. Zo kan men in een wet een artikel
opnemep luidende dat bijvoorbeeld de universiteiten c.q. onderwijsvoorrangsgebieden de
minister de gevraagde inlichtingen verschaffen (met het oogmerk daarop de externe
evaluatie
te stoelen), maar of het wordt geëffectueerd, hangt af van de machtsverhoudingen op een
bepaald moment. Evenzo kan men bepaalde onderzoeksbesturende instanties bepaalde
bevoegdheden toedenken, maar of die bevoegdheden oprijzen uit het platte vlak van het
papier, wordt bepaald door de onderhandelingsposities. Meer in het algemeen is het doelra-
tioneel besturingsmodel secundair ten opzichte van het onderhandelingsmodel. Zelfs de
marine-officier wordt geleerd nooit ccn bevel te geven als hij niet zeker weet dat het zal
worden uitgevoerd; zelfs dictaturen zijn te beschouwen als het voorlopig resultaat van een
permanent impliciet onderhandelingsproces. Daar waar voldoende instemming is verworven,
kan op een aspect of deelgebied volgens een doelrationeel besturingsparadigma worden

gewerkt; maar die instemming zelf moet worden uitonderhandeld.

«

De meest voor de hand liggende reacties van onderzoekers die terechtkomen in het hierboven
geschetste krachtenveld zijn naïviteit of juist cynisme. De naïviteit neemt de vorm aan van
doen alsof men laboratoriumonderzoek doet, het cynisme die van aanpassing aan dc sponsor
en/of aan het veld. De ene reactie slaat gemakkelijk over in de andere. Wel lijkt cr sprake te
zijn van ecn zekere taakverdeling waarbij gedragswetenschappers (althans in de perceptie van
sociale wetenschappers) doorgaans naïef zijn en sociale wetenschappers (althans in de per-

-ocr page 291-

287 Notities en Commentaren

ceptie van gedragswetenschappers) eerder cynisch. De kunst is, de derde weg te vinden.

De onderwijsevaluator is de natuurhjke bondgenoot van, en is gecommitteerd aan uitgere-
kend de twee andere zwakke partijen in het onderhandelingsproces: de leerling en de
belastingbetaler. De evaluator moet ertoe bijdragen dat de leerling met minimale inspanning
en tegen minimale kosten voor de gemeenschap zo ver mogelijk komt; door daartoe bij te
dragen werkt de evaluator tevens aan de eigen reputatie als onderzoeker. Men kan dit ook
anders formuleren: de onderwijs-evaluator is onvoorwaardelijk gecommitteerd aan het
doelrationeel denkkader. Deze taakstelling vloeit niet voort uit één of andere verwisselbare
opvatting, maar uit de structuur van de situatie zelf. Men kan ook in een andere structuur gaan
Werken, bijvoorbeeld een politicologische, en het electoraal effect van een bepaalde onder-
wijspolitiek trachten te evalueren met het oogmerk ertoe bij te dragen dat dat effect wordt
gemaximaliseerd tegen minimale kosten. Ook die activiteit is op zichzelf volstrekt legitiem.
Men kan alleen niet het één (bijvoorbeeld maximalisering van de politieke rationaliteit) doen
onder de vlag van het ander (bijvoorbeeld onderwijsevaluatie) zonder daarmee zijn weten-
schappelijke integriteit te verspelen.

De zwakke coalitie van leerling, belastingbetaler en onderzoeker (een soort Benelux) moet
het opnemen tegen de grootmachten bestaande uit de politiek, het departement, en het
onderwijsveld. De middelen die de coalitie, bij monde van de onderzoeker, ten dienste staan,
zijn uiterst beperkt. In de eerste plaats kan de onderzoeker spelen op het fatsoen en het
idealisme van de grootmachten. Dat fatsoen en idealisme plegen aanwijsbaar aanwezig te zijn,
maar vormen een zwakke drijfveer. In de tweede plaats kan de onderzoeker proberen de
grootmachten bewuster te maken van hun onderlinge onderhandelingspositie. Zo kan mo-
menteel met recht tegen de kwartaire sector worden gezegd dat harde evaluatiegegevens een
rol kunnen spelen in het vertragen van de afbouw van die sector. Wel is het risico levensgroot
dat zulke démarches ontaarden in een 'aangepaste' rolopvatting. In de derde plaats kunnen
evaluatieonderzoekers zich organiseren; als voetbaltrainers dat kunnen en er bijvoorbeeld in
slagen bepaalde clubs besmet te verklaren, dan zou dat op dit gebied ook mogelijk moeten
zijn. In de vierde plaats kan de aansluiting met het wetenschappelijk forum worden versterkt;
de overgang naar een universitaire status van de huidige SVO-instituten kan daarbij een rol
spelen.

BESLUIT: DE TOEKOMST

Pe verwachtingen over de kwaliteit en de invloed van de onderwijs-evaluatieresearch in de
toekomst kunnen niet hooggespannen zijn. Weliswaar zijn enkele randcondities verbeterd.
Een generatie van onderzoekers is inmiddels door de wol geverfd, en de ongunstige arbeids-
markt draagt ertoe bij dat hun ervaring behouden blijft voor de onderwijsresearch. Het
politiek klimaat ten aanzien van de kwartaire sector is kritischer geworden; zelfs in sociaalde-
mocratische kringen, althans in de voorhoede daarvan, draagt het besef dat de niet-com-
merciële dienstverlening moet worden verantwoord. Het is echter voorstelbaar dat dit besef
elders tot egelstellingen inplaats van tot grotere openheid zal leiden. Hoe dan ook blijft het
Voornaamste probleem waarmee de onderwijs-evaluatieresearch te kampen heeft onvermin-
derd van kracht: de noodzaak, te opereren in een gebied dat gekenmerkt wordt door strijdige
belangen en gevestigde machtsposities.

Een voorstelling van zaken als zou de evaluatieonderzoeker, of als zou de SVO de moge-
lijkheid hebben een fundamenteel andere constellatie teweeg te brengen, is niet realistisch.
Op de manier waarop een landsbestuur geen echte greep heeft op de hoogte en de groei van

-ocr page 292-

288 Notities en Commentaren

het nationaal inkomen, en alleen kan kaphaliseren op de ontwikkelingen die zich voordoen,
kan het evaluatieonderzoek alleen inspelen op de omstandigheden van het moment. Het
wetenschappehjk karakter ervan eist bovendien dat dU inspelen gebeurt met één hand
vastgebonden op de rug.

LITERATUUR

Cronbach, L.J. (1982). Designing evaluations of educational and social programs. San Francisco: Jossey-
Bass.

Scheerens, J. (1983a). Evaluatie-onderzoek en beleid. Den Haag: Stichting voor onderzoek van het
onderwijs.

Scheerens, J. (1983b). Het sectoronderzoek: Onderwijsonderzoek in de marge van wetenschap en

beleid? Den Haag: Stichting voor onderzoek van het onderwijs.
SVO, Onderzoeksbeleid met betrekking tot onderwijsvernieuwing. Den Haag: SVO-memorandum 4,
1983.

Ontvangen

-ocr page 293-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 289-291.

Er is meer te doen

A. D. de Groot

Hofstee's analyse slaat de spijkers waar het hem om gaat op de kop. Dat deze commentator
met de strekking ervan instemt is nauwelijks nieuws; dat hij de rake formuleriiigen en de
beknoptheid van het stuk bewondert is wel nieuws en dat moet allereerst gezegd worden. Het
betekent dat hieronder alleen een paar kanttekeningen en aanvullingen kunnen worden
gepresenteerd.

1. In Hofstee's schets van het krachtenveld waarin onderwijsevaluatie plaatsvindt worden
van de velschillende partijen alleen hun meest directe, egoistische belangen genoemd.
Hoewel die belangen evident aanwezig zijn verleent juist deze simplificatie aan zijn stuk een
sterk verrassingseffect. Hoe kan dat? Is het alleen maar dat belangen die vanzelf spreken in
feite vanzelf verzwegen plegen te worden?

Zo eenvoudig is het niet; aan het tweede 'vanzelf hggen een psychologisch mechanisme')
en een sociale code ten grondslag. De vraag in hoeverre het eerste in het spel is, d.w.z. in
hoeverre wij trachten om eigen motieven, bewust of onbewust, 'mooi te houden', is nu niet zo
interessant. Hoofdzaak is de sociale code. Die houdt in dat wij het in onze 'onderhandelingen'
(Hofstee's term) en ook in de conversatie met elkaar mooi houden, d.w.z. dat wij elkaar onze
rationalisaties gunnen. 'Rationalisatie' van de communicatie betekent dan: het met elkaar
ophouden van de schijn van een puur 'doelrationele' denkwijze - alsof de partijen allemaal
alleen de belangen van de leerling, van de belastingbetaler en van het land aan het behartigen
zijn. Het wordt in gesprekken tussen partijen en zeker in geschriften over onderwijs-evaluatie
als min of meer onfatsoenlijk beschouwd om door de ander ingenomen standpunten met zijn
privé- of groepsbelangen in verband te brengen. Dit faciliteert het verzwijgen van de eigen
ijzers in het vuur - en zo bhjft de discussie 'mooi' maar onoprecht.

Sommige onderwerpen blijven daarom systematisch onder de tafel. Zo vindt men in witte
en grijze stukken bijvoorbeeld zelden of nooit verwijzingen naar partijpolitieke belangen,
naar de wet van Parkinson of naar het belang van de onderzoeker dat meespeelt als hij aan het
eind van zijn rapport concludeert dat over dit (zijn) onderwerp méér research 'dringend
noodzakelijk is'.

Juist omdat dit taboe in de communicatie heerst is het verrassend, en uiterst nuttig, dat
Hofstee een algemene aanval inzet op onze rationalisaties. Zijn conclusie, dat zonder zo'n
analyse van bclangen-posities 'iedere theorie over beleid of over programevaluatie en ieder
handboek 'in de lucht hangt', is in principe juist. Aangezien die conclusie zelf ook wordt
bedreigd door het taboe, met bijbehorende afweermechanismen (vergeten), kan daaraan
Worden toegevoegd dat die conclusie nog vaak zal moeten worden herhaald.

2. Niettemin zijn nuanceringen mogelijk en nodig - Hofstee zegt het zelf. Een zo'n
nuancering is dat er in alle belangengroepen uitzonderingen zijn: leerlingen die echt in
bepaalde onderwerpen geïnteresseerd zijn, die hun best doen en de weg van de minste

' Het afweermechanisme heeft verschillende aspecten waarvoor psychoanalytici verschillende namen
hebben: verdringing, onderdrukking, loochening, justificatie, rationalisatie e.a. Ook vermijden van
'cognitieve dissonantie', hoewel uit een andere hoek afkomstig (Festinger, 1957), behoort tot dc
familie.

-ocr page 294-

290 Notities en Commentaren

weerstand verachten; politici die werkehjk een objectieve evaluatie van hun vernieuwings-
voorstellen willen en bereid zijn op grond daarvan hun mening te veranderen. Tenminste, wij
moeten ervan blijven uitgaan dat zulke uitzonderingen (kunnen) bestaan - en wel niet alleen
onder evaluatoren, met hun eigen-belang-hand 'vastgebonden op de rug'. Generalisades van
het type: 'Het gaat hun om niets anders dan...' moeten worden vermeden.

3. Met deze laatste formulering wordt in feite een wat andere nuancering aangebracht.
Menselijke motivatie is nooit een of dit of dat-affaire maar altijd complex. Zo evident als dit is,
wij blijken het daar telkens weer moeihjk mee te hebben. Niet alleen (straf-)rechters plegen te
zoeken naar 'het' motief, ook wij doen dat maar al te vaak in de wandeling - en zeker in de
roddel. Wij plegen mensen één bedoeling toe te schrijven. Dat is zelfs lange tijd gebruikelijk
geweest bij ondernemingen: 'het' doel is het maken van winst. Herbert Simon heeft daarover
in de zesdger jaren een verhelderend artikel geschreven (1962), waarvan de kern neerkomt
op de verwisselbaarheid van doelstellingen en randvoorwaarden. Dat geldt ook in de indivi-
duele sfeer. Een onderzoeker wil carrière maken (doel) maar dan wel zo dat zijn weten-
schappelijk werk aan de regels van het (Forum-)spel voldoet (randvoorwaarde); of omge-
keerd, hij wil de wetenschap bevorderen, maar dan wel zo dat hij er zelf beter op komt te
staan. Idem voor een onderwijspoliticus: 'self-serving' idealisme en idealistische (of ideolo-
gische) 'self service' zijn beide mogehjk en min of meer verwisselbare beschrijvingen.

In ieder geval moet worden vermeden dat Hofstee's nuttige simplificatie verwordt tot een
cynische 'simplificatie', in pejoratieve zin. Niet alleen om morele maar ook om algemeen
'opvoedkundige' redenen is dat ongewenst: wantrouwen belemmert, vertrouwen bevordert-
soms en tot op zekere hoogte - nobele en altruïstische motieven.

4. Moet daarbij dan toch het meest egoistische motief vooropstaan, a la Hofstee? Het
antwoord is ondubbelzinnig: Ja. De reden daarvoor is onder punt 1 al aangegeven. Dit wordt
in de communicatie het gemakkelijkst vergeten, verdrongen, gerationaliseerd, opgepoetst tot
iets moois, verstopt in ingewikkelde beschouwingen of immunisatie-praktijken. Niet het
menselijke egoisme maar het taboe op spreken erover is de belangrijkste vijand van een
integer en effectief 'doelrationeel' denken en onderhandelen. Uitgaan van de vanzelf-
sprekendheid van egoisme, maar dan met ruimte voor andere motieven, is de beste strategie.

5. Nóg een punt verdient meer aandacht dan Hofstee er in het kader van zijn artikel aan
kan geven: onze rationalisatie-technieken zijn vaak zo geraffineerd, dat zij moeihjk als
zodanig te doorzien zijn. Niet alleen diplomaten zijn meesters in het gebruiken van taal om
hun bedoelingen te verhullen. Beleidsvoerders en onderzoekers doen dat ook geregeld. In
principe is natuurlijk bekend dat ingewikkeld gehouden analyses en moeihjk gemaakte
theorieën kunnen dienen om kritische lezers te doen afhaken en de eigen eenzijdigheid te
verbergen. Evenzo dat er tal van sociaal ogende argumenten te produceren zijn om te
verhinderen dat een geliefde, self-serving opvatting door de feiten wordt weerlegd. Immuni-
satie-procedures zijn des te efficiënter naarmate ze ondoorzichtiger zijn. Dat maakt het
doorzien ervan niet eenvoudiger.

Zoals bekend was Alfred Adler daar een meester in. Zijn analyses werden niet altijd op
prijs gesteld; volgens Popper was hijzelf een topimmunisator, die alle kinderlijke gedrags-
afwijkingen 'veilig' toeschreef aan minderwaardigheidsgevoelens - die 'onbewust' konden
zijn. Maar die eenzijdigheid bleek mee te vallen toen ik hem, kort voor zijn dood, in 1934, in
een cursus aan de Amersfoortse Internationale School van Wijsbegeerte meemaakte. Nadat
hij een geraffineerde, 'gezochte' analyse van het machtsaspect van het gedrag van een
neurotische patiënt had gegeven vroeg iemand uit het publiek hem of hij nu werkelijk dacht
dat die patiënt dat, bewust of niet, zo slim had 'uitgedacht'. Adlers antwoord was kort: 'Man
musz das gesehen haben.'

-ocr page 295-

291 Notities en Commentaren

■ 6. Dit nu is een uitstekend motto voor de volgende kanttekening. Op algemene, niet op
specifieke personen of groepen gemunte
analyses van gecompliceerd gedrag van mensen, in
welke belangengroep dan ook, waaruit de feitelijke ego-(of machts-)winst-effecten blijken,
moet géén taboe rusten. De vraag of een individuele persoon dat al dan niet zo geraffineerd
heeft 'uitgedacht' doet daarbij niet ter zake. Het kan ook zeer goed zijn dat hij alleen maar de
in zijn club heersende traditie volgt. Maar die traditie zelf verdient dan een socio-psychologi-
sche analyse: wat wint men voor eigen doelen met de gekozen opstelling? Hier is werk aan de
winkel voor praktisch, zelfkritisch denkende en (een beetje) Adleriaans geschoolde psy-
chologen.

7. Deze laatste aanbeveling is nogal gevaarlijk; de crux ligt bij dat 'zelfkritisch denken'.
Het gevaar is al genoemd: zonder die zelfkritiek dreigt hier weer het verwerpelijke reductio-
nisme (de Groot, 1981) van niets-anders-dan simplificaties. Daar zijn verschrikkelijke voor-
beelden van (b.v. Vroon 1980, p. 171; Fleck's hele werkwijze, 1980; toepassing daarvan door
Harbers, 1983; e.v.a.). Maar die voorbeelden moeten niet leiden tot de onjuiste generalisatie
dat men zich beter van zulke analyses kan onthouden, maar aansporen tot het leveren van
beter werk.

Eén voorbeeld moge dienen om te illustreren wat hiermee wordt bedoeld. Zowel het
behavioristische uitgangspunt, dat alleen het gedrag telt (en mededelingen van de persoon zelf
over zijn eigen processen uitdrukkelijk niet) als het psychoanalytische, dat diezelfde persoon
zijn meest fundamentele onbewuste motieven niet kan kennen (zonder analyse) hebben het
effect dat de persoon onmondig wordt gemaakt - en de psycholoog respectievelijk de
analyticus machtig. De impliciete boodschap in beide standpunten is: 'Hoe het bij jou werkt
weet je zelf niet; daar heb jij - en daar heeft de wereld - ons voor nodig.' Zulke winst-effecten
pro Domo in uitspraken die quasipro Foro worden gedaan moet men 'gesehen haben', in de
eerste plaats in eigen denken, vervolgens in de tradities van de eigen club(s) daarna in die van
anderen. Wat Hofstee heeft gedaan past in dit kader; maar er is veel meer te doen.

LITERATUUR

Festinger, L. (1957). A theory of cognitive dissonance. Evanston, IL.: Row, Peterson.

Fleck, L. (1980). Die Entstehung und Entwicklung einer wissenschaftlichen Tatsache; Einführung in die
Lehre vom Denkstil und Denkkollektiv. Frankfurt, (oorspr. 1935).

De Groot, A.D. (1980) Over Determinanten van reductionistisch gedrag. Ned. Tijdschrift voor de
Psychologie, (36,
237-248

Harbers, H. (1982, 1983). Het Talentenprojekt, een sociologische case study naar kennisproduktie in de
sociale wetenschappen.
Kennis en Methode, 6, 290-312; 7, 4-34.

Parkinson, C.N. (1958), Parkinson's Law or the pursuit of progress. London: John Murray.

Simon, H.A. (1964) On the concept of organisational goal. Admin. Science Quart. 9, 1.

Vroon, P.A. (1980). Intelligentie. Over het meten van een mythe en de politieke, sociale en onderwijskundi-
ge gevolgen.
Baarn: Basisboek Ambo.

Ontvangen 1-10-1985

-ocr page 296-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 292-293.

Onderhan(ielen en besturen op het terrein van
evaluatie-onderzoek

J. Scheerens
(SVO)

Bij het gebruik van de termen 'onderhandelen' en 'besturen' in Hofstee's artikel 'Evaluatie:
beoordelen van kwaliteit' zijn drie kritische kanttekeningen te maken.

In de eerste plaats worden besturingsparadigma's door Hofstee ten onrechte opgevat als
stuurmaatregelen die in een bepaalde situatie al dan niet effectief zouden zijn. Dat blijkt uit de
zinsnede waarin gesteld wordt dat 'besturingsparadigma's weinig toe- of afdoen aan de
machtsverhoudingen.' Besturingsparadigma's zijn analytische schema's, die men onder meer
kan gebruiken om de machtsverhoudingen binnen een bepaalde organisatorische configuratie
systematisch te. analyseren (vgl. De Leeuw, 1974). Een dergelijke analytische exercitie
betekent allerminst dat bij voorbaat vaststaat dat een besturend orgaan veel mogelijkheden
heeft om in de situatie die object van de analyse is een 'fundamenteel andere constellatie
teweeg te brengen'. Uit de voorbeelden die Hofstee aanhaalt om duidelijk te maken dat 'de
niet-commerciële dienstverlening zich onveranderlijk in een onderhandelingscontext be-
weegt' ontstaat bovendien de indruk dat hij het besturingsperspectief gelijk stelt met be-
stuurlijke zelfoverschatting. Wanneer er wèl rekening gehouden wordt met beperkende
randvoorwaarden kwalificeert Hofstee de shuatie met wat hij als het tegendeel van een
besturingscontext ziet, nl. een onderhandelingscontext. Daarmee wordt voorbij gegaan aan
het belang dat binnen de besturingstheorie wordt toegekend aan de begrensdheid van het
bestuurlijk vermogen van een bestuurder.

In de tweede plaats is te bestrijden dat besturen en onderhandelen als tegenstellingen
beschouwd moeten worden. Besturen is een meer omvattend begrip; een onderhandelings-
strategie kan beschouwd worden als aspect van een besturingsstrategie. Besturen omvat méér
dan het handig uitspelen van de eigen mogelijkheden en beperktheden aan de onderhan-
delingstafel, nl. ook, voor zover dat binnen het besturend vermogen ligt, het beïnvloeden van
die mogelijkheden en beperktheden zelf. Dc mogelijkheid dat evaluatie-onderzoekers zich
organiseren is ccn voorbeeld van dit laatste. Verder is onderhandelen evenals besturen een
doelgericht proces dat bij nadere analyse (vgl. Mastenbroek, 1984, p. 85) volgens hetzelfde
rationele model kan worden gereconstrueerd. Zo zijn onderhandelingsprocessen, interor-
ganisationele territoriumgevechten en veldslagen te reconstrueren of te simuleren met ecn
variant van het rationele model, de speltheorie.

In de derde plaats misstaat naar mijn mening in Hofstee's artikel de instemmende verwij-
zing naar Cronbach's onderscheid in een 'context of command' en ecn 'context of accommo-
dation'. Hier krijgt het (toch al overbodige) tegenover elkaar pjaatsen van 'besturen' en
'onderhandelen' een demagogisch karakter. Door aan de term 'besturingscontext' de re-
strictieve betekenis te geven van een 'bevelscontext' wordt de stroman opgericht die in het
verdere betoog, al dan niet voorzien van de categorisch onjuiste benaming 'besturingspara-
digma', wordt neergesabeld.

Met het bovenstaande wordt overigens niet ontkend dat de organisatie en besturing van
beleidsgericht evaluatie-onderzoek in Nederland aan veel beperkingen onderhevig is en dat

-ocr page 297-

293 Notities en Commentaren

er daarbij veelvuldig onderhandeld zal moeten worden. Evenmin wordt ontkend dat er naast
de 'officiële', de 'taakgerichte' doelen ook overwegingen van 'politieke' en 'bureaucratische'
rationaliteit een rol zullen spelen (Vgl. Scheerens, 1983, hfdst. 3). Op Hofstee's globale
analyse van de motieven, belangen en machtsmiddelen van de voornaamste actoren is weinig
af te doen, al mis ik daarin nog de mogelijkheid van samenwerking tussen onderzoeksinstel-
lingen en landehjke instanties als SVO, CITO, CBS en misschien ook de onderwijsinspectie.

De 'practische' implicatie van de hierboven weergegeven terminologische kritiek op Hof-
stee's artikel is de verondersteUing dat het besturingsperspectief kan leiden tot een reële
inschatting van de mogeUjkheden van de onderzoekersgemeenschap om de uitvoerings-
context van evaluatie-onderzoek te beïnvloeden, dat zulks niet gepaard behoeft te gaan met
bestuurhjke zelfoverschatting en dat daarentegen de zienswijze volgens welke de situatie in
kwestie aUeen als een 'onderhandelingscontext' wordt gezien juist het risico inhoudt dat de
besturingsmogelijkheden onderschat worden.

LITERATUUR

Hofstee, W.K.B. (1985). Evaluatie: beoordelen van kwaliteit. Tijdschrift voor Onderwijsresearch 10.
Leeuw, A.C.J. de (1974).
Systeemleer en organisatiekunde. Leiden: Stenfert Kroese.
Mastenbroek, W.F.G. (1984).
Onderhandeten. Utrecht: Spectrum.
Scheerens, J. (1983).
Evaluatie-onderzoek en beleid. Harlingen: Flevodruk B.V.

Ontvangen 27-9-1985

-ocr page 298-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 294-295.

Evaluatieonderzoek en rationaliteit

K.M. Stokking

Hofstee (1985) beschrijft de situatie van de onderzoeker die zich met evaluatie van onderwijs
bezighoudt. Hij schetst een zwakke coalitie (van leerling, belastingbetaler en onderzoeker)
die het moet opnemen tegen grootmachten (pohtiek, departement en onderwijsveld). Tegen-
over Scheerens' analyse van beleidsgericht evaluatieonderzoek in termen van een doelratio-
neel besturingsmodel stelt Hofstee het primaat van een onderhandelingscontext. Over de
toekomst van het onderwijsevaluatieonderzoek is hij weinig optimistisch.

Vooraf dient te worden opgemerkt dat Hofstee niet onderscheidt tussen evaluatie en
evaluatieonderzoek. Evalueren in de betekenis van waarderen kan, maar hoeft niet te
geschieden op basis van onderzoek of als vanzelfsprekend voortvloeisel uit onderzoek. Dit is
hier relevant omdat niet alleen de onderzoeker zich met evalueren bezighoudt. De taak om
evaluerende uitspraken te doen over een programma of beleidsmaatregel behoort juist tot het
pakket waarover onderhandeld moet worden.

Mijn voornaamste kritiek betreft de evaluator als 'natuurhjke bondgenoot' van leerhng en
belastingbetaler. Het is verheugend dat de laatste in Hofstee's pandemonium inmiddels een
plaats heeft verkregen (vergelijk Hofstee, 1983). De centrale these van het committment van
de evaluator/onderzoeker aan 'het doelrationeel denkkader' wordt er echter al met al niet
duidelijker op. Immers: voor een nadere invulling van dit denkkader doen zich verschillende
mogelijkheden voor. (1) Het bijdragen tot een situatie waarin de leerling met minimale
inspanning en tegen minimale kosten voor de gemeenschap zover mogelijk komt. (2) Het
werken aan de eigen reputatie als onderzoeker voorzover door het voorgaande gediend. (3)
Het werken aan de eigen reputatie, ook al gaat dat niet samen met de aangeduide bijdrage aan
verbetering van het onderwijs, in termen van wetenschappelijk gelijk, ongeveer zoals Hofstee
(1980) bedoelde. (4) Het werken aan de eigen reputatie, ook al is die welhcht niet eens zo
afhankehjk van het verkrijgen van wetenschappelijk gelijk (doelrationaliteit in termen van
het eigenbelang van de onderzoeker).

Door duidelijker dan voorheen (zie Hofstee, 1983) het bestaan van idealen te erkennen als
zijnde relevant in zijn type methodologische beschouwingen maakt Hofstee het zichzelf
moeilijker om te spreken van 'het' doelrationeel denkkader. Mensen streven niet alleen
(eigen) belangen na. Er zijn ook mensen die pogen waarden te reahseren, waarden die met
andere waarden in conflict kunnen komen. Een voorbeeld is het volgende. Stel dat het
onmogelijk zou zijn om genoemde onderwijsverbetering tegelijkertijd te reahseren voor
zowel 'zwakke' als 'goede' leerhngen. Welke keuze dient de onderzoeker dan te maken? Het
criterium van 'wetenschappelijke integriteit' is dan onvoldoende onderscheidend (tenzij
'integriteit' ruimer zou worden opgevat).

Bovenstaande overwegingen betreffende het doelrationeel denkkader hebben eveneens
gevolgen voor de waardering ervan en de verdere uitwerking die Hofstee er aan geeft. Hofstee
noemt vier middelen die de coalitie waarvan de onderzoeker deel uitmaakt ten dienste staan.
Ten eerste: appeleren aan fatsoen en idealisme. Wij blijven op dit punt optimistischer dan
Hofstee; ieder vogeltje zingt nu eenmaal zoals het gebekt is. Ten tweede: expliciteren van
onderhandelingsposities. Deze mogehjkheid is wellicht de voornaamste, via de munt van de
legidmiteit van de kwartaire sector. Ten derde: de boycotactie. Deze weg lijkt ons moeilijk

-ocr page 299-

295 Notities en Commentaren

begaanbaar. Zoals Hofstee zelf al stelt hebben evaluatieonderzoekers niet de mogelijkheid
om een fundamenteel andere constellatie teweeg te brengen. En het door Hofstee graag
genoemde eigenbelang vergt behalve reputatie ook brood op de plank. Ten vierde: weten-
schappelijke status. Het lijkt naïef om hieraan in genoemde onderhandelingsshuatie veel
gewicht toe te kennen. De reputatie van de evaluator-onderhandelaar kent ook andere
bronnen die zeker zo belangrijk zijn, zoals goede contacten en geloofwaardigheid (juist ook
door consequentheid in de waarden-keuzen waarop we boven doelden) (zie ook Stokking,
1984).

Twee opmerkingen tot slot.
Terecht stelt Hofstee dat analyse van beloningsstructuren belangrijk is. Men kan zich afvra-
gen of evaluatieonderzoek wel zo'n voorname plaats dient te hebben in het streven naar
kwahteitsverbetering van het onderwijs, althans evaluatieonderzoek naar het functioneren
van staande organisaties. We bedoelen hier geen boycotactie te ontketenen, maar een
kosten-baten-analyse: welk type activiteit van onderwijsonderzoekers levert het meeste
rendement, in termen van onderwijsverbetering?

Hofstee wordt wel erg etherisch als hij dictaturen beschrijft als gebaseerd op 'een permanent
impliciet onderhandelingsproces'. Slachtoffers van dictaturèn beschikken vaak niet over de
machtsmiddelen om van een onderhandelingssituatie te kunnen spreken. Daarmee vergele-
ken is de situatie van de Nederlandse onderwijsevaluatieonderzoeker, evenals die van de
methodoloog-publicist, paradijselijk, Hofstee's schets ten spijt.

LITERATUUR

Hofstee, W.K.B. (1980). De empirische discussie. Meppel/Amsterdam.

Hofstee, W.K.B. 0983). Evaluatie versus begeleiding. Tijdschrift voor onderwijsresearch, 8, 39-41.
Hofstee,
W.K.B. (1985). Evaluatie: beoordelen van kwaliteit. Tijdschrift voor onderwijsresearch, 10,
28.S-288.

Stokking, K.M. (1984). Interpreteren cn evalueren. Methodologie rondom de uitkomsten van onder-
zoek. Deventer.

Ontvangen 16-9-1985

-ocr page 300-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 296.

r.

Het evaluatiepandemonium: naschrift bij De Groot,
Scheerens en Stokking

W.K.B. Hofstee

De vraag is hoe het door mij zeer ruw (of rauw) geschetste homo-economicus-perspectief op
de constellatie waarin evaluatie plaatsvindt, moet worden genuanceerd. Dèt nuances nodig
zijn, daarover bestaat geen verschil van mening.

Anders dan De Groot en Stokking ben ik niet geneigd de nuancering te zoeken in een
inperking van het bereik van zo'n perspectief. De randvoorwaarden (De Groot) waarbinnen
de onderzoeker c.q. de politicus opereert, kunnen moeiteloos worden gesubsumeerd onder
dat perspectief, nl. als uitvloeisel van een welbegrepen eigenbelang op wat langere termijn.
Stokking heeft gelijk wanneer hij stelt dat het economisch perspectief op de beweegredenen
van bijv. de onderzoeker kan leiden tot verschillende, eventueel zelfs onderling concurreren-
de uitwerkingen. Maar dat ontkracht niet het predictief potentieel van het perspectief: niet al
die concurrenten zullen even sterk blijken.

Misschien wat paradoxaal gezegd ligt m.i. de ware nuancering van een perspectief juist in de
radicalisering ervan. Het met ijzeren consequentie doorvoeren van een gezichtspunt leidt
gegarandeerd vroeg of laat tot een bepaalde vorm van hilariteit, en daarmee tot het besef dat
het gezichtspunt er één onder andere is. Via de band van de verabsolutering bestrijdt men het
best de altijd aanwezige neiging tot het voeren van ontologische pretenties. Ik zie m.n. De
Groot hierover al de wenkbrauwen fronsen, maar per saldo zijn we het eens: reductionisme in
de ontologische zin is het prerogatief van domme mensen.

Radicalisering is verder een waterdichte garantie tegen eclecticisme. Stokking zegt: 'Er zijn
ook mensen die pogen waarden te realiseren'. Het risico van zo'n uitspraak is dat mensen
worden ingedeeld in belangenbehartigers en idealisten: bad guys en good guys. Dat kan niet
zinvol de bedoeling zijn. Gedrag kan worden begrepen vanuit verschillende perspectieven die
los staan van elkaar; op het theoretische vlak kan men ze niet vermengen. Het innemen van
het ene perspectief ontkent niet de mogelijkheid zich op een ander gezichtspunt te stellen.
Men kan van perspectief switchen. Maar als men probeert twee perspectieven tegelijk in te
nemen, leidt dat al gauw tot ongelukken. Consequente verabsolutering van één perspectief-
voor het moment - voorkomt die.

Daarmee is niet gezegd dat het ene of het andere gezichtspunt lood om oud ijzer is. In het
empirische vlak kan blijken dat het predictief potentieel van het ene perspectief groter is dan
van het andere. De meta-predictie die ten grondslag lag aan mijn analyse was dat het
economisch perspectief een relatief groot predictief potentieel zal blijken te bezitten. Het lijkt
erop dat Scheerens die metapredictie niet aanvecht. Wat hij doet is grosso modo het volgende:
hij neemt-consequent - het gezichtspunt in van het besturingsparadigma en laat zien dat in
dat perspectief verschijnselen een andere betekenis krijgen: ondphandelen is een vorm van
besturen, niet iets wat daarmee in tegenstelling staat. Dat mag allemaal best, maar mijn punt
was in feite dat het economisch gezichtspunt een groter predictief potentieel zal blijken te
hebben dan het besturingsparadigma. Scheerens weerspreekt dat niet, maar beperkt zich tot
de stelling dat men zaken ook anders kan opvatten. Dat is bij voorbaat toegegeven.

Tot slot een opmerking over Stokkings pessimisme over de mogelijkheid van coalitievor-
ming door evaluatie-onderzoekers. Duidelijk is inderdaad dat die zich in een sociaal-dilem-
ma-situatie bevinden. En ook hoe men sociale dilemma's het hoofd biedt: door zich te
verenigen. In plaats van gelaten constateren wat de situatie is, zouden we er goed aan doen
hem te veranderen.