Een twee-maandelijks tijdschrift voor onderzoekers van on-
derwijs, gewijd aan theoretische, methodologische en pro-
fessionele problemen in de onderwijsresearch.

Tijdschrift voor Onderwijsresearch 8 (1983) nr. 6
INHOUD JAARGANG 8,1983
Artikelen

De Corte, E., & Lowijck, J. Heroriëntatie in het onderzoek van het onderwijzen 242
Gruijter, Dato N.M. de, & Mooijaart Ab. Least squares estimation of the item

Kuhlemeier, Hans. Vergelijkend onderzoek naar de percepties van de leerom-
geving in PLON-onderwijs en regulier natuurkunde-onderwijs ]
Oudenhoven, Jan Pieter van, Siero, Frans, Veen, Peter, & Withag, Jan. De effec-
ten van geïndividualiseerd beoordelen en lesgeven op inzet-attributies, compe-
tentie-attributies en spellingprestaties 17
Rooijen, L. van & Vlaander, G.P.J. Het optreden en uitblijven van halo-effecten

Vos, P. & Zuur, A.P. Over ruimtelijke interpretatie van plat afgebeelde molecu-
laire structuren 172
Wollenbcrg, Arnold L. van den. Measuring subjects on a joint scale by means of
time-limit tests I45

Boef- van der Meulen, S. Regionalisatie, het nieuwe medicijn? 29
Creemers, Bert P.M. Paradigma of alibi: Een reactie op 'Heroriëntatie in het on-
derzoek van het onderwijzen' 270
Dorp, C. van. De virulente reactie: Over rapporten die niet (meteen) in een Iade

verdwijnen 122
Gruijter, Dato N.M. de. Het tentamensysteem in het WO I25
Hofstee, W.K.B. Evaluatie versus begeleiding 39
Holleman, J.W. Studiepunten en judicia 127
Knoers, A.M.P. Kanttekeningen bij een heroriëntatievoorstel 261
Naerssen, Robert F. van. Het nut van multiple evaluatie nogmaals geschat met si-
mulatie 224
Stokking, K.M. Reactie op Hofstee: 'Evaluatie: een methodologische analyse' 34
Stokking, K.M. Een korte reactie op de boekbespreking door Jan Slavenburg 42

Boekaerts, M. Onderwijsleerprocessen organiseren: Hoe doe je dat...? Nijme-
gen: Dekker & Van de Vegt. 1982 (P. Weeda) 138
Boekaerts, M. Towards a theory of learning based on individual differences.

Bontius, Ida, & Korte, Sanny de. Meisjes in opleiding voor een verzorgend be-
roep. Harlingen: Flevodruk, 1982 (An van Bolhuis-Poortvliet) 134
Doets, Cees. Fraktijk <6 Onderzoek: Wetenschap in wisselwerking met praktisch

Groot, R. de Adolescenten met leermoeilijkheden in hel IBO. Groningen: Wol-
ters-Noordhoff, 1981 (S.J. Pijl) 129
Jungbluth, Paul. Docenten over onderwijs aan meisjes. Nijmegen: Instituut voor

Matthijsen, M.A.J.M. De elite en de mythe: Een sociologische analyse van
strijd om onder^vijsveranderit\g. Deventer: Van Loghum Slaterus, 1982 (M. du

Nieuwenhuis, L. Praktijkleren in het MHNOIMSPO nieuwe stijl. Harlingen: Fle-
vodruk. 1982 (Bert de Vries) 229
Tamir, P.. Blum, A. & Sabar, N. (Eds.). Curriculum implementation and its
relationship to curriculum development in science. Jerus»ilcm: Israel Science
l eaching Center, Hebrew University, 1979 (J.J.H. van den Akker) 227
Veenman. S.A.M.. & J.J. Kok (Red.). De ontwikkeling en evaluatie van het on-
derwijsleerpakket 'Interaktie-analyse', 's-Gravenhage: Staatsuitgeverij, 1979
(G.Tistaert) 44
Vliet. G. van. Denken en doen bije.xperimenteelonderzoek. Groningen: Wolters-
Noordhoff, 1982 (Kees Beintema) 238

Tijdschrift voor Onderwijsresearch 8 (1983) nr. 1 Af«". Qn<icry,rjï<»ntwrkkellBg 1

Vergelijkend Onderzoek naar de Perceptie van
de Leeromgeving in PLON-onderwijs en
Regulier Natuurkunde-onderwijs

Students perceptions of the learning environment in open, enquiry-based physics classes

In this study an attempt was made to measure the impact of an open, enquiry-based physics
curriculum on pupils' perceptions of their learning environments.

It was hypothesized that students following the new Physics Curriculum Development Project
(PLON), relative to students following conventional curricula, would perceive their classrooms in
a more favourable manner. The sample contained 30 third-grade physics classes at the intermediate
general level: 15 formed the PLON group, 15 were randomly selected from the total available pool
of conventional physics classes.

The students' perceptions of their actual and preferred learning environments were measured by
the Perception Learning Environment Scale (PLOS). The subscales of the PLOS are linked with
common characteristics and claims of the enquiiy-based education approach and measure the
extent to which there is emphasis on personalisation, participation, independence, investigation,
or differentiation.

Multivariate analysis of variance with discriminant functions revealed a significant and substantial
difference. PLON pupils, in contrast to control pupils, perceived their classrooms as having more
emphasis on four of the five learning environment dimensions, namely participation, indepen-
dence, investigation, and differentiation. Surprisingly, the PLON pupils did not perceive their
teachers as being more encouraging, helpfull, friendly or interesting. In addition, it was concluded
that PLON pupils were more satisfied with their actual learning environments than control pupils.

In dit onderzoek staat de vraag centraal naar de differentiële kenmerken van PLON-onderwijs
t.o.v. gangbaar natuurkunde-onderwijs.

Getracht is na te gaan de mate waarin het PLON-team effectief geweest is in het creëren van
een leeromgeving die consistent is met de PLON-uitgangspunten. Genoemde effectiviteit is
gemeten door de perceptie van de leeromgeving van leerlingen die PLON-lesmateriaal gebrui-
ken te vergelijken met de perceptie van een steekproef van conventioneel lesmateriaal gebrui-
kende leeriingen.

Alvorens bovengenoemde vraagstelling nader te specificeren, wordt in kort bestek ingegaan
op PLON-onderwijs en op de gekozen criteriumvariabele, nl. de perceptie van de leeromge-
ving.

1. Bewerking van een doctoraalscriptie in het kader van de studie onderwijskunde aan de K.U. Nijme-
gen.

Het Projekt Leerpakket Ontwikkeling Natuurkunde (PLÖN) ontwikkelt in samenwerking
met leraren, curricula voor het voortgezet onderwijs (MAVO, HAVO en VWO). Het project
werkt sinds 1972 onder auspiciën van de ACLO-N en is gehuisvest bij de Rijksuniversiteit
Utrecht als onderdeel van de vakgroep natuurkunde-didactiek. Naast ontwikkeling rekent het
project o.a. onderzoek en begeleiding van leraren tot zijn taken.

PLON-onderwijs wijkt nogal af van het 'gewone', gangbare natuurkunde-onderwijs, zoals de
meeste lezers dit indertijd genoten zullen hebben. Mede ter verhoging van de interpreteer-
baarheid van de in deze studie gevonden resultaten lijkt een beknopte beschrijving van het
eigene van PLON-onderwijs t.o.v. regulier natuurkunde-onderwijs, zinvol.
Ter illustratie van deze eigenheid wordt in het volgende summier ingegaan op de wijze waarop
vijf cruciale uitgangspunten van PLON-curricuIumontwikkelaars in het curriculum en/of de
lespraktijk gestalte hebben gekregen.

In een gesloten curriculum zijn zo mogelijk alle componenten van het onderwijsleerproces en
de onderwijsleersituatie tot in de laatste details voorgetekend. Het PLON-curriculum daaren-
tegen gaat uit van basisthema's (zo'n zeven ä acht per jaar) waarbinnen niet alleen voor de
leraar maar ook voor de leerlingen keuze- en uitwerkingsvrijheid bestaat.
Elk thema behandelt een natuurkundig basisonderwerp en is meestal opgebouwd uit drie
fasen, te weten enkele lessen waarin oriëntatie op het thema met enige basisstof, een groot
aantal lessen waarin zelfstandig leerlingonderzoek centraal staat, gevolgd door enkele meer op
integratie en evaluatie gerichte lessen. Voor ieder thema is een handleiding ('Aanwijzingen
voor Leraren') geschreven. Hierin vindt de leraar talloze suggesties betreffende de voorberei-
ding, uitvoering en evaluatie van het thema.

Ook leerlingen biedt PLON-onderwijs veelsoortige mogelijkheden om het leren zelfstandig te
sturen o.a.:

- vrijheid - m.n. binnen de fase van zelfstandig leerlingonderzoek - in het bepalen van waar,
wanneer en in welk tempo er geleerd wordt

- deelname van leerlingen in het samenstellen van de groepen en in het verdelen van taken
tussen en binnen de groepen

- weinig mobiliteitsbeperkingen, d.w.z. het is meestal toegestaan, zolang men elkaar niet
hinderlijk stoort, andermans proeven'te observeren, informatie uit te wisselen en materiaal
te halen.

Eén van de belangrijkste uitgangspunten die richting hebben gegeven aan de ontwikkeling van
het PLON-curriculum is integratie van intellectuele, sociale en emotionele aspecten van leren.
Als middel ter realisatie van deze integratie is gekozen voor groepswerk: circa zeventig procent
van de lestijd wordt besteed aan verschillende vormen van het werken in groepen. Veel
aandacht wordt hierbij geschonken aan doelstellingen als plezierig leren, leren samenwerken.

naar elkaar luisteren, zich houden aan afspraken, naar elkaar rapporteren, interview houden,
elkaar beoordelen, etc.

Enige evidentie voor een meer open klasseklimaat is gevonden door Wierstra (1982, p. 23). Hij
rapporteert op basis van interviewdata dat zowel mavo- als havo/vwo-leraren als meest
opvallende verandering ten opzichte van vroeger noemen de lossere sfeer in de klas:

- er zijn tussen de leerlingen onderling meer sociale contacten tijdens het werk;

- de leerlingen werken en leren in sociale verbanden (groepswerk, rapportages, e.d.);

- de leerling toont zich verantwoordelijker en meer betrokken bij het lesgebeuren'.

Behalve als relatief open, kan het PLON-curriculum als onderzoeksgericht ('enquiry-based')
betiteld worden. Dit laatste houdt in dat een groot deel van de beoogde activiteiten van
leerlingen betrekking heeft op vaardigheden en processen van zelfstandig leerlingonderzoek.
Gevraagd naar de voornaamste differentiële effecten van PLON-onderwijs, menen PLON-
leraren dat leerlingen vooral vaardigheden opdoen in het zelf opzoeken van informatie, het
opzetten van onderzoek, het omgaan met materiaal en apparatuur, het werken met (proef)op-
stellingen en het oplossen van problemen, maar vermoedelijk minder goed zijn dan traditione-
le leerlingen in het echte rekenen met formules, het beheersen van formules en theorie en het
bezitten van parate kennis van wetten (Wierstra, 1982, p. 27-28).

Cognitieve processen van zelfstandig leerlingonderzoek komen in PLON-onderwijs tot uiting
in o.m. genereren en toetsen van hypothesen, speculeren, ontwerpen en uitvoeren van een
experimentele werkwijze, observeren, interpreteren en concluderen (Kuhlemeier, 1980).

PLON-curriculumontwikkelaars zijn van mening dat 'natuurkunde op school geen exacte,
abstracte wetenschap dient te zijn, maar een hanteerbaar middel om hun werkelijkheid, hun
omgeving beter te leren begrijpen en daarin daadwerkelijk te kunnen participeren' (Wierstra,
1982, p. 16). Voor wat betreft de leerstofcomponent van het curriculum heeft dit geleid tot
tenminste drie veranderingen t.o.v. de gangbare natuurkundecurricula.
In de eerste plaats is de natuurkunde voor de leerling meer herkenbaar geworden, o.m. door
natuurkundige verschijnselen te beschrijven in de eigen, uit het dagelijks leven afkomstige,
taal van de leerling, door waar mogelijk gebruik te maken van eenvoudige, alledaagse
leermiddelen (bv. fietspomp, een brug van hout of karton) en door nauwelijks formules in het
eerste natuurkundeleerjaar (tweede klas) op te nemen. Ten tweede is een deel van de leerstof
ontleend aan de van technische hulpmiddelen voorziene, directe leefwereld en gericht op
praktische toepassing in het dagelijks leven (o.a. water, verlichting, verwarming). In de derde
plaats is meer leerstof opgenomen waarbij de leerling inzicht krijgt in de relatie tussen
natuurkunde en technologische samenleving (o.a. kernenergie, energiebesparing, derde we-
reldtechnologie).

Genoemde veranderingen zijn ten dele ten koste gegaan van traditionele fysica-onderwerpen
zoals de electrostatica en de wet van Archimedes.

Het PLON-curriculum is ontwikkeld met het oog op afwisselend, intern gedifferentieerd
onderwijs. Om in te kunnen spelen op verschillen tussen leerlingen in vooral belangstelling,
werktempo en leerstijl is getracht zoveel mogelijk variatie tussen en binnen de thema's aan te
brengen. Deze variatie betreft vooral de leerstof (basis- en keuzestof), de didactische werkvor-
men (begeleiding van groepen en klassikale instructievormen), de leeractiviteiten (experimen-
teren, rapporteren, discussiëren en individuele activiteiten), de leerwijze (ontdekkend-crea-
tief en receptief-passief) en de evaluatie (cognitieve en sociale aspecten).

De hierboven vermelde uitgangspunten en hun realisatie in curriculum en/of lespraktijk is
consistent met de middels empirisch onderzoek gevalideerde kenmerken van open onderwijs
(o.a. Walberg en Thomas, 1972; Traub e.a., 1972; Cochran en Tuckman, 1976; Solomon en
Kendall, 1976) en met de kenmerken van 'open, enquiry-based' leeromgevingen^ (Rentoul en
Fraser, 1979).

Voor een uitgebreidere beschrijving van PLON-uitgangspunten, organisatie en werkwijze dan
in het bestek van dit artikel mogelijk is, wordt verwezen naar het PLON-informatiepakket
1981.

Overeenkomstig de drie tradities in het onderzoek naar detenminanten van leerprestaties
wordt leren opgevat als een functie van drie geïnterrelateerde groepen variabelen, te weten
leeriingkenmerken, instructievariabelen en (leer)omgevingsvariabelen (Walberg, 1971). In dit
verband wijst Walberg (1976) op een mediërende variabele, nl. de perceptie door de leeriingen
van hun leeromgeving (zie Fig. 1).

In diverse onderzoeken bleek de perceptie van de leeromgeving (als onafhankelijke variabele)
een belangrijke voorspeller van verschillende maten van cognitief en non-cognitief leren (o.a.
Walberg, 1969,1979; Fraser, 1979,1981; Moos en David, 1981).

Behalve als voorspeller van leerprestaties wordt de perceptie van de leeromgeving ook wel
gebruikt als criteriumvariabele ter meting van de veronderstelde hogere effectiviteit van een
meestal innovatief curriculum ten opzichte van een traditioneel curriculum. Ervan uitgaande
dat een curriculum bepaalde aspecten van de leeromgeving bepaalt die door leerlingen
gepercipieerd kunnen worden, onderzocht Fraser (1979) de relatieve effectiviteit van het
ASEP-project in het creëren van een gunstige leeromgeving door de percepties van een
steekproef van leerlingen die ASEP-materiaal gebruikten te vergelijken met een steekproef
van traditioneel lesmateriaal gebruikende leerlingen. In zijn review van onderzoek naar de
perceptie van de leeromgeving als criteriumvariabele concludeert Fraser (1981):

'One of the most noteworthy patterns of findings is that classroom environment characteristics, when used
as criterion variables, differentiated revealingly, usefully and appreciably between classrooms following
altemative materials. Although the number of previous studies using classroom environment variables as
criteria of curricular effectiveness is disappointingly small, the evidence accrued from these studies attest
to the desirability of more often using classroom environment variables as criteria in curriculum evalua-
tion' (p. 53).

Nu in het kort is ingegaan op het PLON-project, de PLON-uitgangspunten en de keuze van de
criteriumvariabele, zijn we in staat de vraagstelling nader te preciseren:

1. In welke opzichten bestaan er verschillen tussen de leeromgeving, gemeten via de percep-
ties van de leeriingen, in PLON-onderwijs en regulier natuurkunde-onderwijs?

Het in ons onderzoek gebruikte instrament mikt vooral op leeromgevingskenmerken die
hiervoor beschreven zijn onder de PLON-uitgangspunten eigen inbreng van leerlingen, sociaal
Ieren, onderzoeksgerichtheid en differentiatie.

2. Is het verschil tussen de perceptie van de gewenste en de feitelijke leeromgeving in
PLON-onderwijs kleiner dan in regulier natuurkundeonderwijs?

De in de tweede onderzoeksvraag uitgesproken verwachting is gebaseerd op het vermoeden
dat PLON-onderwijs in hogere mate dan regulier natuurkundeonderwijs aan wensen van
leerhngen tegemoet komt.

Aan het onderzoek verleenden in totaal dertig derde klassen van de MAVO hun medewer-
king: vijftien klassen gebruikten PLON-lesmateriaal; de overige vijftien klassen gebmikten
een meer traditionele natuurkundemethode.

Vanwege het geringe aantal leraren (elf) dat in 1981 in het PLON-MAVO-project aan één of
meer derde klassen lesgaf, was het niet mogelijk de vijftien PLON-klassen uit een ruimere pool
aselect te selecteren. Om deze reden werden al de beschikbare leraren (negen leraren van
zeven proefscholen) in het onderzoek opgenomen, uitgebreid met een volgschoolleraai^. Het

4. Tot voor kort kende het PLON een onderscheid tussen proef- en volgscholen. De proefscholen
ontvangen een intensievere begeleiding en zijn over het algemeen sinds langere tijd aan het PLON
verbonden dan de volgscholen.

totaal van vijftien aan het onderzoek deelnemende PLON-klassen werd bereikt door meer dan
één leraar per school en meer dan één klas per leraar te selecteren.

Voor de controlegroep werden vierentwintig natuurkundeleraren, die op basis van toeval
gekozen waren uit de 'lijst van scholen voor het voortgezet onderwijs', telefonisch benaderd.
Met het oog op een zo zuiver mogelijk contrast tussen de PLÖN- en de controlegroep werden
uitsluitend leraren in het onderzoek opgenomen die naar eigen zeggen

a. niet meededen aan een vernieuwingsproject (PLÖN, MAVO-project, DBK-project),

b. overwegend klassikaal lesgaven, d.w.z. naar eigen schatting minder dan vijfentwintig
procent van de lestijd leerlingpraktikum gaven, en

c. één van de meer traditionele leer- of werkboeken van Geelkerken en Gerlach, Idema,
Jägers, Raat e.a. of Sweers en Vianen gebruikten.

Vier van de vierentwintig leraren voldeden niet aan één of meer van de drie hierboven
genoemde selectiecriteria. Vijf leraren wensten niet aan het onderzoek mee te doen, voorna-
melijk om redenen van overbelasting. De overgebleven vijftien leraren gaven les aan vijftien
verschillende scholen. Per leraar werd één derde klas in het onderzoek betrokken.
Het totaal aantal leerlingen bedroeg in de PLON-groep 257 en in de controlegroep 307. In de
PLON-groep waren de klassen gemiddeld kleiner dan in de controlegroep (resp. 17.1 en 20.5).
De PLON-groep bestond uit 159 jongens en 98 meisjes; de controlegroep uit 214 jongens en 93
meisjes. Het gemiddeld cijfer voor natuurkunde in de PLON-groep bedroeg 6.4 (jongens 6.4,
meisjes 6.3); in de controlegroep was dit 6.6 (jongens 6.9, meisjes 6.4). Alleen het verschil in
klassegrootte was statistisch significant.

Het in het onderzoek gebruikte instrument ter meting van de percepties van de leeromgeving is
een vertaalde, gemodificeerde en uitgebreide versie van de Individualized Classroom Environ-
ment Questionnaire (ICEQ) van Rentoul en Eraser (1979) en is Perceptie Leeromgeving
Schaal (PLOS) genoemd. Dit instrument beoogt leeromgevingsdimensies te meten die diffe-
rentiëren tussen 'open, enquiry-based' en regulier ß-onderwijs.

De PLOS bestaat uit vijf schalen met elk tien items. Middels het omcirkelen van één van de
getallen 1 t/m 5 geeft de leerling aan hoe vaak hetgeen in de uitspraak vermeld wordt in
zijn/haar natuurkundelessen voorkomt en hoe vaak het volgens hem/haar zou moeten voorko-
men. Iedere uitspraak levert op deze wijze per leerling twee scores op: één voor de perceptie
van de feitelijke leeromgeving en één voor de gewenste leeromgeving. Een hogere 'feitelijke'
score imphceert een hogere mate van openheid of onderzoeksgerichtheid van de leeromge-
ving.

Bij de beschrijving van de subschalen is getracht zoveel mogelijk gebruik te maken van de
woordelijke inhoud van de tot de subschalen behorende uitspraken:

De eerste schaal (personalisatie) meet de mate waarin de leraar vriendelijk, belangstellend,
behulpzaam en stimulerend is.

De tweede schaal (participatie) is gerelateerd aan de mate waarin de leerlingen actief partici-
peren in de verbale communicatie tussen met name leerlingen onderling, o.a. elkaar en de
leraar vragen te stellen, hun eigen mening geven en discussiëren.

De derde schaal (onafliankelijkheid) heeft te maken met de mate waarin de leerlingen hun
leren en gedrag zelf bepalen, o.a. de keuze met wie, waar en op welke wijze gewerkt wordt en
het accent op de rol van de leraar als degene die de regels stelt en de orde handhaaft.

De vierde schaal (onderzoek) refereert aan de mate waarin leerlingen onderzoek of proeven
doen en zelf (onderzoeks-)vragen nagaan, problemen oplossen en conclusies trekken.
De vijfde schaal (differentiatie) heeft betrekking op de mate waarin er in de natuurkundeles-
sen recht gedaan wordt aan verschillen tussen leerlingen in werktempo, belangstelling en
geschiktheid.

Enkele voorbeelden van uitspraken zijn: de leraar doet zijn best om iedere leerling te helpen (personalisa-
tie); de leerlingen stellen elkaar vragen (participatie); de leraar vertelt de leerlingen hoe ze zich in de klas
moeten gedragen (onafhankelijkheid); de leerlingen geven een verklaring voor uitspraken, diagrammen
of grafieken (onderzoek); de leeriingen werken in hun eigen tempo (differentiatie).

De corresponderende dimensies van de gewenste leeromgeving duiden we in het vervolg aan
als schaal 6 t/m 10.

De interne consistenties (a-coëfficiënten) voor de vijf subschalen die de feitelijke leeromge-
ving meten, bedroegen respectievelijk .79, .61, .71, .72 en .67, hetgeen als middelmatig, maar
niet ongebruikelijk (zie Fraser, 1981) beoordeeld moet worden.

Om na te gaan in welke mate de schalen discrimineren tussen de klassen in verhouding tot de
verschillen binnen de klassen (alle 30) werd de formule voor de betrouwbaarheid van gemid-
delden van Horst (1949) berekend.

Voor de schalen die betrekking hebben op de feitelijke leeromgeving leverde dit betrekkelijk
hoge waarden op, variërend van .81 tot .95. Op de schalen die op de gewenste leeromgeving

betrekking hebben, was - zoals te verwachten is - de variantie tussen klassen aanzienlijk
kleiner dan op de 'feitelijke' schalen. De variantie tussen leerlingen binnen klassen bleef
evenwel in dezelfde orde van grootte.

Er bestond een matig positieve correlatie tussen de totaalscores van de feitelijke en de
gewenste leeromgeving (r = .31). De correlaties tussen overeenkomstige schalen (zie tabel 1)
varieerden van .34 (onderzoek) tot .56 (differentiatie). Het blijkt dus mogelijk om met behulp
van de PLOS de perceptie van de feitelijke en de gewenste leeromgeving van elkaar te
onderscheiden.

Gesproken kan worden van een redelijk betrouwbaar instrument dat aan zijn doel - het
discrimineren tussen klassen met verschillende leeromgevingen - beantwoordt.

De vragenlijsten zijn begin maart 1981 per post verzonden, door de leraren zelf afgenomen en
alle geretourneerd. De indruk is dat de instructie effectief geweest is: slechts een half procent
van de items werd niet of verkeerd door de leerlingen ingevuld.

De verschillen tussen de PLON- en de controlegroep werden geanalyseerd m.b.v. het discrimi-
nantanalyse programma van SPSS.

De gehanteerde strategie was: eerst multivariate toetsing en daarna, bij gebleken significantie,
univariate toetsing.

Omdat de leeromgeving voor alle leerlingen binnen een klas gelijk is en de individuele
percepties van de leerlingen binnen een klas dus niet onafhankelijk van elkaar zijn, verdient
analyse op klasniveau de voorkeur boven analyse op leerlingniveau. Echter, het a priori
onderscheidingsvermogen van een F-toets in een variantie-analytisch design (univariaat) met
twee condities van elke vijftien groepen (klasniveau) bedraagt, bij een a van .05 en een
gepostuleerd klein, middelmatig, of groot effect, respectievelijk slechts .08, .26 en .36 (Cohen,
1977, p. 313 en 314). Anders geformuleerd: de kans om de nulhypothese (geen verschil tussen
de PLON- en de controlegroep) te verwerpen, is bij een te verwachten groot effect slechts
zesendertig procent. Om deze reden werd besloten eerst een minder conservatieve toetsing op
leeriingniveau uit te voeren en pas daarna over te gaan op analyse van de gemiddelden van de
klassen.

Om na te gaan in hoeverre voldaan is aan de assumptie van homogeniteit van binnen-groepen
variantie-covariantie matrices is gekeken naar de natuuriijke logarithmen van deze matrices.
De logarithmen weken nauwelijks van elkaar af (15.75 vs. 16.30) zodat gesteld mag worden dat
de eventuele schending van de homogeniteitsassumptie in ieder geval niet ernstig is
Behalve naar verschillen tussen de percepties van PLON- en controleleerlingen is ook gekeken
naar verschillen tussen de percepties van jongens en meisjes en van leerlingen met hoge en met
lage rapportcijfers voor natuurkunde. Voor iedere subschaal van de PLOS werd een multiple
regressie-analyse uitgevoerd met de variabelen groep, geslacht en cijfer als onafhankelijke
variabelen. De resultaten (zie Kuhlemeier, 1981) waren zodanig dat geconcludeerd mag
worden dat de invloed van het geslacht en het natuurkundecijfer van de leerlingen op de
perceptie van hun leeromgeving verwaarloosbaar klein geweest is.

De gemiddelden en de standaard deviaties van de PLON-groep (N = 257) en de controlegroep
(N = 307) zijn vermeld in tabel 2. Met uitzondering van schaal 1 en 9 scoorde de PLON-groep
hoger dan de controle-groep. Opvallend is het grote absolute verschil op schaal 5 (1.7 keer de
standaard deviatie).

De multivariate toetsing (Wilk's Lambda) met de leeriing als analyse-eenheid leverde een
significant verschil (p < .0001) op tussen de PLON- en de controlegroep voor wat betreft de
perceptie van de leeromgeving (canonische correlatie .73).

Nadat de richting en de significantie van het verband besproken is, zullen we ons richten op het
bepalen van de aard van het verschil.

Univariate F-toetsen en correlaties met de discriminant functie (gepoold binnen groepen)

Gelet op de univariate F-toetsen (zie tabel 3) scoorde de PLON-groep significant hoger op alle
schalen, met uitzondering van de personalisatieschaal. De belangrijkheid van de verschillende
dimensies moge blijken uit de binnen-groepen correlaties met de discriminant functie, opgeno-
men in tabel 3.

Vooral met het doel om meer informatie te verkrijgen omtrent de mate waarin het mogelijk is
om - op basis van de scores van de leerlingen op de discriminant functie - het groepslidmaat-
schap van de leerlingen correct te voorspellen, is een discriminant analyse met classificatiefase
uitgevoerd. Van de PLON-leerlingen en de controleleerlingen konden respectievelijk 86 en 84
procent correct geclassificeerd worden.

De analyse op klasniveau gaf overeenkomstige resultaten te zien (zie tabel 3). De canonische
correlatie in deze analyse was hoog, te weten .93. Op basis van de gemiddelden op de eerste vijf
schalen was het mogelijk om alle dertig klassen correct te classificeren.
In tabel 4 wordt het resultaat van de toetsing van de tweede onderzoeksvraag vermeld. De
gemiddelden en de standaard deviaties zijn gebaseerd op de verschilscore van de totaalscore
van alle 'gewenste' items en de totaalscore van alle 'feitelijke' items.

Resultaten van de toetsing (eenzijdig) van het verschil tussen het verschil van de gewenste en de feitelijke
leeromgeving in PLON-onderwijs en regulier natuurkundeonderwijs (analyse-eenheid: leerling)

dezelfde is. Ook gezien de relatief kleine varianties binnen de klassen en de niet-significante
relaties tussen enerzijds de vijf 'feitelijke' schalen en anderzijds variabelen als geslacht en
rapportcijfer lijkt interpretatie van de op de klassegemiddelden gebaseerde analyseresultaten
in termen van kenmerken van leeromgevingen geoorloofd.

In het volgende worden de analyseresultaten per leeromgevingsdimensie en per analyseniveau
geïnterpreteerd.

Op grond van de items van de differentiatieschaal waarop beide groepen significant van elkaar
verschilden (t-toets, p < .05) beleven PLON-leeriingen een grotere vrijheid om hun eigen

werktempo te bepalen, om het werk te doen waarvoor ze het meest geschikt zijn, en om de
boeken en spullen te kiezen waarvoor ze de meeste belangstelling hebben. Tevens ervaren
PLON-leerlingen de evaluatie als meer gevarieerd, de onderwijsleersituatie als minder fron-
taal en komt het minder vaak voor dat al de leerlingen in de klas bezig zijn met dezelfde pagina
uit het boek.

Op basis van de analyse van de klassegemiddelden kan geconcludeerd worden dat de leerom-
geving in PLON-onderwijs in hogere mate dan in regulier natuurkunde-onderwijs gekenmerkt
wordt door differentiatie.

Het ligt voor de hand deze grotere gerichtheid op differentiatie in de PLON-groep te zien als
het resultaat van het streven van PLON-curruculumontwikkelaars om recht te doen aan
verschillen tussen leerlingen. Dit inspelen op interindividuele verschillen geschiedt op verschil-
lende manieren, o.a. door veel variatie aan te brengen in de onderwijsmethoden van de leraar;
door weinig beperkingen op te leggen aan de leerlingkeuze van leeractiviteiten; door de
leerlingen relatief vrij te laten in de keuze van en uit doelstellingen, leerinhouden, evaluatie-
wijzen en leermiddelen, en door in dit opzicht veel variatie binnen en tussen de basisthema's
aan te brengen. Op basis van het in dit onderzoek gevonden resultaat - PLON-lessen lijken in
hogere mate in te spelen op verschillen tussen leerlingen in werktempo, belangstelling en
geschiktheid - mag aangenomen worden dat het PLON één van zijn belangrijkste doelstellin-
gen bereikt heeft, nl. het creëren van een gedifferentieerde leeromgeving. Dat PLON-onder-
wijs in dit opzicht aan wensen van leerlingen tegemoet komt, moge blijken uit het geringe verschil
tussen de gewenste en de feitelijke leeromgeving op de differentiatiedimensie (zie figuur 2).

Analyse van de items van de onafhankelijkheidsschaal waarop significante verschillen beston-
den (t-toets; p < .05) maakt aannemelijk dat PLON-leerlingen een grotere vrijheid ervaren in
de keuze van de zitplaats, de partner voor groepswerk en in het bepalen van hoeveel geloop en
gepraat er in de klas behoort te zijn; PLON-leraren schrijven bovendien - in de beleving van de
leerlingen - minder vaak voor hoe de leerlingen hun werk moeten doen, hoe ze zich in de klas
moeten gedragen en wat er zal gebeuren wanneer ze een regel overtreden.
Analyse van de klassegemiddelden maakt aannemelijk dat de PLON-leeromgeving in hogere
mate gekenmerkt wordt door onafhankelijkheid, d.w.z. PLON-leerlingen beschikken over
meer mogelijkheden om het leren en gedrag zelfstandig, zonder inmenging van de leraar, te
bepalen.

Het minder grote accent op de rol van de leraar als degene die dê regels stelt en de orde
handhaaft kan tweeledig geduid worden. Ten eerste kan er sprake zijn van een grotere
regelonduidelijkheid en minder vaststaande verwachtingspatronen. Omdat de feitelijke ge-
constateerde nadruk op onafhankelijkheid in de PLON-groep minder achter blijft bij de
gewenste onafhankelijkheid dan in de controlegroep (zie figuur 2) is een dergelijke verklaring
echter minder aannemelijk. Een tweede, meer positieve interpretatie veronderstelt niet zozeer
grotere regelonduidelijkheid als wel een verschuiving van de systeemhandhavingsfunctie in de
richting van de leerlingen die dan in hogere mate participeren in het stellen van de regels en het
handhaven van de orde. *

De analyse van de verschillen op de items van de onderzoeksschaal (t-toets; p < .05) leverde
evidentie voor de volgende interpretatie: PLON-leerlingen ervaren een grotere nadruk op het

doen van onderzoek of proeven om te kijken of een eigen idee wel klopt, om een vraag die van
de leraar afkomstig is of die van te voren in de klas besproken is te beantwoorden, om een
antwoord te vinden op een interessante, maar moeilijke vraag en om conclusies te trekken;
PLON-leerlingen geven bovendien aan vaker problemen op te lossen door informatie te
verkrijgen uit de bibliotheek, terwijl de leraar de leeriingen niet vaker vraagt om critisch over
uitspraken na te denken en leerlingen even vaak een verklaring geven voor uitspraken,
diagrammen en grafieken.

Zoals naar voren komt uit inteme evaluatierapporten van het PLON ervaren leerlingen het
doen van proeven als erg plezierig. Het is dan ook niet verwonderlijk dat zelfs in de PLON-
groep de feitelijk geconstateerde onderzoeksgerichtheid nog betrekkelijk ver onder de gewen-
ste onderzoeksgerichtheid blijft (zie Figuur 2). Kennelijk wensen ook PLON-leeriingen een
groter accent op het doen van proeven en hetgeen hiermee samenhangt.

De analyse van de verschillen op de items van de participatieschaal (t-toets; p < .05) wordt als
volgt geïnterpreteerd: PLON-leeriingen ervaren - in verhouding tot controleleerlingen - dat
zij vaker hun eigen mening geven, vaker eikaars aanwijzingen en ideeën gebmiken, elkaar
meer vragen stellen, vaker praten over 'waar ze in de les mee bezig zijn', minder vragen aan de
leraar stellen en minder vaak op hun eigen plaats naar de leraar zitten te luisteren. Afgaande op
de resultaten van de analyse op klasniveau wordt de PLON-leeromgeving in hogere mate
gekenmerkt door participatie, d.w.z. PLON-leeriingen worden vaker in de gelegenheid ge-
steld om te participeren in de verbale communicatie in de klas.

Men dient er bij de interpretatie echter op te letten dat het verschil op deze schaal betrekkelijk
klein is.

De personalisatieschaal differentieerde niet significant tussen de PLON- en de controlegroep.
Alvorens in te gaan op mogelijke verklaringen voor het ontbreken van het gepostuleerde
verschil, is het nuttig te analyseren wat de bijdrage van de tien afzonderlijke items geweest is.
Op slechts één item ('de leraar loopt door de klas en praat met de leerlingen') scoorde de
PLON-groep zeer veel hoger dan de controlegroep. Op zes personalisatie-items scoorde de
PLON-groep echter significant lager: PLON-leeriingen ervaren hun leraar als minder vriende-
lijk, minder behulpzaam; minder rekening houdend met de gevoelens van leerlingen, minder
gericht op het ontdekken van waar de leerling hulp nodig heeft; hij moedigt de leerlingen
minder vaak aan om rekening te houden met de ideeën en gevoelens van andere mensen en hij
probeert er minder vaak achter te komen wat iedere leerling wil leren. De overige drie items
toonden geen significante verschillen. Het is frappant te constateren dat één sterk 'positief
item qua effect opweegt tegen zes matig 'negatieve' items. Bij analyse van de item-rest-
correlaties bleek de rj, voor dit ene item maar liefst .30 lager te zijn dan de gemiddelde r^ voor
de overige negen items. Omdat dit 'positieve' item bij nadere reflexie niet in de personalisatie-
schaal thuishoort - het is meer een kenmerk van de organisatie van de onderwijsleersituatie -
zullen we ons alleen richten op het geven van mogelijke verklaringen voor de resultaten op de
zes items waarop de PLON-groep lager scoorde. Dat PLON-leerlingen hun leraar als minder
vriendelijk, minder behulpzaam, etc. percipiëren, kwam - gezien het grote belang dat er in de
literatuur over open onderwijs aan positieve relaties tussen leraar en leerhngen gehecht wordt
-onverwacht.

Een eerste mogelijke verklaring voor dit niet geanticipeerde resultaat kan misschien gevonden
worden door te refereren aan het door Kuhiemeier (1980) uitgevoerde systematische observa-
tie-onderzoek. In de geobserveerde PLON-lessen kwamen onderwijsleersituaties waarin leer-
lingen geheel individueel werkten vrijwel niet voor. Zeventig procent van de lestijd werd in
autonome groepen van meestal vier deelnemers gewerkt. Cognitieve interacties (o.a. vragen
stellen, uitspraken doen, opdrachten geven) tussen leraar en leerling(en) waren in verhouding
tot de interacties tussen leerlingen onderling ondervertegenwoordigd. De aandacht en de
bemoeienis van de leraar richt zich in hoge mate tot de subgroep binnen de klas en in mindere
mate tot de klas als geheel of tot individuele leeriing. Ook bij de evaluatie komt deze
gerichtheid op de subgroep tot uiting in de zin dat niet zozeer het individu als wel de groep
verantwoordelijk is voor een werkstuk, cijfer, tentoonstelling of presentatie. Het lijkt daarom
terecht te veronderstellen dat ook de persoonlijke band tussen leraar en leeriing in PLON-
onderwijs voor een deel vervangen is door persoonlijke relaties tussen de leden van de
subgroep binnen de klas. De persoonlijke aspecten van de interactie in de klas (behulpzaam-
heid, belangstelhng, vriendehjkheid, bemoediging, etc.) komen in PLON-onderwijs vooral
tot uiting in de communicatie tussen leerlingen onderling. Dit laatste aspect (elkaar helpen,
van elkaar leren) wordt door de leraar in de hand gewerkt door opmerkingen als 'Nee, overleg
maar eerst in je groep' of 'Wat vinden de anderen uit je groep?' of 'Dat moeten jullie onderiing
maar eens worden' of 'Niet ik bepaal wat jullie doen, dat moeten juUie zelf bepalen'.
Dat dit door de leerlingen als minder behulpzaam etc. ervaren zou kunnen worden, is niet
onbegrijpehjk en tevens een mogelijke verklaring voor de resultaten op de personalisatie-
schaal. Gezien de veronderstelling dat de persoon van de leraar voor de leerhng als individu
een minder belangrijke rol speelt in PLON-onderwijs, wekt het gevonden resultaat op de
personahsatiedimensie minder verwondering. Een iets minder hoge mate van behulpzaamheid
van de kant van de leraar zou, met het oog op het bevorderen van de zelfstandigheid van de
leerling, onder bepaalde voorwaarden zelfs als niet ongewenst beschouwd kunnen worden.
Een tweede mogelijke verklaring voor het ontbreken van duidelijke verschillen op de persona-
hsatieschaal zou gelegen kunnen zijn in het gegeven dat veel PLON-leraren aangeven over het
algemeen veel tijd en moeite te besteden aan het management en de organisatie van het
groepsgebeuren, hetgeen ten koste zou kunnen gaan van de frequentie en de intensiteit van de
persoonUjke contacten tussen leraar en leerling.

Evenals in de controlegroep bleef het gemiddelde op de feitelijk geconstateerde personalisatie

in de PLON-groep ver achter bij wat de leeriingen zich gemiddeld wensen (zie Figuur 2).

Voor de geldigheid van de tweede hypothese, die veronderstelde dat het verschil tussen de
gewenste en de feitelijke leeromgeving in de PLON-groep kleiner zou zijn dan in de controle-
groep, werd empirische evidentie gevonden.^ Een verschil tussen de gewenste en de feitelijke
leeromgeving duidt op een discrepantie tussen enerzijds de in de natuurkundelessen aange-
troffen situatie en anderzijds de behoeften en wensen van leerlingen; geen verschil betekent
congruentie en tevredenheid. Het gevonden resultaat op de tweede onderzoeksvraag kan nu
als volgt geïnterpreteerd worden: PLON-leerlingen zijn in hogere mate dan controleleerlingen
met hun natuurkunde-onderwijs tevreden. Vergeleken met regulier natuurkunde-onderwijs is

5. Dit gegeven moet geïnterpreteerd worden in het licht van de matige correlatie tussen de gewenste en dc
feitelijke leeromgeving (totaalscores) van .31. Bij een correlatie van .50 was de tweede hypothese
namelijk statistisch gezien identiek geweest aan de eerste.

PLON-onderwijs meer in overeenstemming met behoeften en wensen die vooral betrekking
hebben op een type onderwijs dat gekenmerkt wordt door differentiatie, door veelvuldige
verbale contacten tussen leerlingen onderling en door een leerwijze waarbij de vaardigheden
en processen van zelfstandig leerlingonderzoek een belangrijke rol spelen.

Tenslotte stellen we de validiteitsvraag: in hoeverre staat het gekozen onderzoeksontwerp en
de uitvoering van het onderzoek het toe de gevonden verschillen aan het PLON toe te
schrijven?

Een mogelijke bedreiging voor de interne validiteit vormen in het geval van het in deze studie
gekozen onderzoeksontwerp ('static group comparison') de factoren selectie en experimentele
uitval (Campbell en Stanley, 1963, p. 12-13).

Ten aanzien van de factor selectie lijken er geen argumenten voorhanden om aan te nemen dat
de beide groepen leerlingen (PLON en controle) reeds vóór de aanvang van het natuurkunde-
onderwijs in het tweede leerjaar op relevante variabelen van elkaar verschilden.
Ten tijde van de afname van de PLOS bestonden er geen significante verschillen tussen beide
groepen op de relevant geachte variabelen cijfer voor natuurkunde en samenstelling naar
geslacht. Wel bestond er een significant verschil voor wat betreft de variabele klassegrootte.
Het gemiddeld aantal leerlingen per klas in de PLON-groep was namelijk iets kleiner (17.1 vs.
20.5). Vooral omdat geen van de schalen van de PLOS significant correlleerde met de
klassegrootte (Kuhlemeier, 1981) achten we de kans op aantasting van de conclusie op deze
grond gering.

Een andere rivaliserende verklaring zou gelegen kunnen zijn in het niet-equivalent zijn van de
twee groepen leraren. Zo zouden 'betere' leraren in de PLON-groep over- of ondervertegen-
woordigd kunnen zijn. Hierbij kan de vraag gesteld worden of deze mogelijke ongelijkheid
niet ten dele een effect is van de PLON-innovatie. De onderwijsfilosofie, de begeleiding en het
lesmateriaal zouden van een dermate hoge (of lage) kwaliteit kunnen zijn dat vooral betere (of
slechtere) leraren voor dit type onderwijs kiezen. Tevens moet gewezen worden op een
mogelijk verschil in innovatiebereidheid. Mede omdat de personalisatieschaal niet significant
differentieerde tussen de PLON- en de controleleraren achten we de plausibiliteit van de
rivaliserende hypothese innovatiebereidheid gering.

Omdat sinds de start van het PLON-project slechts enkele leraren om PLON-inteme redenen
afhaakten, mag contaminatie door differentiële experimentele uitval vrijwel uitgesloten ge-
acht worden.

Hoewel voor de plausibiliteit van bovengenoemde rivaliserende verklaringen weinig argumen-
ten voorhanden lijken, beseffen we dat de vergelijkbaarheid van de PLON- en de controle-
groep niet met volledige zekerheid is aangetoond.

Anderson, G.J., Walberg, H.J. & Welch, W.W. Curriculum effects on the social climate of teaming: a
new representation of discriminant functions. American Educational Research Journal, 1969, 6,
315-328.

Campbell, D.T. & Stanley, J.C. Experimental and quasi-experimental designs for reseach on teaching.
Chicago: Rand McNally, 1963.

Cochran, D.W. & Tuckman, B.W. A comparison of open and regular classroom process. Journal of
Curriculum Studies, 1976,8,61-70.

Cohen, J. Statistical power analysis for the behavioral sciences. New York: Academic Press, 1977.

Fraser, B.J. Evaluation of a science-based curriculum. In: H.J. V/aXherg^ed.). Educational environments
and ejfects: evaluation, policy, and productivity, Berkeley, Cal.: McCutchan, 1979,218-234.

Fraser, B.J. Leaming environment in curriculum evaluation: a review. Evaluation in Education, 1981, ƒ,
1-73.

Horst, P. A generalized expression for the reliability of measures. Psychometrika, 1949,21-31.

Kuhlemeier, J.B. Observatie-onderzoek naar cognitieve aspecten van de interactie in PLON-onderwijs.
Ongepubliceerd paper. Nijmegen en Utrecht, 1980.

Kuhlemeier, J.B. Open onderwijs en de perceptie van de leeromgeving. Ongepubliceerde doctoraalscrip-
tie. Instituut voor Onderwijskunde, K.U. Nijmegen, 1981.

Moes, R.H. & David, T.G. Evaluating and changing classroom settings. In: J. Epstein (ed.). Quality of
school life. Lexington, Mass.: Heath, in dmk.

Rentoul, A.J. & Fraser, B.J. Conceptualization of enquiry-based or open leaming environments. Journal
of Curriculum Studies, 1979, /;, 99-109.

Solomon, D. & Kendall, A.J. Individual characteristics and children's performance in 'open' and
'traditional' classroom settings. Journal of Educational Psychology, 1976,68,613-625.

Tisher, R.P. & Power, C.N. The leaming environment associated with an Australian curriculum innova-
tion. Journal of Curriculum Studies, 1978,10,169-184.

Walberg, H. J. Social environment as a mediator of classroom leaming, Journal of Educational Psychol-
ogy, 1969,60,443^8.

Walberg, H.J. Models for optimizing and individualizing school leaming. Interchange, 1971,3,15-27.

Walberg, H.J. The psychology of leaming environments: behavioral, stractural, or perceptual? In: L.S.
Shullman (ed.). Review of research in education. Vol. IV, Itasca, 111.: Peacock, 1976,142-178.

Walberg, H.J. (ed.) Educational environments and effects: evaluation, policy, and productivity. Berke-
ley, Gal.: McCutchan, 1979.

Walberg, H.J. & Thomas, S.C. Open education: an operational definition and validation in Great Britain
and United States, American Educational Research Journal, 1972, 9,197-208.

Welch, W.W. & Walberg, H.J. A course evaluation. In: H.J. Walberg (ed.): Evaluating educational
performance: A sourcebook of methods, instruments, and examples. Berkeley, Cal.: McCutchan,
1974,113-224.

Wierstra, R.F.A. (red.). PLON-vemieuwingskenmerken op het spoor. PLON, Lab. voor Vaste Stof,
R.U. Utrecht, 1982.

De Effecten van Geïndividualiseerd
Beoordelen en Lesgeven op Inzet-attributies,
Competentie-attributies en Spellingprestaties

Jan Pieter van Oudenhoven, Frans Siero, Peter Veen en Jan Withag
Vakgroep Sociale Psychologie, R.U. Groningen'

Effects of individualized feedback and individualized instruction on ability attributions, effort
attributions and spelling achievement

The purpose of this study was to examine the effects of individualized feedback and individualized
instruction on ability attributions, effort attributions and spelling achievement. It was predicted
that individualized feedback would lead - particulariy for low achievers - to increased attributions
and consequently to achievement improvement. With respect to individualized instruction the
prediction was that low achievers would show a rise in ability attributions but that both high and low
achievers would enhance their effort attributions and improve their performance.
To test these hypotheses a field experiment was performed in which third grade pupils participated
(age 8-9). No effects of individualized feedback on attributions were found and only the low
achievers improved their performance. However, individualized instruction produced effects in
the direction we predicted both on attributions and achievement. Whereas the results suggest that
individualized feedback may be useful for low achievers, individualized instruction must be
considered a more effective educational method for both high and low achievers.

In een voorgaand veldexperiment (Van Oudenhoven et al., 1983) werd een geïndividualiseer-
de methode van spellingonderwijs vergeleken met de meer gebruikelijke klassikale aanpak.
Bij het geïndividualiseerde spellingonderwijs vond een grotere verbetering in prestaties plaats
en trad - vooral bij de lage presteerders - een verhoogde attributie naar competentie op. De
resultaten konden niet eenduidig geïnterpreteerd worden omdat het geïndividualiseerde spel-
lingonderwijs op twee essentiële punten van het normale klassikale onderwijs afweek. Op de
eerste plaats werd de beoordeling geïndividualiseerd, d.w.z. iedere leerling ontving feedback,
waarbij zijn vorige prestatie het vergelijkingspunt was. Ten tweede kreeg elke leerling oefe-
ningen die hoorden bij zijn niveau. Het is de bedoeling in dit onderzoek na te gaan in welke
mate de resultaten van het geïndividualiseerde spellingonderwijs door de geïndividualiseerde
beoordeling of door de combinatie hiervan met aangepaste oefeningen verklaard moeten
worden. Tegelijkertijd wordt impliciet de toetsing nagestreefd van de sociaal psychologische
principes die geacht worden bij het geïndividualiseerde spellingonderwijs werkzaam te zijn.
Bij de geïndividualiseerde beoordeling worden de prestaties niet beoordeeld aan de hand van
een klassikale norm, zoals dat gebeurt wanneer cijfers gegeven worden, maar op grond van
individueel gemaakte vorderingen ten opzichte van eerdere prestaties. Bij deze wijze van
beoordeling wordt iedere vooruitgang beloond. Een leerling die vooruitgang boekt, krijgt dus.

ook al blijft zijn prestatie onder het gemiddelde van de klas, een positief oordeel. Een
vooruitgang in prestaties kan hierdoor voor de lage presteerders tot een stijging in de attributie
naar competentie leiden, omdat zij minder sterk geconfronteerd worden met vergelijkende
informatie over de prestaties van de overige leerlingen, die hun zwakke prestaties nog eens
benadrukt.

Een andere reden waarom de geïndividualiseerde beoordeling een gunstig effect kan hebben is
dat er een grotere contingentie tussen inzet en prestaties ontstaat. Dit komt omdat de mate van
individuele voomitgang het oordeel bepaalt. Verschillende auteurs hebben op het belang van
deze contingentie voor de motivatie gewezen (o.a. Ames en Arnes, 1981; Good en Brophy,
1980; Van Houten, 1980). Solomon en Oberlander (1974) adviseerden leerkrachten expliciet
het causale verband tussen inspanning en succes aan te geven. Zij wezen hierop, omdat in
klassikale onderwijssituaties de goede leerlingen met een minimum aan inspanning een goed
oordeel kunnen halen, maar slechte leeriingen ondanks grote inzet veelal een negatiefoordeel
krijgen. Dit is volgens hen niet bevorderlijk voor het gevoel van controle dat de leerlingen over
hun prestaties hebben. Vooral bij zwakke leerlingen bestaat de kans dat zij zich zelf nauweUjks
nog in staat achten invloed uit te oefenen op prestaties.

Feedback die gebaseerd is op individuele vorderingen vergroot de contingentie tussen inzet en
prestaties. Op grond daarvan valt - vooral voor de lage presteerders - een verhoging in de
attributie naar inzet te verwachten. De stijging in inzet-attributies in combinatie met de
verhoging in attributies naar competentie wordt verondersteld tot een verbetering van de
prestaties te leiden (cf. Weiner, 1974; 1979). Op basis van het voorgaande komen we tot de
volgende hypothesen:

Hl: De individualisering van de beoordeling leidt voor lage presteerders tot een verhoging van

de competentie-attributies.
H2: De individuahsering van de beoordeling leidt tot een verhoogde inzetattributie, die zich

het sterkst bij lage presteerders manifesteert.
H3: De individualisering van de beoordeling leidt tot een prestatieverbetering, die zich het

sterkst bij lage presteerders manifesteert.
Kenmerkend voor het geïndividualiseerde spellingsonderwijs is niet slechts dat de beoordeling
is geïndividualiseerd, maar ook dat er aangepaste oefeningen gegeven worden d.w.z. dat de
leerlingen individueel aan oefeningen werken, die corresponderen met hun spellingniveau.
Zodra de leerhngen oefeningen van een bepaalde moeilijkheidsgraad beheersen, gaan ze over
tot het maken van oefeningen van de daaropvolgende moeihjkheidsgraad (voor een bespre-
king van deze methode wordt verwezen naar Boersma et al., 1980). ïij zo'n lessituatie wordt
verondersteld dat leerlingen effectiever leren als ze opdrachten maken die optimaal aansluiten
bij wat ze cognitief kunnen verwerken en dat het maken van oefeningen die de leeriing aankan,
diens ervaring van succes doet toenemen met een gunstige uitwerking op verdere prestaties.
Bij een lessituatie, waar leerlingen oefeningen maken die corresponderen met hun spellingni-
veau valt niet te verwachten dat de competentie-attributies van de goede leerlingen veel zullen
stijgen, omdat zij bij het klassikale onderwijs ook al succeservaringen ondervinden. Voor de
lage presteerders echter betekenen deze succeservaringen een grote wijziging ten opzichte van
de klassikale lessituatie, zodat voor hen wel een verhoogde attributie naar competentie valt te
verwachten. Op grond van de aanpassing van de oefeningen aan het spellingniveau van de
leerlingen is het aannemeüjk dat ook de hoge presteerders zich meer zullen inspannen en
betere prestaties zullen behalen dan bij het klassikale onderwijs, waar zij doorgaans oefenin-
gen moeten doen die op de gemiddelde leerling afgestemd zijn. Op basis van de gecombineer-

de werking van geïndividualiseerde beoordeling en aangepaste oefeningen komen we tot de
volgende hypothesen:

H4: Individualisering van het spellingonderwijs leidt voor lage presteerders tot verhoogde

competentie-attributies.
H5: Individualisering van het spellingonderwijs leidt - zowel voor hoge als lage presteerders -

tot verhoogde inzet-attributies.
H6: Individualisering van het spellingonderwijs leidt - zowel voor hoge als lage presteerders -

tot een verbetering van prestaties.
Samenvattend: De voorspelde effecten zijn voor beide condities gelijk, behalve dat bij het
geïndividuahseerde spellingonderwijs wat inzet-attributies en prestaties betreft voor hoge
presteerders een even groot effect als voor lage presteerders verwacht wordt.

Hierboven is uiteengezet dat het klassikale en het geïndividualiseerde spellingonderwijs op
een tweetal aspecten te onderscheiden zijn, te weten: de manier van beoordelen en de wijze
waarop oefeningen gegeven worden. Uitgaande van deze twee aspecten die ieder twee
niveau's hebben is een design met 4 cellen te ontwerpen (zie schema 1). Eén cel in het design
verwijst naar een leersituatie, waarin een aangepaste aanbieding van oefeningen gepaard gaat
met een klassikale beoordeling. Deze conditie is moeilijk te realiseren, omdat leerlingen die
aangepaste oefeningen maken daar tevens individuele feedback over moeten ontvangen. De
leerlingen zouden daarmee tevens een indruk van hun individuele vorderingen krijgen. Om
deze reden, maar ook omdat zo'n situatie pedagogisch onzinnig zou zijn, is deze conditie niet
gerealiseerd.

Vergelijking van de condities I en II stelt ons in staat de eerste drie hypothesen te toetsen,
terwijl de laatste drie hypothesen getoetst kunnen worden door het contrast van conditie I met
conditie III. Vergelijking van de condities II en III, die slechts verschillen wat de aanbieding
van oefeningen betreft, stelt ons in staat de effecten van aangepaste oefeningen na te gaan.

Aanvankelijk namen 11 derde klassen uit even zo veel scholen, gelegen in het Noorden des
lands, aan het onderzoek deel. Eén school werd niet bij de analyse betrokken, omdat bij

inspectie door een onafhankelijke beoordelaar bleek dat de experimentele manipulaties niet
zorgvuldig genoeg uitgevoerd werden. Twee andere scholen moesten afvallen omdat de
leerkrachten enige weken ziek waren. Niet meegerekend werden de 6% leerlingen die bij de
aanvang van het onderzoek minder dan drie fouten op de spellingtest hadden en daardoor
nauwehjks nog enige vooruitgang zouden kunnen boeken. Drie leerlingen vielen uit, één
wegens ziekte en twee, omdat ze remedial teaching ontvingen. Uiteindelijk waren 8 scholen
met 197 leerlingen bij de analyse betrokken. Voor de condities I en II, met elk drie scholen,
waren dit respectievelijk 89 en 61 leerlingen. Bij conditie III waren twee scholen met 47
kinderen betrokken. Alle leerkrachten waren mannelijk.

Teneinde voor elk contrast vast te kunnen stellen of er verschillen optraden in de mate van
attributiestijging en prestatieverbetering werd een 2 (condities) x 2 (niveaugroepen) x 4
(tijdstippen) factorieel design met herhaalde metingen op de laatste factor toegepast. De mate
van stijging of verbetering werd uitgedrukt in een lineaire trend. Gebruikt is het programma
'Multivariance' van Finn (1978, p. 35-38) waarbij effecten af te leiden uit herhaalde metingen
via een multivariate procedure getoetst kunnen worden. Eerst werd nagegaan of voor de drie
afhankelijke variabelen gezamenlijk sprake was van een lineaire trend. Bij aanwezigheid
daarvan werd vervolgens bepaald of er voor de afzonderlijke variabelen (competentie-attribu-
tie, inzet-attributie en spellingprestaties) effecten te constateren waren.
Bij de toetsingen werden eerst alleen de hoge en lage presteerders bij de analyse betrokken om
na te gaan of er sprake was van een interactie van de factor conditie met de factor niveau. Bij
afwezigheid van een dergelijke interactie werden de data opnieuw geanalyseerd, maar dan met
alle leerlingen. De effecten werden eenzijdig getoetst bij een significantieniveau van 5%.
De leerlingen werden per klas op grond van een spellingtoets in twee niveau's ingedeeld,
waarbij degenen met meer dan 10 fouten op een spellingtest (31% van de leerlingen) tot de lage
presteerders en degenen met 3 tot 7 fouten (49% van de leerlingen) tot de hoge presteerders
gerekend werden. De laatste groep is relatief groot gehouden om te vermijden dat er bij een
scherper contrast een plafondeffect voor prestaties zou optreden.

Voor de meting van de competentie- en inzet-attributies is een vragenlijst gebruikt. Om de
neiging van kinderen tot sociaal wenselijke antwoorden te reduceren is gekozen voor een
instrument, waarbij de leerlingen uitspraken over dictee (spellingortderwijs) deden via paars-
gewijze vergelijking met vijf andere vakken. Zij moesten telkens aanstrepen in welk vak zij
beter waren op school (competentie) of voor welk vak zij meer hun best deden (inzet). Op deze
manier werden de attributies naar competentie en inzet niet absoluut gemeten, maar in
verhouding tot andere vakken bepaald. Om niet al te veel de nadruk op dictee te leggen, was er
een tiental vergelijkingen opgenomen, waarbij dictee niet voorkwam. De scores konden
variëren van O (laag) tot 5 (hoog). De test - hertest betrouwbaarheid van de com^etentie-
attributieschaal, afgenomen met een tussentijd van een week, bedroeg .77, die van de inzet-
attributieschaal .75. Hoewel competentie- en inzetattributies op dezelfde wijze en bij dezelfde
gelegenheid zijn gemeten, is de correlatie tussen beide schalen vrij laag (.37), hetgeen betekent
dat de schalen elkaar niet substantieel overlappen.

Als prestatiemaat zijn vier parallelle versies van een spellingtest (woorddictee) gebruikt,
bestaande uit 45 typische spellinggevallen. De maximale foutenscore bedroeg 45. De betrouw-

baarheid, bepaald aan de hand van twee willekeurige parallelle tests, bedroeg .80. Ook deze
tests werden met een week tussentijd afgenomen bij twee derde klassen die verder niet aan het
onderzoek deelnamen.

De deelnemende scholen waren afkomstig uit een pool van scholen die een klassikale spelling-
methode hanteerden, maar waarvan bekend was, dat de leerkrachten positief zouden staan
tegenover vernieuwingen in het spellingonderwijs. Hieruit werden at random de scholen aan
de condities I en II toegewezen. Voor conditie III werden uit deze pool echter scholen
gevraagd, waarvan de leerkrachten kort te voren een cursus gevolgd hadden over het geïndivi-
dualiseerde spellingonderwijs. Dit was noodzakelijk omdat de wijzigingen in het spellingon-
derwijs in deze conditie ingrijpend waren en het derhalve te verwachten was dat leerkrachten,
die hier niet over geïnformeerd waren, er voor terug zouden schrikken aan het onderzoek mee
te doen. Om het selectieprobleem dat hierdoor ontstond te reduceren, is voor de aanvang van
het onderzoek nauwlettend nagegaan of de onderwijsaanpak van deze leerkrachten wel
voldoende overeenkomsten vertoonde met die van de overige deelnemende leerkrachten. De
criteria hierbij waren of de leerkrachten een klassikale taalmethode en een klassikale instructie
hanteerde, of er regelmatig klassikaal dictee's werden afgenomen en of deze dictee's op
vergelijkbare wijze werden nagekeken.

Het aanbrengen van de experimentele conditie vroeg extra aandacht omdat de optiek van de
leerkracht en die van de onderzoeker uiteenlopen. Het gevaar bestond dat de leerkrachten bij
onvoldoende instructies de experimentele manipulaties zouden vervormen door ze pedago-
gisch bij te stellen. Om dit zo veel mogelijk te voorkomen, vonden voor de aanvang van het
onderzoek twee instructiegesprekken plaats. Tijdens het introductiegesprek werd de leer-
krachten verteld wat hun te doen stond. De tweede keer werd hun een schriftelijke beschrij-
ving van hun conditie overhandigd, die we zeer gedetailleerd bespraken. Daarin stond punts-
gewijs samengevat waar zij zich aan moesten houden. De eerste maand van de onderzoekspe-
riode werden alle scholen nog eens drie è vier keer bezocht om onduidelijkheden toe te lichten
en correcties op het beoordelingsgedrag aan te brengen.

Eind februari vond de eerste meting van de attributies en prestaties plaats. Direct daarna
werden de verschillende condities gerealiseerd. De volgende drie metingen werden telkens
met tussenperiodes van vijf schoolweken uitgevoerd. In alle condities werd de leerkrachten
verzocht anderhalf uur per week aan spelling te besteden en naast de omwille van het
onderzoek gewenste wijzigingen, geen veranderingen in hun onderwijs aan te brengen. Een
overzicht van de drie condities wordt in onderstaand schema gegeven.

De geïndividualiseerde beoordeling bij de condities II en III vond op de volgende manier
plaats: in tegenstelling tot conditie I werden niet alle fouten aangestreept. Fouten, gemaakt in
woorden die het niveau van de leerlingen te boven gingen, werden niet aangestreept. Hiervoor
was het nodig het spelhngniveau van de leerlingen te bepalen. Dit gebeurde aan de hand van
een twaalftal dictee's, die correspondeerden met 12 fasen (niveau's). Op een inschalingslijst
had de leerkracht van alle leerlingen geregistreerd welke spellinggevallen de leerlingen in een
bepaalde fase nog niet beheersten. Een leerling werd geacht een bepaald spellinggeval binnen
een fase te beheersen, als dit in negen van de tien keer goed geschreven werd. Als een leerling
80% of meer van alle spellinggevallen uit een fase beheerste, werd hij bij de daarop volgende
fase ingedeeld. Op deze manier werden de niveau's overeenkomstig de vorderingen van de
leerlingen regelmatig bijgesteld.

Omdat het aantal fouten dat aangestreept werd athing van het niveau kon dit niet meer als
richtlijn voor klassikale vergelijking gebmikt worden. Er werd dan ook geen cijfer meer
gegeven. De dictee's, op losse blaadjes afgenomen, werden niet teruggegeven in de klas. De
leeriingen werden voor de beoordeling één voor één bij de leerkracht geroepen, die de leerling
duidehjk maakte of hij al dan niet voomitgegaan was. Daarvoor werd een vorderingenboekje
gebruikt met vakjes waarin 118 woorden stonden, die alle correspondeerden met typische
spellingproblemen. Als een kind in het dictee er bhjk van gaf een nieuw spellinggeval te
beheersen, mocht het het betreffende vakje inkleuren. Ging het kind noch voomit noch
achteruit, dan vertelde de leerkracht dat het kind de ingekleurde Woorden nog steeds goed
deed. In geval van achtemitgang wees de leerkracht het kind erop dat het die fouten eerder niet
gemaakt had. De boekjes werden door de leerkracht bewaard om te vermijden dat de
leerlingen onderling de boekjes zouden vergelijken. Om de geïndividualiseerde beoordeling
consequent door te zetten, werd met de leerkracht afgesproken op het rapport geen cijfer of
een daarmee te vergeUjken waardering voor spelling te plaatsen, maar een beschrijving te
geven van de vorderingen die elke leerling maakte.

Het kenmerkende van conditie III was dat de leerlingen spellingoefeningen moesten doen, die
volledig overeenkwamen met hun niveau. Het aanbieden van op de individuele leerling
afgestemde oefeningen in deze conditie betekende dat zij gewezen werden op de fouten die
hun niveau niet te boven gingen. Om de drie condities wat deze gerichte fouteninformatie
betreft vergeUjkbaar te maken werden ook in beide andere condities slechts die fouten
benadrukt die niet te moeilijk waren voor de leerling. Dit werd gerealiseerd door alleen de fout

gespelde woorden, die het niveau van de leerling te boven gingen, verbeterd onder het dictee te
schrijven. Toch kon niet vermeden worden dat de gerichte feedback over fouten in conditie II
en III iets scherper gerealiseerd werd. Immers, in deze condities werden buiten de verbeterde
woorden geen andere fouten aangestreept. Bovendien benadrukte de leerkracht bij de indivi-
duele bespreking in deze condities de fouten in de woorden die de leeriing eerder goed
geschreven had.

Bij elke keer dat de metingen werden afgenomen, werd door de onderzoeker nagegaan of de
beoordeling van de spellingprestaties van de leerlingen volgens instructie verliep. Dit kon
betrekkelijk gemakkelijk gecontroleerd worden, omdat de beoordeling grotendeels schrifte-
lijk plaatsvond. Na twee maanden werden de leerkrachten bezocht door een beoordelaar, een
ex-leerkracht, die niet betrokken was bij het onderzoek. Deze ging aan de hand van een
checklist na of de manipulaties goed werden uitgevoerd. Daartoe had hij een gesprek met de
leerkracht, controleerde de dictee's, inschalingslijsten en beoordelingsboekjes en woonde een
gedeelte van een spellingles bi j. Op grond van deze controle werd - zoals hierboven vermeld -
één school niet bij de analyse betrokken.

Geïndividualiseerde beoordeling. In hypothese 1 werd voorspeld dat de geïndividualiseerde
beoordeling voor de lage presteerders tot verhoogde attributies naar competentie zou leiden.
In de hypothesen 2 en 3 werd voor alle leerlingen, maar vooral voor de lage presteerders een
verhoogde inzetattributie en een prestatieverbetering voorspeld. Bij vergelijking van conditie
I (klassikale oefeningen en beoordeling) met conditie II (klassikale oefeningen en geïndividua-
liseerde beoordeling) werd een multivariaat conditie x niveau effect gevonden [F (3,115) =
2.40, p, < .04]. Bij univariate toetsing bleek sprake te zijn van significante verschillen in
prestatieverbetering [F (1,117) = 6.29, p< .01]. Zoals tabel 1 laat zien bestaan er alleen tussen
de lage presteerders uit beide condities verschillen die hoofdzakelijk veroorzaakt zijn door een
terugval in de prestaties van de controlegroep in de laatste periode. De grote spreiding in de
prestatiescores op de laatste meting bij de controlegroep wijst erop dat er een aantal leerlingen
is, die ver achter blijft bij de rest van de klas. De resultaten betekenen een gedeeltelijke
bevestiging van hypothese 3, waarin voorspeld werd dat de geïndividualiseerde beoordeling
vooral voor de lage presteerders tot een prestatieverbetering zou leiden. Er werd geen
interactie-effect op de attributievariabelen gevonden. Evenmin liet vergelijking van de twee
condities, ongeacht niveau, significante verschillen zien, zodat voor de overige hypothesen
geen ondersteuning gevonden werd.

Geïndividualiseerd spellingonderwijs. In de hypothesen 4, 5 en 6 werd voorspeld dat het
geïndividualiseerde spellingonderwijs voor de lage presteerders tot een verhoging van de
competentie-attributies en zowel voor de hoge als de lage presteerders tot verhoogde inzet-
attributies en prestatieverbetering zou leiden. Er was geen sprake van een multivariaat
conditie x niveau effect. Wel werd er een significant multivariaat effect gevonden bij een
vergelijking van de condities, ongeacht het niveau [F (3,130) = 3,54, p < .01]. Naast significan-
te verschillen in competentie-attributies [F (1,132) = 2.67, p < .05] werden ook significante

effecten op attributies naar inzet [F(l,132) = 2.93, p < .04] en prestaties [F(l,132) = 6.41, p <
.01] gevonden. Zoals de tabellen 1, 2 en 3 laten zien, trad bij de kinderen in conditie III
(geïndividualiseerde beoordeling en aangepaste oefeningen) inderdaad een verhoging van de
competentie- en inzet-attributies en een grotere verbetering in prestaties op dan in conditie I
(klassikale oefeningen en beoordeling).

Omdat de leerlingen in conditie III bij de aanvang van het onderzoek lager scoorden op
spellingprestaties en inzet-attributies dan de leerlingen in conditie I (zie tabel 1 en 3) is ter
controle voor deze nonequivalentie tevens een covariantieanalyse uitgevoerd op de laatste
metingen met de eerste prestatie- en inzet-attributiemetingen als covariaten. Bij deze nadere
analyse waren de verschillen tussen conditie I en III eveneens significant wat prestaties [F
(1,130) = 11.46,p< .OOljencompetentieattributies[F(l,130) =4.72,p<.02]betreft;echter
niet wat inzetattributies betreft. Op prestaties werd een conditie x niveau interactie-effect
gevonden [F (1,103) = 6.72, p < .01], hetgeen, zoals tabel 1 laat zien betekent dat de
verschillen tussen de condities op de laatste prestatiemeting het grootst zijn voor de lage
presteerders.

Op grond van de gezamenlijke analyses kunnen de hypothesen 4 en 6 als ondersteund
beschouwd worden, onder de aantekening dat het geïndividualiseerde spellingonderwijs niet
slechts bij de lage, maar ook bij de hoge presteerders een stijging van de competentie-
attributies teweeg brengt en dat wat prestaties betreft deze methode vooral bij de lage
presteerders werkzaam is. Ten aanzien van de voorspelde stijging in inzet-attributies (hypothe-
se 5) kan slechts van een geringe aanwijzing gesproken worden.

Interessant is dat contrastering van conditie III met conditie II waar de beoordeling eveneens

geïndividualiseerd was, maar de oefeningen klassikaal werden aangeboden, een multivariaat
effect opleverde [F (3,102) = 2.95, p < .02], dat bij univariate toetsing toegeschreven moest
worden aan significante verschillen in prestatieverbetering [F (1,104) = 4.75, p < .02]. Deze
resultaten laten zien dat toevoeging van aangepaste oefeningen aan de geïndividualiseerde
beoordeling tot gevolg heeft dat de hoge presteerders eveneens vooruitgaan.

De geïndividualiseerde beoordeling (conditie II) heeft niet de verwachte verhoging in attribu-
ties naar competentie en inzet opgeroepen en alleen voor de lage presteerders tot een
prestatieverbetering geleid.
Hoe kunnen we deze resultaten verklaren?

- Een mogelijke verklaring voor het achterwege blijven van verhogingen in de attributies is
dat de leerlingen zich na ruim twee jaar spellingonderwijs een redelijk scherp beeld van hun
competentie hebben gevormd en hun inzet een min of meer stabiel patroon heeft aangeno-
men. Dit patroon komt tot uitdrukking in de systematische verschillen in attributiescores
tussen de hoge en lage presteerders bij de eerste meting (zie tabel 2 en 3). De leerlingen
hebben vermoedehjk sterkere impulsen dan een verandering in de beoordeling nodig om
hun attributies te wijzigen.

- Dat de hoge presteerders geen prestatieverbetering lieten zien is waarschijnlijk toe te
schrijven aan het feit dat de combinatie van geïndividualiseerde beoordeling en klassikale
oefeningen hun weinig mogelijkheden bood om hun prestaties te verbeteren. Klassikale
oefeningen zijn doorgaans afgestemd op het niveau van de gemiddelde leerling. Dat
betekent dat de betere leerlingen met weinig inspanning de oefeningen goed kunnen
maken. Een grotere inspanning kan dan ook weinig additioneel effect hebben op de
prestaties. Anders wordt het als deze groep oefeningen kan maken, die meer aansluiten bij
hun niveau, hetgeen in conditie III gebeurde. Dan kunnen ook de betere leerlingen
redelijke vorderingen maken, zoals tabel 1 laat zien.

Voor de veronderstelling dat bij de geïndividualiseerde beoordeling de verbetering in presta-
ties tot stand zou komen door een verhoogde attributie naar competentie en inzet is geen
ondersteuning gevonden. Het is niet uitgesloten dat de attributiemetingen te grof waren om de
effecten van de ingreep te kunnen registreren, terwijl de spellingtoets wél fijn genoeg was. Een
alternatieve verklaring is dat de individualisering van de beoordeling op een andere wijze tot
prestatieverbetering geleid heeft dan de theorie voorspelt¹. Gezien het feit dat de ingreep tot
gevolg had dat voor lage presteerders elke vooruitgang beloond werd is het aannemelijk dat de
bij hen optredende prestatieverbetering via een bekrachtigingsmechanisme tot stand gekomen
is.

1 De leerkrachten hebben wellicht via de vorderingenboekjes scherper op bepaalde spellinggevallen
gewezen en daarmee de prestatieverbetering bij de lage presteerders veroorzaakt. Om een mogelijk effect
van gerichte fouteninformatie na te gaan was een extra conditie A gerealiseerd, identiek aan conditie I,
behalve dat de leerkrachten in dit geval geen woorden onder het dictee verbeterden. Vergelijking van
beide condities gaf evenwel geen aanwijzingen voor een effect van gerichte fouteninformatie op prestaties
of attributies.

Opmerkelijk is dat de lage presteerders in de controle-conditie (I) in de periode van mei tot
juni een terugval in prestaties lieten zien (tabel 1). In dezelfde periode daalde ook de door hen
waargenomen inzet (tabel 3). Een dergelijk patroon deed zich trouwens ook voor bij de zo juist
in een voetnoot genoemde conditie A. Anders dan voorspeld lijken de inzet-attribuiies het
prestatieverloop eerder te volgen dan veroorzaakt te hebben. Na een aanvankelijke aanzienlij-
ke vooruitgang in prestaties trad een stijging van de waargenomen inzet op die zich na een
stagnatie in de prestatieverbetering bleef voortzetten. Na een verslechtering van de prestaties
daalde ook de inzet-attributie. Onze interpretatie is dat de lage presteerders het niveau van
klassikaal gegeven oefeningen steeds moeilijker konden volgen en daardoor slechtere presta-
ties behaalden. Het klassikale beoordehngssysteem, dat de inzet van lage presteerders niet erg
beloont, versterkte dit proces met als gevolg dat de (waargenomen) inzet afnam.
Bij conditie II trad geen terugval, maar wel een stagnatie in het prestatieverioop op, die later
gevolgd werd door een daling van de inzet-attributie. Aangezien bij deze conditie de prestaties
beoordeeld werden aan de hand van individueel gemaakte vorderingen is het begrijpelijk dat
bij afwezigheid van enige vooruitgang ook de (waargenomen) inzet daalde.
Alleen het geïndividualiseerde spellingonderwijs, waar alle leerlingen oefeningen maken die
overeenkomen met hun niveau, lijkt dit proces te kunnen doorbreken. Daar bleef voor de lage
presteerders enige vooruitgang optreden terwijl ook de attributie naar inzet bleef stijgen.
Voorspeld was dat het geïndividualiseerde spellingonderwijs vooral bij de lage presteerders tot
verhoogde attributies naar competentie zou leiden. De hoge presteerders gingen echter
eveneens vooruit wat hun competentie-attributie betreft. Mogelijkwerwijs heeft het bijna
bereiken van het punt waarop alle gangbare spellinggevallen beheerst werden deze hoge
presteerders een verhoogd gevoel van competentie gegeven. Voor de hoge presteerders uit de
condities I en II, waar klassikale oefeningen werden gegeven was minder reden om de
competentie-attributies te verhogen, omdat ze in die condities nauwelijks enige vorderingen
maakten.

De resultaten van dit en het vorige onderzoek (Van Oudenhoven et al., 1983) hebben laten
zien dat het geïndividualiseerde spellingonderwijs een methode is die zowel voor de betere als
voor de zwakke leerling effectief is. Hoewel het rendement van deze methode, afgemeten aan
de daling van het aantal spellingfouten in deze onderzoeksperiode niet erg groot is, is deze
vorm van onderwijs vooral van belang voor de lage presteerders, omdat voor hen de tendens
van dalende prestaties en attributies omgezet wordt in een prestatieverbetering en verhoogde
attributies naar competentie en inzet.

Toepassing van deze methode stuit niet op grote bezwaren. Voor de introductie van het
geïndividualiseerde spellingonderwijs is ongeveer een maand inwerking van de leerkracht
nodig. Deze methode is te gebmiken in combinatie met de gebmikelijke klassikale taalmetho-
den, brengt nauwelijks materiaalkosten met zich mee en is in klassen met een normale grootte
- tot ongeveer 30 leerlingen - redelijk toe te passen.

Ames, C. & Ames, R. Competitive versus individualistic goal structures: The salience of past perform-
ance information for causal attributions and affect. Journal of Educational Psychology, 1981, 73,
411-418.

Boersma, R., Klompmaker, R., Kooistra, A. & Tabak, J. Alle kinderen een tien. Leeuwarden: Gemeen-
schappelijk Centmm voor Onderwijsbegeleidingsdiensten in Friesland, 1980.

Finn, J. Multivariance: Univariate and multivariate analysis of variance, covariance, regression and
repeated measures. User's Guide. Chicago: International Educational Services, 1978.

Good, T.L. & Brophy, J.E. Educational psychology: A realistic approach (2nd Ed.)., New York: Holt,
Rinehard and Winston, 1980.

Houten, R. Van. Learning through feedback. A systematic approach for improving academic perform-
ance. New York: Human Science Press, 1980.

Oudenhoven, J.P. Van, Siero, F., Veen, P. & Siero, S. De invloed van positieve feedback op competen-
tie-attributies en spellingprestaties. Nederlands Tijdschrift voor de Psychologie, 1983, in druk.

Solomon, D. & Oberlander, M.I. Locus of control in the classroom. In: Coop, R.H. & White, K.
Psychological concepts in the classroom. New York: Harper and Row, 1974.

Weiner, B. (Ed.). Achievement motivation and attribution theory. Morristown, New Jersey: General
Learning Press, 1974.

Weiner, B. A theory of motivation for some classroom experiences. Journal of Educational Psychology,
1979,77,3-25.

Dat is de titel van het eind augustus jl. verschenen rapport van de ARBO, de Adviesraad voor
het Basisonderwijs, speciaal onderwijs en de opleidingen. Een belangrijk rapport van deze
jonge spruit aan de overvolle boom van adviesorganen in het onderwijs. Toch is het advies van
deze onderwijsdeskundigen niet in de eerste plaats belangrijk om zijn onderwijskundige
inhoud, als wel om zijn onderwijspolitieke en -bestuurlijke implicaties. Om die te kunnen
inschatten is enige informatie over de voorgeschiedenis nodig.

In 1979 verscheen het 11e advies van de thans opgeheven Innovatie-commissie Basisonderwijs,
de ICB, getiteld 'Regionalisatie van het innovatieproces basisschool'. De ICB bepleitte
regionale samenwerking tussen scholen en verwante instellingen rond steunpunten, waarach-
ter in de eerste plaats de bestaande regionale of provinciale onderwijsraden zouden moeten
staan. In de tweede plaats zouden schoolbegeleidingdiensten moeten worden ingezet, en
tenslotte de (verzuilde) rayonschoolraden. De regio van de provinciale onderwijsraden is de
grootste; daarom gaf de ICB de voorkeur aan koppeling van de steunpunten aan deze raden.
Schoolbegeleidingsdiensten en rayonschoolraden zouden met eigen taken ingeschakeld kun-
nen worden. De toenmalige minister Pais sloot zich in een concept-beleidsnotitie grotendeels
bij deze visie aan. Heftig verzet ontmoette hij echter in de CCOO, de Centrale Commissie voor
Onderwijsoverleg, waarin de vier naar richting georganiseerde onderwijskoepels (RK, PC,
algemeen-bijzonder en openbaar) het onderwijsbeleid met de bewindslieden plegen voor te
bespreken. De drie koepels van het bijzonder onderwijs verkozen boven de aan het openbaar
bestuursniveau van de provincie gekoppelde onderwijsraad de regionale organisatievorm van
het onderwijs per richting, de rayonschoolraad. De vertegenwoordigers van het openbaar
onderwijs hadden om andere redenen bezwaar tegen de toedeling van taken aan het provin-
ciaal bestuursniveau: men vreesde nl. voor een uitholling van de taak van de gemeentelijke
overheid. Een beleidsbeslissing bleef uit.

Het begrip 'regionalisatie' werd niet door de ICB uitgevonden. In het confessioneel onderwijs
werd het eerder gebraikt om een proces aan te geven waarbij, gestimuleerd door de landelijke
koepels, een net van regionale organisaties werd nagestreefd die diverse diensten aan het eigen
onderwijs in de regio konden verlenen, bijvoorbeeld op administratief gebied. Een belangrijke
stimulans was ook de uitbreiding van het netwerk van schoolbegeleidingsdiensten, die een
samenwerkingskarakter hadden; de rayonschoolraden konden de vertegenwoordiging van
hun richting in het bestuur van deze diensten regelen.

Vanuit de overheid werd het begrip regionalisatie aanvankelijk uitsluitend gebmikt met
betrekking tot de discussie over toedeling van functies aan verschillende overheidsniveau's. In

de in 1975 verschenen Contourennota kon nog eenduidig over regionaUsatie geschreven
worden in de betekenis van 'de afstemming van het overheidsbeleid op de specifieke behoeften
van landsdelen en streken'. In feite was het toen nog een synoniem voor territoriale decentrali-
satie: de vraag was slechts welke bevoegdheden van de centrale overheid konden worden
overgedragen naar een middenniveau, eventueel ook welke taken door lokale overheden
gezamenUjk konden worden aangepakt.

De discussie rond het 11e ICB-advies bracht de confrontatie tussen beide benaderingen en
voegde een onderwijspolitieke lading aan het begrip toe. Het ging een rol spelen in de
machtsstrijd tussen overheid en particulier initiatief (p.i.) in het onderwijs, die sinds de
discussie in de Tweede Kamer in 1976 over de herziening van de tekst van art. 208 van de
grondwet weer opnieuw aktueel geworden was, na een betrekkelijke rust sinds het akkoord
van 1917. Een meerderheid in het parlement bleek van oordeel dat delegatie van regelgeving
van de centrale overheid naar lagere overheden in strijd zou zijn met art. 208. Het streven naar
territoriale decentralisatie, dat op andere terreinen werd bevorderd, was daarmee voor het
onderwijs feitelijk geblokkeerd. Het in 1980 verschenen rapport van de Raad voor de Territo-
riale Decentralisatie ('Decentrakisade van rijkstaken; onderwijs'), antwoord op een verzoek
van de minister van Binnenlandse Zaken uit 1977, heeft tot september 1982 op een ministeriële
reaktie moeten wachten. De voornemens op onderwijsgebied bleken uiterst mager te zijn,
omdat inmiddels het regeerakkoord-1981 decentralisatie van regelgeving voor het onderwijs
ook formeel had geblokkeerd. Regionalisatie in de betekenis van overdracht van bevoegdhe-
den aan instellingen in plaats van aan publiekrechtelijke bestuursorganen werd steeds meer als
alternatief gepresenteerd, o.a. door een in de Kamer aanvaarde motie van het CDA-lid
Deetman, die zich in 1971 al als secretaris van de commissie 'Regionalisatie' van de Protestant-
Christelijke besturen- en koepelorganisatie met deze kwestie bezighield.

Als staatssecretaris in het tweede kabinet-Van Agt vroeg de heer Deetman, samen met zijn
collega Hermes, in januari 1982 advies aan de pas ingestelde ARBO betreffende 'de regiona-
lisatieproblematiek in relatie tot het ontwikkelings- en vernieuwingsbeleid op het gebied van
het basisonderwijs, het speciaal onderwijs en de lerarenopleidingen voor deze vormen van
onderwijs'. In een bijlage van de brief werd de vraag verder uitgewerkt, terwijl tevens een
aantal bij de beantwoording te gebruiken bronnen werd opgesomd. Hieruit bleek dat het
uitgangspunt van de beide bewindslieden was dat er op lokaal en regionaal vlak een grote
behoefte bestaat aan afstemming van onderwijsvoorzieningen op elkaar en op sociaal-culture-
le voorzieningen. Genoemd werden vijf af te stemmen relaties:

1 van scholings- en nascholingsaanbod op de behoeften van het basis- en speciaal onderwijs;

2 van de taken en werkzaamheden van de opleidingen op die van de schoolbegeleidingsdien-
sten;

4 tussen basis- en speciaal onderwijs en de eerste cyclus van het voortgezet onderwijs;

Direct daarop volgde de vraag: 'Welke maatregelen kan en moet de centrale overheid treffen
teneinde de gewenste afstemming te bevorderen?', waarna een nadere aanduiding volgde van
het soort maatregelen waarop men het oog had. Met name werd antwoord verwacht op de
volgende vragen:

- welke structurele voorzieningen dienen op het plaatselijke en/of regionale vlak te worden
gecreëerd?

- welke is de rol van de lagere overheden en van de regionale organen van het bijzonder
onderwijs?

- hoe dient, bij een keuze voor verschillende regio's voor verschillende structurele voorzie-
ningen de verhouding te zijn tussen deze regio's en de voorzieningen?

De bronnen waarnaar verwezen werd zijn de stukken rond het 11e ICB-advies en diverse
stukken die te maken hebben met de relatie tussen art. 208 van de grondwet en de (on)moge-
lijkheden tot territoriale decentralisatie, zoals het genoemde RTD-rapport en de tekst van het
regeerakkoord-1981 (die overigens ook in het regeerakkoord van het kabinet-Lubbers is
opgenomen). Ook zonder deze op de bestuurlijke problematiek gerichte bronnenopgave valt
het op dat de adviesaanvraag ervan uitgaat dat voor de gesignaleerde afstemmingsproblema-
tiek slechts structuren en/of voorzieningen, en wel op regionaal niveau, een oplossing kunnen
bieden. Zowel het bestaan van zeker vijf afstemmingsproblemen als de zekerheid dat subnatio-
nale structuren (regionalisatie) daarvoor de oplossing zullen bieden was dus al geen vraag
meer.

De ARBO bestaat voornamelijk uit pedagogen, onder voorzitterschap van de oud-directeur
van het Katholiek Pedagogisch Centrum en oud-woordvoerder van de Katholieke delegatie in
de CCOO, de heer Hanselman. De ARBO plaatste bij de vraagstelling geen enkele kritische
kanttekening. In het rapport worden eerst de opgegeven bronnen besproken en daarna de
opgegeven afstemmingsgebieden; toegevoegd worden nog twee terreinen, nl. het innovatie-
proces in het basisonderwijs (het oorspronkelijke onderwerp van het 11e ICB-advies) en het
onderwijsvoorrangsbeleid. Elk hoofdstuk wordt van conclusies en aanbevelingen voorzien.
Hoewel de aanbevelingen hoofdzakelijk van bestuurlijke en niet van onderwijskundige aard
zijn, wordt een expliciete stellingname in het dilemma decentralisatie-regionalisatie omzeild:
'Het politiek omstreden terrein behoeft nu niet omgeploegd te worden. De regionalisatie,
zoals zij gevraagd wordt uit onderwijskundige wenselijkheid, behoeft het vraagstuk van de
decentralisatie met delegatie van regelgeving naar lagere overheden niet te raken om de
beoogde doelen te bereiken' (p. 107). Als doel wordt geformuleerd: de regionale afstemming
van onderwijsvernieuwingen van verschillende aard.

Op alle onderzochte terreinen constateert de ARBO inderdaad afstemmingsproblemen, en op
al deze terreinen wordt regionalisatie aanbevolen als het instrument bij uitstek om een goede
afstemming te bereiken. Regionalisatie betekent dan het ontstaan van overlegorganen tussen
scholen in een bepaalde regio. De overheid moet deze regionalisatie stimuleren en uiteindehjk
ook bekostigen. De organisatorische vorm van regionalisatie moet zoveel mogelijk aan de
scholen zelf in een regio worden overgelaten. Als uitgangspunt van de regio-indeling wordt de
regiogrootte van de schoolbegeleidingsdiensten voorgesteld. Schoolbegeleidingsdiensten en
opleidingen van onderwijsgevenden zijn te beschouwen als de ondersteunende instanties van
de regionale overlegorganen in de eerste lijn, maar zij moeten er niet in directe zin in
participeren. Een hechte relatie wordt echter wel nodig gevonden. De gemeentelijke overheid
participeert alleen als bevoegd gezag van openbare scholen, niet als lokale overheid. Een
goede communicatie vanuit het overlegorgaan met gemeentelijke en provinciale besturen is

wel noodzakelijk, vooral met de gemeenten als verantwoordelijken voor het lokale welzijnsbe-
leid. Werkgroepen binnen het regionaal orgaan zouden sectorplannen-van-afstemming moe-
ten voorbereiden en uitvoeren. De scholen kunnen eventueel kiezen voor een overlegorgaan
alleen van de eigen 'richting', dus verzuild; de ARBO beveelt in dat geval wel ook een
overkoepelend orgaan aan, waarin de richtingen samenwerken.

Gepleit wordt voor het starten van een aantal regionalisatieprojecten, maar niet te wachten
met een principe-uitspraak voor een breed regionalisatiebeleid tot de projecten zijn afgerond.
Vijf projecten zouden voor vijf jaar gestart moeten worden. De kosten zouden per project per
jaar ƒ 160.000 bedragen (ƒ 100.000 voor de scholen, ƒ60.000 voor de ondersteunende school-
begeleidingsdienst), plus ƒ 100.000 voor elk van de vier landelijke onderwijskoepels voor de
initiële ondersteuning van de bij haar aangesloten scholen. Deze laatste kosten zouden niet
stijgen voor volgende projecten. Een globale berekening leert dat bij een volledige uitvoering
van de regionalisatie in 70 regio's (het globale aantal schoolbegeleidingsdiensten) de kosten
per jaar ca. 27 miljoen zouden bedragen (70 x ƒ 160.000 -I- ƒ400.000). De eerste vijf projecten
kosten jaarlijks ƒ 1,2 miljoen.

Het ARBO-advies bevat interessante beschouwingen en het geeft te denken, zowel over het
advies zelf als over het onderwijsbeleid waarin het een ongetwijfeld belangrijke rol zal gaan
spelen.

1. Van een belangrijk adviesorgaan, samengesteld uit onafhankelijke deskundigen, mag een
onafhankehjke kritische opstelling tegenover een adviesaanvraag verwacht worden. Daar is in
dit geval onvoldoende van te merken. De afstemmingsproblemen die tussen de vijf koppels
van voorzieningen zouden bestaan worden slechts oppervlakkig geanalyseerd en wel op een
zodanige wijze dat in alle gevallen tot de oplossing regionalisatie kon worden geconcludeerd,
zelfs voor de niet onder de zeggenschap van O en W vallende peutervoorzieningen (en passant
wordt onderbrenging hiervan bij O en W bepleit). Altematieven bleven geheel buiten be-
schouwing; wel werden enkele onderwijskundige suggesties toegevoegd. Ook de door de
ARBO zelf toegevoegde onderwerpen bleken tot aanbevelingen tot regionalisatie te leiden.
Toch is het heel goed denkbaar dat de onderlinge afstemming van voorzieningen aanzienlijk te
verbeteren valt door de doelgroep duidelijker te beschrijven (speciaal onderwijs), door
toelatingsprocedures aan duidelijker voorwaarden te binden, door begin- en eindtermen
wettelijk beter vast te leggen (basis/voortgezet onderwijs), door een duidelijker wettelijke
taakafbakening (schoolbegeleidingsdiensten en opleidingen), terwijl ook vrijwillig gelegde
contacten nu al de nodige problemen oplossen.

Niet duidelijk wordt waarom, zonder dat aan het 11e ICB-advies veel nieuw materiaal wordt
toegevoegd, tot een geheel andere invulling van regionalisatie wordt geadviseerd. De gedachte
dringt zich op dat de inschatting van de haalbaarheid in de CCOO mede van invloed is geweest.

2. De ARBO wijst terecht op het gevaar van ondoorzichtige structuren. Toch draagt ze daar
zelf in hoge mate aan bij. Ze voegt een nieuwe stmctuur toe aan de bestaande'en roept
daarmee vele nieuwe afstemmingsproblemen in het leven. Scholen hebben nu al te maken met
een veelheid van instellingen in de verzorgingsstmctuur die hun diensten aanbieden. Plaatse-
lijk zijn er vaak diverse overlegsituaties en incidentele contacten. Daamaast is de school
aangesloten bij een landelijke verzuilde organisatie, die in sommige gevallen een regionale
pendant heeft, in andere niet.

Een nieuwe stmctuur, die zo belangrijk is dat de overheid gevraagd wordt fors te subsidiëren,
zal een duidelijke taak moeten hebben die noodzakelijk is en niet door de bestaande instellin-

gen in de verzorgingsstructuur kan worden vervuld; in deze sektor is de druk tot bezuinigen
juist extra groot. Vrijwillige deelname en, zeer waarschijnlik, een organisatie per richting,
lijken moeilijk te kunnen leiden tot een efficient instmment voor overheidsbeleid.

3. Het ARBO-advies geeft aanleiding tot de vraag welke funktie de adviesorganen van het
ministerie van O en W nu eigenlijk hebben. Het 11e ICB-advies was zeer gedegen, gaf een
uitstekend overzicht van de stand van zaken en motiveerde zijn aanbevelingen met een
uitvoerige afweging van voors en tegens. Het leverde voldoende materiaal voor het nemen van
beleidsbeslissingen. Het probleem voor het beleid ontstond toen de landelijke onderwijskoe-
pels en de minister het niet eens werden, terwijl de minister nauw aansloot bij het advies.
Blijkbaar is dat voldoende reden zowel om een nieuw beleid te gaan voeren als om een nieuw
advies te vragen dat als basis hiervoor kan dienen en waarover de koejjels milder zullen
oordelen. In de CCOO hebben de koepels van het bijzonder onderwijs de ijzersterke positie
van drie van de vier delegaties. In voorstellen die de positie van het onderwijs-p.i. raken is de
stellingname van de CCOO bij voorbaat duidelijk. Dat geldt voor alle voorstellen die te maken
hebben met herschikking van macht, zoals decentralisatie en regionalisatie in diverse beteke-
nissen. De mening van de CCOO weegt zwaar in het pariement. Toch zou de scheiding van
verantwoordelijkheden tussen overlegorganen, adviesorganen, regering en parlement best
weer eens wat duidelijker getrokken mogen worden.

4. In het onderwijsbeleid moet een keuze gemaakt worden. Dat wordt bevestigd in de
Memorie van Toelichting op de begroting voor 1983 van O en W, waarin staat:

Het scheppen van meer mogelijkheden tot het bereiken van de gewenste afstemming van voorzieningen
op het regionale vlak, één van de doelstellingen van het regeringsbeleid op het welzijnsterrein, kan
behalve door decentralisatie, ook worden nagestreefd door de bevordering van de totstandkoming of
verterking van regionale structuren van het onderwijsveld zelf. Hierop heeft in het bijzonder de aan de
ARBO voorgelegde adviesaanvraag op het gebied van de regionalisatie betrekking.

De voorkeur is duidelijk. Het regeerakkoord spreekt zelfs al van de mogelijkheid van 'finan-
ciering van door het bijzonder onderwijs op te richten regionale organen'. Afgezien van het
interessante gegeven dat het openbaar onderwijs blijkbaar niet in aanmerking komt voor deze
steun zijn er meer redenen om uiterst kritisch ten opzichte van dit beleid te staan. Decentralisa-
tie wordt verbaal nog altijd als algemeen regeringsbeleid verkondigd, vanwege de verkleining
van de afstand tussen bestuur en burgers, een groter efficiëntie en een doorzichtiger bestuurs-
proces (Decentralisatieplan september 1982). In het onderwijs is de invulling van het midden-
niveau tussen centrale overheid en instellingen langzamerhand chaotisch. De funktie van de
schoolbegeleidingsdiensten, aanvankelijk een vrij duidelijke voor allen beschikbare regionale
voorziening, gestimuleerd en grotendeels gefinancierd door de gemeenten, wordt met het
overnemen van een groter subsidieverantwoordelijkheid door het rijk, steeds verder uitge-
hold. Het onderwijsvoorrangsplan introduceert de geheel nieuwe 'gebiedsautoriteit'.
In een tijd waarin voor het onderwijs en de samenleving als geheel uiterst belangrijke
beslissingen moeten worden genomen (zoals de vormgeving van het basis- en voortgezet
onderwijs, het onderwijsvoorrangsbeleid, de wettelijke regeling van de onderwijsverzorging,
en de verdeling van de uiterst schaarse financiële middelen) ligt het niet voor de hand het
ARBO-advies op te volgen. Dit leidt namelijk tot een groter ondoorzichtigheid van het
bestuur, toenemende verwarring omtrent taakafbakening van instellingen, afnemende zeg-
genschap van overheden en een flinke nieuwe uitgavenpost op de begroting.

Instituut voor Pedagogische en Andragogische Wetenschappen, Rijksuniversiteit Utrecht

Hofstee (1982b) heeft een artikel geproduceerd dat niet onweersproken kan blijven. Hij
noemt een aantal zaken waarmee menigeen het eens zal zijn. Daarop gaan we hieronder niet
verder in. We beperken ons tot datgene waarmee wij het niet eens zijn respectieveUjk de
problematische punten uit zijn betoog. Daarbij verbazen we ons eerst over het door hem
ondernomen sloopwerk, om vervolgens teleurgesteld te zijn over wat Hofstee ons als alterna-
tief voor het gesloopte in ons collectief geheugen wil prenten. Tenslotte trachten we te komen
tot een afsluitende 'evaluatie' van wat Hofstee ons aanreikt.

Hofstee gaat uit van bepddlde definities, met name gerelateerd aan doelstellngen, welke
kennelijk vooraf nogal precies omschreven zijn. Zijn focus op doelstellingen is zo sterk dat
zelfs de algemenere definitie van evaluatie als: 'een oordeel uitspreken over de waarde van
iets', onmiddellijk gevolgd wordt door de passage: 'De manier waarop, de middelen waarmee
geprobeerd wordt een doel te bereiken zijn echter waardeneutraal...' Aangezien Hofstee met
dat 'iets' niet dat 'doel' bedoelt (maar juist de activiteit die daartoe moet leiden) is hij hier op
zijn minst onduidelijk.

Hofstee's stellingname is hoogst opmerkehjk: 'Als doelstellingen worden bereikt zal het
voornamelijk een zorg zijn op welke manier dat gebeurt; als ze niet worden bereikt maakt het
feit dat het proces eventueel goed is verlopen bitter weinig verschil.' De zorg; in het eerste
geval, is nameUjk de mogelijkheid om vaker en ook elders soortgelijke resultaten te boeken.
Het verschil, in het tweede geval, is de intentie om herhaling van het gebeurde te voorkómen.
Anders gezegd: Hofstee verontachtzaamt hier zowel de behoefte aan overdraagbare en
verspreidbare effectieve programma's (om alle mogelijke uitdirukkingen als 'middelen',
'activiteiten' e.d. maar even zo samen te vatten), als de behoefte om van mislukkingen zoveel
mogelijk te leren.

Zelfs in Hofstee's optiek, waarin 'Procesvariabelen zijn te vergelijken met experimentele cq
onafhankelijke variabelen, productvariabelen met afhankelijke variabelen', is van belang of
het geconstateerde wel of niet bereikt hebben van de doelstellingen is toe te schrijven aan het
programma in kwestie. We plegen daarom meestal (op zijn minst) een check op de implemen-
tatie van het programma. Wetend hoe verschillend die implementatie kan uitvallen is het
verbazingwekkend als iemand productevaluatie è la Hofstee au sérieux zou nemen.
Kortom: hoe moeilijk het ook is om een valide onafhankelijke variabele te (re)construeren,
dat levert geen enkel excuus om alleen de afhankelijke variabele te onderzoeken. (De
vergelijking met de selectiepsychologie gaat dan ook niet op: programma's zijn minder
probleemloos identificeerbaar dan mensen).

Een groot deel van wat Hofstee hier te berde brengt komt erop neer dat het onderscheid
relatief is. Omdat we ons niet kunnen voorstellen dat zoiets op zich voor Hofstee voldoende
aanleiding zou kunnen zijn om (ook hier weer) voor te stellen de terminologie te schrappen,
gaan we daarop niet verder in. Essentiëler is het onderscheid dat Hofstee aanbrengt tussen de
'uitvoerder' en de 'sponsor' van een programma. Van dat onderscheid vinden wy dat het te ver
wordt doorgevoerd: sponsor en uitvoerder kunnen ook (min of meer) samenvallen. Hofstee
lijkt er verder van uit te gaan dat de sponsor van het programma dezelfde is als die van de
evaluatie. Dat hoeft nu juist weer niet. Hoe dan ook: Hofstee Ujkt niet te geloven in het
bestaan van 'uitvoerders' die zèlf aan 'reality-testing' willen doen (c.q. de mogelijkheid te
onderschatten dat de waardensystemen van verschillende geadresseerden kunnen over-
lappen).

Hofstee doet geen recht aan de specifieke functie van (wat velen om reden van dat specifieke
maar blijven noemen) formatieve evaluatie. Waar het gaat om het verbeteren van een
programma is zo langzamerhand in Nederland sprake van een traditie, waarin getracht wordt
daarvoor geëigende methoden en criteria te ontwikkelen, en waarbij aan de intentie van de
betrokkenen tot empirische discussie niet behoeft te worden getwijfeld.

Hier is het onderscheid tussen uitvoerder en geldgever inderdaad volledig op zijn plaats.
Hofstee besteedt de betreffende paragraaf echter grotendeels aan de redenen waarom hij zijn
'geïntegreerd' evaluatiemodel meende te moeten ontwikkelen. Zie daarvoor punt 4. Wederom
overziet Hofstee hier een deel van de bestaande praxis. Door het verschil tussen interne en
externe evaluatie te zien als een speciale benoeming van verschillen van mening en/of waarden
(Hofstee lijkt de eerste op de laatste te willen terugvoeren, alsof niet verschillende meningen
kunnen ontstaan op basis van dezelfde waarden), vergeet hij de functie die externe evaluatie
heeft ter controle. Iets waarop gevers van gemeenschapsgeld toch zonder meer recht hebben.
(We haasten ons om eraan toe te voegen dat contrôle op interne evaluatie nu weer niet per se
de meest zinnige vorm is waarin dat recht kan worden uitgeoefend. De elders door Hofstee
gebezigde term 'bureaucratie' zou vooral hier op zijn plaats zijn). Zie ook Stokking (1982).

Ten aanzien van een wat Hofstee noemt 'zachte methodologie' gooit hij in één adem met
'subject-subject relaties, responsive evaluation, hermeneutische en participerende benaderin-
gen e.d.' wel erg veel in één pot. Het is ondoenlijk om hier in kort bestek in te gaan op de
verschillen kwa object, doel en methode van onderzoek, voorzover het al steeds daarom zou
gaan. Hofstee verwijt hier impliciet meer neoromantisch verhaspelen van theorie, methodolo-
gie en ideologie dan de meer serieuze vertegenwoordigers van wat hij gemakshalve met de
zachte methodologie aanduidt kan worden toegeschreven.

Hofstee zou zich, juist in het kader van zijn artikel, hebben moeten buigen over de vraag
waardoor een zachte trend kon ontstaan. Voor een deel komt die namelijk voort uit onvrede
met 'traditionele, harde' methoden (ik bedien me kortheidshalve nu eveneens van een onge-
nuanceerde uitdrukking), met name waar die blijken tekort te schieten op het punt van de
relevantie van de ermee verkregen uitkomsten.

Een slippertje maakt Hofstee waar hij zonder nader onderscheid stelt: 'de wetenschappelijke
vergelijking vindt plaats tussen twee of meer hypothesen of voorspellingen'. Deze zijn name-

lijk allesbehalve identiek, en het verschil is cruciaal, omdat de juistheid van hypothesen nu
juist allesbehalve zo probleemloos beslisbaar is als in Hofstee's model ten aanzien van voor-
spellingen wordt voorondersteld.

Hiermee zijn we gekomen bij de kern van Hofstee's alternatief. Zijn 'gemtegreerd evaluatie-
model' valt eerlijk gezegd een beetje tegen: Hofstee stelt voor dat we ons beperken tot het,
nadat de beslissing tot een activiteit is genomen, (doen) formuleren van concurrerende
voorspellingen met betrekking tot het effect van de activiteit in kwestie, waarna een van beide
partijen gelijk krijgt. (Hofstee beperkt de effecten uiteraard ook hier weer tot (vooraf
geformuleerde) doelstellingen).

We menen aan Hofstee's voorstel de volgende problemen te kunnen onderkennen, waarvan
slechts de eerste drie door hem worden gesignaleerd.

1. Men kan het niet eens worden over operationalisaties. (Tussen haakjes verwijzen we naar
de rol van theorie hierbij). Hofstee stelt (notabene 'ter geruststelling') dat er dan geen basis
voor evaluatie is. Wij menen echter dat er sprake kan zijn van tekort aan inzicht in
mogelijke effecten, feitelijk nagestreefde doelstellingen, e.d., zonder dat nu ineens hele-
määl geen poging meer zou kunnen worden ondernomen om zicht te krijgen op de waarde
van het programma in kwestie. En däärom ging het toch, bij 'evaluatie'?

2. Men wordt het eens over de operationalisaties, maar kan niet tot preciese voorspellingen
komen: idem (zie 1). (Deze situatie lijkt zeer realistisch).

3. Men komt weliswaar tot voorspellingen, maar niet tot concurrerende voorspellingen.
Hofstee: geen verschil van mening, dan ook geen reden voor onderzoek. Wij zouden echter
toch wel graag willen weten of we het met onze voorspelling bij het rechte eind hadden.
Tenslotte zijn we geïnteresseerd in, nogmaals, de waarde van het programma, en niet
(alleen) in het krijgen van gelijk.

4. Tussendoor verdient een factor genoemd te worden, die bij feitelijke pogingen Hofstee's
model toe te passen-vaak (mede) verantwoordelijk zal kunnen worden gesteld voor een
mislukking daarvan: gebrek aan tijd. Immers: tot de activiteit in kwestie is al besloten,
zodat die activiteit veelal al gaande zal zijn. En alweer: moeten we dan maar van elke poging
tot waardebepaling afzien?

5. Fundamenteler is dat de weddenschap volgens Hofstee meestal het karakter heeft van
'wedden dat ik dit kan' c.q. 'wedden dat jij dit niet kunt'. Opvallend is dat Hofstee hier niet
ingaat op de discussie over actieonderzoek. Daarbij is, althans volgens onze conceptie,
sprake van een (zoveel mogelijk) waarmaken van een voorspelling (i.e. streefrichting). Het
is bijna ondenkbaar dat het uitbrengen van voorspellingen (zeker als die zoals bij Hofstee
nadrukkelijk worden gekoppeld aan diverse betrokkenen) geen invloed zou hebben op de
activiteit in kwestie. Hofstee gaat elders wel op deze problematiek in (1980,174 e.v.). Hij
verlangt daar dat de resultaten publiek worden gemaakt (op. cit., 125: 'bij evaluatief
onderzoek is publiciteit strikt noodzakelijk') en dat betreft om te beginnen de voorspel-
lingen, maar hij komt daardoor danig in de problemen met zijn eigen aanbeveling (op. cit.,
195): 'als conclusie blijft... staan de aanbeveling objectiever te werk te gaan, naarmate het
te onderzoeken gedrag reflexiever is...', dus: als verwacht kan worden dat voorspellingen

6. Hofstee is optimistisch aangaande de mogelijkheid een meningsverschil via voorspellingen
te beslissen, ook gezien de te verwachten 'fairly frequent deadlocks, in which... there is no
way of telling... whether or not the verifiability conditions have in fact been met, and thus
whether the result is to be taken seriously as the outcome of a verificatory procedure.' (De
Groot, 1969,95). (Wat die condities betreft geldt bovendien: 'the requirement that they be
precisely formulated in advance cannot be fulfilled in a literal sence' (op. cit., 94)).

7. Tenslotte is het in het model inderdaad fraai dat 'gevolgtrekkingen' niet aan de orde zijn,
laat staan 'beslissingen', zoals Hofstee aangeeft, maar dat in de praktijk neigingen daartoe
buiten werking zullen kunnen blijven achten wij hoogst onwaarschijnlijk.

Resumerend achten wij Hofstee's model inconsistent met een ander deel van zijn eigen
opvattingen, zelden uitvoerbaar, en voorzover bedoeld als andere uitsluitend niet wenselijk.
Wij vragen ons dan ook af hoe ernstig zijn suggestie is gemeend. Aan het eind van zijn betoog
refereert hij aan de situatie dat letterlijke toepassing van het model niet mogeUjk is. Hij
adviseert het dan toch als aanknopingspunt te gebruiken. 'Meer dan een surrogaat kan dat niet
opleveren, maar kosten-baten-analyse kan soms leiden tot voorkeur voor het surrogaat.'
Hofstee gaat niet verder in op zo'n kosten-baten-analyse. Dddr gaat het echter nu juist om!

Hofstee laat ons zien hoe moeiUjk het is om op het terrein van evaluatieonderzoek tot een
rationele, 'empirische discussie' te komen. Dat is echter geen nieuws, zie bijvoorbeeld de
lotgevallen van innovatieprojecten als IPA en GEON^. Zijn alternatief is in veel gevallen niet
realiseerbaar, om uiteenlopende redenen. Het Ujkt erop dat hij voorstelt het kind met het
badwater weg te gooien. Getuige zijn laatste alinea schrikt hij zelf ook voor zo'n consequentie
terug. Hij heeft gelijk ais hij stelt (1982a, 1):

'The challenge, then, for a methodology of evaluation research - or of research in general - is to cope with
vested interests and with subjective interpretations.'

Maar een beetje rationaliteit is beter dan helemaal geen. Hofstee heeft het in onze ogen
zichzelf erg moeilijk gemaakt door te willen schrijven over 'de gemeenschappelijke kern...
van de verschillende varianten van evaluatie'. Als je op die manier over evaluatie wih schrijven
moet je wel zeker weten dat je goed zit. Welnu: dat zit Hofstee volgens ons niet. Zijn keus (ook
al verwoord in 1980, p. 123):

1 Het is opmerkelijk te constateren dat twee auteurs, schrijvend vanuit goeddeels overeenkomstige
intenties, de Groot (1969) en Hofstee (1980), beiden in hun laatste (9e) hoofdstuk een thematiek
behandelen (de methodologie van de interpretatie respectievelijk de paradoxaliteit van sociaal-weten-
schappelijke uitspraken, overigens daarmee duidelijk verschillende accenten leggend) die zijzelf van
groot belang achten, maar die feitelijk nogal geïsoleerd blijft staan.

2 Op 17 september 1982 werd in Amsterdam een studiedag georganiseerd over innovatie en evaluatie in
het onderwijs, naar aanleiding van de deining die de externe evaluatie van het IPA veroorzaakte. Naar ik
vernam zal over deze studiedag gerapporteerd worden in het januarinummer van het blad Info. Deze
reaktie werd geschreven vóór de studiedag.

'In praktijk wordt de term 'evaluatie' op grote schaal oneigenlijk gebruikt, namehjk in al die gevallen waar
niet vantevoren is afgesproken welke conclusie uit de onderzoeksuitkomsten zal worden getrokken',

nu verder verengd door die 'uitkomsten' op te hangen aan 'doelstellingen', is niet adequaat,
gegeven de verschillende varianten van evaluatie. De door Hofstee becritiseerde specificaties
(formatief, summatief; etc.; het onderscheid bard-zacht had toch maar beter apart behandeld
kunnen worden) hebben inderdaad een programmatische bedoeling: verschillende aldus
onderscheiden evaluaties hebben verschillende functies. De keuzen op dit terrein zijn dan ook
allerminst arbitrair.

Als Hofstee's model niet bruikbaar is^, wat is dan het alternatief? Wij zouden willen pleiten
voor de verdere ontwikkeling van een methodologie van de interpretatie (zie ook De Groot,
1969,159, 310 e.v.)l. Zowel in evaluatieonderzoek, als in de evaluatiefase van onderzoek (de
overeenkomstige naamgeving is géén toeval, noch een probleem) is er de noodzaak tot
interpretatie van uitkomsten. Wij kwamen al eerder tot een dergelijke conclusie, en spraken
van een spel van argument en tegenargument (Stokking, 1979; zie ook Stokking en De Vries,
1981)''. Hofstee verafschuwt die consequentie. Maar het zal hem niet lukken eraan te ontko-
men.

Na deze voorspelling kunnen we verwachten dat Hofstee gaat voorstellen een weddenschap af
te sluiten op de uitkomsten van een evaluatief onderzoek naar de waarde van zijn evaluatie-
model. Misschien lukt het hem een keer het model in werking te brengen. Dat zou mooi zijn.
Aan de waarde ervan zullen wij dan echter nog steeds blijven twijfelen. Resultaten van
actieonderzoek zijn immers moeilijk generaliseerbaar?

De Groot, A.D. de. Methodology. Den Haag: Mouton, 1969.
Hofstee, W.K.B. De empirische discussie. Meppel: Boom, 1980.

Hofstee, W.K.B. A betting model of evaluation research. Paper, prepared for the 20th Intemational
Congress of Applied Psychology, Edinburgh, July 25-31,1982. Groningen: Heymans Bulletins 82-593-
EX (1982a).

Hofstee, W.K.B. Evaluatie: een methodologische analyse. Tijdschrift voor Onderwijsresearch, 1982,7,
193-202 (1982b).

Stokking, K.M. en A.K. de Vries. Een luis in de pels. Eindverslag van het GEON-projekt. Den Haag:
Staatsuitgeverij, 1981.

Stokking, K.M. Evaluatieonderzoek. In: Swanbom, P.G. en L. Rademaker (Red.), Sociologische

Grondbegrippen 2: Methoden en Technieken. Utrecht, Het Spectrum, 1982.
Stokking, K.M. Interpreteren en Evalueren. Methodologie rondom de uitkomsten van onderzoek.
Deventer, Van Loghum Slaterus, 1983.

3 We hebben ervan afgezien in deze reaktie in te gaan op Hofstee's 'minimum aan wetenschappelijkheid'
(dat hij wellicht te laag stelt), op de wetenschapsfilosofische status van de gedachte om uiteindelijk de
feiten te laten beslissen (zie 1982a, pp 6,7, 8), en op het probleem dat hij geen aandacht schenkt aan de
vraag of degene die gelijk krijgt terecht gelijk krijgt (een lange termijn rechtvaardiging van zijn procedure
schiet aan het doel van evaluatie voorbij).

4 Zie voor de rapportage over het GEON-projekt eventueel ook de artikelenreeks in Pedagogische
Studieën, maart 1980 - februari 1981. Schrijver dezes hoopt over niet al te lange tijd een publicatie te
kunnen uitbrengen waarin de relatie tussen deze interpretatienoodzaak en evaluatieonderzoek centraal
staat, en een daarop gerichte evaluatie (excusez Ie mot) wordt ondernomen van een aantal onderdelen uit
de sociaalwetenschappelijke methodologie. (Stokking, 1983).

Stokking (1982) onderneemt een summatieve evaluatie van Hofstee's (1982) 'Evaluatie: een
methodologische analyse', vanuit een gezichtspunt dat ik naar zijn zeggen verafschuw. Kort-
heidshalve veronderstel ik de inhoud van zijn reactie hier bekend. Deze repliek bestaat
vooreerst uit een poging, verschillende bezwaren onder één noemer te bespreken; vervolgens
zal ik ingaan op de resterende details van Stokkings kritiek.

Om te beginnen verafschuw ik niets, al was het maar omdat niets menselijks me vreemd is. Wel
constateer ik een vrij fundamenteel verschil in benadering. Mijn attitude ten aanzien van de
praktijk en de ideologie van de evaluatieresearch is aanzienlijk afstandelijker dan die van
Stokking.

In het algemeen gesproken meen ik dat men mag eisen dat methodologische verhandehngen
nieuwswaarde hebben voor onderzoekers, zoals men mag eisen dat sociaalwetenschappelijke
geschriften nieuwswaarde hebben voor mensen. Dat houdt in dat de methodoloog zoveel
afstand moet nemen tot de praktijk en de ideologie van het onderzoek, dat wat hij/zij zegt nog
net herkenbaar is. Wetenschap bedrijven is 'taking a good hard look'.
Stokking (ibid.) benadrukt dat evaluatie gebeurt vanuit 'de behoefte aan overdraagbare en
verspreidbare effectieve programma's' en 'de behoefte om van mislukkingen zoveel mogelijk
te leren' (ontcursivering van mij). Ik heb iets meer oog voor de particuliere belangen van o.a.
uitvoerders en onderzoekers. Bovendien heeft Stokking het over iets anders dan evaluatie.
Een korte toelichting op beide punten.

1. Uiteraard moet onderzoek een hoger maatschappelijk doel dienen. Onderzoek wordt niet
gerechtvaardigd door individuele motieven zoals zichzelf (betaald) aan het werk houden en de
eigen reputatie verhogen. In de eerste plaats echter is het naïef, te veronderstellen dat de
onderzoeker primair door hogere doelen gemotiveerd wordt. In de tweede plaats is het niet
practisch. Methodologie is niet het aanroepen van hogere waarden tot stichting van de
onderzoeker (of erger, om naar buiten toe een sereen beeld op te hangen), maar het doen van
voorstellen tot zodanige regulering dat de samenleving ermee gediend is wanneer de onder-
zoekers hun eigen nut najagen. Nuanceringen laat ik hier achterwege.

2. Evaluatie heeft niet primair een formatieve of leer-functie, maar een preventieve functie.
Terminologisch betekent de 'e' in evaluatie: finale beoordeling, dus resultatencontrole. Er is
trouwens voor ons geen goede reden om het anglicisme 'evaluatie' te gebruiken inplaats van
'resultatencontrole' (voor Amerikanen wel, 'control' betekent beheersing inplaats van contro-
le). Als we gewoon over controle zouden praten zouden we niet ten slachtoffer vallen aan
verleidingen van de taal. Resultatencontrole is automatisch productevaluatie, en formatieve
controle is bijna een tegenspraak in zichzelf. Controle betekent dat iemand achteraf op
pretenties kan worden aangesproken; niet zozeer omdat de belastingbetaler daar recht op
heeft zoals Stokking stelt, maar omdat het de beste garantie is zowel tegen overspannen
verwachtingen als tegen slechte uitvoering van een programma.

Ik heb geen bezwaar tegen activiteiten die verbetering van een programma beogen, allicht niet.
Ze moeten alleen niet met evaluatie, maar met begeleiding worden betiteld. De reden is dat we
anders knollen voor citroenen verkopen. Uitvoerders zullen altijd blijven proberen, resulta-
tencontrole om te buigen naar begeleiding. Als die twee niet radicaal worden onderscheiden,
maken we ons medeplichtig aan een samenzwering, die zich natuurlijk op termijn tegen zowel
uitvoerders als onderzoekers keert.

Stokking vindt mijn alternatief niet leuk. Ik denk dat dit komt omdat hij weigert te begrijpen
dat ik via de band speel: de weddenschapsaanpak is een poging, het publieke nut (goede
programma's, goed onderzoek) te bevorderen via een appel op het eigenbelang, inplaats van
via idealisering: iets dat voor economen gesneden koek is, maar waar onderwijskundigen ook
in ander verband de grootst mogelijke moeite mee lijken te hebben. Vanuit deze positie ziet hij
zelfs nog meer obstakels bij het in praktijk brengen van het Model dan ik. En dat terwijl ik
geenszins de neiging heb, die obstakels te bagatelliseren; alleen stel ik dat daar waar ze
onoverwinnelijk zijn, evaluatie (niet: begeleiding) zinloos of zelfs 'counterproductive' zal
blijken.

Het program zal vaak al aan de gang zijn, aldus Stokking, en dan mag er van Hofstee niet meer
worden geëvalueerd. Antwoord: waar een wil is, is een weg. Ten eerste kan de onderzoeker de
pretenties en de meningsverschillen opgraven die aan de wieg van het program hebben
gestaan. Ten tweede kan men ook in de pauze van een wedstrijd, of zelfs halverwege de tweede
helft, weddenschappen afsluiten op de uitslag. Ik voeg daar alleen uitdrukkelijk aan toe dat
eventuele eerdere weddenschappen blijven staan.

Voorts vindt Stokking het inconsequent dat ik de paradoxaliteit van de sociaalwetenschappe-
lijke voorspelling niet in de beschouwing betrek. Zijn argumentatie daarbij is onjuist. Inder-
daad leg ik er de nadruk op dat voorspellingen worden gepubliceerd tegelijk met de uitkom-
sten, omdat een minimale eis is dat degene die ongelijk krijgt, zulks publiekelijk wordt
ingewreven. Die eis houdt echter niet in dat de voorspellingen worden gepubliceerd voor of
tijdens de rit, en zo hun zelfvervullende of- verslaande werking zouden uitoefenen. Er is hier
dus geen sprake van een specifieke complicatie, zoals Stokking meent. Daarmee is natuurlijk
het paradoxaliteitsproHeem niet opgelost, maar dat is dan ook onoplosbaar; en hetgeen ik er
elders over heb gezegd, had vooral ten doel die onoplosbaarheid te documenteren, opdat
eindelijk eens de pogingen om de kwadratuur van die cirkel te vinden, worden gestaakt.
De problemen die De Groot signaleert ten aanzien van het doen van voorspellingn (Stokking,
ibid.) zijn reëel genoeg. Als Stokking ze echter interpreteert als waarschuwingen tegen een
predictivistische wetenschapsopvatting is hij wel een eind bij De'Groot vandaan. Er is ook
geen sprake van dat De Groots interpretatie-methodologie geïsoleerd zou staan van de rest van
diens werk: dat hoofdstuk is integendeel een consequente poging, ook de interpretatie 'op
voorspelling te brengen' (om een De Grootse uitdrukking te gebruiken die Stokking terecht
graag citeert). Het weddenschapsmodel is juist inzoverre een kind van De Groot, dat korte
metten worden gemaakt met mensen die al te moeilijk doen over voorspellen.

In mijn pleidooi voor een onsentimentele aanpak van evaluatieresearch, in het belang van
iedereen waaronder uitdrukkelijk ook de onderzoekers zelf, heb ik wel degelijk impliciet de
vraag beantwoord waardoor de 'zachte trend' kon ontstaan; ik kom alleen tot een ander
antwoord dat Stokking. Hoe harder de benadering, des te relevanter de uitkomsten inplaats
van omgekeerd, en dus hoe bedreigender; soft methodology is de danspas bij uitstek waarmee
van resultatencontrole naar program-vriendelijke begeleiding kan worden overgestapt, in het

(verkeerd begrepen, korte-termijn-) belang van de uitvoerder en diens supporters. Mijn
stelling krijgt extra gewicht omdat Stokking absoluut niet ingaat op de zeer wezenUjke
liberaliseringen die de weddenschapsaanpak meebrengt ten opzichte van het klassiek-experi-
menteel evaluatiedesign. Als de bezwaren tegen de harde benadering echt methodologisch van
aard waren zou aan deze versoepelingen meer aandacht moeten zijn besteed.
Tot slot: we kunnen het er roerend over eens zijn dat een beetje rationaliteit beter is dan
helemaal geen. Alleen: wat is een beetje. Mijns inziens is de rationahteit niet gediend met
concessies eraan. Eén reden is dat we dan nooit zullen weten of de betrokkenen echt niet tot
rationele discussie te verleiden zouden zijn geweest. Het risico van water in de wijn is
bovendien dat vóór iemand weet, er iets irrationeels gebeurt onder auspiciën van de rationali-
teit, wat pas echt schadelijk is. Uit praktische overwegingen kan er met surrogaten van een
model worden gewerkt. Maar we moeten niet bang zijn om het echte spul te proeven.

Hofstee, W.K.B. Evaluatie: een methodologische analyse. Tijdschrift voor Onderwijsresearch, 1982, 7,
193-202.

Stokking, K.M. Reactie op Hofstee: 'Evaluatie, een methodologische analyse'.Tijdschrift voor Onder-
wijsresearch, 1982,7.

In het nummer van november 1982 staat in het artikel van A. Dirkzwager, Het meten van
kennis en inzicht, een storende fout. De eerste formule op p. 269 moet gelezen worden als:

Instituut voor Pedagogische en Andragogische Wetenschappen, Rijksuniversiteit Utrecht

Hoewel misschien niet gebruikelijk wil ik graag reageren op de bespreking door Jan Slaven-
burg van het GEON-eindverslag, al was het maar ter honorering van de 'manmoedige poging'
om een 'onmogelijke' recensie te schrijven; en wellicht ter geruststelling. Vooropgesteld zij dat
mijn eerste reactie was: eindelijk! Als in de jaren vóór 1980 wordt gevraagd om het naar buiten
brengen van gegevens, en er vervolgens o.a. in artikelen (Pedagogische Studiën, Tijdschrift
voor Onderwijsresearch) wordt gepubliceerd maar elke reaktie uitblijft, ga je twijfelen aan de
werking van het forum. Dat was kennelijk ten onrechte.

Het is heel plezierig dat in de recensie de veelheid van aspecten aan een project als GEON naar
waarde wordt geschat. Het eindverslag is inderdaad mede geschreven om collega-onderzoe-
kers een kijkje in de keuken te geven. Even legitiem is de beperking in de recensie tot het
research-technische deel. Daarover enkele opmerkingen.

De criteriumproblematiek. Slavenburg heeft gelijk als hij stelt dat de intelligentietest de
belangrijkste maat was. Maar we hebben andere criteria bepaald niet als onbelangrijk aange-
merkt. Een voorbeeld daarvan is het afnemen van de verwijzingen naar het buitengewoon
onderwijs. We stelden duidelijk dat dat criterium niet is gehaald. Evenzo stelt hij terecht dat
het intelligentiecriterium grondiger had kunnen worden ingebed. Maar ik moet degene nog
zien die antwoord geeft op 'de vraag of de intelligentie voldoende gestegen is (...) te
voorkomen resp. te verminderen'.

De proefopzet. Niettegenstaande het feit dat de recensent herhaaldelijk rept over 'vaagheid'
e.d., vind ik hem zelf niet overal even helder. De weergave van de onderscheiding in diverse
experimentele groepen bijvoorbeeld is naar mijn mening onnodig verwarrend voor niet-
ingewijden. Ik meen dat dat in TOR al eens duidelijker is gedaan (Stokking, 1980). Een
essentieel punt betreft Het samenvoegen van de uitkomsten van de diverse regio's en rondes. Ik
heb dat expliciet niet gedaan gezien alle verschillen daartussen in werkcondities, beginsituatie,
projectuitvoering, e.d. Wanneer is in zo'n situatie optelling nog verantwoord?
Het trekken van een steekproef uit de totale leeftijdsgroep per school had duidelijke functies
(zie het eerder genoemde TOR-artikel). Ik wijs hier alleen op het feit, dat het GEON-project
vooral ook op de leerkracht was gericht. De effecten van de inservice-training mochten bij alle
kinderen verwacht worden. Verder was de overlap met de 'doelgroepkinderen' niet zo'n
probleem aangezien de uitwerking op de schatting van het effect bij de steekproef alleen in
conservatieve zin verwacht mocht worden. Een en ander is ook als zodanig gerapporteerd.
Statische regressie. Slavenburg stelt dat het regressieverschijnsel bij de GEON-uitkomsten
geen probleem kan zijn. Zijn argument is echter een achterafredenering, die bij zijn totaal-
plaatje slechts een volledige verklaring door regressie uitsluit. Wij probeerden aan 'regressie'
zo veel mogelijk verklarende kracht te ontnemen op een meer procedureel-principiële manier.
Ook Oud (1982) onderschat overigens naar mijn mening de problematiek: voor de ware-
gemiddeldencurve is geen vanzelfsprekende schatter aan te wijzen. (Zijn veronderstelling van
ongecorreleerde meetfouten is verder nogal sterk).

Het trekken van conclusies. Terecht rept de recensent over 'allerlei interpretatieproblemen'.
De conclusie die aan het eind ongefundeerd wordt genoemd ('de vooruitgang van alle project-

groepen in elke regio (ligt) boven die van alle vergelijkingsgroepen') is echter naar mijn
mening niet ten onrechte getrokken. Ik maakte ter plekke een vergelijking tussen de scores op
4- en 8-jarige leeftijd, waarbij de beginsituatie verschilde, ten nadele van de projectgroepen.
Als Slavenburg constateert: 'het positieve verschil (op 6-jarige leeftijd, K.S.) ten gunste van de
experimentele groep is verdwenen' is dat juist. Maar het negatieve verschil (op 4-jarige
leeftijd) óók! Dat was in het licht van pessimistische geluiden over de zin van onderwijsverbe-
tering belangrijk genoeg om te melden. En is de conclusie niet juist een voorbeeld van het
gebruik van de intelligentiemaat als evaluatiecriterium waar Slavenburg eerder in zijn notitie
om vraagt?

Tot slot nog even over GEON. Jammer genoeg is Slavenburg er niet in geslaagd om de
doelstellingen van GEON in kort bestek voldoende recht te doen. Als hij schrijft over 'de
algemene taakstelling (voorkomen of verminderen van het falen van kinderen in het onder-
wijs)' en 'de voorgenomen curriculumontwikkeling voor 4-8 jarigen' denk ik: ja, maar... (het
was nog zoveel méér). Waarschijnlijk is dat onvermijdelijk. Voor mij is dit verschijnsel van de
'reductie door buitenstaanders' overigens wel een kernprobleem bij evaluatieonderzoek. Hoe
dit ook zij, vermeldenswaard is wellicht dat de verworvenheden van GEON momenteel door
de LPC landelijk verspreid worden, en dat de verspreiding van GEON door Nederland
onderzocht wordt. Op verzoek van Slavenburg nemen we daarbij OSM mee. We hopen er na
afloop van het onderzoek over te rapporteren.

Slavenburg, J. H. Een bespreking van het eindverslag van het GEON-project. Tijdschrift voor Onderwijs-
research, 19«! J,TIQ-21A.
Stokking, K.M. Statistische regressie - enkele methodologische notities. Tijdschrift voor Onderwijsre-
search, 1980,5,271-279.

Oud, J.H.L. Enige oplossingen voor het regressieprobleem. Tijdschrift voor Onderwijsresearch, 1982,7,
83-85.

Stichting voor Onderzoek van het Onderwijs, Nr 16, Staatsuitgeverij, 's-Gravenhage, 1979,247 blz.

Na de periode waarin men in onderzoek over de leraar vooral de persoonlijkheid en persoonlijkheidsas-
pecten bestudeerde kwam deze van de vaardigheden. Om de opleiding en bijscholing efficiënter te maken
werden belangrijk geachte lesgeefgedragingen geanalyseerd en stelde men leerpakketen samen om door
training zich deze vaardigheden eigen te maken. Dit werk handelt over twee belangrijk geachte vaardig-
heden. Het is een ruime samenvatting van uitgebreid en langdurig onderzoek, zowel op het vlak van de
hteratuurstudie als van empirisch onderzoek. De studie werd uitgevoerd in het Instituut voor Onderwijs-
kunde aan de Katholieke Universiteit te Nijmegen in samenwerking met het Katholiek Pedagogisch
Centrum, Afdeling Opleidingen, te Den Bosch.

Het boek bevat een ruime inleiding en vier delen die sucessief handelen over de praktische opleiding van
onderwijsgevenden, de ontwikkeling en evaluatie van de cursus 'Verbale Interaktie-Analyse', de evalua-
tie van de vaardigheid 'hoe leg ik iets uit' en tenslotte overdracht van methoden en materialen. In de
Inleiding beschrijven de auteurs de voorgeschiedenis en de achtergronden van de studie. Hieruit blijkt dat
het onderzoek reeds in 1971 startte. De onderzoekingen werden uitgevoerd met het doel te bestuderen
welk effect een training van inservice leerkrachten op basis van interactie-analyse heeft op de flexibiliteit
van het verbaal lesgeefgedrag en op het klimaat van hun klas. Deze studie resulteerde niet in overtuigende
resultaten. In verder onderzoek bleek evenwel dat er beloften zaten in de interactie leerkracht-leerlingen.
Uit twee altematieven, het ene gericht op onderzoeksaspecten, het andere op ontwikkelingsaspecten,
werd voor dit laatste gekozen. Men zou een project uitwerken dat dienstbaar kon zijn voor opleidings- en
trainingsdoeleinden van onderwijsgevenden. In twee opeenvolgende fasen, een vooronderzoek (1974-75)
en het hoofdonderzoek (1975-77) werd het project uitgewerkt. De eindrapportage verscheen in elf
afzonderlijke deelrapporten waarin telkens over één bepaald aspect of één bepaalde periode verslag werd
gedaan.

Deel I van deze studie schetst de ontwikkeling van de opleiding tot onderwijsgevenden. Het is een zeer
beknopte weergave van een uitgebreide literatuurstudie. Uitgegaan wordt van de stelling dat in een
evoluerende maatschappij verschuivingen optreden die de rol van de leerkracht niet onberoerd laten.
Onderwijzen kan niet verder beschouwd worden als het overdragen van kennis maar moet gezien worden
als het organiseren van leeractiviteiten en leerprocessen. Dit veronderstelt een opleiding die aangepast is
aan deze nieuwe taak. In overeenstemming met de opvatting uit het midden van de zestiger jaren meende
men dit te kunnen doen via het identificeren van de lesgeefpdragingen en deze intentioneel te trainen.
Op deze wijze zou het beroep van leerkracht geprofessionaliseerd worden. Vanuit deze idee wordt in het
boek een zeer ruwe schets gegeven van de verschillende nieuwe vormen van opleiding, die, vooral in
Amerika, het licht zagen. Achtereenvolgens wordt uiterst kort ingegaan op mikro-onderwijzen, interac-
tie-analyse als systematische observatie, simulatie, instituutspracticum,-leerscholen, protocol-analyse,
teaching centres, minicursus. In het laatste artikel vindt men een samenvatting van een stroming in het
denken over programmering van een opleiding, m.n. de bekwaamheids gebaseerde opleiding (Com-
petence-Based Teacher Education), in het bijzonder het opleidingsmodel van Joyce en Weil aan het
Teacher College van de Columbia University.

In amper dertig bladzijden wordt met zevenmijlslaarzen door een zee van opvattingen en modellen
gewaad. Het kan natuurlijk niet de bedoeling van de auteurs zijn dieper op elk van deze verschillende
opleidingsvormen in te gaan. Zij verwijzen daarvoor trouwens naar meer aangepaste literatuur, maar het
sterker op elkaar betrekken van de verschillende vormen voorzover ze nuttig zijn voor de voorstelling van
hun werk, ware wensehjk geweest. Dit zou aan de lezer ook een beter gestructureerd geheel hebben laten
zien.

In deel II beschrijven de auteurs de ontwikkeling en evaluatie van de cursus 'Verbale Interaktie-Analyse'.
Over ruim honderd bladzijden kan men precies het gehele onderzoek volgen. Op basis van de bevindin-
gen uit een vooronderzoek brengt men een aantal veranderingen aan ten behoeve van het hoofdonder-
zoek. Van dit hoofdonderzoek krijgt men op uitgebreide wijze de vraagstelling, de proefopzet, zowel voor
de opleidingssituatie als voor de bijscholingssituatie. Verder beschrijven zij de onafhankelijke variabele,

m.n. de training van liet onderwijsgedrag op basis van het Verbale Interalctie-categorieënsysteem
(VIKS). Dit systeem is een aanpassing en Nederlandse bewerking van het observatiesysteem van Amidon
en Hunter (VICS) uit 1967. In de Nederlandse aanpassing en bewerking worden de hoofdcategorieën van
Amidon en Hunter verder uitgesplitst in deelcategorieën. Hierdoor bekomt men een meer gedetailleerde
informatie over het feitelijk gestelde lesgeefgedrag van de leerkracht. Verder stelt men de afhankelijke
variabelen voor, zijnde het onderwijsgedrag van de studenten uit de Pedagogische Academies en
inservice leerkrachten, de leerprestaties van de leerlingen (basisonderwijs), het zelfvertrouwen van de
P.A.-studenten en de reacties van P.A.-studenten op gesimuleerde situaties.

Om het effect van de training te meten werd gebruik gemaakt van een speciaal daartoe opgesteld
observatiesysteem. Verbale Interaktie Analyse (VIA), studietoetsen voor het meten van de leerprestaties
van de leerHngen, een schaal voor het meten van de onderwijsangst en een reactietoets. Deze laatste bleek
na een betrouwbaarheidsstudie niet bruikbaar voor de gestelde doeleinden. Het onderzoek zelf werd een
indrukwekkende onderneming waar studenten uit verschillende P. A.'s, inservice leerkrachten en leerlin-
gen uit het basisonderwijs aan meewerkten hetzij als experimentele groep hetzij als controle groep.
De resultaten van dit onderzoek worden in vijf paragrafen beschreven. Statistisch significante verschillen
werden niet gevonden tussen getrainde en niet getrainde studenten. Toch wijzen de auteurs erop dat door
de personen die deelnamen aan het onderzoek de cursus als zeer zinvol beleefd werd.
In deel III wordt op vergelijkbare wijze als in het vorige deel de ontwikkeling en de evaluatie van de
vaardigheid 'Hoe leg ik iets uit' gerapporteerd. Deze vaardigheid is een bewerking en aanpassing aan de
Nederlandse onderwijssituatie van de vaardigheidsoefening 'How to explain' (R. Miltz, 1971). Op
beknopte maar goed geschreven wijze worden de achtergronden gegeven over de vorm van monologe
voordracht. Deze vormt komt in het onderwijs nog veelvuldig voor. Reeds een aanvaardbaar motief om er
aandacht aan te besteden. De opgedane ervaringen uit een vooronderzoek resulteren in een grondige
herziening. Met deze versie werd in twee P.A.'s naar de efficientie getoetst. De bekomen resultaten
konden voor geen van de tien geformuleerde onderzoekshypothesen statistisch significante verschillen
aantonen tussen getrainde studenten en niet getrainde studenten.

In deel IV tenslotte wordt op een open en kritische wijze gereflecteerd over het effect en de bruikbaarheid
van methoden en materialen die ten behoeve van het onderzoek van de vaardigheidstrainingen ontwik-
keld werden.

Het belang van dit rapport ligt vooral in het materiaal dat werd ontwikkeld. Het werk is echt de moeite
waard en verdient zeker aanbeveling bij allen die bij de opleiding van onderwijsgevenden betrokken zijn.
Het is een rapport waarin een uitgebreide literatuur verwerkt werd. Bijzonder belangrijk is het voor
opleidings- en bijscholingsdoeleinden omwille van de exemplarisch uitgewerkte vaardigheidsoefeningen.
Men kan er uit leren niet alleen hoe complex 'vaardigheden' zijn maar vooral hoe ze kunnen geanalyseerd
worden en uitelkaar gelegd tot een groot aantal deelvaardigheden die met elkaar verband houden.
Dat de uitgevoerde evaluatie-onderzoekingen geen aantoonbare veranderingen te zien geven hoeft geen
verwondering te wekken. Zo eenvoudig is dit niet. Het was trouwens de bewuste keuze van de onderzoe-
kers het hoofdaccent van de studie op ontwikkelingswerk en niet op researchdoeleinden te leggen.
Anderzijds moeten de resultaten van dit onderzoek toch doen nadenken of men in dit soort problematiek
volstaat met alleen maar uiterlijk waarneembare gedragingen van onderwijsgevenden. Waarschijnlijk
moet men eerst op zoek gaan naar de processen die zich afspelen bij de onderwijsgevenden als men leert
onderwijzen of als men onderwijst.

Aalsvoort, M. van der, & Leeuw, B. van der. Leerlmgen, taal en school. De rol van taal in elke
onderwijsleersituatie, Enschede: Stichting voor de Leerplanontwikkeling, 1982.

Adviesraad voor het Basisonderwijs, Speciaal Onderwijs en de Opleidingen. De regio als werkeenheid.
Advies inzake regionalisatie onderwijs. Zeist, augustus 1982.

Boekaerts, M. Onderwijsleerprocessen organiseren - Hoe doe je dat? Nijmegen: Dekker & van de Vegt,
1982.

Bos, D.J., Grift, W. van de, Riemersma, F. & Roede, E. Bruikbaar evaluatie-onderzoek: Mogelijkheden
en beperkingen van een programma over evaluatie-onderzoek in het onderwijs. (SCO-cahier nr. 5).
Amsterdam: Stichting Centrum voor Onderwijsonderzoek van de Universiteit van Amsterdam, mei
1982.

Brink, W.P. van den. Binomiale modellen in de testleer. Proefschrift Universiteit van Amsterdam, 1982.

Diekerhof, E. (red.). Leren, wat moet je ermee? Over jeugdcultuur en onderwijs. Muiderberg: Dick
Coutinho, 1982.

Gent, B. van. Over andragologie. Een inleiding tot de wetenschap van het welzijnswerk. Meppel/
Amsterdam: Boom, 1982.

Groot, A.D. de. Academie enforum: Over hoger onderwijs en wetenschap. Meppel/Amsterdam: Boom,
1982.

Groot, H. de. Ontwikkelingslijnen leerlingen en onderwijzend personeel tot 2000. (S.C.P.-cahier nr. 34).
Rijswijk: Sociaal en Cultureel Planbureau, 1982.

Gruijter, D.N.M. de. Heuvel, J.H. van den, Langerak, W.F. & Bakker, E. Een tweede tijdschrijfonder-
zoek in de Faculteit der Rechtsgeleerdheid; verslag van een onderzoek m.b.t. het eerste propedeu-
tisch semester in het studiejaar 1981/1982. Leiden: Bureau Onderzoek van Onderwijs, R.U. Leiden,
1982.

Huijberechts, B. Motorische ontwikkeling en leermoeilijkheden: De secundaire preventie van zintuig-
lijk-motorische aspecten van leermoeilijkheden. Lisse: Swets & Zeitlinger, 1982.

Nederhoed, P. Wie wil er even notuleren? Een beknopte handleiding voor het schrijven van vergaderver-
slagen. Deventer: Van Loghum Slaterus, 1982.

Onderzoeksthemagroep Onderwijsleerprocessen. Onderwijsleerprocessen - een programma voor on-
derzoek. Enschede: Twente, Onderafdeling der Toegepaste Onderwijskunde, Onderzoeksthe-
magroep Onderwijsleerprocessen, mei 1982.

SVO. Jaarverslag 1981. 's-Gravenhage: Stichting voor Onderzoek van het Onderwijs, september 1982.

Weeda, W.C. Beheersingsleren: Het model getoetst in de tijd. Proefschrift Katholieke Hogeschool
Tilburg, 1982.

Zeeuw, J. de. Algemene Psychodiagnostiek I: Testmethoden, (5e druk gpheel herzien). Lisse: Swets &
Zeitlinger, 1982.

Sociale achterstand en deelname aan het buitengewoon onderwijs, door C. J.W. Meijer.

Uitleg van sociale gebeurtenissen door didactisch niet geschoolden aan kinderen van verschillend sociaal-
cognitief niveau, door F.J. de Wuffel, W.G. Jansen en C.F.M. van Lieshout.

Een poging om de actieve leertijd in klassesituaties te verhogen: een evaluatie van een interventie, door
S.A.M. Veenman en P. Cras.

Onderwi jsvoorbereiding door ervaren leerkrachten, door J. Peters en D. Beijaard.

Problemen van beginnende leraren: uitkomsten van een literatuurrecherche, door S. A.M. Veenman.

Kroniek: Het Duitse 'leerlingwezen': een voorbeeld voor Nederland? door M. Santema en A. Westerhuis
Onderwijsresearchdagen 1983

De Onderwijs Research Dagen 1983 (ORD '83) zullen op donderdag 7 en vrijdag 8 april 1983 gehouden
Worden te Amsterdam, in het Oudemanhuispoortcomplex.

De afgelopen jaren hebben de Onderwijs Research Dagen zich ontwikkeld tot een belangrijk platform
voor de Nederlandse onderwijsonderzoekers.

Het is de opzet van de organisatiecommissie om aan het traditionele concept van de ORD een dimensie
toe te voegen. Deze dimensie is te karakteriseren als de confrontatie van onderwijsonderzoekers met
gebruikers van onderwijsonderzoek. De ORD '83 zijn geplaatst onder het teken van bruikbaarheid en
relevantie van het onderwijsonderzoek.

Bij gebruikers wordt gedacht aan mensen uit de sfeer van het onderwijs, de verzorgingsstructuur en het
veld.

Het themagedeelte van het congres is zo georganiseerd dat de genoemde confrontatie kan plaatsvinden.
Voor elk thema zal een trio wordt aangezocht om het thema uit te werken en voor te bereiden. Elk trio
bestaat, naast een onderzoeker als coördinator uit twee representanten van het beleid, de verzorgings-
structuur en/of het veld.

Voor de ORD '83 zijn de volgende thema's vastgesteld. Bij elk thema wordt ter oriëntatie een aantal
trefwoorden gegeven.

De voorrang onderzocht: vrouwenemancipatie, culturele minderheden en sociaal-economische emanci-
patie.

De relatie tussen formeel onderwijs en informeel ervaringsleren, jeugdproblemen en drop out als
signalement van een discrepantie tussen deze twee. Vanuit dit perspectief- zelfbeheer door leerlingen en
motivatie, - de cultuur als inspiratiebron voor het formuleren van leerdoelen, - de rol van onderwijsinstel-
lingen en educatieve- en cultuurvoorzieningen.

Jeugdwerkloosheid, participerend leren, bedrijfsopleidingen, omscholing, aansluitingsproblematiek, on-
derwijs-economisch onderzoek.

Informatica onderwijs, de computer en andere technologische middelen in het onderwijs, schoolorganisa-
tie en management automatisering.

Alfabetiseringsprogramma's, moeder mavo, open school, vormingswerk, open universiteit, rol van de
media.

Methodologie, longitudinaal onderzoek, evaluatieonderzoek. Cognitief psychologisch onderzoek en
ontwikkehngspsychologisch onderzoek.

Op 28 en 29 maart 1983 wordt door het Research Instituut voor het Onderwijs in het Noorden een
lustrumcongres georganiseerd over 'De kwaliteit van onderwijs' in de Aula van de Rijks Universiteit
Groningen.

Voor nadere informatie en inschrijving kunt u zich wenden tot het RION-congressecretariaat, Postbus
132,9750 AC Haren, tel.: 050-349793.

De afdelingen postacademisch onderwijs van Het N.I.P. (Nederlands Instituut van Psychologen) en de
NVO (Nederlandse Vereniging van pedagogen, onderwijskundigen en andragologen) organiseren een
konferentiedag, getiteld 'Wijzer worden over Marie'. Deze dag is gericht op presentatie en bespreking
van een aantal recent afgesloten en lopende onderzoeksprojekten op het terrein van de sociale weten-
schappen, waarin aandacht wordt besteed aan de positie, belangen en problemen van vrouwen.
Er worden 15 inleidingen gehouden, verdeeld over drie hoofdthema's:

- arbeid en organisatie (onderwerpen als: konflikten in de werksituatie, konsekwenties van de wet
gelijke behandeling voor de positie van de vrouw);

- opvoeding en onderwijs (onderwerpen als: moederschap en kinderopvang, positieve diskriminatie
met een dubbele bodem);

- gezondheidszorg en hulpverlening (onderwerpen als: postnatale depressie, angst voor sexueel ge-
weld).

De dag is bestemd voor allen die in deze onderwerpen geïnteresseerd zijn, en niet alleen voor mensen die

ISEK: Instrumentarium voor
Systematische Evaluatie van Kursussen
Een beschouwing over drie varianten

ISEC'denotes Instruments for Systematic Evaluation of Courses. Their area of application is
higher education. Among their characteristic features are: their emphasis on action research in
which teachers and students are co-researchers, and their tailor-made course-specifity.
The ISEC consists of three variants, viz., the questionnaire-, the interview- and the panel variant.
Each variant is discussed and comparisons between them are made.

ISEC has been applied to a wide variety of courses for over seven years now. In these years the
instruments have proven their utility for the evaluation of higher education.

Vanaf 1975 wordt op het Centrum voor Onderzoek van het Wetenschappelijk Onderwijs te
Groningen (Cowog) gewerkt aan de ontwikkeling van het Instrumentarium voor Systemati-
sche Evaluatie van Kursussen (ISEK). Het ISEK is een reaktie op het streven naar standaard
evaluatie-instrumenten. Kenmerkend voor het ISEK is dat het niet één instrument is, maar
een verzameling samenhangende procedures en hulpmiddelen die een kursus- en probleem-
specifieke evaluatie mogelijk maakt. De procedures veronderstellen inzet van studenten en
docenten, zowel bij de opzet als uitvoering van de evaluatie. De hulpmiddelen in de procedu-
res zijn ten dele gebaseerd op een onderwijskundig model voor didaktische analyse.
In dit artikel wordt op beknopte wijze evaluatie-onderzoek met behulp van het ISEK nader
gesitueerd binnen het domein van evaluatie-onderzoek en worden de uitgangspunten verdui-
delijkt (paragraaf 2).

Er wordt een beschrijving gegeven van de drie varianten van het instrumentarium: de vragen-
lijst¹, de interview-diskussie- en de panelvariant (paragraaf 3).

Vervolgens worden de drie varianten op een aantal aspekten onderiing vergeleken (paragraaf

1 Adres auteurs: Centrum Onderzoek Wetenschappelijk Onderwijs, Oude Kijk in 't Jatstraat 24/10
9712 EJ Groningen.

Daarna wordt ingegaan op enkele onderzoeksresultaten. Volstaan wordt met het exemplarisch
weergeven van enige belangrijke bevindingen, de daarop gebaseerde aanbevelingen en beslui-
ten en de manier waarop deze besluiten zijn uitgevoerd (paragraaf 5).
Tot slot wordt kort ingegaan op de meest recente ontwikkeling (paragraaf 6).

In essentie is ISEK-evaluatie een argumentatie-proces (cf. House, 1977). Intermediair doel
van dit argumentatie-proces is een beoordeling van eigenschappen (kenmerken) van kompo-
nenten van bestaande onderwijs-leersituaties (binnen het tertiair onderwijs); einddoel is het
nemen van gefundeerde beslissingen - op grond van die beoordeling - over veranderingen in
die onderwijs-leersituatie (cf. Snijders, 1976; cf. Stufflebeam, 1971). Basis voor de argumenta-
tie is informatie die verzameld is bij ter zake kundige informanten (docenten en studenten) en
bronnen als studiegidsen en studieregistratiesystemen.

Partijen in het argumentatie-proces zijn de betrokken docenten en studenten, en de onder-
wijskundigen die met de uitvoering van de evaluatie zijn belast. Het evaluatie-proces is te
situeren binnen de door Van Strien (1975) beschreven regulatieve cyclus van het praktijkden-
ken. Deels loopt het argumentatie-proces uit op een diagnostische beoordeling van de onder-
wijssituatie, waar 'wordt gedacht vanuit een gegeven norm of regel waaraan de onderzochte
(...) situatie wordt getoetst' door de partijen (Van Strien, 1975, p. 609). De gegeven norm of
regel is in dat geval afkomstig uit een onderwijswetenschap of wordt ontleend aan een
beproefde praktijkervaring. Deels is er sprake van het krijgen van gemeenschappelijk zicht op
de bestaande en de gewenste toestand van het onderwijs. Daarbij 'wordt de norm als ontwerp
samen met de betrokkenen ontwikkeld en wordt de kliënt of het kliëntsysteem tevens bijge-
staan bij het doorlopen van een op realisering hiervan gerichte handelingscyclus'. (Van Strien,
1975, p. 609).

In het ISEK wordt stelling genomen tegen evaluaties waarbinnen de onderwijskundige onder-
zoekers de experts zijn en de docenten en studenten in de rol van de niet-deskundigen worden
gedrongen. Docenten en studenten zijn in staat - elke groep volgens eigen modaliteiten - de
sterke en zwakke kanten van hun onderwijs aan te geven en zinnige veranderingsvoorstellen te
genereren, mits zij adekwaat worden ondersteund. Wat doorgaans ontbreekt bij docenten en
studenten zijn begrippenkaders waarbinnen zij hun bevindingen kunnen verwoorden en - aan
deze begrippenkaders gerelateerde - instrumenten waarmee informatie kan worden ingewon-
nen. Juist op deze punten biedt het ISEK aan docenten en studenten zeer konkrete hulp.
De inschakeling van docenten en studenten als mede-onderzoekers is geen neven-oogmerk,
dat ingegeven is door de pragmatische overweging om de deskundige informatie te halen waar
zij aanwezig is. Integendeel er is principieel voor dit uitgangspunt gekozen, omdat de direkt
betrokkenen dienen mee te beslissen over veranderingen in hun eigen onderwijssituatie en op
hun eigen wijze kompetent zijn voor die beslissingen relevante informatie en argumenten te
leveren. Door dit uitgangspunt plaatst het ISEK zich binnen de 'handlungsorientierte Evalua-
tion' (Hameyer en Haft, 1977), die als een verbijzondering gezien kan worden van aktie-
onderzoek. Immers: 'In der Aktionsforschung sind jene Menschen und Menschgruppen

welche von den Wissenschaft untersucht werden, nicht mehr blosse Informationsquelle des
Forschers, sondern Individuen, mit denen sich der Forscher gemeinsam auf den Weg der
Erkenntnis zu machen versucht'. (Moser, 1977, p. 13).

Het ISEK is kursus-specifiek
Evaluatie met behulp van het ISEK start bij de enkelvoudige kursus en die kursus in relatie tot
voorbereidende en vervolgkursussen. De overweging hierbij is, dat didaktische veranderingen
in het universitaire onderwijs het effektiefst kunnen worden gerealiseerd op kursusniveau. Op
hogere niveau's stuit men vaak op moeilijk hanteerbare overiegstrukturen en bureaukratische
formalismen die, vaak onbedoeld, voortvarende verandering in de weg staan.
Binnen de ISEK-aanpak wordt voor elke te onderzoeken kursus een instrument ter inwinning
van evaluatieve informatie ontwikkeld, dat is toegesneden op de lokale kenmerken van die
kursus en anticipeert op de vermoede problemen binnen die kursus. Deze keuze voor kursus-
specificiteit is gebaseerd op het inzicht dat generale standaardinstrumenten informatie opleve-
ren die ver afstaat van de bevindingen van de direkt bij het onderzoek betrokkenen. Door deze
laatste omstandigheid worden vele evaluatie-uitkomsten verkregen door generale instrumen-
ten, als triviaal van de hand gewezen door diegenen die de aanbevelingen op basis daarvan
zouden moeten implementeren.

Door de toepassing van het principe van kursus-specificiteit wordt bijgedragen aan een
verhoging van de relevantie van de evaluatie-uitkomsten, vooral omdat lokale en specifieke
onderwijsproblemen er adekwater dan door de generale aanpak mee kunnen worden geïdenti-
ficeerd.

Belangrijke praktische uitgangspunten
In evaluatie-onderzoek is de fase van rapporteren cruciaal. Uitgangspunt bij het ISEK is dat
deze rapportage snel en zo eenvoudig mogelijk moet zijn, teneinde de evaluatie-uitkomsten
een effektieve rol te laten vervullen in het onderzochte onderwijs. Na afsluiting van de
gegevensverzameling wordt binnen twee weken een rapport gepresenteerd met een beschrij-
ving van de gegevens, eerste konklusies en aanbevelingen. In de vragenlijstvariant zijn - mede
om een snelle presentatie van uitkomsten te bevorderen - speciale formulieren, die direkt door
de komputer gelezen kunnen worden, ontwikkeld.

Omwille van de bruikbaarheid en duidelijkheid dient de rapportage eenvoudig te zijn. Hiertoe
wordt onderwijskundig jargon zoveel mogelijk vermeden. Statistische bewerkingen - van
toepassing op met name de vragenlijstvariant - gaan in principe nooit verder dan het bereke-
nen van bivariate samenhangindices (bijvoorbeeld kruistabellering). Meestal wordt volstaan
niet percentages en indices van centrale tendentie en spreidingen.

Daarnaast geldt dat alle evaluatie-uitkomsten in principe publiek zijn, hetgeen met name
sociale druk om aanbevelingen te realiseren kan mobiliseren.

De Groot (1970, p. 369) verdedigt de stelling dat de mate waarin uitkomsten verkregen door
middel van sociaal-wetenschappelijke meetinstrumenten (i.e. psychologische tests) door het
publiek dat wordt aangesproken geaccepteerd wordt, mede een funktie is van de mate waarin
die instrumenten oppervlakte-validiteit vertonen, dat wil zeggen de mate waarin de inhoud van
het meetinstrument als zinnig wordt beoordeeld. Met andere woorden dit validiteitstype is van
vitaal belang voor de kommunikatie met een lekenpubliek. Dit uitgangspunt is mede leidingge-
vend geweest voor de konstruktie van het ISEK. Tot slot nog één belangrijk uitgangspunt. Het
iSEK-instnimentarium richt zich met name op die aspekten van het onderwijs, die ook

daadwerkelijk veranderbaar zijn. Niet-manipuleerbare randvoorwaarden van het onderwijs
en onveranderbare persoonlijkheidskenmerken van docenten en studenten blijven doorgaans
buiten de aanbevehngen.

De inhoudelijke uitwerking van het ISEK is gedeeltelijk gebaseerd op het model van didakti-
sche analyse van Van Gelder, zoals dat is uitgewerkt door De Corte et al. (1974). Omdat het
model primair ontworpen is voor de didaktische situatie binnen het basis- en voortgezet
onderwijs, was aanpassing aan de specifieke omstandigheden van het hoger onderwijs nood-
zakelijk (Kluiter, 1979). In het ISEK wordt aandacht geschonken aan de volgende aspekten
van het onderwijs:

a. Doelstellingen. Nagegaan wordt wat er met het onderwijs bereikt dient te worden in
termen van het door studenten te verwerven repertoire aan kennis, vaardigheden en
houdingen. Aandacht wordt geschonken aan zowel toetsbare-, als moeilijk- of niet toetsba-
re doelstellingen, het gebruik en de zin van doelstellingen.

b. Beginsituatie. Waar moet, respektievelijk kan worden begonnen bij de aanvang van het
onderwijs, gegeven de mogelijkheden en beperkingen van de studenten. Ingegaan wordt
op beginkenmerken van eerstejaars studenten, vooruniversitaire kennis en vaardigheden
en kenmerken van studenten bij de entree in de onderzochte kursus.

c. Onderwijsleersituatie. Onderscheiden worden leerstof, werkvormen en middelen. Onder
leerstof wordt zowel het vakinhoudelijke als de meer formele kenmerken - moeilijkheids-
graad, abstraktieniveau, ordening - begrepen. Binnen werkvormen wordt aandacht ge-
schonken aan mogelijke kursusopzetten, het funktioneren van docenten daarbinnen en de
- gewenste - aktiviteiten van studenten. Bij middelen wordt nagegaan hoe geschreven
leermiddelen en audio-visuele hulpmiddelen in het onderwijs zijn ingepast en of^ij het
leerproces bevorderen.

d. Beoordeling en-begeleiding van studenten. Centraal hierin staat op welke wijze wordt
nagegaan of de studenten de doelstellingen hebben bereikt en welke ondersteuning ze
hebben gehad voor het bereiken van die doelstellingen. Ingegaan wordt onder andere op
toetsingsmethoden, (psychometrische) kenmerken van tentamens, (aanwijzingen voor)
studiegedrag van studenten, begeleiding van studenten binnen en buiten kursusverband,
informatie over de studievoortgang van studenten.

e. Algemeen. Vanuit de kursus wordt gekeken naar meer algemene aspekten van het onder-
wijs als: satisfaktie, roostering, organisatie, inspraak, studielast en vrije tijd.

Voor een nadere uitwerking van deze onderwijskundige systematiek wordt verwezen naar
Kluiter et al. (1978a) en Joostens (1981).

Procedureel zijn in elk van de drie varianten van het ISEK drie fasen te onderscheiden: de
evaluatie start, de evaluatie voorbereiding en de evaluatie uitvoering. Naast overeenkomsten
per fase per variant zijn er ook aanzienlijke verschillen. De evaluatie start (par. 3.1.) is voor de
drie varianten gelijk. De procedures bij de evaluatie voorbereiding en uitvoering zijn per
variant verschillend en worden achtereenvolgens beschreven in de paragrafen 3.2 tot en met
3.4 voor respektievelijk de vragenlijst-, de interview-diskussie- en de panelvariant. Een

beknopt overzicht van de diverse stappen in de procedures per variant wordt in Tabel 1
gegeven.

Van strategisch belang voor het welslagen van het evaluatie-onderzoek is de voorbereidende
fase.

Op basis van een gedegen voorlichting aan verschillende bij de evaluatie betrokken personen
en instanties over de mogelijkheden en de beperkingen van het instrumentarium wordt
gekozen voor een variant rekening houdend met de beschikbare menskracht en middelen.
Er wordt een voorlopige planning gemaakt van het evaluatie-onderzoek en afgesproken wordt
wie zorg draagt voor de uitvoering van het onderzoek. Taken en funkties worden nauwkeurig
omschreven en tezamen met de voorlopige planning vastgelegd in een projektovereenkomst:
het geheel van afspraken rond het evaluatie-onderzoek. De projekt-overeenkomst bevat in
grote Ujn het werkschema voor een dan geïnstalleerde evaluatie-kommissie. Daarin zijn de
verschillende bij het onderzoek betrokken geledingen en instanties via afvaardiging zo goed
mogelijk gerepresenteerd.

Kenmerkend voor de vragenlijstvariant is dat op basis van gesprekken met docenten en
studenten afzonderlijk en de ingevulde werkboeken (Kluiter et al., 1978a) een kursusspecifie-
ke vragenlijst wordt gekonstrueerd.

De gegevens verkregen met behulp van de vragenlijst en het vooraf per vraag door docenten
aangegeven grenspercentage (zie 3.2.4) vormen in de eindfase van de kursusevaluatie de basis
voor een gesprek tussen de docent(en) en de studenten over de aan te brengen veranderingen
in de kursus.

De evaluator houdt seperate gesprekken met de bij de kursus betrokken docent(en) en
studenten. Aan separatie wordt de voorkeur gegeven om beïnvloeding te vermijden. Leidraad
voor het gesprek is het werkboek (zie 3.2.2.). Afhankelijk van de complexiteit van de kursus
zal het aantal gesprekspartners variëren.

Het gesprek heeft meer dan één doel. Ten eerste maakt de evaluator kennis met de inhoud en
de opzet van de kursus. Ten tweede maken docent(en) en studenten kennis met de onderwijs-
kundige en didaktische uitgangspunten van het werkboek. Tenslotte hebben de notulen van de
gesprekken een ondersteunende funktie bij de vragenlijstkonstfuktie.

Het werkboek is een volgens het onderwijskundig model gesystematiseerde verzameling van
evaluatieve uitspraken over onderwijs (zie voorbeeld 1.). Deels geeft het werkboek vragen en
uitspraken die ongewijzigd relevant zijn voor de kursus. Bepaalde uitspraken en vragen
behoeven wijziging en/of aanvulling. Daamaast kunnen geheel nieuwe uitspraken geformu-
leerd worden voor de specifieke onderwijssituatie. Per kursus vullen zowel docent(en) als
studenten zo'n werkboek in.

Na de invulling vindt met de evaluator een bespreking plaats over de ingevulde werkboeken en
wordt een selektie gemaakt van de meest relevante uitspraken.

5.1.2. Doelstellingen: Uitspraken betreffende zinvolheid van vaardigheden/kennisaspekten.
Geef door x in de kolom 'opnemen' aan welke uitspraken u in de vragenlijst wilt zien opgenomen.

1. Het is mij duidelijk geworden waarom ik voor deze kursus..........(vaardigheid) moest

3. Het is mij duidelijk geworden waarom ik voor deze kursus..........(kennisaspekt)

De basis van de te konstrueren vragenlijst wordt gevormd door de gegevens uit het gesprek met
de docent(en) en de studenten, de ingevulde werkboeken, de nabespreking daarover en alle
overige relevante informatie.

De evaluator verzorgt de eindredaktie van de vragenlijst. De geprekodeerde vragenlijst-
uitspraken worden overgebracht op optische leesformulieren. Deze formulieren maken een
snelle verwerking van de vragenlijsten mogelijk.

Is de vragenlijst gekonstrueerd dan wordt de docent(en) verzocht per uitspraak een grensper-
centage aan te geven. Onder een grenspercentage voor een vragenlijst-uitspraak wordt ver-
staan: Het percentage antwoorden op - van te voren te bepalen - antwoordkategorieën, dat
voor de docent de grens markeert tussen problematische en niet-problematische evaluatie-
uitkomsten.

De bedoeling is tweeledig. Enerzijds vormt overschrijding van het grenspercentage een
indicatie voor opname van de desbetreffende vragenlijstuitkomst in een interim-onderzoeks-
verslag, anderzijds wordt de docent min of meer gedwongen op voorhand mogelijke konse-
kwenties uit de evaluatie-uitkomsten te trekken.

De afname van de vragenlijst bij alle bij de kursus betrokken studenten geschiedt bij voorkeur
klassikaal en in onderwijstijd. De afname dient laat in de kursus plaats te vinden-de studenten
hebben dan de kursus vrijwel geheel doorlopen.

De onderzoeksresultaten worden vastgelegd in een interimverslag. Dit verslag is bedoeld als
hulpmiddel bij de nog volgende diskussie. Het dient inhoudelijk voldoende aanknopingspun-
ten te bieden om er aanbevelingen met betrekking tot de gesignaleerde knelpunten op te
baseren. In de meeste gevallen zal het worden geschreven door de evaluator.
De opzet van het verslag kan variëren. Er kan bijvoorbeeld worden gekozen voor een
onbekommentarieerd weergeven van alle antwoordpercentages met bijbehorende grensper-
centages. Een andere mogelijkheid is het weergeven in louter - maar dan enigszins provoce-
rende - stellingen aangaande de kursus. Een derde mogelijkheid is de weergave van de
belangrijkste knelpunten voorzien van onderwijskundig kommentaar.

Het interimverslag wordt aan alle betrokkenen verstrekt. Zij worden daarbij uitgenodigd voor
een plenaire diskussie over het verslag. Wanneer de gehele studentenpopulatie groot is kan
beter met een deelpopulatie worden gewerkt. Als maximale groepsgrootte kan een omvang
van 25 personen worden aangehouden. Deze deelpopulatie behoeft niet a-selekt getrokken te
zijn uit de gehele populatie. ISEK-onderzoek richt zich - zeker in de diskussiefase - op aktieve
studenten die bereid en in staat zijn over het genoten onderwijs te diskussiëren. De diskussie is
in de eerste konfrontatie tussen docent(en), assistenten en studenten naar aanleiding van de
onderzoeksuitkomsten die zij via een gemeenschappelijk ontworpen instrument hebben ver-
kregen. De diskussie dient uit te monden in een vaststelling van de knelpunten en de formule-
ring van haalbare veranderingsvoorstellen. Een en ander wordt vastgelegd in een eindverslag.

- deze variant een zeer strakke planning vereist, met name wanneer sekwenties van kursus-
sen geëvalueerd moeten worden,

- het opstellen, uitwerken en uittypen van vragenlijsten zeer specifieke deskundigheden
vereisen,

- het werkboek als leidraad bij de gesprekken met docenten en studenten qua omvang en
inhoud niet optimaal is.

Deze ervaringen en het streven om evaluatie-onderzoek door fakulteiten in eigen beheer te
laten uitvoeren zonder hulp van specifieke deskundigen, heeft ertoe geleid dat de interview-
diskussievariant is ontwikkeld. Het weglaten van de vragenlijst maakt een flexibeler planning
mogelijk en maakt de procedure als geheel minder arbeids- en tijdsintensief.
Kenmerkend voor de variant is dat studenten en docenten door middel van interviews en
diskussies bij de evaluatie worden betrokken. Als leidraad voor de interviews is een 'gespreks-
puntenpaper' ontworpen waarin aandacht wordt geschonken aan didaktische en organisatori-
sche aspekten van de kursus (Joostens, 1981). Dit paper - afgeleid van het werkboek uit de
vragenlijstvariant - is tevens een hulpmiddel bij de diskussies.

Tot de geschreven leermiddelen worden gerekend: studieboeken, kollegediktaten, stencils,
praktikumhandleidingen, tijdschriftartikelen, studiehandleidingen e.d.

- de tekst (overzichtelijkheid; aangeven van grote lijnen; gebruik van samenvattingen, vragen,
opgaven en illustraties; leesbaarheid; lay-out; begrijpelijkheid, aanwezigheid van een register,
de hoofdstukindeling, de betoogtrant van auteurs e.d.);

Bij de uitwerking is vooral gelet op beknoptlieid van informatie en de volgorde van bespreking
van de diverse aspekten van het onderwijs. Ter illustratie wordt de tekst van een bladzijde uit
het paper weergegeven in voorbeeld 2.

De evaluatie wordt gekoördineerd door een evaluatiekommissie, samengesteld uit do-
cent(en), studenten en een evaluator.

Een team uit de evaluatiekommissie (bestaande uit een docent, een student en de evaluator)
voert de evaluatie van een kursus uit. Er zijn drie fasen in de procedure te onderscheiden.

Aan de hand van het gesprekspuntenpaper worden halverwege een kursus afzonderlijke
interviews gehouden met de docent(en) en een vertegenwoordiging van de studenten (ca. 3
personen). De bedoeling van deze interviews is zicht te krijgen op de organisatievorm en de
wijze van uitvoering van de kursus.

Van deze interviews worden notulen gemaakt, die aan de betrokkenen ter goedkeuring
worden toegezonden.

Aan de hand van de notulen van de interviews wordt een checklist samengesteld door de
evaluatiekommissie met waarderingsuitspraken over de kursus. Deze checklist wordt in een
plenaire vergadering na afloop van de kursus aan de studenten voorgelegd en daarna in
groepjes van ± 10 personen uitvoerig bediskussieerd. De resultaten van deze groepsdiskussies
worden samengevoegd. Tegenstrijdige uitkomsten worden nog eens plenair besproken en van
het geheel wordt een verslag gemaakt met aanbevelingen.

Het verslag van de plenaire bijeenkomst, de aanbevelingen en de checklist vormen de basis
voor het eindgesprek tussen studenten(vertegenwoordiging) en docent(en). De positieve en
negatieve punten van de kursus worden doorgesproken en aanbevelingen voor verbetering van
de kursus worden op haalbaarheid bekeken. Van dit gesprek wordt een verslag gemaakt en de
aanbevelingen worden aangevuld en/of verbeterd en omgezet in besluiten omtrent door te
voeren veranderingen voor het volgend kursusjaar.

De ervaringen opgedaan met de twee hiervoor beschreven varianten van het ISEK hebben
ertoe geleid dat voor bepaalde doeleinden gezocht is naar een verdere uitwerking (vereenvou-
diging) van de procedures. Het gekozen aksent op kursusevaluatie brengt het probleem met
zich mee dat de evaluatie van studiefasen in hun geheel wordt bemoeilijkt. Bovenkursorische
aspekten komen in feite alleen aan de orde in relatie tot de geëvalueerde kursus.
De gerichtheid op een systematische en frequente evaluatie van onderwijs binnen (sub)fakul-
teiten vraagt om een systeem dat qua menskracht en middelen minimale voorzieningen vanuit
de (sub)fakulteit zelf vereist en niet of nauwelijks externe deskundige begeleiding behoeft.
Daarnaast dient zo'n systeem zodanig te zijn dat de gewenste inbreng van docenten en
studenten gegarandeerd is.

Zowel de vragenlijst als de interview-diskussievariant kennen met betrekking tot deze punten
nogal wat problemen omdat in beide procedures een vrij strakke planning nodig is en de
studenteninbreng in de einddiskussies soms te wensen over laat. Voorgaande was aanleiding
tot het ontwerpen van de panelvariant.

Centraal staat dat docent(en) en studenten met behulp van het eerder genoemde gesprekspun-
tenpaper een kursus evalueren. Kenmerkend voor de variant is een eenmalige diskussie aan de
hand van een van tevoren opgestelde agenda. De diskussie wordt gevoerd door een panel van
circa 20 personen.

Van het panel maken deel uit de bij de kursus betrokken docent(en)/assistenten, een fakultai-
re medewerker die als voorzitter fungeert, een aantal (circa 15) studenten en eventueel een
externe adviseur. De studentvertegenwoordiging kan op verschillende manieren worden
samengesteld. Gedacht kan worden aan een vast panel, aan per kursus wisselende groepen,
dan wel aan een vaste kem, aangevuld met wisselende personen per kursus. Van belang is dat
het panel uit haar midden een kerngroep aanwijst die gedurende het hele onderzoek de
planning kontroleert en waar nodig bijstuurt.

De agenda wordt als volgt opgesteld. Het gesprekspuntenpaper wordt gemime tijd voor de
diskussie uitgereikt aan de docent(en) en de studenten. Zij berichten de voorzitter schriftelijk,
telefonisch dan wel in een korte voorbespreking, over die punten in het paper die zij voor de te
evalueren kursus van belang achten.

Van de diskussie worden notulen gemaakt waarin ook tijdens de diskussie gesignaleerde
knelpunten en de naar aanleiding daarvan geformuleerde veranderingsvoorstellen worden
vastgelegd. De notulen worden ter goedkeuring aan alle betrokkenen voorgelegd. Bij evalua-
tie van sekwenties van kursussen vormen de kursusnotulen de basis voor het eindverslag.

De vorige paragraaf maakt duidelijk in welk opzicht de varianten procedureel overeenkomen
en - vooral - verschillen. De verschillen hebben tamelijk belangrijke konsekwenties voor de
organisatie van de evaluatie, met name wat betreft de personele lasten, de planning en de
toepassingsmogelijkheden binnen onderwijs-organisaties.

Er is een aanmerkelijk verschil in tijdsinvestering per te evalupren kursus voor de drie
beschreven varianten. Voor de docent(en)/assistenten, de studenten en de evaluator wordt de
geschatte tijdsinvestering in tabel 2 weergegeven.

De totale tijdsinvestering ligt bij de vragenlijstvariant het hoogst en bij de panelvariant het
laagst. Bij de evaluatie van een reeks van kursussen dient de evaluator er rekening mee te
houden dat de totale tijdsinvestering groter is dan de som van de afzonderlijke investeringen
per kursus. Met name de koördinerende taken vergen nogal wat tijd. Voor de vragenlijstva-
riant geldt nog een extra tijdsinvestering voor het beheer van de gegevensbestanden en de
verwerking van de gegevens.

Het is echter verstandig om - uitgaande van de evaluatie van een studiefase - de volgende
vuistregel te hanteren. Evaluatie is een bezigheid die een investering vergt van ongeveer één
full-time kracht; full-time kan daarbij worden gezien als de optelling van door de direkt
betrokkenen geïnvesteerde tijd.

De planning is bij iedere variant erg belangrijk en noodzaakt tot een vrij strak schema. Met
name bij evaluatie van een toenemend aantal kursussen gaat de planning een steeds belangrij-
ker rol spelen. Bij de panelvariant-en in mindere mate bij de interview-diskussievariant-is de
flexibiliteit van plannen groter dan bij de vragenlijstvariant, met name omdat de afhankelijk-
heid van derden bij de eerste twee minder groot is. Het betreft hier vooral de administratieve
taken en de reproduktiewerkzaamheden.

De vragenlijstvariant biedt de mogelijkheid om zeer grote aantallen studenten te betrekken in
het evaluatie-onderzoek. Bij de interview-diskussie- en de panelvariant moet het studenten-
aantal nogal beperkt blijven - groepen van ongeveer 20 studenten lijken wel het maximum -
waardoor deze aanpakken bij studierichtingen met grote aantallen studenten iets problemati-
scher worden. Er zijn echter diverse oplossingen denkbaar om ook bij grotere studierichtingen
met deze varianten te kunnen werken. Bijvoorbeeld door groepen studenten te verdelen over
kursussen of door te werken met groepsvertegenwoordigers (Kluiter et al., 1980, p. 11.
Bartelds en Visser, 1981, p. 28).

Een probleem is het bezoek van de plenaire bijeenkomsten. In de vragenlijst- en interview-
diskussievariant vormen deze plena, hoewel niet geheel vergelijkbaar, een zwakke schakel in
de procedure. Het blijkt dat (zeer) weinig studenten gebruik maken van de mogelijkheid om
hun invloed te doen gelden op het onderwijsgebeuren. Juist die bijeenkomsten waarin in feite
de voorbereiding voor de besluitvorming plaatsvindt, zouden zich moeten verheugen in de
belangstelling van grote aantallen studenten. De ervaring leert echter dat in bijvoorbeeld een
onderzoek bij Ekonomie (Kluiter et al., 1980, p. 9) slechts vijftien of minder studenten van de
driehonderd van de gelegenheid gebruik maken om mee te denken en praten over onderwijs-
verbeteringen. Bij een onderzoek bij Farmacie (Joostens, 1980) liggen deze aantallen aanvan-
kelijk wat gunstiger - ongeveer de helft van de vijftig studenten - maar ook daar neemt de
belangstelling af tot maximaal negen studenten per plenaire bijeenkomst. De reden voor deze
geringe opkomst moet vooral gezocht worden in het niet struktureel regelen van de evaluatie-
aktiviteiten binnen het onderwijs. Studenten moeten dat in hun eigen vrije tijd doen.
Positiever is de ervaring bij een onderzoek bij Psychologie (Bartelds en Visser, 1981). Een
officiële benoeming tot panellid voor een geheel studiejaar blijkt voldoende motiverend te
werken.

In bepaalde gevallen kan de kursusspecifieke benadering tot problemen leiden bij de planning
en organisatie. Met name is dat het geval wanneer bepaalde delen van een kursus verschillend
van opzet zijn, bijvoorbeeld doordat binnen een kursus met diverse subgroepen wordt ge-
werkt. Om tijdsredenen of om redenen van te kleine studentenaantallen wordt vaak gekozen
voor een meer 'globale aanpak' (Bartelds en Iwema, 1979, p. 8).

Daamaast is het (soms) moeilijk om tijdens de evaluatie van één specifieke kursus, meer
globale organisatorische aspekten van het onderwijs mee te nemen. De systematiek die het
ISEK wél eigen is in de kursusspecifieke benadering ontbreekt vaak voor evaluatie van totale
kurrikula: jaargangen, fases, specialisaties en afstudeerrichtingen binnen een opleiding. Op dit
punt is de panelvariant het meest flexibel. Door gebruik te maken van gesprekspunten op
bovenkursorisch niveau - te ontlenen aan bijvoorbeeld een doelstellingennota - kan, al dan
niet in kombinatie met de verslagen van afzonderlijke kursusevaluaties, op vrij eenvoudige
wijze een panelbijeenkomst over een studiefase worden belegd.

Een derde probleem is de 'bottle-neck' bij de aanmaak van vragenlijsten. De tekst van de
vragenlijsten wordt direkt gedmkt op de optische leesformulieren. Het daarbij behorende
procédé is van dien aard dat vrijwel altijd externe instanties als de reproduktiedienst, moeten
worden ingeschakeld. Hoewel de levertijd zal variëren moet er rekening mee worden gehou-
den in de planning van het onderzoek. Met name bij kortlopende kursussen wil dat nogal eens
problemen geven. De vragenlijst is dan of niet op tijd klaar of niet 'up to date', omdat met
name de studenten in een te vroeg stadium voor hun inbreng van vragenlijstuitspraken
moeten worden benaderd. Een middel om dit probleem te ondervangen is het in eigen beheer
konstrueren van de vragenlijsten. Dit kan door gebruik te maken van optisch leesbare
tentamenformulieren, die los bij het vragengedeelte worden gevoegd. Een nadeel van de
gescheiden presentatie is echter dat de kans op foute aanstreping bij de beantwoording van de
vragen wordt vergroot.

Gunstig zijn de ervaringen met de respons. Bij de vragenlijstvariant ligt deze tussen de
65-100%. Responspercentages van 90% zijn eerder regel dan uitzondering. Deze hoge per-
centages worden ook verkregen bij postaal onderzoek.

Gebleken is verder dat de ISEK-systematiek door docenten en studenten als erg plezierig
wordt ervaren. Het gebruikte onderwijskundig model en de daarop gebaseerde hulpmiddelen,
werkboek en gesprekspuntenpaper, dienen als een soort 'eye-opener'. Ook werkt de manier
waarop men in het evaluatie-onderzoek wordt betrokken erg stimulerend. Het medeonder-
zoekerschap (zie paragraaf 2.2.) dwingt tot reflektie en het serieus afwegen van alternatieven,
zowel in de konstruktiefase als in de fase van besluitvorming.

Een voordeel van de vragenlijstvariant is nog dat de mogelijke kwantitatieve representatie van
de onderzoeksgegevens door de docenten en/of onderwijsinstantie, als meer dwingend wordt
ervaren.

ISEK-onderzoek heeft een groot aantal gevolgen gehad voor het geëvalueerde onderwijs
zowel op kursusniveau als op het niveau van studiefasen.

Inmiddels is binnen een zestal (sub)fakulteiten ervaring opgedaan. Negentig kursussen werden
tot nu toe geëvalueerd. Ongeveer de helft daarvan werd twee of driemaal onderzocht.

Exemplarisch zullen hier enige resultaten worden gepresenteerd. Aan de hand van een aantal
thema's zal worden geïllustreerd welke soorten gegevens met behulp van het ISEK kunnen
worden opgespoord, welke aanbevelingen werden geformuleerd, of de aanbevelingen zijn
opgevolgd en welke effekten ze hebben gehad op het onderwijs.

Het begrip beginsituatie verwijst binnen het ISEK vooral naar problemen in de aansluiting
tussen het voor-wetenschappelijk- en het wetenschappelijk onderwijs, en tussen kursussen
onderling.

Voor zover ze zich voordoen tussen het V. W.O. en het W.O., kunnen ze soms met eenvoudige
middelen - verplaatsing van de kursus in het rooster, verklarende woordenlijsten en dergelijke

- worden ondervangen. Opvallend is dat het probleem niet zozeer in het V.W.O. schuilt maar
juist binnen het W.O. zelf; er zijn duidelijk te hoge verwachtingen wat betreft het beheersings-
niveau van de betreffende V.W.O.-vakken (Kluiter et al., 1978b, p. 57; Joostens en Tiesinga,
1981 p. 4). Als voorbeeld van de effektiviteit van de evaluatie op aansluitingsproblematiek zal
hier de afhandeling van het wiskundeprobleem bij Farmacie worden geschetst (Joostens en
Tiesinga, 1981, p. 10/29). In het geherprogrammeerde Farmacie-programma was geen basis-
kursus elementaire analyse opgenomen. In plaats van elementaire analyse was een inleiding in
de statistiek in het eerste studiejaar gepland. Het evaluatie-onderzoek bracht aan het licht dat
weliswaar het V.W.O. onderwerpen had behandeld die voor de Farmacie noodzakelijk zijn,
maar dat met name de kursussen fysische chemie en statistiek een beheersingsniveau van
wiskunde veronderstellen dat uitgaat boven het V.W.O.-niveau. Deze bevinding leidde ertoe
dat de kursus elementaire analyse heringevoerd werd en voorafgaat aan de kursussen fysische
chemie en statistiek. De kursus statistiek kreeg een meer 'toegepaste' uitwerking en werd
geïntegreerd in een andere kursus. Konkreet betekenden deze besluiten dat in het eerste en
tweede opleidingsjaar geschoven moest worden met kursusblokken en dat er extra ruimte
kwam voor de kursus elementaire analyse.

Vaak is van op schrift gestelde expliciete doelstellingen in het wetenschappelijk onderwijs nog
geen sprake. Meestal worden doelstellingen min of meer impliciet gebruikt en wOrdt er tijdens
de kursus zelf, in een inleidend kollege, even kort op ingegaan (Kluiter et al, 1978b, p. 7;
Kluiter en Miedema, 1979, p. 92).

Dat expliciet omschreven doelstellingen een duidelijke funktie hebben bij het evalueren en
met name bij het ontwarren van knelpunten, blijkt vooral uit het onderzoek bij de vakgroep
Nederlands. Een komplex geheel van doelstellingen: het leren verrichten van onderzoek, dit
gezamenlijk leren doen en de zelfstandige voorbereiding op onderzoek, bleek moeilijk binnen
een werkvorm te realiseren (Bartelds en Iwema, 1979, p. 26). Voor een deel ontstonden deze
problemen door de heterogene samenstelling van de aan werkkolleges deelnemende groepen.
De inschrijving op de werkkolleges staat namelijk open voor alle doktoraal-studenten, onge-
acht hun studiejaar. Het beginniveau in vaardigheden en in ieder geval in kennis kan daardoor
aanmerkelijk binnen eenzelfde groep verschillen. Het evaluatie-onderzoek toonde aan dat de
doelstelling in ieder geval gehandhaafd moest worden. Teneinde de kans op het bereiken ervan
te vergroten werden aanbevelingen die gericht waren op het verminderen van het heterogeni-
teitseffekt, door de vakgroep Nederlands vertaald in de volgende maatregelen:

- het instellen van literatuurkollegesZ-studies, afgestemd op het later te volgen werkkollege.

- het instellen van een 'klein' werkkollege, afgestemd op het later te volgen werkkollege,
waarin geleerd wordt samen onderzoek te doen,

- het instellen van een voorbereidingsfase, direkt voorafgaand aan het eigenlijke werkkolle-
ge, waarin afspraken over de gang van zaken worden gemaakt. (Bartelds en Iwema, 1979,
p. 48).

Uit de diverse evaluatie-onderzoeken blijkt dat het hoorkollege als werkvorm overheerst. Ook
daar waar sprake is van responsie-kolleges en zelfs werkkolleges, hebben deze in sterke mate
een hoorkollegekarakter. Bovendien is de afstemming van de werkkolleges op de hoorkolleges
vaak verre van optimaal. Aanzienlijke aantallen studenten geven te kennen zich onvoldoende
aktief betrokken te voelen bij het hoorkollege als werkvorm (Kluiter et al., 1978b, p. 82;
Kluiter en Miedema, 1979, p. 90; Miedema en Walburg, 1979, p. 89; Joostens en Tiesinga,
1981, p. 6).

Praktika worden over het algemeen genomen duidelijk positiever gewaardeerd door studenten
met name omdat zij daarin zelf aktief kunnen zijn. Een probleem daarbij is dat de studielast
soms erg hoog is (Joostens en Tiesinga, 1981, p. 9).

Daar waar nadrukkelijk getracht wordt zelfwerkzaamheid en tweerichtingsverkeer tussen
docent(en) en studenten mogelijk te maken, steekt de beoordeling ervan door studenten,
hoewel niet unaniem positief, toch gunstig af tegen die van de meer traditionele werkvormen
als hoor- en werkkolleges (zie: Kluiter et al, 1978b, p. 51; Bartelds en Iwema, 1979, p. 26).
Kluiter en Miedema (1979) hebben diverse aanbevelingen geformuleerd om de betrokkenheid
van de studenten bij het onderwijs te verhogen. Naar aanleiding van deze aanbevelingen is
men bij een kursus makro-ekonomie overgegaan tot een experiment met twee verschillende
wijzen van studeren binnen de kursus. Het verschil bestond eruit dat studenten de kursus op
een 'klassieke' wijze door middel van hoor- en responsiekolleges konden volgen of in de loop
van de kursus regelmatig zouden worden getoetst en terugkoppeling over de toetsresultaten
zouden ontvangen. De terugkoppelingsvariant verplichtte de studenten - kontraktueel - tot
het maken van toetsen.

Gebleken is dat de toetsresultaten van de kontraktanten aanmerkelijk beter zijn dan die van
niet-kontraktanten en dat de verschillen niet zijn toe te schrijven aan a priori kwaliteitsver-
schillen tussen studenten (Goeman et al, 1981). In het kursusjaar '80/81 heeft men het kontrakt
gehandhaafd; wel overweegt men de eisen voor deelname te versoepelen (Beetsma et al,
1981).

Het valt op dat studenten veel problemen hebben met het bestuderen van literatuur. Ze is te
moeilijk of te abstrakt en hoofd- en bijzaken zijn moeilijk van elkaar te onderscheiden. Ook
vormt de vreemde taal een probleem (Kluiter et al, 1978b, p. 69; Bartelds en Visser, 1981).
Daarnaast blijkt dat er weinig efficiënt en systematisch gebmik wordt gemaakt van literatuur
binnen kursussen. Voorbeelden daarvan zijn: kollegestof en literatuur overlappen elkaar
volledig, de aanbevolen literatuur dekt de vereiste tentamenstof niet en de opgegeven litera-
tuur is identiek aan die in een andere kursus (Kluiter en Miedema, 1979; Joostens en Tiesinga,
1981). Daar waar de literatuur gepaard gaat met opdrachten, vragen en opgaven en gekoppeld
is aan zelfwerkzaamheid en/of groepswerk, zijn de ervaringen echter positiever (Kluiter et al,
1978b, p. 50, Bartelds en Iwema, 1979, p. 33).

Kritiek op het gebruik van een bepaald boek kan verstrekkende gevolgen hebben voor de
organisatie van een heel onderwijsprogramma. De vraag van de subfakulteit Sociologie om
onderzoek te doen naar het gebruik van een bepaald studieboek, werd al in de overlegfase
omgebogen naar een evaluatie-onderzoek betreffende het gehele eerste jaar, vooral omdat in
het vooroverleg van studentenzijde meer bezwaren naar voren werden gebracht. De belang-
rijkste aanbevelingen uit dat onderzoek bleken uiteindelijk de organisatie van het gehele
eerste jaar te betreffen.

Over de konsekwenties van de aanbevelingen zegt de subfakulteit zelf het volgende:

'De grondige doorlichting van de propedeuse resulteerde in belangrijke wijzigingen die reeds in het
kollegejaar 1978/1979 werden ingevoerd. Een van de belangrijkste resultaten is het beter op elkaar
afgestemd zijn van de diverse studie-onderdelen in de propedeuse. Het beter funktioneren van het eerste
studiejaar heeft echter wel met zich meegebracht dat de inrichting van het overige deel van de kandidaats-
studie als onvoldoende wordt ervaren. De klachten van de studenten waren zodanig dat het bestuur
besloot de Raad voor te stellen het COWOG nogmaals te vragen een onderzoek te verrichten. De Raad
kon hiermee instemmen en het bestuur kwam met het COWOG overeen dat dit onderzoek in het
kollegejaar 1980/1981 zal worden uitgevoerd'. (Algemeen verslag 1979, Rijksuniversiteit Groningen, p.
69).

De wijzen waarop studenten in het onderwijs worden beoordeeld verschillen aanmerkelijk.
Essayvragen, waaronder ook sommen en opgaven, worden veel gebruikt. In een aantal
gevallen wordt met meerkeuzetoetsen gewerkt.

De keuze voor essay-toetsen wordt vaak gemotiveerd met het nastreven van meer dan één
doel. Naast het toetsen van kennis wil men ook inzicht krijgen in bijvoorbeeld formuleervaar-
digheid van studenten. Deze dubbele beoordelingsfunktie veroorzaakt veel verwarring bij
studenten. Waarom is iets fout? Hoe beknopt of uitgebreid moet ik antwoorden? (Kluiter et al,
1978b, p. 72; Kluheren Miedema, 1979, p. 114; Joostens en Tiesinga, 1981, p. 21).
Kenmerkend voor beoordelingssituaties is ook dat studenten slecht geïnformeerd zijn over
inhoud en niveau van het tentamen. Verder blijkt van enige vorm van terugkoppeling, anders
dan het geslaagd of gezakt zijn, meestal geen sprake. (Joostens 1980, p. 12; Miedema en
Walburg, 1979, p. 90). Voorzover gebruik gemaakt wordt van oefentoetsen en/of tussentijdse
toetsen, ervaren studenten deze als erg nuttig. (Kluiter en Miedema, 1979, p. 24; Joostens en
Tiesinga, 1981, p. 99).

Een veel voorkomend probleem is het beoordelen binnen praktika. De kursusleiding heeft
moeite met het bepalen van objektieve kriteria, met als gevolg dat de studenten klagen over
onduidelijke praktikumeisen en onterechte verschillen tussen beoordelingen. (Joostens en
Tiesinga, 1981, p. 9).

Voorstellen om over te gaan op meer adekwate beoordelingsvormen zijn veelvuldig gedaan.
Soms is het noodzakelijk om, naast het instellen van tussentijdse toetsen op kursusniveau, de
beoordeling over een heel jaar verder te systematiseren. De studievoortgang van studenten
wordt in hoge mate meebepaald door de manier waarop herkansingen geregeld zijn. Binnen de
subfakulteit Farmacie bleek dat in de loop van het tweede jaar slechts een beperkt deel van de
studenten zover gevorderd was met de studie dat men in september aan het derde jaar zou
kunnen beginnen. Dit gegeven noodzaakte de subfakulteit in feite tot het opzetten van een
herkansingsregeling, waarin studenten gerichte studieadviezen kregen omtrent de te herhalen
vakken en het tijdstip waarop de herkansing zou moeten plaatsvinden. De regehng bleek
effektief (Tiesinga en Joostens, 1982).

Bij de ontwikkeling van de drie varianten hebben tot nu toe inhoudelijke aspekten, de
uitwerking van de onderwijskundige systematiek, het flexibel kunnen inspelen op de beschik-
bare menskracht in fakulteiten en een snelle informatieverwerking en rapportage, voorop
gestaan. Op dit moment wordt gewerkt aan een zodanige uitwerking van de hulpmiddelen en
de stappen in de procedures, dat fakulteiten met minimale begeleiding zelf evaluatie-onder-
zoek ter hand kunnen nemen. Per variant zijn hiertoe zogenaamde procedure-klappers ont-
wikkeld. In de procedureklappers wordt elke variant stap voor stap beschreven en bij elke stap
in de procedure worden voorbeelden gegeven van te ontwikkelen materialen: plannings-
schema's, voorlichtingsbrieven, notulen, stellingen, diskussieverslagen, vragenlijsten, aanbe-
velingen en dergelijke. De verwachting is dat, na een bijstellingsperiode, de klappers in de
loop van 1983 kunnen worden afgerond.

Bartelds, J.F. en Iwema, K. De doktoraal werkkoUeges-nieuwe-stijl vakgroep NederlandslRUG. (Een

evaluatie met behulp van de ISEK-methode). Groningen: COWOG - VR 79-23,1979.
Bartelds, J.F. en Visser, G. Het eerstejaar Psychologie. Verslag van de evaluatie met behulp van de

ISEK-diskussiemethode. Groningen: COWOG - VR 81-24, 1981.
Beetsma, Y., Jansen, E. en Kluiter, H. Een evaluatie-onderzoek naar zeven tweedejaars kursussen
Ekonomie met behulp van de ISEK-methode, kursusjaar '80-'8l. Groningen: COWOG - VR 81-25,
1981.

Corte, E. de, Geerligs, C.T., Lagerweij, N.A. J., Peters, J.J. en Vandenberghe, R. Beknopte didaxolo-
gie. Groningen: Tjeenk Willink, 1974.
Goeman, M., Kluiter, H. en Muysken, J. Effekt van kontrakt-onderwijs binnen een kursus Makro-

Ekonomie. Groningen: COWOG-VR81-19,1981.
Groot, A.D. de. Some badly needed non-statistical concepts in applied psychometrics, Nederlands

Tijdschrift voorde Psychologie, 1970,25,360-376.
Hameyer, U. und Haft, H. (Hrsg.). Handlungsorientierte Schulforschungsprojekte. Praxisberichte,

Analysen, Kritik. Weinheim und Basel: Beltz Verlag, 1977.
House, E.R. The logic of evaluative argument. Los Angeles: Center for the Study of Evaluation, Ucla

Graduate School of Education, University of California, 1977.
Joostens, T.H. Interimverslag evaluatie propedeuse Farmacie. De periode voor de kerst. Groningen:

COWOG-VR 80-01,1980.
Joostens, T.H. Gesprekspunten voorde evaluatie van kursussen. Groningen: COWOG-M 81-05,1981.
Joostens, T.H. en Tiesinga, L. Evaluatie Farmacie. Interimverslag 2: periode januari-december 1980.

Groningen: COWOG-VR 81-15,1981.
Kluiter, H. ISEC: Instrument for Systematic Evaluation of Courses; a practical approach to evaluation

in higher education. Groningen: COWOG - VR 79-03,1979.
Kluiter, H., Bartelds, J.F. en Joostens, T.H. Werkboek voor hel samenstellen van ISEK (Instrument
voor Systematische Evaluatie van kursussen). Docenten/studenten-versie. Groningen: COWOG -
VR 78-02,1978a.

Kluiter, H. Bartelds, J.F., Boven, T.M.S. van, Fortuyn, W.S.P. en Wassenaar, J. Verslag van de
evaluatie van het eerstejaarsprogramma Sociologie '77- 78. Een onderzoek met de ISEK-methode.
Groningen: COWOG - VR 78-16,1978b.
Kluiter, H. en Miedema, J.P. Een evaluatie-onderzoek naar vijf tweedejaars kursussen Ekonomie met
behulp van. de ISEK-methode. Onderzoeksverslag. Voorstellen ten aanzien van het gebruik van
ISEK binnen de Fakulteit der Ekonomische Wetenschappen. Groningen: COWOG - VR 79-24,
1979.

Kluiter, H., Miedema, J.P. en Muyslcen, J. Een evaluatie-onderzoek naar acht tweedejaars kursussen
Ekonomie met behulp van de ISEK-methode. Kursusjaar 1979/1980. Deel A. Groningen: COWOG-
VR 80-05,1980.

Miedema, J.P. en Walburg, J. Een evaluatie-onderzoek naar twee eerstesjaars kursussen Nederlands
met behulp van de ISEK-methode. Groningen: COWOG - VR 79-25,1979.

Snijders, J.Th. Systematische evaluatie: een nota in stellingen. Leeuwarden: Uitgave Sociaal Hoger
Onderwijs Friesland (G SHF 76-141), 1976.

Strien, P.J., van. Naar een methodologie van het praktijkdenken in de sociale wetenschappen, Neder-
lands Tijdschrift voor de Psychologie, 1974,30, 601-614.

Stufflebeam, D.L., Foley, W.J., Gephart, W.J., Guba, E.G., Hammond, R.L., Merriman, H.O.,
Provus, M.M. Educational evaluation and decision making. Itasca (111.): F.E. Peacock Publishers
Inc., 1972.

Tiesinga, L. en Joostens, T.H. Evaluatie Farmacie. Interimverslag 3: de periode januari-oktober 1981.
Groningen: COWOG-VR82-03, 1982.

Vergelijkbaarheid van Testreeksen voor
Plaatsingsadviezen ten behoeve van LBO, IBO
en VBO

Comparability of psychological tests for advice with respect to the choice of particular forms of
technical and domestic-industrial secondary education at retarded or normal level, is investigated.
The first part of the study offers a description of differences and similarities of testbatteries in use,
by means of a smallest space analysis. The results of the analysis display a clarifying radexstructure
for the collectivity of 28 subtests, with sectors for the verbal, figural and symbolic facets and
concentric regions corresponding to cognitive functions for rule-inferring tasks, rule-applying tasks
and mental efficiency.

The second part describes a canonical discriminant analysis for the same subtests on groups of
pupils, corresponding to six types of schools. The results confirm a high validity for the collectivity
of subtests; most types of schools can be discriminated almost perfectly in a space of three
dimensions. After rotation, the first dimension differentiates between special education for the
retarded (VBO), individualised education (ILO, ITO, IHNO) and regular education (LTO,
LHNO) by rule applying, verbal and symbolic tasks. The second dimension discriminates regular
lower technical schools (LTO) from the other types of schools due to concrete figural tasks and the
third dimension separates the special education for the retarded (VBO) from the other types by
inproductivity.

Tentatively it is concluded that a valid testbattery in this context has to contain subtests from nearly
all sectors and regions, with items of practical nature and relative low difficulty; one of the
investigated testseries satisfies this requirement.

Apart from these results, the article tries to illustrate the use of modern multi-dimensional
techniques, such as 'smallest space analysis' with radexstructure and canonical discriminant
analysis with rotation, in the field of educational research.

Voor de toelating tot het Individueel Beroepsonderwijs (IBO), te weten het Individueel
Technisch Onderwijs (ITO), het Individueel Huishoud- en Nijverheidsonderwijs (IHNO) en
het Individueel Landbouw Onderwijs (ILO), is bij ministerieel besluit een psychologisch
advies vereist. Eveneens is het volgen van het Voortgezet Buitengewoon Onderwijs (VBO)
voor moeilijk lerende kinderen, mede verbonden aan een afwijzend advies voor het IBO.
Voor toelating tot deze vormen van voortgezet onderwijs, is geen getuigschrift voor 6 jaar
basisonderwijs vereist, dit in tegenstelling tot het gewone voortgezette Lager Beroepsonder-
wijs (LBO), dat voornamelijk het Lager Technisch Onderwijs (LTO) en het Lager Huishoud-

1 Dit onderzoek kwam enige jaren geleden tot stand door samenwerking van psychologische instanties in
de toenmalige Landelijke Werkgroep voor Advies en Begeleiding bij het Individueel Beroeps Onderwijs
en dienstverlening van de Rijksuniversiteit Leiden, vanuit de vakgroepen Ontwikkelingspsychologie,
Onderwijskunde en Datatheorie. De verantwoordelijkheid voor dit artikel ligt echter uitsluitend bij de
auteur, die bij laatstgenoemde afdehng werkzaam was.

en Nijverheidsonderwijs (LHNO) omvat. Jaarhjks worden ten behoeve van deze adviezen
voor vervolgonderwijs in deze context meer dan 10.000 leerUngen onderzocht met diverse
testreeksen. Over het algemeen is de adviserende instantie niet alleen betrokken bij de
toelating, maar ook bij de verdere begeleiding op scholen voor IBO. Eén van de vragen
omtrent de diverse in gebruik zijnde testreeksen, betreft de vergelijkbaarheid van deze
testreeksen en wel in drie opzichten:

Ten eerste: de structuur en de overeenkomsten van de psychologische inhouden of 'domains of
behavior', die door de testreeksen worden gemeten en de consistentie waarmee de inhoude-
lijke differentiaties gemeten worden ('content vaHdity'). Of eenvoudiger geformuleerd: in
hoeverre meten de gebruikte testreeksen de zelfde diversiteit van aspecten en welke is de
structuur van deze inhoudelijk verschillende aspecten?

Ten tweede: in welke mate zijn de diverse testreeksen bruikbaar ten aanzien van de differen-
tiële advisering VBO - IBO - LBO ('discriminant vahdity'), of, wederom eenvoudiger, in
hoeverre kan met behulp van de gebruikte testreeksen een valide advies voor plaatsing op
VBO, IBO of LBO worden gegeven en welke aspecten spelen daarbij een rol?
Ten derde: in welke mate kunnen bij de testreeksen, zoals deze worden gehanteerd in de
advisering, overeenkomstige niveaunormen worden gehanteerd voor advisering met betrek-
king tot VBO - IBO en LBO. Of concreter: welke is de bijdrage van elk der testreeksen in de
differentiatie, en kunnen de adviesinstanties, die werken met verschillende testreeksen, tot
overeenkomstige adviezen komen?

Als een eerste aanzet tot beantwoording van deze drievoudige vraagstelling, hebben diverse
voor het IBO werkende instanties, in samenwerking met de auteur, een onderzoek verricht
met de tests die door hen gebruikt worden voor de LBO - IBO - VBO differentiaties. De
gebruikte testreeksen voor LBO - IBO - VBO differentiatie zijn speciaal samengestelde
reeksen, gevormd uit al of niet gemodificeerde subtests uit diverse bestaande reeksen. Hoewel
de populatie van potentiële IBO- en LBO-leerlingen getest wordt voor toelating tot vervolg-
onderwijs, aansluitend op het basisonderwijs, zijn testreeksen voor advisering met betrekking
tot voortgezet algemeen vormend onderwijs en voorbereidend wetenschappelijk onderwijs
niet zonder meer bruikbaar, omdat voor de meerderheid van de geteste leerlingen voor IBO of
LBO de moeilijkheidsgraad van deze tests te hoog ligt. De onvoldoende differentiatie in de
lagere scoringsniveaus die daar het gevolg van is, maakt deze bestaande testreeksen voor IBO -
LBO - VBO advisering minder geschikt. Daarnaast komt nog dat het lager beroepsonderwijs
andere inhoudelijke aspekten bevat dan het voortgezet algemeen vormend en voorbereidend
wetenschappelijk onderwijs, waardoor selectie met dergelijke testreeksen zou selecteren op
capaciteiten die niet representatief zijn voor het lager beroepsonderwijs.
De drie testreeksen, die voor IBO - LBO - VBO differentiatie het meest gebruikt worden, zijn
aangeduid als reeks A, B en C. Reeks A bestaat uit de testreeks ontwikkeld door
Koornstra etal. (1967, 1979) (zie ook Neuwahl en Koornstra, 1970). Reeks B bestaat uit de
testreeks ontwikkeld door Van den Broek (1968, 1971) en testreeks C werd samengesteld bij
de Psychologische Afdeling van de Districts Gezondheidsdienst van Valkenswaard op basis
van de Mac-Quarrie (zie appendix) en een klassikale vorm van enkele subtests uit de GIT
(Snijders en Verhage, zie appendix). De recentelijk door De Groot (1980) ontwikkelde
testreeks voor het hier besproken terrein, kon gezien het tijdstip van dataverzameling niet bij

het onderzoek worden betrokken. De testreeks van De Groot vertoont subtests die overeen-
komen met het type uit de A en C reeks, maar lijkt qua moeilijkheidsgraad waarschijnlijk meer
op de C reeks.

De testreeksen zijn alle drie klassikaal. Aangezien deze testreeksen onderdelen gemeenschap-
pelijk hebben, kunnen we in dit onderzoek beter uitgaan van de samenstellende subtests.
Tabel 1 geeft de samenstelling van de reeksen A, B en C weer, de herkomst van de test, de
modificatie en de te gebruiken afkorting voorde omschreven inhoud. In de appendix treft men
de referenties met betrekking tot de test aan. Twee tests, welke niet opgenomen zijn in A, B of
C reeks, maar wel vaak worden toegevoegd, te weten de Haarlemse Rekentest (Kersten, zie
appendix) en de Een-Minuut Test, een test voor technische leesvaardigheid (Brus en Voeten,
zie appendix) zijn tevens opgenomen.

Bij een steekproef van 183 IBO-leerlingen werden deze tests afgenomen in twee delen, het
eerste deel veelal in het voorjaar voor het toelatingsadvies en het tweede deel in september.
Wat het eerste of tweede deel was, hing af van de testreeks die de psychologische instantie
hanteerde bij het toelatingsonderzoek. Bovendien werden 71 VBO- en 90 LBO-leerlingen
getest met beide delen in september. In geografisch opzicht is de steekproef van scholen niet
representatief.

Ten aanzien van de religie zijn protestantse scholen enigszins ondervertegenwoordigd. De
verdelingseigenschappen van de steekproef zijn weergegeven in tabel 2a en 2b

Uit tabel 2b valt af te lezen dat van de 183 IBO leerlingen (ITO -t- IHNO + ILO) er 45 zijn met
vijf jaar basisschool en 33 (104 - 71) met BLO-opleiding; immers zonder 6-jarige basisschool
mag men niet naar het LBO en de VBO-leerlingen zijn afkomstig van het BLO.

Ten aanzien van de eerst gestelde vraag omtrent de structuur van de psychologische inhoud
van de diverse tests, kan het verzamelde materiaal een antwoord geven. Hiertoe is de
gemiddelde covariantie matrix tussen de variabelen over schoolgroepen berekend en daarna
getransformeerd tot een korrelatie matrix. De aldus gevormde korrelatie matrix bevat geen
samenhang ten gevolge van de invloed van de gemiddelde verschillen tussen de groepen LTO,
LHNO, ITO, IHNO, ILO en VBO, maar alleen samenhangen op grond van individuele
verschillen tussen individuen binnen de genoemde schoolgroepen. De analyse van de verschil-
len der groepsgemiddelden zal informatie leveren voor de beantwoording van de tweede vraag
omtrent de 'discriminant' validiteit der subtests. Deze korrelatie matrix is onderworpen aan
een zogenaamde 'Smallest Space Analysis'. De 'smallest space' analyse representeert de
korrelatie matrix als afstanden tussen punten in een ruimte van lage dimensionaliteit, waarbij
kleine afstanden corresponderen met hoge korrelaties en grote afstanden met lage korrelaties.
Het resultaat is een niet-metrische analyse van de korrelatie matrix, zodanig dat de rangorde
van afstanden tussen paren van punten in de representatie zo goed mogelijk overeenkomt met
de rangorde van de korrelaties tussen variabelen. Voor meer gedetailleerde informatie wordt
verwezen naar Guttman (1966) en Schlesinger en Guttman (1969).

Deze analyse, waarin de gelijkenissen tussen tests als afstanden worden gerepresenteerd, met
behulp van 'smallest space' analyse¹, leverde een zeer fraaie zogenaamde radexstructuur in
twee dimensies (zie voor een nadere uitleg van de radex Guttman, 1955 en 1966). In figuur 1 is
de oplossing weergegeven; de interpretatie van de ruimte is aangegeven met indelingen in
sektoren en gebieden gevormd door concentrische ellipsen. De verwantschap in psychologi-
sche inhoud is geaccentueerd door de aaneensluiting van sektoren, terwijl met concentrische
ellipsen de complexiteit van de mentale processen is aangeduid. De binnenste ellips bevat alle
tests die een analytisch vermogen veronderstellen ('rule inferring tests'). De onderscheiden
sektoren zijn aangegeveil in drie hoofdgebieden, namelijk: ruimtelijk, verbaal en symbolisch.
De symbolische sektor is opgesplitst in sektoren voor woorden, cijfers en stippen. De ruimte-
lijke sektor is onderverdeeld in lijnen, patronen, ruimtelijke contingentie en ruimtelijk com-
plexe aspecten zoals dimensionaliteh, rotatie en symmetrie.

Naarmate de test verder uit het aangegeven centrum ligt, worden minder abstractie vereisende
processen geïmpliceerd. In de binnenste cirkel liggen alle tests die analytische vermogens
veronderstellen en op de onderscheiden gebieden in de ring aansluitend op de binnenste ellips
liggen alle tests die een vorm van intellectuele vaardigheden veronderstellen. Deze vaardig-
heden zijn inhoud gebonden in de 'achievement' tests (verbaal: zinnentest, leestest, woorden-
lijst; symbolisch: rekentests; picturaal: technische inzicht en ten dele Mac Quarrie 4,5 en 7), en
meer procesmatig in de associatieve leerprocessen gedurende de testafname zelf (woordenpa-
rentest, kodeertest, en ten dele MacQuarrie 4 en 5). De buitenste gebieden bevatten de
snelheidstests en de nauwkeurigheidstests.

Testreeks A vertoont tests over de gehele ruimte; slechts in deelgebieden, te weten: de
ruimtelijke contingentie (Ic), de meer technische ruimtelijke sektoren 2d en 2f en de schoolse
rekentest sektor (2a), komen geen tests uit reeks A voor. Sommige deelgebieden zijn alleen
vertegenwoordigd door de A reeks (2h, 3a, Ib, 2c, 3g en 3d).

'DIM ^

RAVEN \

» . ^

TEKEN \
•LEOK-0 /

Testreeks B heeft alleen representaties in de sektoren voor stippen, lijnen en patronen,
ruimtelijke contingentie en ruimtelijke complexen en geen test in de cijfers, woorden- of
taalsektoren.

Testreeks C representeert meer gebieden dan de B reeks, maar dan vaak slechts door één test
per sektor. Testreeks B wordt het meest gebruikt voor selektie ten behoeve van het ITO en
ILO, terwijl reeks A en C zowel voor ITO en ILO als voor IHNO selektie worden gebruikt.
Overigens staan vaak ook schoolvorderingen-gegevens ter beschikking, die naast deze tests
informatie geven over de sektoren taal, woorden en cijfers.

De hier gepresenteerde resultaten laten zich zeer wel vergelijken met eerder verricht factor-
analytisch onderzoek van de A-reeks (Neuwahl en Koornstra, 1970 en Neuwahl 1980). De
meeste factoren uit dat onderzoek worden door tests gevormd, die in figuur 1 in eikaars
nabijheid liggen. In tegenstelling tot factoranalytisch onderzoek laat figuur 1 echter veel meer
de structurele overeenkomsten en de constructieve aspecten van de subtests zien. Een factor-
analyse op de hier verzamelde gegevens bevestigde de resultaten van de eerder genoemde
studies.

Het onderhavige verzamelde materiaal kan om methodische redenen geen volledig antwoord
geven op de vragen omtrent de 'discruninant' validiteit. Ten aanzien van de kategorieën ITO,
IHNO, en ILO en voor een klein deel ook voor LBO en VBO berust de plaatsing mede op de in
de eerste fase afgenomen testreeks, zodat analyse achteraf ook een beschrijving geeft van de
gehanteerde plaatsingscriteria en geen onafhankelijke informatie over het predictief en onder-
scheidend vermogen verschaft. De VBO en de LBO steekproef bestaat daarentegen uit
leerlingen voor wie geen plaatsingsadvies op grond van de tests is uitgebracht, en ook
IBO-plaatsing geschiedt niet altijd overeenkomstig het advies. Voor het LBO en het VBO
waren voor geen van de leerlingen de gegevens vooraf bekend. De kontaminatie is dus vooral
aanwezig bij de IBO-leerlingen, waarvan voor ca. 95% van de leerlingen de helft van de
gegevens vooraf bekend was.

De analyse van de groepsverschillen van de kategorieën IHNO, ITO, ILO, LNHO, LTO en
VBO op de gezamenlijke tests kan derhalve slechts worden opgevat als indicatief voor de
'concurrent discriminant validity'.

In tabel 3 zijn de gemiddelden van de ruwe scores (behalve voor 27 en 28) van de tests
weergegeven voor elke der 6 schoolgroepen en het totaal gemiddelde.

In tabel 4 zijn de tussengroep varianties en de binnengroep varianties opgenomen en de ratio
van beide als een F-toets-waarde, als ook de ratio van tussengroep variantie en totale variantie,
als een discriminant index per variabele. Tevens zijn de significanties aangegeven van de
LBO-IBO en van de IBO-VBO verschillen.

Zoals valt te zien, geven alle tests significante verschillen tussen de zes groepen te zien.
Meestal, maar niet altijd, is dit verschil overeenkomstig de rangorde LBO-IBO-VBO.

Voor test 4 en 6 (Mac Quarrie 1 en Mac Quarrie 3) liggen VBO-ITO-IHNO-LHNO op één
niveau en toont het LTO een significant lagere score. Tests 16 en 28 (rotatie platte vlak en
nauwkeurigheid doolhof) differentieren ITO en LTO tegenover VBO, IHNO en LHNO. Test
5 en 7 (Mac Quarrie 2 en 4) tonen voor VBO respectievelijk VBO en IBO lagere scores, terwijl
voor test 25 (Technisch Inzicht) alleen de LTO groep een hogere score behaalt. In de analyse
van de groepsverschillen kunnen we echter niet volstaan met de vergelijking van gemiddelden
per variabele, omdat de korrelaties tussen de variabelen dan buiten beschouwing blijven.
Canonische discriminant analyse is een techniek die groepsverschillen beschrijft op onafhan-
kelijke faktoren, waarin overeenkomstige groepsverschillen op onderling korrelerende varia-
belen worden verenigd.

Deze vorm van multivariate variantie analyse (zie voor beschrijving en toepassing van de
techniek Slater (1960) en Porebski (1966) geeft niet alleen significantie toetsen en eventueel
predictie-formules voor groepsclassificatie, maar is vooral een techniek die de konstellatie der
groepsverschillen in termen van inhoudelijk te interpreteren factoren beschrijft. Dit in tegen-
stelling tot de meer klassieke discriminant analyse, waarin slechts multipele regressie functies
worden gevonden, die elk der groepen optimaal onderscheiden van de overige groepen. In dit
verband spreekt Van de Geer (1971) van 'Canonical Discriminant Factor Analysis' in tegen-
stelling tot 'Discriminant (Function) Analysis'.

De canonische discriminant factoranalyse geeft een soort factoranalyse van groepsverschillen,
waarin dat deel van de totale ruimte dat significant bijdraagt tot de groepsverschillen wordt
beschreven met groepsscores, op factoren, die gekenmerkt zijn door ladingen van tests.
Daartoe wordt de ruimte van testscores zodanig getransformeerd dat de spreiding van test-
scores in alle richtingen voor alle afzonderlijke groepen simultaan wordt gestandaardiseerd.
Daardoor, kan evenals bij factoranalyse, een interpretatie van de ruimte der tests door een
rotatie worden vereenvoudigd, waarbij de groepsverschillen invariant zijn. Deze rotatie
geschiedt binnen de significante ruimte van de canonische discriminant analyse; evenals bij
factoranalyse verandert daardoor wel de bijdrage per dimensie, maar de totale bijdrage blijft
ongewijzigd. De rotatie is dan ook slechts een interpretatie hulpmiddel, zonder verlies van
optimaliteitseigenschappen (men vergelijke Hall (1969) en Krus, Reynolds, & Krus (1976)).
De ongeroteerde analyse levert dimensies met maximaal groepsonderscheid voor de eerste
dimensie en vervolgens maximaal groepsonderscheid voor de volgende dimensies onder
voorwaarde dat deze dimensies onafhankelijk zijn (d.w.z. nul korreleren) van de voorgaande
dimensies. De analyse van de 28 tests bij de 6 schoolgroepen levert het maximaal aantal
significante dimensies, dat wil zeggen 5 dimensies voor 6 groepen. De discriminant index
waarden (als ratio van tussen-groep variantie en totaal-variantie per dimensie) voor de 5
dimensies zijn weergegeven in tabel 5.

Het resultaat toont een hoge 'concurrent validity', aangezien 80% van de totale variantie van
individuele verschillen, verklaard kan worden uit schooltype-verschillen voor alle tests teza-
men op 5 dimensies (validiteit = .895). Aangezien de eerste 3 dimensies 89% van de totale
variantie tussen groepen verklaren, gaat slechts weinig informatie over de groepsverschillen
verloren door de presentatie te beperken tot een geometrische beschrijving van de ruimte van
de eerste 3 dimensies.

De interpretatie van de ongeroteerde dimensies levert bovendien aanzienlijke moeilijkheden
op. Voor de eerste dimensie zou de interpretatie van algemene intelligentie en voor de tweede
dimensie van verbaal tegenover ruimtelijk met het respectievelijke groepsonderscheid van
LBO - IBO - VBO en meisjes-jongens onderwijs nog zinvol zijn, maar de derde dimensie met
LHNO en LTO tezamen met VBO tegenover het IBO maken een zinvolle interpretatie zonder
rotatie onmogelijk. De standaard rotatie procedures voor faktor analytische resultaten zijn
hier echter niet zonder meer bruikbaar, omdat naast de configuratie der variabelen vooral de
groepsstructuur van belang is voor de interpretatie.

In de figuren 2 en 3 zijn de resultaten van de canonische discriminant analyse voor de eerste 3
dimensies weergegeven.

In één figuur zijn enerzijds de gemiddelden van de groepen aangegeven als middelpunt van
cirkels waarvan de diameter zo gekozen is dat de statistische verwachting is dat 75% van de
individuen van een groep zich daarbinnen bevinden en anderzijds zijn de tests in hetzelfde
assenstelsel weergegeven als eindpunten van vectoren voorzien van de gebezigde afkortingen.
In een dergelijke representatie hebben de groepsgemiddelden een andere maateenheid dan de
korrelaties van de tests met de discriminant assen, maar overeenkomst van richting vanuit het
nulpunt voor variabelen en groepen geeft aan welke tests het meest bijdragen aan het verschil
tussen gegeven groepen.

De afstanden tussen de groepspunten en de testpunten zijn arbitrair (dat is uiteraard niet het
geval tussen de groepspunten onderling en evenmin tussen de testpunten onderling) alleen de
richtingsovereenkomst geeft informatie voor de interpretatie van groepen in relatie tot tests.
Naarmate de bollen voor de groepen elkaar meer overlappen zijn de groepen minder goed
discrimineerbaar. De eindpunten der testvektoren worden bepaald door de ladingen (korrela-
ties) op de discriminant assen.

In figuur 2 zijn dimensies I en II respectievelijk als vertikale en horizontale as getekend. De
eerste dimensie (vertikaal) beschrijft de groepsvolgorde LTO - LHNO - (ITO - IHNO - ILO)
- VBO, terwijl de hoge testladingen op deze dimensie de interpretatie van algemene intelligen-
tie aangeeft. De tweede dimensie (horizontaal) geeft de groepsvolgorde (LTO - ILO - VBO-
ITO) - (IHNO - LHNO), terwijl ruimtelijke subtests ladingen laten zien die tegengesteld zijn
aan ladingen voor verbale subtests en schoolvorderingen toetsen. Bij principale componenten
analyse van intelligentie tests vindt men veelal een overeenkomstig beeld, nl. de eerste
dimensie voor algemene intelligentie en de tweede dimensie voor de tegenstelling verbaal-
ruimtelijk. Over het algemeen hanteert men echter een geroteerde interpretatie door de
dimensies ongeveer 45° te roteren, zodat de factoren 'verbaal IQ' en 'performance IQ'
ontstaan, waarvan de som de algemene intelligentie vormt. In figuur 2 is een dergelijke rotatie
verricht voor de assen 1' en 11". Dimensie 11' loopt meer parallel aan het onderscheid LTO-
LHNO en het onderscheid ITO - IHNO dan in ongeroteerde positie en geeft derhalve beter
het onderscheid tussen technisch en huishoud/nijverheid onderwijs aan. Deze parallelliteit is
niet geheel geoptimaliseerd, omdat anders de geroteerde dimensie 11' nog te veel hoge

-1.6 -1.4 .1.2 .,.0 ..8

RAAM 2.,co.. .ch..l ,„o, „o.p„.midd.ld.„

»55EN ^ .ch.,1 ,oo, l.dm,.„ ,.„ ,.,l,b.l.„ op ..„„

negatieve ladingen van tests zou verkrijgen, waardoor een bipolaire tegenstelling in de inter-
pretatie zou blijven bestaan, hetgeen voor intelligentietests een ongebruikelijk referentie-
kader zou betekenen. De interpretatie van dimensie 11' is nu duidelijk het praktisch ruimtelijk
inzicht (Teken en MQ 1-fout vragen om geometrische en nauwkeurige tekenvaardigheid),
terwijl dimensie 1' nu het verbale vermogen, de schoolse vorderingen en associatieve leerver-
mogens bevat. Deze handrotatie waardoor nagenoeg alle tests in het positieve kwadrant
worden geplaatst (vergelijk de Zimmermanmethoden in Harman (1960) hoofdstuk 12), maakt
het mogelijk om via rotatie in het vlak van geroteerde dimensie 1' en ongeroteerde dimensie III
tot een interpreteerbare derde dimensie te komen en een sterke vereenvoudiging van de
weergave van de groepsstructuur te geven. Dit is weergegeven in figuur3.

De geroteerde dimensie 1' uit figuur 2 is als vertikale as getekend en de derde ongeroteerde
dimensie als horizontale as. Ongeroteerd zou deze derde dimensie naast het bipolaire karakter
met betrekking tot de testladingen een merkwaardige tegenstelling tussen het IBO enerzijds en
het LBO tezamen met het VBO anderzijds impliceren. Zoals de figuur laat zien is echter een
rotatie mogelijk waardoor de tests nagenoeg alle in het positieve kwadrant komen terwijl op de
geroteerde derde dimensie III' het LHNO, LTO, IHNO en ITO en op de wederom geroteerde
eerste dimensie I"het ITO, ILO en VBO zich nauwelijks onderscheiden. Deze wederom
geroteerde dimensie I" vertoont nog duidelijker de verbale intelligentie en de associatieve
leervermogens en de schoolvorderingen.

De interpretatie van de geroteerde dimensie III' is op het eerste gezicht niet eenvoudig. Beziet
men echter welke tests hoog laden op deze dimensie in combinatie met tabel 3, dan blijken dit
tests te zijn waarop de VBO-groep en enigszins de ILO-groep tot bijzonder minimale scores
komen. In veel gevallen wordt zelfs geen enkel item goed gescoord, waardoor het gemiddelde
per subtest niet meer dan 2 tot 4 wordt voor de VBO-groep. Dit gebrek aan productiviteit voor
de VBO-groep kan uit drie faktoren worden verklaard, nl.: te hoge moeilijkheidsgraad van
instructie en items, gebrek aan noodzakelijke schoolvorderingen en gebrek aan werktempo.
Dit gebrek aan productiviteh is kennelijk meer dan een gradueel verschil in het verlengde van
het LBO-IBO onderscheid, gezien de onafhankelijkheid van dimensie I". Deze discondnui-
teit kan alleen begrepen worden, als de afwezigheid van het minimale niveau om op een deel
van deze klassikaal afgenomen tests tot enige prestatie te komen.

In de gezamenlijke ruimte van deze drie canonische discriminant factoren, zijn de afstanden
tussen de groepen door de rotatie niet gewijzigd en wordt derhalve nog steeds 71% (89% van
80%, zie tabel 5) van de totale variantie van individuele verschillen verklaard door de
groepsverschillen.

Blijkens figuur 3 is het verschil op dimensie I" tussen LHNO-IHNO evenals LTO-ITO bijna
2-standaard deviaties, terwijl het paar LHNO-IHNO ongeveer 1 standaard deviatie hoger
scoort op deze dimensie dan het paar LTO-ITO. De verbale intelligentie met inbegrip van
associatief leervermogen en schoolse vorderingen onderscheiden derhalve in hoge mate het
LBO en IBO en daarnaast het huishoud- en nijverheidsonderwijs van het technisch onderwijs.
Op de derde dimensie III' ondserscheiden zich het VBO en ILO respectievelijk IVi en IV4
standaarddeviaties van het IBO en LBO door gebrek aan productiviteit op diverse subtests.
Dimensie 11' is niet door de rotatie in figuur 3 gewijzigd, en zoals uit figuur 2 blijkt, onder-
scheidt deze faktor het LTO met ruim 2 standaarddeviaties van ITO en ILO, als ook van het
LHNO op basis van praktisch ruimtelijk inzicht, terwijl het VBO en IHNO op deze dimensie
beide bijna 1 standaarddeviatie lager scoren dan het LHNO, ITO, en ILO. Op deze dimensie

---7

so /

I' /

Rt«m ^ Z.tcore »chatl veer groep*g»rT>>ddildtn
Attcn ^ tch*«! voor ladingen van variabelen

ir vertoont het IHNO geen onderscheid met het VBO, zoals op dimensie I" het ITO niet
verschilt van het VBO.

In de gezamenlijke ruimte van deze drie dimensies vertonen de IBO groepen te weten IHNO,
ITO en ILO een ruime overlap, terwijl het ILO eveneens ruime overlap vertoont met het
VBO.

Het ITO is nagenoeg perfect onderscheidbaar van het LTO, terwijl het IHNO slechts geringe
overlap met het LHNO vertoont. Deze laatste paren van onderscheid zijn met het nagenoeg
perfecte onderscheid tussen het IHNO en ITO enerzijds en het VBO anderzijds, voor de
advisering belangrijker dan de eveneens grote verschillen tussen het LTO en LHNO, het ITO
en het LHNO als wel het IHNO en het LTO.

In figuur 4 is er een perspektivisch totaalbeeld van deze drie geroteerde dimensies voor de
groepen gegeven. Dit beeld is enigszins geschematiseerd en tevens is het nulpunt verplaatst,
zodat het LHNO, LTO, IHNO en ITO in het getranslateerde vlak 11' en I" liggen en het ITO,
ILO en VBO in het getranslateerde vlak 11' en III' (vergelijk de haakse hoek voor de
groepspunten in figuurS). Vergeleken met de ongeroteerde weergave heeft de handrotatie een
simpele structuur aangebracht met duidelijk interpreteerbaarheid van uni-polaire faktoren
voor de testconfiguratie en van de vlakken presentatie voor de groepen-configuratie.

Als een samenvattend overzicht zijn de drie geroteerde dimensies getabelleerd in tabel 6a en
6b. In 6a zijn de groepsgemiddelden op de drie geroteerde dimensies jegeven en in tabel 6b
zijn de hoogst korrelerende variabelen (> .30) en in volgorde van korrelaties) met de geroteer-
de dimensies weergegeven.

Aan de ladingen van tabel 6b kunnen we de interpretatie van de dimensies duidelijk onder-
kennen, terwijl 6a de differentiatie in termen van de groepen weergeeft.

Zoals eerder gesteld is het onderzoeken van de validiteit in predictieve zin, door het gedeelte-
lijk 'post hoe' karakter van de gegevens niet zonder meer mogelijk. Toch is het totaal resultaat
belangrijk, omdat blijkt dat het onderscheid in schooltypen op grond van een meer-factorieel

begaafdheidsprofiel nagenoeg perfect kan worden aangegeven. Dit resultaat weerlegt de
eerdere conclusie dat onderscheid LBO-IBO niet voldoende op grond van intelligentie tests
kan worden gebaseerd, omdat de verdelingen der begaafdheden elkaar te veel zouden overlap-
pen (Defares, Kema en v.d. Werff, 1966). Door een gedifferentieerde profielbeschrijving van
de leerlingen, in plaats van het IQ alleen, kan echter kennelijk een valide plaatsingsadvies
worden verstrekt. Deze validiteit is dan bepaald door de overeenkomst van het profiel van de
leerling met de verschillende profielen van de gemiddelde leerling op die schooltypen.
In hoeverre hier sprake is van een predictie onafhankelijk van het plaatsingsbeleid is moeilijk
te zeggen. Eerdere onderzoeken omtrent de resultaten van het onderwijs bij IBO-leerlingen
(v.d. Broek, 1968, 1969; Neuwahl en Koornstra, 1970; Neuwahl 1980) tonen echter dat ook
differentiatie binnen het IBO naar latere resultaten voorspelbaar is op grond van de test
informatie bij de aanvang en wel op basis van de A-reeks voor differentiatie binnen het IHNO
en op basis van de B-reeks voor differentiatie binnen het ITO. Het resultaat van de hier
gepresenteerde analyse komt hiermee overeen, aangezien de A-reeks ook goed vertegenwoor-
digd is door tests op dimensie I" (vergelijk het onderscheid LHNO-IHNO-VBO) en de
B-reeks nog het meest gepresenteerd wordt door dimensie 11' (vergelijk het onderscheid
LTO-ITO-VBO).

Ook het genoemde Groningse onderzoek (Defares, Kema, v.d. Werff, 1966) is niet geheel
strijdig met de gevonden resultaten uit de canonische discriminant analyse, omdat juist de
onderdelen uit de C-reeks overeenkomen met de test die gebruikt is in het Groningse
onderzoek. Aangezien deze voornamelijk ladingen op dimensie III' vertonen, kan inderdaad
daarmee geen voldoende onderscheid tussen LBO en IBO worden gevonden.
Uit de overeenkomst van de hier gegeven analyse met deze eerdere onderzoeken en uit het feit
dat de VBO en LBO leerlingen niet geplaatst zijn op grond van de testgegevens, mag
geconcludeerd worden dat de analyse eveneens wijst op een hoge predictieve validiteit van de
gezamenlijke testreeksen. Het feit echter dat de A-, B- en C-reeks nogal verschillend vertegen-
woordigd zijn op de drie discriminant factoren, maakt echter duidelijk dat adviezen op grond
van de A- of B- of C-reeks verschillend kunnen uitvallen en dat van normvergelijking
nauwelijks sprake kan zijn. In tabel 7 is aangegeven hoeveel subtests uit de A-, B- of C-reeks
met hoge ladingen op elk der factoren zijn vertegenwoordigd. Omdat de Mac-Quarrie gedeel-
telijk in elk der reeksen is opgenomen is in tabel 7 de Mac-Quarrie apart genoteerd, evenals de
twee toegevoegde schoolvorderingen tests (nr. 1 en nr. 2 uit tabel 1).

Opvallend is de afwezigheid van subtests van de Mac Quarrie, terwijl deze juist deel uitmaken
van alle drie de reeksen. Naast de subtest MQ 1-fout die alleen in A-reeks wordt gescoord
komen alleen MQ3 en MQ5 boven de .20 (zie figuren 2 en 3), waarbij MQ3 (motorisch-
perceptuele snelheid) negatief op dimensie TI' en positief op dimensie III'. Kennelijk werkt
werktempo enerzijds productiviteit verhogend maar anderzijds kwaliteit (onnauwkeurigheid)
verlagend met betrekking tot de praktisch-ruimtelijke taken. In de A-reeks worden daarom
nauwkeurigheid en werktempo apart gescoord met behulp van MQl, MQ2, MQ3 en de
Bourdon stippeltjes test (vergelijk Neuwahl en Koornstra, 1970). Uit het feit dat schoolvorde-
ringen hoge ladingen vertonen op dimensie I" en III', blijkt duidelijk dat bij de plaatsing voor
de niveaus LBO-IBO-VBO de aanmeldingscriteria doorklinken. Voor het LBO is immers het
getuigschrift 6-jaar basisonderwijs vereist en voor het IBO wordt minimaal 4de klas niveau
voorgeschreven, terwijl voor het VBO ook deze eis niet geldt. De samenhang met schoolvor-
deringen is wellicht meer te zien als een post-hoc effect en minder als een predictief gegeven.
De C-reeks vertoont voornamelijk ladingen op dimensie III' voor de vier uit de G.I.T.
afkomstige subtests. Door de te hoge moeilijkheidsgraad en de te sterk opklimmende moeilijk-
heidsgraad komen VBO-leerlingen tot geen noemenswaardige score, terwijl het LBO zich ook
onvoldoende kan differentieren van het IBO. De validiteit van het advies LBO of IBO op
grond van de C-reeks is daardoor onvoldoende. Gezien de verwantschap tussen de C-reeks en
de recentelijk door De Groot ontwikkelde testreeks (de Groot, 1980) en gezien het ontbreken
van validiteitsgegevens voor deze testreeks, moet gevreesd worden dat wat voor de C-reeks
blijkt ook grotendeels voor toepassing is op deze test. Door de overeenkomst met de B-reeks
voor de Mac Quarrie en Technisch Inzicht onderdelen kan het LTO-ITO advies op grond van
de C-reeks overeenkomen met het advies op basis van de B-reeks, maar het LHNO-IHNO
advies op basis van de B-reeks zal drastisch kunnen afwijken van het advies op basis van de
A-reeks.Pe B-reeks geeft met uitzondering van de hoge lading voor Technisch Inzicht op
dimensie 11' slechts lage ladingen te zien. Aldus draagt de B-reeks bij tot het relatief valide
LTO-ITO advies, maar gezien de geringe bijdage tot dimensie I" en III' is de validiteit voor
een LHNO of IHNO- en een IBO of VBO advies te gering. De adviezen kunnen derhalve
nogal sterk afwijken van een advies op grond van de C- of A-reeks.

De A-reeks bevat de meeste subtests, waarvan er op elke dimensie voldoende vertegenwoor-
digd zijn om zonder veel verlies aan validiteit dezelfde differentiaties aan te brengen als de
gezamenlijke reeksen. Met name dimensie I" vertoont hoge ladingen voor onderdelen uit de
A-reeks. De subtests uit de A-reeks op deze dimensie vallen blijkens herhaald onderzoek
uiteen in twee factoren nl. verbale vermogens en associatief leervermogen; vooral het associa-
tief leervermogen bleek hoge predictiviteit te hebben met betrekking tot differentiatie in de
follow-up resultaten binnen het IHNO (Neuwahl en Koonstra, 1970). Het is duidelijk dat de
A-reeks redelijk valide adviezen toelaat voor IBO-VBO differentiatie en voor LBO-IBO
differentiatie, dit laatste zowel voor LHNO-IHNO als voor LTO-ITO omdat ook voldoende
tests uit de A-reeks op dimensie 11' aanwezig zijn, hoewel toevoeging van het onderdeel
Technisch Inzicht de validiteit voor LTO-ITO zal verhogen.

Aangezien schoolvorderingen op dimensie I" hoge ladingen vertonen, zou men door toepas-
sing van deze onderdelen in de B- en C-reeks meer met de A-reeks overeenstemmende
adviezen kunnen verwachten. Door de aanmeldingseffecten waarin de schoolvorderingen
grotendeels zijn verdisconteerd zal deze overeenstemming echter grotendeels al zijn aangege-
ven, zodat de voorheen geschetste mogelijke afwijkingen in de praktijk van de advisering
minder zullen voorkomen. Indien echter het niveau van de verbale vermogens en het associa-

tief leervermogen relatief hoger uitvak dan het schoolvorderingenniveau, zullen deze eerst
genoemde facetten van meer gewicht moeten worden geacht bij een plaatsingsadvies. Door het
ontbreken van deze eventuele contra-informatie in de B- en C-reeks, zullen de schoolvorderin-
gen met betrekking tot een plaatsingsadvies te zeer een beklijvend effect hebben. Aldus bezien
zouden schoolvorderingen vooral een rol dienen te spelen in het onderwijs en de begeleiding
van de leerling en niet zozeer bij de plaatsingsadviezen. Het effect van de aanmelding dreigt
door gebrek aan contra informatie bij de B- en C-reeks impliciet een te groot gewicht te geven
aan de stand van de schoolvorderingen.

Samenvattend kan gesteld worden dat de drie test-reeksen te zeer verschillende aspecten met
betrekking tot de differentiatie LBO-IBO-VBO meten om van overeenkomstige normen te
kunnen spreken. In de B- en C-reeks ontbreken met name tests die het associatief leerver-
mogen meten en voor de B-reeks ontbreekt informatie over de verbale vermogens, terwijl de
C-reeks dit aspect en andere aspecten onvoldoende valide meet ten gevolge van een te hoge en
te sterk opklimmende moeilijkheidsgraad voor de voor het IBO aangemelde leerlingen.
Gezien de structuuranalyse en de canonische discriminant analyse dienen vooral concreet-
praktische subtests van lage moeilijkheidsgraad van zowel verbale, als geometrische als
symbolische aard in een valide testreeks voor LBO-IBO-VBO differentiatie te worden opge-
nomen.

Broek, P. van de. Studieresultaten van ITO-leerlingen I. Nederlands Tijdschrift voor de Psyctiologie,
1968,2i, 632-642.

Broek, P. van de. Studieresultaten voor ITO-leerlingen II. Nederlands Tijdschrift voorde Psychologie,
1969,24, 103-116.

Broek, P. van de. Hulsman, W.L.L., & Streep, L. L.l.T. Leidse ITO Test. Handleiding. Amsterdam

Swets en Zeitlinger, 1971.
Defares, P.B., Kema, G.N. & Werff, J.J. van de. Vergelijkend onderzoek naar de psychologische

kwaliteiten van INOM-leerlingen, mede met het oog op de selektie. Groningen, 1966.
Geer, J.P. van At.Introduction to muhivariate analysis for the social sciences. San Francisco: W.H.

Freeman and Company, 1971.
Groot, R. de, Kooy, R. van de. Differentiatietest voor het Individueel Beroepsonderwijs (DIBO,

verantwoordingen handleiding), Groningen, 1980.
Guttman, L. A new approach to factor analysis. The Radex. In F.F. Lazarsfeld (Ed.) Mathematical

Thinking in the Social Sciences. Glencoe Free Press, 1955, p. 258-348.
Guttman, L. Order analysis of correlation matrices. In R.B. Cattell (Ed.) Handbook of Multivariate

Experimental Psychology. Chicago: Rand McNally, 1966, p. 444-457.
Hall, C.E. Rotation ofCanonicalVariates on Multivariate Analysis of Variance. yoz/rna/o/Erpmrne/i/a/

Education. 1969, JO, 31-58.
Harman, H.H. Modern Factor Analysis. Chicago: University of Chicago Press, 1960.
Krus, D.J., Reynolds, Th.J. & Krus, P.H. Rotation in canonical variate analysis. Educational and

Psychological Measurement, 1976,36,725-730.
Koornstra, M.J., & Hoorn, W. van. Experimentele Testreeks voor selektie van leerlingen voor Indivi-
dueel Nijverheids Onderwijs en Voortgezet Buitengewoon Onderwijs. Leiden, 1967.
Koornstra, M.J., Neuwahl, N.M.E. & Hoorn, W. van. IBO-Differentiatietest. Lisse: Swets en Zeitlinger,
1979.

Neuwahl, N.M.E. & Koornstra, M.J. Validatie onderzoek van de testreeks voor selektie van leerlingen
voor Individueel Nijverheids Onderwijs en Voortgezet Buitengewoon Onderwijs. Rapport 0-002-07,
Psychologisch Instituut - Rijksuniversiteit Leiden, 1970.
Neuwahl, N.M.E. Het IBO gevolgd. (Ac. Proefschrift). Lisse: Swets en Zeitlinger, 1980.
Porebski, O.R. Discriminatory and canonical analysis of technical college data. British Journal of
Mathematical and Statistical Psychology, 19,1966, 215-236.

Schlesinger, I.M. & Guttman, L. Smallest Space Analysis of Intelligence and Achievement Tests.

Psychological Bulletin, 1969, 71,95-100.
Slater, P. Canonical Analysis of Discriminance. In: H.J. Eysenck (Ed.), Experiments in Personality. VIL
London, 1960, p. 256-270.

11, 13, 15 Broek v.d. P. et.al: Algemene Begaafdheidstest (niet meer verkrijgbaar; ontwikkeld rond
1960 Schoolpsychologisch Instituut van de RUL)
1 Brus B.Th. en M.J.M. Voeten: Een minuut test

24 Kersten W.: Haarlemse Rekentest (niet in de handel verkrijgbaar; ontwikkeld door de

voormalige S.A.D. Haarlem)
12 Luning Prak J.: Pintner Durost Lagere Schooltest (niet meer verkrijgbaar)

19 Luning Prak J en J.L.F.H. Meertens: Test voor verstandelijke Ontwikkeling (Vlot)

14 Snijders J.Th. en N. Snijders-Oomen: Snijders Oomen Niet-Verbale Intelligentieschaal

'VISIES OP ONDERZOEK IN ENKELE SOCIALE WETENSCHAPPEN':
KANTTEKENINGEN BIJ EEN RAPPORT

In 1978 publiceerde de Minister voor Wetenschapsbeleid de Nota Meerjarenplan Sociaal
Onderzoek en Beleid. Hierin werd getracht aan te geven hoe de overheid zou kunnen en
moeten handelen als gebruiker van resultaten en opdrachtgever tot sociaal-wetenschappelijk
onderzoek. De vaste commissie voor het Wetenschapsbeleid van de Tweede Kamer oordeelde
tijdens haar bespreking van deze nota in 1979, dat de overheid niet alleen belanghebbende
t.a.v. het sociaal-wetenschappelijk onderzoek is, maar dat zij ook tot taak heeft dit onderzoek
te stimuleren en waar nodig in banen te leiden. Er bleek derhalve behoefte te bestaan aan een
vervolgnota waarin een bredere beleidsvisie zou worden gegeven op de ontwikkeling van het
sociaalwetenschappelijk onderzoek in Nederland.

Als achtergronddocument bij de te verschijnen vervolgnota is een aantal pre-adviezen gebun-
deld onder de titel 'Visies op onderzoek in enkele sociale wetenschappen'. De pre-adviseurs
zijn uitgenodigd op persoonlijke titel. De volgende vragen zijn hun ter beantwoording voorge-
legd:

1. Wat zijn voor de komende 5 tot 10 jaren naar uw oordeel veelbelovende onderwerpen of
benaderingen in uw gebied van expertise?

2. Wat is naar uw oordeel de stand van zaken in Nederland m.b.t. de onder 1 genoemde
onderwerpen en benaderingen?

De pre-adviseurs geven hun visie op de stand van zaken in hun tak van wetenschap, t.w.
economie, psychologie, politicologie, taalwetenschap, rechtssociologie, pedagogiek, culturele
antropologie en sociologie.

De bundel is uitgebracht onder redactie van dr. A.D. Wolff-Albers, plaatsvervangend direc-
teur-generaal voor het wetenschapsbeleid, en prof.dr. H.F.M. Crombag, hoofd van het
Bureau Onderzoek van Onderwijs der R.U. Leiden en bijzonder hoogleraar Rechtspsycho-
logie. Beide redacteuren zijn - een niet onbelangrijk detail - psycholoog.

De in de bundel gepresenteerde pre-adviezen zijn niet representatief voor alle benaderingen
en ontwikkelingen in de maatschappij- en gedragswetenschappen. De redacteuren hebben
gezocht naar die vakken die bekend zijn, omdat ze tot de verbeelding spreken. Voorts
meenden de redacteuren dat ook zonder een aantal perifere wetenschapsgebieden te benade-
ren een goed beeld van de sociale wetenschappen in Nederland gegeven kon worden.
Dat dgl. opvattingen kunnen leiden tot nogal arbitraire keuzes is voor de hand liggend.
Opvallend is in dit verband dat oorspronkelijk geen pre-adviseurs benaderd zijn voor de
disciplines pedagogiek en andragogiek. Gezien de nogal uitgesproken mening van tenminste

een der redacteuren aangaande de bestaansreden van deze disciplines (zie bv. Folia van 16
oktober 1982: p. 11-12) is dit op zijn minst opvallend te noemen. Uiteindelijk zijn, na enige
druk op de redactie, toch pre-adviezen opgesteld voor de pedagogiek en de andragogiek.
In de definitieve bundel is de bijdrage van prof.dr. G. de Zeeuw, Weten en doen in de
androgologie, uiteindelijk niet opgenomen. Volgens Crombag (zie het Folia-interview) is deze
bijdrage niet opgenomen, omdat niet beschreven werd wat er in het vakgebied gaande was.
Bovendien ging De Zeeuw uit van een wetenschapstheorie waarvan de redacteuren vonden dat
die, gelet op de huidige kijk op wat wetenschappelijke spelregels en methoden zijn, onhoud-
baar was.

M.i. hebben de redacteuren de bijdrage ten onrechte geweigerd. In een concept-versie van
'Weten en doen in de andragologie' heb ik kunnen constateren dat wel degelijk beschreven
wordt wat er in het vakgebied andragologie gaande is. Bovendien wordt in het concept-pre-
advies expliciet gewezen op een betrekkelijk recent overzicht van universitaire research
opgesteld door prof.dr. C. Doerbecker en dr. R. de Hoog t.b.v. de commissie Wetenschaps-
beoefening van de Sectie PAW van de Academische Raad. Wat betreft de wetenschapstheore-
tische opvatting die in de conceptbijdrage uiteengezet wordt, kan men zich afvragen of een
redacteur van een dgl. bundel het recht heeft o.g.v. een afwijkende mening zo'n bijdrage te
weigeren. Ik vind van niet. Bovendien is het beslist niet zo dat binnen de sociale wetenschap-
pen sprake is van slechts één algemeen geaccepteerde en geldige wetenschapstheorie en
daarop gebaseerde methodologie. Diverse onderzoeksbenaderingen vanuit bv. de fenomeno-
logie, het symbolisch-interactionisme, het naturalisme en de ethomethodologie eisen ook een
plaats op naast (soms in plaats van) de empirisch-analytische aanpak binnen het sociaal-
wetenschappelijk onderzoeksdomein. Het verdient m.i. meer de voorkeur de discussie aan te
gaan door de bijdrage in de bundel op te nemen dan door deze te weigeren.
In de bundel wordt door prof.dr. P.A. Vroon in zijn bijdrage. Psychologie in Nederland, ook
nog enige aandacht aan de andragogiek (en de pedagogiek) besteed. Aan het slot van zijn
bijdrage (p. 62) merkt Vroon in de aanbevelingen op dat '.. .in verband met de maximale
omvang niet (kon) worden ingegaan op de verhouding tussen de psychologie, de pedagogiek
en de andragogiek'. Dat is dan jammer, zou je denken. Toch weerhoudt dit feit Vroon niet
ervan om vervolgens de vraag op te werpen of de andragogiek wel een wetenschappelijke
discipline is. Hij voegt daaraan toe: Dit is bij mijn weten nergens ter y/ereld het geval'.
Op geen enkele wijze wordt in zijn bijdrage deze stelling door argumenten onderbouwd.
Bovendien heeft e.e.a. niets uitstaande met de psychologie in Nederland: het onderwerp van
het betreffende hoofdstuk. In de geweigerde concept-bijdrage van De Zeeuw wordt overigens
juist in positieve zin gewezen op de in internationaal opzicht unieke universitaire status van de
andragologie in Nederland. De redacteuren oordeelden echter dat het ene standpunt wel en
het andere standpunt niet via deze bundel onder de aandacht van de minister gebracht mocht
worden.

Het zal een ieder duidelijk zijn dat gezien de huidige economische situatie ook het sociaal-
wetenschappelijk onderzoek (en het daarmee samenhangend onderwijs) niet aan financiële
bezuinigingen kan ontkomen. Bij het doorvoeren van bezuinigingen is het vanzelfsprekend
zaak dat niet (potentieel) sterke of veelbelovende onderzoeksgebieden onevenredig zwaar
getroffen worden. Volgens beide redacteuren bieden de pre-adviezen onvoldoende aankno-
pingspunten om aandacht en middelen te concentreren op een beperkt aantal veelbelovende

gebieden. Zij concluderen (p. 15) dat vooraanstaande beoefenaren van de sociale wetenschap-
pen niet of nauwelijks willen of kunnen kiezen uit hetgeen op hun terrein van studie gaande is.
Men kan zich afvragen of de methode van pre-adviezen op persoonlijke titel wel de juiste weg
is om dit doel te bereiken. De voor de adviseurs beschikbare tijd was bovendien bijzonder
gering: slechts enkele maanden (in een enkel geval slechts 1 maand!).

Misschien zou men vanuit het Ministerie van onderwijs en wetenschappen ook een wat meer
inhoudelijke bijdrage aan de discussie mogen verwachten. Immers gedurende het laatste
decennium is binnen het Ministerie van O & W als het ware een schaduwstructuur ontstaan van
de Nederlandse onderwijs- en onderzoeksorganisatie. Een stroomlijning en beperking van die
structuur zou wellicht een belangrijke bijdrage kunnen leveren aan de noodzakelijk geachte
bezuinigingen. Pre-adviseurs behoeven dan niet bijna doorgehakte knopen aan te dragen die
de minister (en zijn ambtenaren) vervolgens helemaal kunnen klieven. Voorts is het ook erg
verleidelijk om als pre-adviseur, als het om bezuinigingen gaat, naar andere disciplines te
wijzen waar wel wat te halen is.

In dit verband heeft ook een der redacteuren van de bundel, Crombag, zich niet onbetuigd
getalen. Zijn uitspraken staan niet in de bundel, maar wel in diverse krante- en tijdschrift-
interviews, waarin hij als redacteur van de bundel ten tonele wordt gevoerd. Pedagogiek,
andragogiek en onderwijskunde kunnen best opgeheven worden, is dan zijn stelling. Waarom
dit niet beargumenteren in de bundel? In de bijdrage van prof.dr. B.P.M. Creemers, Pedago-
giek in de jaren tachtig in Nederiand, lees ik daar niets over. Of denkt Crombag dat de
knipseldienst van onze minister de boodschap zo ook wel doorgeeft? Als redacteur had
Crombag zich naar mijn mening van dgl. uitspraken moeten onthouden.

Door bijna alle pre-adviseurs (niet door Daudt: politicologie) wordt gewezen op de toene-
mende proliferatie in specialismen en subspecialismen binnen de sociale wetenschappen. Dit
internationaal optredende verschijnsel heeft voor een relatief klein land tot gevolg dat de
krachten spoedig al te zeer versnipperd worden. Het stellen van prioriteiten kan de versnip-
pering tegengaan. Het aantal aanbevolen specialismen is echter zodanig groot, dat een beleid
van kwaliteitsverhoging door het stellen van prioriteiten er niet op kan worden gebaseerd.
Wat betreft de kwaliteit van het onderzoek blijken de pre-adviseurs over het algemeen niet
ontevreden te zijn. Buitenstaanders, maar ook de landelijke overheid, zijn soms een andere
mening toegedaan. Wellicht kan betere meer gerichte vooriichting aangaande de resultaten
van sociaal-wetenschappelijk onderzoek dit verchil in perceptie en waardering verminderen.
T.a.v. de financiering van het wetenschappelijk onderzoek wijzen diverse pre-adviseurs op de
nogal ondoorzichtige structuren in dit verband. Er is sprake van verschillende financierings-
vormen van onderzoek:

- het eerste-geldstroom-onderzoek: de bekostiging geschiedt door de instellingen van weten-
schappelijk onderwijs, die ook de inhoudelijke verantwoordelijkheid dragen;

- het tweede-geldstroom-onderzoek: de financiering verioopt via ZWO/SVO; inhoudelijke
beoordeling gedelegeerd aan deskundigen;

- het derde-geldstroom-onderzoek: de overheid financiert het onderzoek en bepaalt als
opdrachtgever de inhoud.

Het bestaan van verschillende financieringsbronnen brengt diverse organisatorische proble-
men met zich mee. Vooral aan de afstemming tussen de eerste- en de tweede-geldstroom. Elk
der geldstromen kent zijn eigen organisatie en kanalen waarlangs deze benaderd moet worden.

Onderzoekers moeten relatief veel tijd besteden aan het verwerven van fondsen. Soms put
men hiervoor uh verschillende geldbronnen, en krijgt dus te maken met verschillende beleids-
uitgangspunten, zwaartepunten, beoordelingen, e.d. De redacteuren van de bundel trekken
o.g.v. de pre-adviezen de conclusie dat de momenteel aan de gang zijnde reorganisatie van de
onderzoeksfinanciering nog niet onmiddellijk leidt tot de nodige eenheid van beleid.
Voor wat betreft het onderzoekmanagement wordt door de diverse pre-adviseurs een pleidooi
gehouden voor de zgn. onderzoekmanager. Deze zou niet alleen de zorg moeten krijgen voor
allerlei administratieve en bestuurlijke besognes, maar ook voor het uitzetten van de grote
lijnen (inhoudelijk) en de voortgang moeten bewaken.

De verspreiding van onderzoeksresultaten is een onderwerp dat door verschillende pre-
adviseurs wordt besproken. De redacteuren merken op dat het uitgeven van wetenschappe-
lijke tijdschriften en monografieën niet iets is waar uitgevers rijk van worden. Dit markttech-
nische probleem is bij publikaties in het Nederlands nog veel groter. Subsidiërende instellingen
als ZWO en SVO hebben een bescheiden hoeveelheid geld beschikbaar om wetenschappelijke
publikaties met een te groot risico voor de uitgever te subsidiëren. Promovendi, die
meestal de publikatie van hun eigen dissertatie betalen, leveren echter de belangrijkste
bijdrage aan de oplossing van dit probleem!

Subsidie aan wetenschappelijke tijdschriften, die ook (of uitsluitend) in het Engels gestelde
artikelen van Nederlandse auteurs publiceren, wordt door sommige pre-adviseurs en de
redacteuren toegejuicht.

Ook wordt een pleidooi gehouden voor het instellen van een zgn. 'reward systeem': een
infrastructuur voor het toekennen van eerbewijzen aan verdienstelijke onderzoekers. De
Vereniging voor Onderwijsresearch heeft zich in het verleden eens beziggehouden met deze
materie. Misschien een idee om het weer eens op te pakken?

In navolgende paragrafen ga ik kort in op de pre-adviezen betreffende de disciplines psycholo-
gie, pedagogiek/onderwijskunde en sociologie.

In zijn bijdrage aan de bundel fulmineert prof.dr. P.A. Vroon tegen de steeds verder gaande
bureaucratisering waaronder het onderzoek heeft te leiden. Hij pleit voor de oprichting van
onderzoekscentra zoals bv. het Max-Planck-Instituut in Nijmegen.

Vroon schetst de stand van zaken m.b.t. het onderzoek in diverse deeldisciplines der psycho-
logie; ik maak hieruit een keuze.

Vroon merkt op dat de meer formele beschrijving en analyse van gegevens binnen de psycholo-
gie verder tot ontwikkeling is gekomen dan in de natuurwetenschappen.
Kennelijk - en m.i. terecht - vindt hij dit een positieve zaak. Internationaal gezien kan
Nederland op dit gebied uitstekend mee, terwijl soms zelfs van een leidende rol kan worden
gesproken. Veelbelovende gebieden in ontwikkeling zijn o.m. de Bayesiaanse statistiek,
niet-lineaire multivariate analyse en multi-dimensionele schaaltechnieken. Niet genoemd door
Vroon maar m.i. in dit rijtje zeker op zijn plaats is de psychometrie m.b.t. 'criterion-
referenced measurement', waarbij Nederland een vooraanstaande rol speelt.
T.a.v. de mathematische psychologie wordt gesignaleerd dat deze niet goed aansluit bij het
inhoudelijk psychologisch onderzoek.

De wetenschappelijke produktie op dit gebied is zeer aanzienlijk. De relatie tussen de
functieleer en de maatschappelijke toepassingen is nogal los, resp. problematisch. De overheid
kan hier wellicht een stimulerende rol spelen.

Internationaal gezien excelleert Nederland op het gebied van de psycholinguïstiek; zeer goed
kunnen wij mee op het gebied van de besliskunde, het onderzoek van emoties en van het
waarnemen (vooral m.b.t. het gehoor en het gezichtsvermogen). Het onderzoek betreffende
de reuk- en smaakzin ontwikkelt zich landelijk en internationaal zeer snel. Minder gunstig
komen wij naar voren m.b.t. het onderzoek op het terrein van de psychomotoriek.

Vroon wijdt relatief veel aandacht aan de onderwijspsychologie, die hij overigens rekent tot de
functieleer. Internationaal gezien kan de onderwijspsychologie redelijk mee, alhoewel het
geheel soms nogal heterogeen, politiek beladen, hobbyistisch en weinig samenhangend is (cf.
p.50). De door Vroon opgesomde argumenten om het bovenstaande te onderbouwen, doen
nogal subjectief en weinig empirisch aan. Zo stelt hij bv.: 'Een algemeen punt van kritiek is dat
het niveau van de onderwijsgevenden zou zijn gedaald en dat wij langzamerhand een behoor-
lijke populatie halve analfabeten bezhten. Het laatste heeft te maken met het feit dat, naar
verluidt, sommige scholen er principieel bezwaar tegen hebben dat kinderen blijven zitten'
(p. 50). Ik heb de indruk dat hier eerder de columnist in Vroon aan het woord is, dan de
pre-adviseur van de minister.

Vroon wijst ook op de samenwerking tussen psychologen en pedagogen binnen de onderwijs-
kunde. Hij stelt dat er soms nogal wat wrijfpunten zijn tussen psychologen en pedagogen. Het
pedagogisch aspect van de onderwijskunde zou zich elders (zoals in België) op een hoger
niveau bevinden (cf. p.49). Deze stelling wordt door Vroon niet nader toegelicht, noch
onderbouwd.

Vroon noemt t.a.v. de onderwijspsychologie een viertal gebieden die zich lenen voor stimule-
ring:

a. er is behoefte aan meer kennis over de mentale activiteiten (cognitieve processen) van de
leeriing;

b. er is behoefte aan instrumenten t.b.v. een fijnmazige differentiaaldiagnostiek van leer-
stoornissen;

c. er moet onderzoek gedaan worden naar de relatie tussen (cumulatieve) opvoedingseffecten
en het geringer leervermogen van kinderen uit lagere sociale klassen;

Internationaal gezien kunnen wij goed mee. Er zijn vrijwel geen gebieden die afgebouwd
kunnen worden, veeleer verdienen deze stimulering.
Een viertal thema's zijn op landelijk niveau verkaveld:

b. sociale ontwikkeling: neemt binnen diverse universitaire vakgroepen een belangrijke plaats
in; internationaal van belang;

Vroon signaleert ook gebieden die stimulering behoeven, zoals het ontwikkelen van communi-

catiesystemen voor doven en blinden en het onderzoek van het spel (vreemd genoeg wordt de
discipline pedagogiek in dit verband niet genoemd).

Over het geheel genomen geeft Vroon een duidelijk beeld van de stand van zaken in de
psychologie en mogelijke toekomstige ontwikkelingen. Het beeld is soms zo duidelijk, dat
men zich kan afvragen of hier niet erg persoonlijk gekleurde meningen geventileerd worden.
Wellicht heeft Vroon ook anderen geraadpleegd. Hij noemt deze echter niet. Evenmin
worden veel van zijn stellige uitspraken door argumenten gestaafd. Ik vraag me af of het
mogelijk en zo ja, of het verantwoord is om op basis van het geschetste beeld beleidsbe-
slissingen aangaande de psychologie in Nederland te nemen. Maar wellicht is dit slechts een
academische vraag en veegt de bezuinigingsgolf die dreigt los te breken alle beleid, dus ook
ongefundeerd beleid, van tafel.

Voor zijn bijdrage over de pedagogiek in de bundel heeft prof.dr. B.P.M. Creemers gebruik
gemaakt van opmerkingen en suggesties van een aantal met naam genoemde collegae. Cree-
mers geeft eerst een beknopte schets van de (historische) ontwikkelingen binnen de pedago-
giek. Hij gaat kort in op de relatie tussen prescriptie en descriptie en op de discussies
aangaande de theorie-praktijkrelatie.

De invloed van een kritisch en emancipatorische pedagogiek op de doelformulering binnen de
pedagogiek wordt aangestipt. Expliciet wordt aandacht besteed aan de ontwikkeling van
alternadeve onderzoeksmethoden en technieken. Hij geeft aan dat geesteswetenschappelijke
methoden in de meest ruime betekenis opgevat, ingang vinden in bv. onderwijsonderzoek.
Na een schets van de belangrijkste organisatorische ontwikkelingen binnen de pedagogiek
wordt aandacht besteed aan de verschillende afstudeerrichtingen binnen de studierichting
pedagogiek. Ik maak wederom een keuze.

De historische pedagogiek heeft de laatste jaren een duidelijke ontwikkeling doorgemaakt.
Het onderzoek naar waarden en normen in de historische kinderliteratuur vindt ook interna-
tionaal erkenning. Meer engelstalige publikaties zouden het publikatiebereik kunnen vergro-
ten.

De orthopedagogiek kent een sterke praktijkgerichtheid, die remmend werkt op de theorie-
vorming en het onderzoek. Dit is ook de reden waarom het onderzoek op het terrein van
leerstoornissen en van de ontwikkelingsstoornissen internationaal nog niet helemaal mee kan.
In de komende jaren zal het onderzoek op deze gebieden verder uitgebouwd worde.n.

Een groot gedeelte van het pre-advies heeft betrekking op de onderwijskunde.
Theorievorming een onderzoek betreffende opvoeding van het 'normale' kind in en door de
school, inclusief de stagnaties in het leerproces, heeft altijd een belangrijk onderdeel van de
pedagogiek gevormd. In de zeventiger jaren evolueerde de schoolpedagogiek tot (inter)disci-
plinaire onderwijskunde. Ook uit andere diciplines, m.n. vanuit de (onderwijs) psychologie en
de (onderwijs)sociologie werden bijdragen geleverd aan onderwijskundige theorievorming en
onderzoek.

Het in 1976 uitgebrachte rapport van de verkenningscommissie Onderwijsonderzoek was
nogal pessimistisch t.a.v. de opbrengst van het onderzoek. Sindsdien is echter gewerkt aan de
bevordering van de kwaliteit van het onderwijsonderzoek en aan de onderzoeksprogram-
mering.

Diverse veelbelovende gebieden van theorievorming en onderzoek zijn aanwijsbaar:

a. onderzoek van het onderwijsleerproces: er wordt gezocht naar nieuwe ingangen voor het
ATI-onderzoek; aansluiting wordt gezocht bij de Russische leerpsychologie en de Ameri-
kaanse cognitivistische aanpak; o.g.v. de resultaten met beheersingsleren wordt onderzoek
gedaan naar de tijd besteed aan de leertaak; verder wordt aandacht besteed aan problem-
solving-strategieën en informatieverwerking;

b. curriculum: veel aandacht wordt besteed aan het planningsgedrag van leerkrachten en aan
de implementatie van nieuwe curricula;

d. evaluatie van onderwijsvernieuwing: m.n. de landelijke vernieuwingsprojecten en de zgn.
stimuleringsprojecten hebben de stoot gegeven tot dgl. onderzoek; ook het onderzoek
m.b.t. het onderwijsbeleid is hierdoor op gang gekomen;

e. diverse nieuwe gebieden zijn tot ontwikkeling gekomen: onderwijseconomie, -planning,
-recht en -technologie;

f. onderzoek m.b.t. methodologie en statistiek is belangrijk en geniet internationale erken-
ning.

Gebieden waaraan relatief weinig aandacht is geschonken doch die extra aandacht behoeven in
de komende jaren zijn het onderwijsonderzoek m.b.t. etnische minderheden en m.b.t. de
opleiding en nascholing van onderwijsgevenden.

Meer dan in het verleden zal de onderwijskunde de komende jaren aansluiting moeten zoeken
bij vakdidactieken en vakgebieden.

Creemers bepleit t.a.v. het onderwijsonderzoek een grotere distantie t.o.v. de onmiddellijke
onderwijspraktijk dan momenteel het geval is. De ontwikkeling van theorieën dient prioriteit
te krijgen. O.g.v. een bibliografische analyse kan voorts geconcludeerd worden dat het
Nederlandse onderwijsonderzoek intemationaal gezien een redelijke hoeveelheid bijdragen
levert.

Creemers beveelt tenslotte aan het onderwijsonderzoek te concentreren binnen een aantal
(para-)universitaire onderzoeksinstituten. Hij vermeldt niet hoe groot dit aantal moet zijn.
Bij de door Creemers gegeven opsomming van veelbelovende gebieden voor theorievorming
en onderzoek vraag ik mij af of de genoemde gebieden wel alle zo veelbelovend zijn. Het zgn.
ATI-onderzoek bv. gaat nog steeds mank aan theoretische fundering, terwijl ook de statis-
tisch-methodologische eisen (bv. de noodzakelijke aantallen proefpersonen) weinig ruimte
laten voor optimisme. Het introduceren van leerlingprofielen als aptitude-variabele lost deze
problemen niet op.

De evaluatie van onderwijsvernieuwingen staat als veelbelovend gebied m.i. op gespannen
voet met de eveneens bepleite grotere distantie van het onderwijsonderzoek t.o.v. de onmid-
dellijke onderwijspraktijk.

Tenslotte ben ik ook niet overtuigd van de impulsen die uit moeten gaan van 'nieuwe' vakken
als onderwijseconomie en onderwijstechnologie. De ontwikkeling van meer kwalitatieve
onderzoeksmethoden (bv. t.b.v. curriculumevaluatie) acht ik voor het onderwijsonderzoek
van meer belang.

In zijn bijdrage aan de bundel geeft prof.dr. J.E. Ellemers een, in vergelijking met de
voorgaande pre-adviezen, meer algemeen beeld van de sociologie. Hij gaat daarbij niet zo
expliciet in op de diverse specialisaties. De onderwijssociologie wordt slechts als een van de
vele specialisaties genoemd.

Ellemers bepleit, evenals bv. Creemers, een afzwakking van de nauwe bindingen met 'maat-
schappelijke problemen'. In het kader van de kwaliteitsbevordering van het onderzoek bepleit
hij een kritische evaluatie achteraf van verricht onderzoek.

T.a.v. de naoorlogse ontwikkelingen in de sociologie merkt hij op dat de ontwikkeling sinds
het eind van de jaren zestig minder spectaculair, diffuser is geworden. De tendens is gegaan in
de richting van steeds verdergaande opdeling in subspecialisaties. Hij noemt er een dertigtal
(!). Hij bepleit o.m. stimulering van theorie-ontwikkeling en analyse van centrale macro-
sociale verschijnselen in vergelijkend perspectief.

In het voorgaande is in algemene zin, en voorzover het het onderwijsonderzoek betrof, in meer
specifieke zin aandacht besteed aan enige pre-adviezen betreffende onderzoek in enkele
sociale wetenschappen. Ik geloof dat ook los van eventuele bezuinigings- en beleidsmaat-
regelen van de overheid het aanbeveling verdient van tijd tot tijd dgl. visies te publiceren, bv.
aangaande het onderwijsonderzoek in dit tijdschrift. Auteurs zullen dan waarschijnlijk ge-
makkelijker expliciet maken welke ontwikkelingen extra stimulering behoeven en welke
gebieden afgebouwd moeten worden. De bruikbaarheid van de adviezen voor beleidsbepaling
door de overheid wordt m.i. beperkt door de relatief grote diversiteit in vormgeving en
nauwkeurigheid der bijdragen. Een wat strakkere redactieformule zou op zijn plaats geweest
zijn.

Opvallend tenslotte is, dat vrijwel nergens expliciet ingegaan wordt op de relatie tussen
wetenschappelijk onderwijs en onderzoek. Ik hoop niet dat de verantwoordelijke bewinds-
lieden hieruit de conclusie trekken dat e.e.a. niets met elkaar te maken heeft!

Wolff-Albers, A.D. & Crombag, H.F.M., Visies op onderzoek in enkele sociale wetenschappen:
pre-adviezen ten behoeve van de beleidsnota maatschappij- en gedragswetenschappen, 's-Graven-
hage: Staatsuitgeverij, 1982. (Met bijdragen van: J. Pen, P.A. Vroon, H. Daudt, T.A. van Dijk,
C. J.M. Schuyt, B.P.M. Creemers, P. Kloos en J. Ellemers).

In 1978 werd door het Ministerie van Onderwijs en Wetenschappen aan de RWO-buro's in respektievelijk
Nijmegen, Maastricht en Eindhoven de opdracht gegeven een onderzoek te verrichten naar te verwachten
'mutanten in de vraag naar c.q. het aanbod van hoger onderwijs in de komende decennia'. Zulks op
voorstel van de Commissie vooronderzoeken beleidsproblemen hoger onderwijs, de z.g. Commissie
Buys, en bedoeld om te dienen als achtergrondinformatie bij beleidsvoorbereiding ten aanzien van de
ontwikkeling van het hoger onderwijs. Plannen voor en visies op de toekomst van het hoger onderwijs.
Plannen voor en visies op de toekomst van het hoger onderwijs zijn dikwijls bepaald door een pragmati-
sche opstelling. Dit geldt niet slechts voor beleidsnota's, ook wetenschappelijk werk blijkt in belangrijke
mate pragmatisch gericht te zijn: Veel van het onderwijskundig onderzoek op het terrein van het hoger
onderwijs is gericht op de problemen zoals die zich op dit moment in de onderwijsleersituatie op
mikro-nivo voordoen. De resultaten van zulk onderzoek zullen vrijwel alleen bruikbaar blijken bij de de
uitvoering van onderwijsbeleid en dan nog voornamelijk in de instelingen.

Onderzoek dat van nut kan zijn bij de voorbereiding van (hoger) onderwijsbeleid op landelijk nivo vinden
we nauwelijks evenals publikaties die zicht bieden in de achtergronden van processen en strukturen van
het hoger onderwijs. Mochten beleidmakers dan ook - de onverwachte - interesse hebben om hun
besluiten te baseren op resultaten van wetenschappelijk onderzoek dan zal het hen moeite kosten om aan
relevante gegevens te komen.

Bevers, Bouhuijs en Gobits komt de eer toe als één van de eerste een onderzoeksrapport op tafel te
hebben gelegd dat interessant is voor beleidmakers op landelijk- en instellingsnivo en voor andere
geïnteresseerden in het hoger onderwijs. Weliswaar bieden zij geen inzicht in de achtergronden van het
funktioneren van hoger onderwijs maar wel een uitgebreide opsomming van deels denkbare, deels elders
reeds gerealiseerde altematieven op het vlak van procedures als het toelaten van studenten, het program-
meren en uitvoeren van het onderwijs, het evalueren van de geleverde prestaties en tot slot het toekennen
van een diploma of titel. Dit zal zeker door velen met interesse gelezen worden. Het overgrote deel van
het rapport wordt besteed aan deze opsomming. De onderzoekers gaan echter nog een stap verder en
trachten in het grootste deel van de resterende pagina's te voorspellen welke 'mutanten', op basis van de
kriteria wenselijkheid, doeltreffendheid en kostenbeheersing, het meeste kans bieden op realisatie.

Voor hun onderzoek hebben Bevers, Bouhuijs en Gobits gebruik gemaakt van de Delphi-methode - een
onderzoeksmethode waaraan een aantal voor toekomst-onderzoek gunstige eigenschappen worden toe-
geschreven (zie b.v. van Oyen (1976); Judd (1978)). In het algemeen worden in de eerste ronde van de
Delphi-procedure interviews gehouden met deelnemende deskundigen om zo tot een genereren van een
aantal in latere rondes te gebruiken items te komen.

Voor 'Een staalkaart..." hebben de onderzoekers in deze eerste ronde niet slechts interviews gehouden
maar tevens literatuur-onderzoek gedaan. Met name dit literatuur-onderzoek heeft het interessante skala
van altematieven voor onderwijs-procedures opgeleverd waaraan hierboven reeds gerefereerd is. Het op
basis van de resultaten van het literatuuronderzoek en de interviews formuleren van de 25 items voor
gebruik in de latere rondes van de Delphi-procedure leverde de onderzoekers enige problemen op. Of
zoals ze zelf schrijven: 'De onderzoeksmethode noopte tot formuleringen van beperkte omvang, terwijl
het idee niettemin in zijn wezen omschreven moest worden. Ondanks de betrachte zorgvuldigheid
dienaangaande bleek uit de opmerkingen van respondenten dat niet altijd een optimale vorm was
gevonden' (p. 172). Hier rijst de vraag naar de validiteit van de Delphi-methode voor onderzoek naar
komplexe vraagstellingen die, zoals in het geval van het hoger onderwijs niet of nauwelijks zijn te vertalen
in eenduidig geformuleerde en te beoordelen items zonder verlies van de oorspronkelijk bedoelde
betekenis. Ongetwijfeld zouden andere ondcrzoeks-opzetten denkbaar zijn geweest waarvan de validiteit
minder problemen had opgeroepen hetgeen bij een relatief tijdintensieve en dus kostbare methode als de
Delphi zeker het overwegen waard zou zijn geweest.

In hoeverre de onderzoekers zelf twijfels hebben gehad over de door hen gevonden resultaten blijft een
vraag. Feit is echter dat zij aan de resultaten van het specifieke Delphi-onderzoek slechts 21 pagina's van
hun ongeveer 200 pagina's tellende rapportage besteden.

Een ander punt van kritiek kan zijn dat er door Bevers, Bouhuijs en Gobits slechts aandacht is besteed aan
onderwijskundige aspekten van 'mutanten'. Organisatorische-, bestuurlijke-, management- enz. aspek-
ten zijn door hen niet in het onderzoek betrokken. Juist in een periode dat onder beleidsgerichte
onderzoekers de mening post blijkt te vatten dat in beleidsgericht onderzoek ook de kontext waarin het
beleid tot stand moet komen in het onderzoek betrokken zou moeten worden, lijkt dit een omissie.
Ook de doelstellingen die men als uitgangspunt bij de keuze van onderwijskundige alternatieven toch
veelal impliciet of expliciet zal hanteren ontbreken in het onderzoek. Het rapport draagt dan ook de -
soms prettige - beperkingen van een kookboek: de kok moet zelf vooraf bepalen wat hij wil klaarmaken
en zorgen dat zijn keuken en de ingrediënten in orde zijn, pas dan kan het receptenboek hem verder
helpen. Dit dan enigszins gechangeerd want het doorbladeren van 'Een staalkaart...' zal zeker voor
beleidssmakers heuristisch kunnen werken bij het bepalen van doelstellingen.

Ondanks de punten van kritiek biedt het rapport interessante informatie. Niet in het minst omdat het een
resultaat van niet alledaags (beleidsgericht) onderzoek betreft op het terrein van het hoger onderwijsbe-
leid op landelijk- en instellingsnivo.

Judd, R.C. Delphi in Higher Education Revisited. International Journal of Institutional Management in

Higher Education, May 1978, Vol 2, no. I, pp. 31-45.
Oyen, P. van. De Delphi-methode als onderzoeksmiddel in sociaal-wetenschappelijk onderzoek. Am-
sterdam (Kohnstamm Instituut) 1976.

Aarnoutse, C.A.J. Aspecten van begrijpend lezen in het vierde leerjaar van het gewoon lager onderwijs.
Proefschrift Katholieke Universiteit, Nijmegen, 1982.

Adviesraad voor het Basisonderwijs, Speciaal onderwijs en de Opleidingen, Van breuk naar gave lijn.
Advies over de nota 'Verder na de basisschool'. Zeist, december 1982.

Boef-van der Meulen, S. & Bronneman-Helmers, R. Planning van educatieve voorzieningen. (S.C.P.-
cahier nr. 32), Rijswijk: Sociaal en Cultureel Planbureau, 1982.

Boekaerts, M. & Lieshout, C.F.M. van. Sociale en motivationele aspecten van het leren. (Bijdragen tot
de Onderwijsresearchdagen 1982 no. 5). Lisse: Swets & Zeitlinger, 1982 (Uitgave van de Vereniging
voor Onderwijs Research).

Coopmans, J. De middenschool uit. Een tussentijds verslag van een onderzoek bij leeriingen die de
middenschool afsluiten. Band 1: Verantwoording en onderzoeksresultaten. (SVO-reeks no. 66).
Harlingen: Flevodruk, 1982. *

Dekkers, H. & Smeets, M. Sekse-ongelijkheid op school. I. Eigenschappen en leerprestaties van
meisjes. Nijmegen, Instituut voor Toegepaste Sociologie, 1982.

Dorp, C. van & Pilot, A. (Red.) Aspecten van onderwijsresearch 1982. (Bijdragen tot de Onderwijs-
researchdagen 1982, no. 7) Lisse: Swets & Zeitlinger, 1982 (Uitgave van de Vereniging voor Onder-
wijs Research).

Giesbers, J.H.G.I. & Leune, J.M.G. (Red.). Ontwikkelingen in de organisatie van scholen. (Bijdrage
tot de Onderwijsresearchdagen, 1982 no. 2). Lisse: Swets & Zeitlinger, 1982. (Uitgave van de
Vereniging voor Onderwijs Research.)

Hees, E.J.W.M. van & Dirkzwager, A. (Red.). Onderwijs en de nieuwe media. (Bijdragen aan de
Onderwijsresearchdagen 1982 en het lustrumcongres van de Vereniging voor Onderwijs en Compu-
ter). Lisse: Swets & Zeitlinger, 1982 (Uitgave van de Vereniging voor Onderwijs Research).

Hoogeveen, P. & Winkels, J. Het didaktische werkvormenboek: Variatie en differentiatie in de praktijk.
Nijmegen: Dekker & Van de Vegt, 1982.

Houtkoop, W., Eek, E. van &Lington, H. Schriftelijk onderwijs onderzocht:'Vers\3igvanesn literatuur-
onderzoek naar kenmerken van het schriftelijk onderwijs en van empirisch onderzoek naar met name
mavo- en havo-opleidingen. (SVO-reeks no. 65). Harlingen: Flevodruk, 1982.

Jaarverslag W.P.R.0. 1981. 's-Gravenhage: Werkverband van Plaatselijke en Regionale Onderwijs-
adviescentra, september 1982.

Janssens, J.M.A.M. '-Ogen' doen onderzoek. Een inleiding in de methoden van sociaal-weten-
schappelijk onderzoek. Lisse: Swets & Zeitlinger, 1982 (met bijlage).

Jungbluth, P. & Schotel-Kraetzen, S. Sekse-ongelijkheid op school. H Onderwijsinrichting en onderwijs-
beleid. Nijmegen: Instituut voor Toegepaste Sociologie, 1982.

Kamp, L. van der & Kamp, M. van der. Methodologie van onderwijsresearch. (Bijdragen tot de
Onderwijsresearchdagen 1982 no. 1). Lisse: Swets & Zeitlinger, 1982 (Uitgave van de Vereniging voor
Onderwijs Research).

Polak, L.J. Beslissen over de toekomst van het hoger onderwijs. Ideeën ter onderbouwing van een
diskussie over de toekomst van het hoger onderwijs in Limburg, december 1982.

Schroots, L. J.F. (Red.) Diagnostiek in het onderwijs: een manier van denken of zo maar wat doen?
Lisse: Swets & Zeitlinger, 1982 (Publikatie van het Nederlands Instituut van Psychologen 1).

Verstralen, H. Taal en intuïtie bij het leren en probleem-oplossen. Arnhem: Cito, 1982 (= Specialistisch
bulletin no. 19).

Voort, T.H. van der. Kinderen en TV-geweld: waarneming en beleving. Lisse: Swets & Zeitlinger, 1982.

7 en 8 april 1983, Universiteit van Amsterdam, Oudemanhuispoort.
Onderwijsresearchdagen.

29 april 1983 14.00 uur. Vrije Universiteit, Amsterdam.
Artefacten van de geest of de naakte feiten?

Debat tussen A.D. de Groot en E.E.Ch.I. Roskam over de toetsing van basisbegrippen uit de sociale
wetenschappen via theorie en forum of via modelvorming over data-structuren. Georganiseerd door de
NOSMO-onderzoeksgroep 'Begripsvorming en researchdesign'.

(Aanmelding: SISWO, t.a.v. A.W.M. Duijx, sector Methoden en Technieken, Postbus 19079, 1000 GB
Amsterdam).

Conferentie ter gelegenheid van de opening van het Centrum voor Onderwijs en Informatietechnologie
(C.O.I.).

(Inlichtingen: C.O.I. p/a T.H. Twente, Postbus 217,7500 AE Enschede, tel. 053-892190, J. Moonen).

27 mei 1983, Jaarbeurscongrescentrum, Utrecht.
Symposium van de Werkgemeenschap Verklarende Sociologie.

(Inlichtingen: H. Ganzeboom, Sociologisch Instituut, Heidelberglaan 2, 3508 TC Utrecht, tel. 030-
531967.

New approaches in foreign language methodology. 15th AIMAV-colloquium. (Inlichtingen: H. Bours,
Instituut voor Toegepaste Taalkunde, K.U. Nijmegen, Postbus 9103 , 6500 HD Nijmegen, tel. 080-
512207).

Students of Pedagogy and staffmembers in the department of Education were asked to characterize
and use relationships between variables. While the staffmembers were clearly superior to the
students in characterizing the relationships between variables, they performed equally poor when
asked to predict scores. Predictions generally were found to be too extreme, although some
regression in the predictions could be demonstrated.

in welke mate kan schoolsucces na de lagere school worden voorspeld?' 'Waardoor wordt het
advies bepaald dat aan het einde van de lagere school aan de leerlingen wordt gegeven?' In de
literatuur kan op verschillende plaatsen een antwoord op deze vragen worden gevonden. Blok
& Saris (1980) vonden dat de plaatsing van leerlingen op een school voor vervolgonderwijs
vooral door schoolprestatie en schooladvies, maar nauwelijks door een schooltoets (C.l.T.O.)
of door het ouderlijk milieu werd bepaald. Ook Jansen (1981) vond dat het schooladvies
sterker dan de schooltoets gerelateerd was aan de toelating op een school voor vervolgonder-
wijs. De validiteit van de schooltoets bij de voorspelling van later schoolsucces is echter
redelijk: Bos (1974), Jansen (1979) en Lutje Spelberg & Rotteveel (1978) rapporteerden
korrelaties van ongeveer .50 tussen schooltoets en schoolsucces. Lutje Spelbeg & Rotteveel
(1978) vonden daarnaast dat de korrelatie tussen schooladvies en later schoolsucces vrijwel
gelijk was aan de korrelatie tussen schooltoets en later schoolsucces. Door de onderzoekers
werd echter opgemerkt 'dat in een aantal gevallen de uitslag van de S.V.T. (schoolvorderin-
gentoets) reeds bekend is bij de onderwijzer of het hoofd der school voordat hij zijn advies
geeft'. Saris & Blok (1982) onderzochten het onderwijzersadvies en vonden dat het school-
advies een funktie was van zowel het oordeel van de onderwijzer over de schoolprestatie van
een kind als van de 'adviseringsstrategie' van de betreffende lagere school. Persoonlijkheids-
kenmerken bleken een gering empirisch verband te vertonen met het onderwijzersadvies,
maar leerkrachten zelf menen dat deze variabelen wèl een rol in hun oordeel spelen (Hoogstra-
ten & Mellenbergh, 1978).

Over de feitelijke procedure die de schoolleiding volgt bij het uitbrengen van de adviezen over
de leerlingen en welke variabelen daarbij een rol spelen is weinig bekend. Saris & Blok (1982)
suggereerden dat nader onderzoek zou kunnen worden uitgevoerd naar de wijze waarop de
leerkracht tot zijn advies komt. Terwijl niet bekend is hoe het advies van de school feitelijk
ontstaat (Groeneboom et al., 1978) lijkt het er wel op dat scholen het zelf gegeven advies
belangrijker, juister of informatiever achten dan de score op de schoolvorderingentoets. Dat
het advies van de onderwijzer belangrijker wordt gevonden dan de toetsscore zou als volgt

kunnen worden verklaard: De eerste indruk van de leerkracht over de leerling is gebaseerd op
de eigen konkrete ervaring met de leerling. O.a. werd door Jones et al. (1968), Anderson &
Jacobson (1965), Jones & Goethals (1972) en Borgida & Nisbett (1977) gevonden dat de eerste
indrukken over de prestaties van personen bepalend waren voor het (latere) oordeel over de
kapaciteiten van die personen; dat informatie verkregen nadat de eerste indruk was gevormd
niet of nauwelijks meer werd gebruikt en dat beoordelaars vooral gevoelig waren voor kleine
hoeveelheden en konkrete informatie.

Het lijkt aannemelijk te veronderstellen dat voor de leerkracht geldt dat zijn/haar konkrete
oordeel over de leerling al vroeg in het schooljaar wordt gevormd en dat het bestand is tegen de
eventueel met deze indruk strijdige uitslag van de schoolvorderingentoets. In een vergelijk-
bare kontekst werd door Nisbett & Ross (1980, p. 81) opgemerkt: 'One is likely to believe that
... it is ones own sample that holds the key to what the person ... is "really" like.'
Zodra de leerkracht (of in het algemeen: de beoordelaar) wordt gevraagd een advies te geven
over een leerhng lijken zich een paar mogelijkheden voor te doen:

(a) De beoordelaar verwacht een zeker verband tussen een voorspeller en later schoolsucces.
Ongeacht de feitelijke korrelatie in een bepaalde steekproef tussen voorspeller en school-
succes zal de beoordelaar het verwachte verband in plaats van het feitelijke verband rappor-
teren (Chapman & Chapman, 1967,1969).

(b) De beoordelaar houdt er geen theorie op na op grond waarvan een verband tussen twee
variabelen kan worden verwacht. In dit geval kijken beoordelaars wel naar de gegevens
wanneer hen gevraagd wordt in een bepaalde steekproef het verband tussen de twee variabelen
aan te geven. Echter, het gerapporteerde verband is dan doorgaans lager dan het feitelijke
verband, terwijl de beoordelaars het moeilijk vinden dergelijke 'theorie-vrije verbanden'
tussen variabelen waar te nemen (Jennings, Amabile & Ross, 1980).

Naast de waarneming van een verband tussen variabelen is het eveneens belangrijk om een
waargenomen verband juist te kunnen hanteren. Van een leerkracht die een advies moet
geven wordt niet alleen verwacht dat hij/zij in staat is relaties tussen voorspellers en school-
succes waar te nemen, maar uiteindelijk gaat het er om dat er een uitspraak wordt gedaan over
de verwachte score op de variabele 'toekomstig schoolsucces' wanneer de score op een
voorspeller bekend is. Gegeven de uiteraard niet perfekte korrelatie tussen voorspeller en
kriterium is het juist rekening te houden met regressieverschijnselen. Naar verwachting zal de
kriteriumscore relatief minder ver van de gemiddelde kriteriumscore zijn verwijderd dan de
score op de voorspeller is verwijderd van de gemiddelde voorspellerscore. Kahneman &
Tversky (1973), Amabile (1975) en Ross, Amabile & Jennings (1976) vonden echter dat
voorspellingen uitgevoerd door beoordelaars niet of nauwelijks waren geregredieerd.
In dit onderzoek is nagegaan in hoeverre beoordelaars die door interesse, kennis of ervaring
nauw bij het onderwijs zijn betrokken in staat zijn om verbanden tussen variabelen waar te
nemen en te hanteren. Er werd echter alleen gebruik gemaakt van 'theorie-vrije verbanden',
maar er werd informatie verzameld waarmee in vervolgonderzoek na kan worden-gegaan hoe
beoordelaars gegevens gebruiken die afkomstig zijn van variabelen waartussen al bij voorbaat
verbanden worden verwacht.

Beoordelaars. Aan twee groepen beoordelaars werd medewerking gevraagd aan een onder-
zoek naar de manier waarop met name onderwijzers informatie gebruiken die ze over hun
leerlingen krijgen. Groep I bestond uit 19 eerstejaars studenten Pedagogiek. Ongeveer 25%
van deze studenten was onderwijzer. Verwacht werd dat de personen in groep I een beperkte
ervaring hadden in het karakteriseren en hanteren van verbanden tussen cijfermatige gege-
vens. Groep II bestond uit 10 medewerkers van de vakgroep Onderwijskunde van de R.U.
Groningen. Verwacht werd dat de personen in groep II, die vrijwel allemaal aktief bij
onderzoek waren betrokken, een ruime ervaring hadden in het karakteriseren en hanteren van
verbanden tussen cijfermatige gegevens.

Procedure. Aan elke beoordelaar werden drie vragen gesteld, (a) Gevraagd werd relevante
variabelen te noemen waarop de beoordelaar adviezen over het vervolgonderwijs van leerlin-
gen in de laatste klas van de lagere school zou willen baseren. Tevens werd gevraagd de sterkte
van het verband aan te geven tussen enerzijds elke relevant geachte variabele en anderzijds het
schoolsucces in het eerste jaar van het vervolgonderwijs. Gevraagd werd de sterkte van het
verband als een percentage tussen O (geen verband) en 100 (een perfekt verband) weer te
geven. De hierbij verkregen informatie werd in dit onderzoek verder niet gebruikt. Het
materiaal werd verzameld om in vervolgonderzoek verbanden tussen variabelen te kunnen
laten beoordelen waarbij de beoordelaars bij voorbaat al een zeker verband tussen de variabe-
len verwachten, (b) Vervolgens werd aan elke beoordelaar tien paren getallen in een matrix
van tien rijen en twee kolommen aangeboden. De korrelatie tussen de twee kolommen
getallen varieerde over de beoordelaars van . 10 tot .90. Het gemiddelde van elke kolom was 6,
de variantie 4, terwijl de getallen in de kolommen varieerden tussen 1 en 10. De beoordelaars
werd gevraagd het verband tussen de twee kolommen getallen te beoordelen en de geobser-
veerde samenhang als een percentage weer te geven, (c) Tenslotte werden de beoordelaars
drie nieuwe scores op de linker variabele aangeboden (steeds waren dat de scores 4,6.5 en 8.5).
Gevraagd werd de respektievelijk verwachte score op de rechter variabele te noemen, reke-
ning houdend met het eerder waargenomen verband tussen beide variabelen.

In hoeverre waren de beoordelaars in staat de feitelijke korrelatie tussen de twee gegeven
variabelen te herkennen en waren de personen in groep II (dc medewerkers Onderwijskunde)
beter in staat de korrelatie te herkennen dan de personen in groep I (de studenten)? Jennings,
Amabile & Ross (1980) vonden dat het door beoordelaars waargenomen verband tussen
variabelen geen lineaire funktie van de feitelijke korrelatie tussen de variabelen was, maar dat
het waargenomen verband aan de feitelijke korrelatie was gerelateerd volgens de funktie 1 -
V(l-r2). In tabel 1 staan de korrelaties tussen enerzijds het per groep geobserveerde verband
tussen beide variabelen en anderzijds de feitelijke korrelatie tussen beide variabelen en twee
niet-lineaire funkties van r, nl. 1 - V(l-r2) en r^.

Aangezien de korrelades tussen r, 1 -\/(l-r^) en r^ alle groter dan .99 waren is het niet vreemd
dat in de rijen van tabel 1 vrijwel gelijke korrelaties staan. Uit tabel 1 blijkt dat de medewer-
kers redelijk en de studenten niet in staat waren de feitelijke korrelatie tussen de variabelen te
herkennen.

Kunnen beoordelaars een (waargenomen of feitehjk) verband tussen variabelen hanteren
wanneer bij gegeven scores op de ene variabele scores op de andere variabele moeten worden
voorspeld? Aan beoordelaars werd gevraagd de score op de tweede variabele te voorspellen
wanneer de score op de eerste variabele resp. 4, 6.5 en 8.5 was. De korrelaties tussen de
voorspelde scores en de met behulp van de regressievergelijking berekende optimale voorspel-
lingen zijn gegeven in tabel 2. Uit niets blijkt dat er een verband is tussen de voorspelde scores
van de beoordelaars en de optimale voorspellingen: de korrelaties zijn laag en niet altijd
positief. In dit verband kan nog worden opgemerkt dat in die gevallen waarin de beoordelaars
variabelen waartussen (vrijwel) geen korrelatie bestond werd aangeboden, toch een voorspel-
ling kan worden gegeven. In dat geval dient de voorspelling sterk geregredieerd te zijn naar het
gemiddelde van de te voorspellen variabele. De vergelijking die wordt gemaakt is dan ook
steeds tussen de door beoordelaars voorspelde scores en met regressievergelijkingen voorspel-
de scores en niet tussen door beoordelaars voorspelde scores en feitelijk waargenomen scores.
Kan het zijn dat de beoordelaars het door henzelf geobserveerde verband tussen de variabele
gebruiken bij het bepalen van de te voorspellen score? Aangezien alleen het waargenomen
verband tussen de variabelen varieert over beoordelaars zouden de korrelaties tussen het
geobserveerde verband en de drie voorspelde scores (absoluut) hoog moeten zijn. Zoals blijkt
uit tabel 3 zijn deze korrelaties echter (absoluut) nog lager dan de korrelaties in tabel 2, zodat
het er ook niet op lijkt dat de beoordelaars het zelf geobserveerde verband gebruiken bij de
voorspelling van scores.

Ross, Amabile & Jennings (1976) vonden dat door proefpersonen voorspelde scores bij
variabelen die tussen r = .00 en r = .30 gekorreleerd waren juist zouden zijn geweest wanneer
die variabelen korrelaties tussen .60 en 1.00 zouden hebben vertoond. Met andere woorden:
voorspellingen waren te extreem. In hoeverre werd die extremiteit van de prediktie ook bij de

Tabel 3. Korrelaties tussen door beoordelaars waargenomen verbanden en voorspelde scores.

hier onderzochte groepen gekonstateerd? Deze vraag werd beantwoord door drie verschil-
variabelen te vormen, waarbij elke verschil-variabele het verschil tussen de voorspelde score
van de beoordelaar en de bijbehorende optimaal voorspelde score was. Een positief verschil
duidt er op dat de voorspelling hoger was dan de optimale voorspelling, een negatief verschil
betekent dat de voorspelling lager was dan de optimale voorspelling. Om extremiteit in de
prediktie te kunnen konstateren moet de verschil-variabele behorende bij de gegeven score 4
(die onder het variabele gemiddelde 6 ligt) gemiddeld negatief zijn, terwijl de twee overige
verschil-variabelen gemiddeld positief moeten zijn. Hotelling's T^ kan dan worden gebruikt
om Hq : = O te toetsen. De gemiddelden van de drie verschilvariabelen zijn alle in de richting
van de extremiteits-hypothese. De overschrijdingskansen (met name voor de groepen I en II
gekombineerd) zijn zo laag dat Hq verworpen kan worden: De predikties van de beoordelaars
waren extremer dan de optimale predikties. De voorspellingen van de beoordelaas waren
echter wel enigszins - zij het niet voldoende - geregredieerd. Drie nieuwe verschilvariabelen
werden gevormd: het verschil tussen de voorspelde scores en de resp. gegeven scores. Bij
afwezigheid van enige regressie zou de nulhypothese Hq : /a = o niet worden verworpen. Uit
tabel 5 blijkt echter dat H^, wel degelijk moet worden verworpen. De voorspelde scores
vertonen regressie naar het gemiddelde van de te voorspellen variabele, maar de regressie is
geringer dan de optimale regressie.

Het waarnemen van verbanden tussen naamloze variabelen was een taak die duidelijk beter
door medewerkers Onderwijskunde dan door eerstejaars studenten Pedagogiek werd verricht.
Aangezien binnen de groep Pedagogiek-studenten een relatief groot aantal onderwijzers werd
aangetroffen, bestaat het vermoeden dat onderwijzers evenmin goed in staat zullen zijn om
verbanden tussen variabelen waar te nemen.

Tussen de beoordelaars in beide groepen werd geen verschil gekonstateerd in de manier
waarop het verband tussen variabelen werd gehanteerd bij het doen van voorspellingen. De
voorspelde scores waren in beide groepen minder dan optimaal geregredieerd: bij gegeven
scores onder het gemiddelde waren de voorspelde scores gemiddeld te laag; bij gegeven scores
boven het gemiddelde waren de voorspelde scores gemiddeld te hoog.
In vervolgonderzoek kan worden onderzocht hoe onderwijzers de informatie die ze over
leerlingen krijgen hanteren bij het formuleren van een advies. Onderzocht kan worden (a) in
hoeverre onderwijzers in staat zijn verbanden tussen naamloze variabelen waar te nemen, (b)
in hoeverre het waargenomen verband beïnvloed wordt door het bij voorbaat verwachte
verband, (c) in hoeverre voorspellingen van onderwijzers door een te gering regressie-effekt
worden gekenmerkt.

Tenslotte kan nog worden opgemerkt dat de relevantie van het gebruik van naamloze variabe-
len moet worden gezocht in het feit dat dit de beoordelaar dwingt naar de gegevens te kijken
(vgl. Chapman & Chapman (1967,1969), Jennings, Amabile & Ross (1980)).
Worden variabelen van een naam voorzien dan neigen beoordelaars ertoe het tussen die
variabelen verwachte verband in plaats van het feitelijk geobserveerde verband te hanteren. In
het huidige onderzoek ging de interesse echter primair uit naar de vaardigheid van beoorde-
laars verbanden tussen gegevens te karakteriseren en hanteren.

Amabile, T.M. Investigations in the psychology of prediction, niet gepubliceerd Manuscript, Stanford
Univ., 1975.

Anderson, N.H. & Jacobson, A. Effect of stimulus inconsistency and discounting instructions in personal-
ity impression formation. Journal of Personality and Social Psychology, 1965,2,531-539.

Blok, H. & Saris, W.E. Relevante variabelen bij het doorverwijzen na deklagere school; een structureel
model. Tijdschrift voor Onderwijsresearch, 1980,5,63-79.

Borgida, E. & Nisbett, R.E. The differential impact of abstract vs. concrete information on decisions.
Journal of Applied Social Psychology, 1977, 7,258-271.

Bos, D.J. Schoolkeuzeadviezen, een resultatencontrole na 5jaar. Den Haag, Mouton, 1974.

Chapman, L.J. & Chapman, J.P. Genesis of popular but erroneous diagnostic observations. Journal of
Abnormal Psychology, 1967, 72, 193-204.

Chapman, L.J. & Chapman, J.P. Illusory correlation as an obstacle to the use of valid psychodiagnostic
signs. Journal of abnormal Psychology, 1969, 74,271-280.

Groeneboom, P., Hoogstraten, J., Mellenbergh, G.J. & Santen, J.P.H. van. Relevante variabelen bij het
doorverwijzen na de lagere school; een correlationele analyse. Tijdschrift voor Onderwijsresearch,
1978, J, 262-280.

Hoogstraten, J. & Mellenbergh, G.J. Relevante variabelen bij het doorverwijzen na de lagere school; een
experiment. Tijdschrift voor Onderwijsresearch, 1978, i, 161-173.

Jansen, M.G.H. De voorspellende waarde van de eindtoets basisonderwijs. Tijdschrift voor Ondern'ijs-
research, 1979,4, 239-244.

Jansen, M.G.H. Sekse en Schoolsucces in de overgang van lager naar voortgezet onderwijs. Tijdschrift
voor Onderwijsresearch, 1981,6,51-60.

Jennings, D., Amabile T.M. & Ross, L. Informal covariation assessment: data-based vs. theory-based
judgments. In: A. Tversky, D. Kahneman & P. Slovic Judgment under uncertainty: Heurist-

Jones, E.E. & Goethals, G. Order effects in impression formation: Attribution context and the nature of
the entity. In: E.E. Jones et al. (Eds.), Attribution: Perceiving the causes of behavior, Morristown,
N.J.: General Learning Press. 1972.

Jones, E.E. & Rock, L., Shaver, K.G., Goethals, G.R. & Ward, L.M. Pattern of performance and ability
attribution: An unexpected primacy effect. Journal of Personality and Social Psychology, 1968, 10,
317-340.

Kahneman, D. & Tversky, A. On the psychology of prediction. Psychological Review, 1973,80,237-251.

Lutje Spelberg, H.C. & Rotteveel, H.J. De voorspellende waarde van de Groninger Schoolvorderingen-
toets. Tijdschrift voor Onderwijsresearch. 1978,3,3-9.

Nissbett, R.E. & Ross, L. Human inference: Strategies and shortcomings of social judgments,
Englewood Cliffs, N.J.: Prentice Hall, 1980.

Ross, L., Amabile, T.M. & Jennings, D. Theories, strategies and shortcomings in the psychology of
intuitive prediction, niet gepubliceerd manuscript, Stanford Univ., 1976.

Saris, W.E. & Blok H. Het onderwijzersadvies nader bekeken. Tijdschrift voor Onderwijsresearch,
1982, 7,49-59.

A few of the many methods for testing the Rasch model are combined in order to select homoge-
neous subsets of items from a larger set. Andersens conditional likelihood ratio test (1973) is used
for globally testing the model assumptions of monotonicity and sufficiency on the one hand and
onedimensionality and local stochastic independence on the other hand. In case the model is
globally rejected, depending on the kind of model violation a test proposed by Molenaar (1980)
and a graphical method (see e.g. Fischer, 1974) are used for detecting deviating items.
For a data set of 40 arithmetic items it is shown how the proposed combination of the methods leads
to homogeneous tests in the sense of the Rasch model.

De laatste jaren is er een verscheidenheid aan statistische toetsen en exploratieve methoden
beschikbaar gekomen waarmee kan worden onderzocht of een verzameling van items voldoet
aan de assumpties van het dichotoom logistisch model van Rasch (zie bijv. Fischer, 1974, p. 281
e.V.; Van den Wollenberg, 1979, p. 31 e.v., p. 107 e.v.; Gustafsson, 1980, p. 211 e.v.; Wright &
Stone, 1979, p.66 e.v.; Molenaar, 1980). De assumpties zijn: eendimensionaliteit van de
meting, monotoon niet-dalende item karakteristieke curven, lokaal stochastische onafhanke-
lijkheid van de item-antwoorden van een vaste persoon en afdoendheid van de ruwe testscore
voor de schatting van de latente persoonsparameter ^ . Deze vier assumpties zijn nodig en

De formule geeft de kans dat persoon v met parameterwaarde op de latente trek l item i met
moeilijkheid o; goed beantwoordt. Uitgebreide verhandeHngen ovef het Rasch model zijn o.a.
te vinden bij Fischer (1974) en Wright & Stone (1979).

Tevens is de laatste jaren duidelijk geworden dat geen van de statistische toetsen en explora-
tieve methoden kan worden beschouwd als een globale toets van het Rasch model voor alle
assumpties tegelijk (zie bijv. Van den Wollenberg, 1979, p. 94 e.v.; Stelzl, 1979; Gustafsson,
1980; Molenaar, 1980; Formann, 1981).

In dit artikel wordt een poging gedaan om enkele toetsende en exploratieve methodeft zodanig
te combineren in empirisch onderzoek, dat het mogelijk wordt om via een gestandaardiseerde
cyclus schalen te construeren, die aan alle assumpties van het Rasch model voldoen. Daarbij

Met dank aan P.H. Been en I.W. Molenaar voor hun kritische commentaar op eerdere versies van dit
artikel.

worden alle assumpties van het model expliciet, dan wel impliciet onderzocht op empirische
gegevens. Dat de cyclus 'gestandaardiseerd' is wil overigens niet zeggen dat de onderzoeker
geen subjectieve beslissingen meer hoeft te nemen bij de schaalconstructie.

De belangrijkste eigenschap van het Rasch model is de populatieonafhankelijkheid van de
parameterschattingen: de itemparameters worden onafhankelijk van de verdeling van de
persoonsparameters geschat en de persoonsparameters worden onafhankelijk van de verde-
ling van de itemparameters geschat. Een gevolg van deze eigenschap is bijvoorbeeld dat
personen dezelfde parameterwaarden krijgen toegekend, onafhankelijk van de test die ze
hebben gemaakt. Uiteraard moeten de tests wel uit hetzelfde Rasch-homogene itemdomein
komen. Andersen (1973) heeft een toetsingsmethode gepresenteerd die gebaseerd is op de
eigenschap van populatie-onafhankelijkheid van de itemparmeters.

De procedure voor deze toets is dat men de groep van proefpersonen indeelt in selecte
deelgroepen. Dit kunnen scoregroepen zijn, maar andere indelingscriteria zoals geslacht of
leeftijd zijn ook toegestaan. De keuze van indelingscriteria is afhankelijk van de bedoelingen
van de onderzoeker. In de wederzijds uitsluitende en uitputtende deelgroepen en de gehele
groep worden de itemparameters geschat en er wordt vervolgens getoetst in hoeverre de
schattingen in de deelgroepen van elkaar verschillen. Wanneer de gegevens voldoen aan het
Rasch model zullen die schattingen vanwege hun populatie-onafhankelijkheid niet significant
van elkaar verschillen. De toetsingsgrootheid is asymptotisch X^ verdeeld met (g-l)(k-l)
vrijheidsgraden, waarbij g het aantal deelgroepen is en k het aantal items. Als de nulhypothese
van gelijke itemparameters in alle deelgroepen wordt verworpen, valt met de globale toets van
Andersen niet zonder meer vast te stellen welke assumptie(-s) van het Rasch model zijn
geschonden. Een aantal auteurs (Van den Wollenberg, 1979; Stelzl, 1979; Gustafsson, 1980)
heeft met behulp van gesimuleerde gegevens onderzocht voor welke modelschendingen de
toets van Andersen gevoelig is. Van den Wollenberg (1979, p. 84-95) heeft aangetoond dat de
toets van Andersen bij deelgroepen op basis van de ruwe score gevoelig is voor schendingen
van de assumpties van monotonie en afdoendheid. De toets blijkt echter in hoge mate
ongevoelig te zijn voor schendingen van eendimensionaliteit, en daarmee voor schendingen
van lokaal stochastische onafhankelijkheid (Molenaar, 1980, p. 18). Deze ongevoeligheid voor
meerdimensionaliteit van de gegevens hangt samen met het feit dat de criteria voor de vorming
van deelgroepen, zoals de ruwe score op dc test, meestal in dezelfde mate samenhangen met de
latente trekken die ten grondslag liggen aan de testprestatie. Van den Wollenberg (1979,
p. 108) heeft laten zien dat de toets van Andersen wel geschikt is voor het toetsen van
eendimensionaliteit wanneer deelgroepen worden gevormd met behulp van 'splitteritems' (zie
ook Molenaar, 1980, p.4). Dat zijn items die in hoge mate een beroep doen op één latente
trek, maar vrijwel ongerelateerd zijn aan andere latente trekken die bij sommige items een rol
spelen. De proefpersonengroep wordt gesplitst in de groep die het splitteritem goed en de
groep die het splitteritem fout heeft beantwoord. Stel nu dat het splitteritem en een aantal
andere items overwegend een meting van trek 1 zijn en de overige items overwegend een
meting zijn van trek 2. De veronderstelling van Van den Wollenberg (1979, p. 109) is dat de
gemiddelde persoonsparameter op trek 1 in de eerste groep relatief hoog is en in de tweede
groep relatief laag. Op trek 2 zullen de parameterwaarden voor beide groepen rond het totale
gemiddelde liggen. Wanneer nu twee items i en j worden vergeleken, waarbij i overwegend
trek 1 meet en j overwegend trek 2, dan zullen de schattingen van de itemparameters in beide

groepen systematisch verschillen. De eigenschap van populatie-onafhankelijke schattingen
geldt dus niet. Wanneer men de schattingen in beide groepen grafisch tegen elkaar afzet, kan
men de items die sterk met het splitteritem samenhangen herkennen doordat ze in de 'foute'
groep moeilijker zijn dan in de 'goede' groep.

De toets van Andersen kan dus enerzijds gebruikt worden als globale toets voor de assumpties
van monotonie en afdoendheid, en anderzijds als globale toets voor de assumpties van
eendimensionaliteit en lokaal stochastische onafhankelijkheid. In het laatste geval kan met
behulp van een grafiek tevens op itemniveau worden nagegaan welke items verantwoordelijk
zijn voor modelschendingen. Molenaar (1980) heeft een toets gepresenteerd waarmee op
itemniveau kan worden onderzocht welke items de assumpties van monotonie en afdoendheid,
of alleen de laatste, schenden. Schendingen komen tot uiting in item karakteristieke curven die
te vlak of te steil zijn in vergelijking met die van de overige items, hetgeen een schending van
afdoendheid is, of item karakteristieke curven die niet monotoon stijgend zijn. Bij de toets van
Molenaar wordt de frequentie goede antwoorden op een vast item i per ruwe scoregroep
vergeleken met de verwachte frequentie. De gestandaardiseerde verschillen tussen beide
frequenties worden voor een vast item i over de ruwe scoregroepen uit het laagste en het
hoogste kwartiel gecombineerd tot een toetsingsgrootheid Uj. Deze toetsingsgrootheid is bij
benadering standaardnormaal verdeeld wanneer het aantal waarnemingen in iedere ruwe
scoregroep groot is. Grote positieve waarden van U; geven aan dat de item karakteristieke
curve van item i relatief te vlak is, grote negatieve waarden dat de item karakteristieke curve
relatief te steil is. Bij de interpretatie van Uj lijkt het verstandig om tevens de geobserveerde en
verwachte frequenties per scoregroep te vergelijken. Op die manier kan worden nagegaan of
Uj niet ten gevolge van lokale uitschieters erg hoog of laag is dan wel of een afwijkende trend
van een item karakteristieke curve over het gehele bereik van de latente trek vóórkomt.
Verder lijkt het bij de verwijdering van items op basis van hun Uj-waarden het beste om eerst
items met te vlakke karakteristieke curven weg te laten (Molenaar, 1980, p. 14), omdat dit de
items zijn met een relatief zwak discriminerend vermogen. Tenslotte kan het vóórkomen dat
groepen van items te grote of te kleine Uj-waarden hebben. Dit kan een aanwijzing zijn voor
meerdimensionaliteit van de itemverzameling (Molenaar, 1980, p. 14; Gustafsson, 1980,
p. 208).

Met behulp van de tot nu toe behandelde methoden kunnen alle assumpties van het Rasch
model voor empirische gegevens worden onderzocht. De assumptie van lokaal stochastische
onafhankelijkheid wordt hier niet expliciet onderzocht: het streven'is gericht op eendimensio-
nele metingen en wanneer hier aan voldaan is volgt uit eendimensionaliteit lokaal stochastische
onafhankelijkheid (Gustafsson, 1980, p.207).

Een overzicht van de behandelde toetsen en exploratieve methoden is te vinden in Tabel 1. In
de tabel staat door middel van plustekens aangegeven welke assumpties per toets expliciet
worden onderzocht. In het geval van bijvoorbeeld Uj zijn dat monotonie en afdoendheid, maar
deze toetsingsmethode kan de onderzoeker tevens op het spoor zetten van meerdimènsionali-
teit. Met behulp van de toetsen en exploratieve methoden uit tabel 1 wordt in de volgende
paragraaf een onderzoekscyclus geconstrueerd waarmee schaalconstructie volgens het Rasch
model kan plaatsvinden. Hierbij wordt voor empirische gegevens systematisch onderzocht of
assumpties geschonden zijn en welke items daarvoor verantwoordelijk zijn.

Wanneer men een verzameling van items wil analyseren volgens de genoemde onderzoeks-

methoden, dan biedt de volgende onderzoekscyclus een aanpak die tot één of meer Rasch-
homogene schalen leidt, wanneer deze althans in de gegevens aanwezig zijn.

1. Voer de globale toets van Andersen voor monotonie en afdoendheid uh. Wanneer de
nulhypothese niet wordt verworpen, ga verder met 3; wordt de nulhypothese wel verworpen,
ga verder met 2.

2. Bereken voor ieder item (lokaal) de Uj-toetsingsgrootheid en beschouw het empirische
verloop van de item karakteristieke curven. Verwijder bij voorkeur items op basis van zowel
formele als inhoudelijke gronden en/of verdeel de verzameling van items in inhoudelijke
betekenisvolle deelgroepen. Ga voor iedere groep items weer naar 1.

3. Wanneer het vermoeden bestaat dat de assumptie van eendimensionaliteit geschonden is,
voer dan de toets van Andersen volgens scores op splitteritems uit. Wanneer de nulhypothese
niet wordt verworpen, dan is de onderzoekscyclus ten einde. Wordt de nulhypothese wel
verworpen, ga dan naar 4.

4. Wanneer uit de grafische modelcontrole, waarin de schattingen van de itemparameters in
deelgroepen tegen elkaar afgezet worden, een inhoudelijk zinvol interpreteerbare vorm van
meerdimensionaliteit blijkt, ga dan voor iedere deelschaal terug naar 1 en doorloop de cyclus
opnieuw.

De onderzoekscyclus wordt in Figuur 1 in de vorm van een stroomdiagram weergegeven.

Uiteraard is de onderzoekscyclus slechts een ruwe schets voor schaalconstructie volgens het
Rasch model. Ook via andere methoden en combinaties van methoden lijkt het mogelijk om.
tot Rasch-homogene schalen te komen. Zo zou men kunnen beginnen met het onderzoeken
van de assymptie van eendimensionaliteit. Een voordeel van de hier geschetste cyclus lijkt
echter dat men met behulp van de Uj-waarden alvast informatie kan verkrijgen over mogelijke
onderverdelingen van de items. Tevens kan men items herkennen die item-specifieke factoren
meten. Dat laatste is bij een minder nauwkeurige grafische modelcontrole naar aanleiding van
de Splittermethode lastiger. Van de alternatieve methoden moeten de Qp en Q2-toets van Van

den Wollenberg (1982a) worden genoemd. Q j is een globale toets voor monotonie en afdoend-
heid, en Q2 is een globale toets voor eendimensionaliteit en lokaal stochastische onafhanke-
lijkheid. Met behulp van Oi kan tevens informatie op itemniveau worden verkregen (Van den
Wollenberg, 1982a, p. 135). Q2 heeft een paar technische onvolkomenheden (Van den Wol-
lenberg, 1982a, p. 139). Een nadeel voor de toepassing van Q2 is dat de itemparameters in alle
scoregroepen apart moeten worden geschat, hetgeen in iedere scoregroep veel waarnemingen
vereist. Samenvoeging van scoregroepen lijkt dit praktische probleem te ondervangen (Van
den Wollenberg, 1982b, p. 49).

De empirische bruikbaarheid van de hier voorgestelde cyclus werd onderzocht met behulp van
een verzameling van 40 breukrekenitems. De verzameling bevat uiteenlopende soorten van
items (bijlage 1) waarvoor waarschijnlijk verschillende vaardigheden zijn vereist. Zo wordt bij
de geometrische items bijvoorbeeld expliciet een beroep gedaan op het geometrisch inzicht

van leerlingen. Bij de andere items lijkt een goed geometrisch inzicht in mindere mate vereist.
Een kanttekening hierbij is dat sommige leerlingen een numeriek gepresenteerde breuk
misschien cognitief representeren als een geometrische figuur (zie bijvoorbeeld Greeno,
1976). Vanwege de veronderstelde meerdimensionaliteit van de vaardigheid in breukrekenen,
valt te verwachten dat de verzameling van 40 items als geheel niet Rasch-homogeen is.
De items werden door 360 leerlingen gemaakt. De leerlingen waren afkomstig uit de eerste klas
van een LEAO-school en brugklassen op MAVO/HAVO- en ïiAVO/Atheneum-niveau. De
items werden in open-vraag-vorm gepresenteerd, zodat gissen zoveel mogelijk werd voorko-
men. Verder waren items van hetzelfde type over de test verspreid om leereffecten zoveel
mogelijk te vermijden. Om dezelfde reden werden groepjes van steeds zes a zeven items in
aselecte volgorde aan de leerlingen voorgelegd.

In eerste instantie is onderzocht of de 40 items een schaal vormen in de zin van het Rasch
model. Daarbij is gebruik gemaakt van de methoden en de cyclus die in de voorgaande twee
paragrafen werden besproken. De analyses zijn uitgevoerd met behulp van het computerpro-
gramma PML (Gustafsson, 1979).

De toets van Andersen op twee groepen (stap 1 in de cyclus) - één met ruwe scores boven de
mediaan en één met ruwe scores onder de mediaan - leidt tot verwerping van de nulhypothese
van gelijke itemparameters:X2 = 234.6, df = 39 en p <.001.

Hieruit blijkt dat de assumpties van monotonie en afdoendheid, of alleen de laatste, voor de
verzameling van items als geheel zijn geschonden. In eerste instantie blijken vooral de items
met een geometrische presentatievorm bij te dragen aan de schending van de beide assumpties
(stap 2 in de cyclus). Over het algemeen hebben deze items een relatief te vlakke item
karakteristieke curve, hetgeen tot uitdrukking komt in hoge Uj-waarden (Figuur 2).

Piguurl: U,-waarden voorde verzameling van 40 items. Bijeen item met |t/,|> 1.96 betekent 7' dat de
schending 'lokaal' is; waar geen l wordt vermeld is de gehele curve te steil (Uj <0) of te vlak
(Ui>0).

Een interpretatie van dit verschijnsel is dat de items met geometrische presentatievorm in hoge
mate een beroep doen op één of meer andere latente trekken dan de overige items. Verder valt
op dat de gelijknamig maken - items relatief te steile item karakteristieke curven hebben.
Gezien de grote negatieve Uj-waarden lijkt het echter verstandiger deze voorlopig te handha-
ven omdat ze relatief sterk discrimineren tussen personen.

Op grond van de resultaten werd besloten de 10 items met geometrische presentatievorm (in
het vervolg: geometrische items) en de overige 30 items met numerieke presentatievorm (in het
vervolg: numerieke items) apart te onderzoeken.

Monotonie en afdoendheid. Ofschoon de globale toets van Andersen (stap 1) geen duidelijke
verwerping van de assumpties van monotonie en afdoendheid oplevert (X = 18.9, df = 9 en p
= .03), kan de waarde van de toetsingsgrootheid aanzienlijk worden verkleind door item 5 en
17 uit de schaal verwijderen. Deze twee items hebben binnen de verzameling van geometrische
items een relatief te steile item karakteristieke curve (stap 2), hetgeen tot uiting komt in grote
negatieve Uj-waarden (tabel 2). Een inhoudelijk a posteriori argument voor de verwijdering
van item 5 en 17 is dat bij beide het antwoord kan worden gevonden door het aantal gearceerde
en het totale aantal vierkanten te tellen. Behalve een 'tel'-operatie is bij de overige items
vereist dat men de geometrische figuur in congruente deelfiguren indeelt voordat men het
antwoord kan geven. Item 5 en 17 worden op grond van dit inhoudelijke argument uit de schaal
verwijderd. De geometrische items zullen in vervolgonderzoek met behulp van het lineair
logistisch model (zie bijvoorbeeld Fischer, 1974) worden onderzocht. Bij deze toepassing is het
gewenst dat trekken zo zuiver mogelijk worden gemeten. Op grond van alleen psychometri-
sche argumenten zouden de relatief sterk discriminerende items 5 en 17 hier niet worden
verwijderd.

De globale toets van Andersen (stap 1) leidt tot de conclusie dat de assumpties van monotonie
en afdoendheid voor de resterende acht items niet worden geschonden (X^ = 5.3, df = 7 en p =
.63). De Uj-waarden (Tabel 2) vertonen geen belangrijke afwijkingen.

Uj-waarden binnen de verzameling van alle geometrische items, en na weglating van item 5 en
17. Een '1' en een.'g' geven aan dat een schending 'lokaal' respectievelijk 'globaal' is op het
onderzochte interval van de latente trek.

Eendimensionaliteit. De keuze van splitteritems voor de toets van Andersen (stap 3) is bij
voorkeur gebaseerd op een hypotliese over een indeling van de items in inhoudelijk homogene
deelgroepen. De deelgroepen bevatten hier respectievelijk item 7,21,32 en 40 (arceer een deel
van de figuur), item 26 en 47 (bepaal welk deel van de figuur gestreept is) en item 1 en 35
(bepaal de verhouding van twee gestreepte delen). Verder mag de populariteit van splitter-
items niet extreem groot of klein zijn, opdat de nauwkeurigheid van de schattingen van de
itemparameters in beide groepen bevredigend is.

Voor de toets van Andersen werden twee groepen proefpersonen gevormd met respectievelijk
Xj = O (splitteritem i fout) en Xj = 1 (splitteritem i goed). De resultaten van de toetsen volgens
vier verschillende splitteritems - de helft van de items uit ieder groepje - staan in Tabel 3 en de
conclusie is dat de assumptie van eendimensionaliteit en daarmee lokaal stochastische onaf-
hankelijkheid niet ernstig is geschonden.

De algemene conclusie is dat de gegevens van de resterende acht geometrische items geen
ernstige schendingen van de assumpties van het Rasch model vertonen en derhalve als
Rasch-homogeen mogen worden opgevat.

Monotonie en afdoendheid. Uit de toets van Andersen (stap 1) op een lage cn een hoge
scoregroep blijkt dat de assumpties van monotonie en afdoendheid of alleen de laatste voor de
verzameling van 30 numerieke items zijn geschonden:X^ = 74.5 df = 29en p<.0()I. Opgrond
van de lokale toets voor monotonie en afdoendheid (stap 2) kan men zien dat de gelijknamig
maken-items evenals bij de analyses op 40 items als afwijkende groep naar voren komen (Tabel
4), hetgeen waarschijnlijk kan worden opgevat als een indicatie van meerdimensionaliteit.
Van de fractie-items hebben o.a. item 9 en 43 (lokaal) te vlakke item karakteristieke curven.
Uit retrospectieve analyses van gegevens van 19 leerlingen kan worden afgeleid dat de door
hen gebruikte oplossingsprocessen verschillen voor item 9,36 en 43 enerzijds en item 4, 15 en
24 anderzijds. Naar aanleiding hiervan worden item 9, 36 en 43 uit de verzameling van items
verwijderd, hoewel items 36 naar Uj-waarde wel in de verzameling past. Van de overige items
met hoge of lage Uj-waarden komt item 8 het eerst voor verwijdering in aanmerking, ofschoon
er hier geen inhoudelijke redenen voor kunnen worden gegeven.

Na verwijdering van item 8,9, 36 en 43 voldoen de overige 26 numerieke items globaal gezien
(stap 1) aan de assumpties van monotonie en afdoendheid:/^ = 38.1, df = 25 en p = .05,
ofschoon enkele items nog wel afwijken (stap 2) van de overige (Tabel 4). Om kanskapitalisa-
tie zoveel mogehjk te voorkomen, worden verder geen items meer op grond van hun Uj-
waarden verwijderd.

Uj-waarden binnen de verzameling van 30 numerieke items, en na weglating van item, 8,9,36
en 43. De betekenis van '1' en 'g' is dezelfde als in Tabel 3.

Eendimensionaliteit. Bij de gelijknamig maken-items werden al eerder (Figuur 2 en Tabel 4)
aanwijzingen gevonden dat ze een aparte latente dimensie meten. Voor het onderzoek naar
eendimensionaliteit wordt behalve van dit itemtype ook van de andere itemtypen steeds één
representant als splitteritem genomen (stap 3). De resultaten van de toetsen staan in Tabel 5.
De nulhypothese wordt voor de indeling op item 14 (vereenvoudigen), item 48 (gelijknamig
maken) en item 25 (verhoudingen) duidelijk verworpen. De indeling op item 12 (fracties)
levert een minder duidelijke verwerping van de nulhypothese op dan bij de andere drie
spHtteritems. o

ln Figuur 3 zijn de schattingen van de itemparameters in de groepen met item 48 fout en item 48
goed tegen elkaar afgezet (stap 4). De vier gelijknamig maken-items zijn in de groep met item
48 fout aanzienlijk moeilijker dan in de andere groep, hetgeen betekent dat deze items relatief
sterk met het splitteritem samenhangen. De moeilijkheid van item 19 (fracties) is in de groep
met X4g = O erg onnauwkeurig geschat, zodat aan de positie van dit item niet teveel waarde
moet worden gehecht.

Voor de overige dris splitteritems zijn eveneens de schattingen van de itemparameters in de
deelgroepen in een grafiek tegen elkaar afgezet (stap 4). Bij de indeling op item 14 (vereenvou-
digen) komen de vereenvoudigen-items als inhoudelijk homogene deelgroep naar voren. Bij
de indeling op item 12 (fracties: a/b deel van c is...) kunnen de fractie-items met dezelfde
presentatievorm als homogene deelgroep worden onderscheiden van de overige items. De
fractie-items met de vorm 'a/b is het .. .deel van c/d' lijken relatief minder goed in deze
deelgroep te passen.

Voor de indeling op item 25 (verhoudingen) is het beeld minder duidelijk. In Figuur 4 zijn de
schattingen van de itemparameters in de groepen met respectievelijk item 25 fout en item 25
goed tegen elkaar afgezet (stap 4). De verhoudingen-items 3,11 en 33 hangen het sterkst met
item 25 samen; de geschatte moeihjkheid van item 30 heeft een relatief grote schattingsfout en
hoort derhalve niet bij dit groepje. Item 3, 11, 25 en 33 hebben gemeen dat de dehng van de

Figuur 4: Grafiek van a,- voor de groepen met item 25 fout (X2S = 0) en item 25 goed (X2S = I). De
nummers van de items van het type verhoudingen zijn onderstreept.

Figuur 5: Grafiek van a,- voor de groepen met item 16 fout (X,^ = 0} en item 16 goed (Xj^ = I). Item 15
ontbreekt vanwege een minimale itempopulariteit in de groep met item 16 fout. De nummers
van de items van het type verhoudingen zijn onderstreept.

tellers (item 11 en 25) of de noemers (item 3 en 33) een gebroken getal als uitkomst heeft. Bij de
andere verhoudingen-items is deze uitkomst een positief geheel getal. Dit verschil tussen beide
groepen items zou van invloed kunnen zijn op het door de leerlingen gevolgde oplossingspro-
ces: Bij de delingen met een gebroken getal als uitkomst zijn er aanwijzingen uit retrospectieve
analyses dat leerlingen de bekende breuk vereenvoudigen en dan opnieuw proberen het
probleem op te lossen. Uit Figuur 4 blijkt dat item 16,30,39 en 46 - deling van de tellers of de
noemers levert een positief geheel getal - niet sterker met het splitteritem samenhangen dan de
overige items. Van deze vier items diende item 16 als splitteritem voor de toets van Andersen.
De nulhypothese van eendimensionaliteit werd in dit geval verworpen (X? = 54.6, df = 23 en p
<.001). In Figuur 5 zijn de schattingen van de itemparameters in de deelgroepen tegen elkaar
afgezet (stap 4). Van de verhoudingen-items hangen item 30 en 46 het sterkst samen met het
splitteritem. Dehng van tellers of noemers van deze drie items heeft een positief geheel getal als
uitkomst. Item 30 en 46 hangen echter niet sterker met het splitteritem samen dan een
aanzienlijk aantal andere items, zie Figuur 5. De conclusie is dat de verhoudingen-items zich
niet duidelijk als homogene deelgroep van de overige items onderscheiden.
De resultaten van het onderzoek naar eendimensionaliteit van de numerieke items zijn de
volgende: De gelijknamig maken-, vereenvoudigen- en fractie-items met de vorm 'a/b deel van
c is...' schenden de assumptie van eendimensionaliteit niet in ernstige mate. De overige drie
fractie-items zijn om inhoudelijke redenen aan de schaal toegevoegd, hoewel daarmee een
schending van de assumptie van eendimensionaliteit wordt veroorzaakt. De fractieschaal zal in
vervolgonderzoek echter niet nader worden onderzocht met behulp van het lineair logistisch
model, omdat de items voor de onderzochte populatie te moeihjk zijn (Bijlage 1). De
verhoudingen-items zijn waarschijnlijk niet eendimensioneel, maar worden wel als groep
verder geanalyseerd aangezien er geen inhoudelijk zinvolle onderverdeling van deze items in
eendimensionele metingen mogelijk is.

Monotonie en afdoendheid. Voor iedere deelgroep van numerieke items werd de toets van
Andersen op een hoge en een lage scoregroep berekend (stap 1). De resultaten staan in Tabel 6
en men kan er uit afleiden dat de assumpties van monotonie en afdoendheid niet ernstig zijn
geschonden voor de groepen van items als geheel.

De algemene conclusie van de analyses volgens het Rasch model en de onderzoekscyclus is dat
de geometrische items en de vereenvoudigen- en gelijknamig maken-items kunnen worden
opgevat als Rasch-homogene tests. Bij de fractie- en verhoudingen-items is de assumptie van
eendimensionaliteit in geringe mate geschonden. Behalve voor de fractie-items, zal voor de
overige itemtypen in vervolgonderzoek worden nagegaan welke deelvaardigheden nodig zijn

Resultaten van de toets van Andersen voor de vier deelgroepen van numerieke items.

bij het maken van de items. Dit onderzoek zal plaatsvinden met behulp van het lineair
logistisch model. Voor de gelijknamig maken-, de vereenvoudigen- en de verhoudingen-items
is hiermee reeds een begin gemaakt (Sijtsma, 1982).

De methoden die in dit onderzoek zijn gebruikt om te onderzoeken of empirische gegevens
voldoen aan het Rasch model, lijken gecombineerd goed te voldoen aan het doel van een
itemanalyse, het vinden van Rasch-homogene groepen van items. In dit artikel is de onder-
zoekscyclus toegepast op een verzameling van breukrekenitems. De bruikbaarheid van de
cyclus is ook gebleken bij andere soorten van items. Kok^ (1982) construeerde met behulp van
de cyclus een aantal Rasch-homogene schalen uit items van een persoonlijkheidsvragenlijst.
Het is echter geenszins de bedoeling om te suggereren dat itemanalyse volgens het Rasch
model altijd op de hier voorgestelde manier moet plaatsvinden. De bedoeling van het artikel is
vooral om een illustratie te geven van een itemanalyse volgens het Rasch model, zodanig dat
ook werkelijk alle assumpties van het model op empirische gegevens worden onderzocht.
Wanneer men Rasch-homogene groepen van hems heeft gevonden, beschikt men echter nog
niet in alle gevallen over bruikbare tests. Wanneer men bijvoorbeeld tests zou willen gebruiken
voor het nemen van individuele beslissingen in selectiesituaties, is het een vereiste dat de test
goed discrimineert rond de aftestgrens. Hiervoor biedt een Rasch-homogene test echter geen
garanties (Wood, 1978; Molenaar, 1982a, p. 24,25; 1982b, p. 177). Het lijkt daarom verstandig
om naast het onderzoek naar de assumpties van het Rasch model, eveneens populatie-afhan-
kelijke indices in beschouwing te nemen, zoals item-rest correlaties en betrouwbaarheidschat-
tingen. In dit onderzoek hebben bijvoorbeeld de geometrische items (k = 8) een coëfficiënt
alpha van .47 en de gelijknamig maken-items (k = 5) een coëfficiënt alpha van .89. Wanneer
men de test zodanig zou willen verlengen dat ze voor selectie-onderzoek een betrouwbaarheid
van .95 verkrijgen, dan moét de geometrische test volgens de Spearman-Brown formule uit 172
items bestaan en de gelijknamig maken-test uit 12 items. De eerste test is vanwege de lengte
ongeschikt om in de praktijk te gebruiken. De tweede test is na verlenging op psychometrische
gronden wel geschikt, maar men kan zich afvragen of de inhoud van de test niet te eenzijdig is
voor praktische toepassingen. Voor theoretisch onderzoek, zoals bijvoorbeeld naar deelvaar-
digheden die leerlingen toepassen bij het maken van breukrekenitems, lijken de gevonden
schalen, eventueel na verlenging, wel geschikt. De betrouwbaarheidseisen zijn hier minder
streng dan bij praktische toepassingen.

In het vorige hoofdstuk bleek al dat itemselectie volgens het Rasch model, zoals hier wordt
voorgesteld, niet enkel en alleen volgens formele criteria moet geschieden. Inhoudelijke
argumenten dienen steeds een rol te spelen naast formele argumenten. Verder lijkt het nodig
om met het oog op praktische toepassingen de samenhang tussen de items over personen te
beschouwen (zie bijvoorbeeld ook Molenaar, 1982b, p. 178). Deze laatste eis impliceert het
gebruik van populatie-afhankelijke indices naast het populatie-onafhankelijke Rasch model.

Bijlage 1: De items die in dit onderzoek weJrden g^ruikt en
de itenpopulariteiten.

5. Deze figuur is in gelijke stukken verdeeld. Welk deel van deze
figuur is gestreept?

17. Deze figuur is in gelijke stukken verdeeld. Welk deel van deze
figuur is gestreept?

1. Het gestreepte deel van figuur B is ... maal zo groot als het gestreepte
deel van figuur A.

35. Het gestreepte deel van figuur B is ... naai zo groot als het gestreepte
deel van figuur A.

30
54

12
15

ü
48

VI
14

.66
.66

.72

.62

.59

Vul cp de puntjes het antwoord in. Wanneer het antwoord een breuk
bevat, vereenvoudig dan het antwoord zoveel nogelijk.

.42
.39
.81

.46
.87

.37

.90

Andersen, E.B. A goodness of fit test for the Rasch model. Psychometrika, 1973,38,123-140.

Fischer, G.H. Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen. Bern:
Hans Huber, 1974.

Formann, A.K. Über die Verwendung von Items als Teilungskriterium für Modellkontrollen im Modell
von Rasch. Zeitschrift für experimentelle und angewandte Psychologie, 1981; 2S, 541-560.

Greeno, J.G. Cognitive objectives of instruction: Theory of knowledge for solving problems and answer-
ing questions. In: D. Klahr (Red.), Cognition and instruction. New York: John Wiley & Sons, Inc.,
1976.

Gustafsson, J.E. PML: A computer program for conditional estimation and testing in the Rasch model for
dichotomous items. Reports from the Institute of Education, University of Göteborg, nr. 85, 1979.

Gustafsson, J.E. Testing and obtaining fit of data to the Rasch model. British Journal of Mathematical
and Statistical Psychology, 1980,33,205-233.

Molenaar, I.W. Some improved diagnostics for failure of the Rasch model. HB-80-482-EX, Vakgroep
statistiek en meettheorie, FSW, Rijksuniversiteit Groningen, 1980. (Te verschijnen in Psychometrika,
1983).

Molenaar, I.W. Mensen die het beter meten. Kwantitatieve Methoden, 1982a, i, nr. 5,3-29.

Molenaar, I.W. Een tweede weging van de Mokkenschaal. Tijdschrift voor Onderwijsresearch, 1982b, 7,
172-181.

Sijtsma, K. Een lineair logistisch model ter verklaring van de moeilijkheidsparameters van breukreken-
items. In: F.G.L.C. Lodewijks & P.R.F. Simons (Red.), Strategieën in leren en ontwikkeling. Lisse:
Swets & Zeitlinger, 1982.

Stelzl, 1.1st der Modelltest des Rasch-Modells geeignet Homogenitätshypothesen zu prüfen? Ein Bericht
über Simulationsstudien mit inhomogenen Daten. Zeitschrift für experimentelle und angewandte
Psychologie, 1979,26,652-672.

Wollenberg, A.L. van den. The Rasch model and time-limit tests. An application and some theoretical
contributions, (dissertatie). Nijmegen: Stichting Studentenpers Nijmegen, 1979.

Wollenberg, A.L. van den. Two new test statistics for the Rasch model. Psychometrika, 1982a, 47,
123-140.

Wollenberg, A.L. van den. On the applicability of the Q, test for the Rasch model. Kwantitatieve
Methoden, 1982b, J, nr. 5, 30-55.

Wood, R. Fitting the Rasch model - A heady tale. British Journal of Mathematical and Statistical
Psychology, 1978, i/, 27-32.

Wright, B.D. & Stone, M.H. Best test design. Rasch measurement. Chicago: MESA Press, 1979.

Eén van de manieren waarop een onderzoeker van het wetenschappelijk onderwijs zichzelf in
een moeihjke positie kan brengen is: meewerken aan een opinieonderzoek onder studenten,
voorzover dit hun meningen over het gevolgde onderwijs betreft. Het dilemma is: eventuele
gevoeligheden ontzien en dus meningen hier en daar afzwakken, d.i. vervalsen; óf de kans
lopen van docentenzijde venijnige reacties te krijgen: het onderzoek zit slecht in elkaar, de
vragen waren tendentieus, de conclusies onverantwoord, het rapport verdient niet beter dan
de prullemand.

Deze en dergelijke reacties komen meestal van slechts enkele docenten, maar aan te nemen
valt dat ze onder een grotere groep leven, al worden ze daar niet geuit. Verder valt op dat dit
type reacties geregeld terugkeert. De reacties treden op onverschillig of de studenten de
enquête zelf organiseren dan wel de hulp inroepen van een onderzoeker van het onderwijs.
Verder schijnt het weinig uit te maken, of het rapport wel of geen opvallende tactloosheden
bevat, of het wel of niet door een bestuursorgaan of onderwijscommissie is geratificeerd en of
de pers er al of geen aandacht aan heeft besteed.

Geven de opvattingen van de studenten, zoals die in een rapport tot uitdrukking komen, op
zichzelf aanleiding tot scherpe, afwijzende reacties? Naar mijn indruk is dat in de regel niet het
geval. Punten die telkens weerkeren in de enquête zijn bijvoorbeeld:

- studenten klagen over een te hoge studiebelasting. Ze menen dat er te weinig tijd is om de
stof goed te verwerken, of om bepaalde onderdelen meer diepgaand te bestuderen;

- tegenstellingen tussen de opvattingen van docenten en studenten worden gesignaleerd;

- er wordt twijfel geuit over het belang van sommige studie-onderdelen voor de verdere
loopbaan.

Uit deze en dergelijke meningen blijkt niet slechts kritiek, maar toch ook een vrij zakelijke
belangstelling voor verbeteringen in het onderwijs. Men zou zich kunnen voorstellen - en dat is
een reactie die gelukkig óók onder docenten voorkomt - dat naar aanleiding van zulke opinies
wordt nagegaan, hoe reëel en belangrijk de problemen zijn en hoe ze opgelost kunnen worden.
Vanwaar dan toch bij sommige docenten zo'n heftige afwijzing? Ik zal me hieronder wagen aan
enkele - en zeker niet alle - interpretaties, die naar ik hoop, bijdragen aan een beter inzicht in
de relaties tussen docenten, studenten en onderzoekers van het onderwijs.

Een lid van het wetenschappelijk corps is in het algemeen goed in staat, houtsnijdende kritiek
te geven op onderzoek. Hij kent de diverse methodische valkuilen en ziet - niet zonder

'Schadenfreude' - anderen daar nu en dan invallen. Hij bekritiseert graag onderzoek en sluit
daarbij zijn eigen werk niet uit. Het is een aantrekkelijke en nuttige mogelijkheid om in
gesublimeerde vorm agressie af te reageren.

Heel anders staat het met kritiek op het onderwijs. In de reactie daarop wordt veel nadruk
gelegd op de autonomie van de docent. Hoe een collegadocent onderwijs geeft, is zijn zaak.
Kritiek wordt alleen gegeven en geaccepteerd binnen de eigen vakgroep en liefst moet het dan
alleen over de inhoudelijke aspecten van het onderwijs gaan. Duidelijke criteria - vergelijk-
baar met methodologische eisen ten opzichte van onderzoek - ontbreken bij het beoordelen
van de wijze waarop iemand onderwijs geeft. Toezicht op het onderwijs is er niet, en is naar de
mening van diverse docenten ook ongewenst. Doceren is iets persoonlijks.
Wat zal er nu gebeuren als een docent, die tevens onderzoeker is, een rapport voor zich krijgt
over het onderwijs waaraan hij meewerkt? Tien tegen één dat hij zijn aandacht richt op de
kwaliteit van het desbetreffende onderzoek. Dat aspect ligt immers veel meer in zijn lijn, en
bovendien relativeert de kritiek op het onderzoek de vervelende kritiek op zijn onderwijs.
Voor hen die meewerken aan een onderzoek naar de opinies van studenten over het onderwijs
volgt hier enerzijds uit, dat het onderzoek zeer zorgvuldig opgezet moet worden, anderzijds
dat een docent desgewenst de resultaten altijd kan afwijzen, want geen enkel onderzoek is
perfect. De aandacht dient gericht te zijn op structurele en zakelijke aspecten. Nooit mag m.i.
een onderzoeker meewerken aan het brandmerken van een bepaalde docent. In dat verband
dienen de gegevens zonder naam en toenaam gepubliceerd te worden, terwijl individuele
gegevens uitsluitend aan de docent worden verstrekt op wie die gegevens betrekking hebben.

De medewerkers van universitaire of facultaire centra voor onderzoek en ontwikkeling van het
onderwijs worden wel eens met een scheef oog bekeken. Psychologen, die deze centra nog al
eens bemannen, staan bekend als lastig, sociologen, die ook wel op de centra voorkomen, als
alternatieve figuren. Voeg daarbij dat ze i.h.a. wel veel ideeën, maar weinig invloed hebben op
het onderwijs en de verdenking ligt voor de hand dat ze misschien via de studenten zullen
proberen hun ideeën door te drukken. Via een enquête bijvoorbeeld...
Hoe realistisch is een dergelijke verdenking? Welnu, er zit natuuriijk wel een kern van
waarheid in. Onderwijsresearchers sluiten zich zo nu en dan aan bij de studenten als het gaat
om de invoering van bepaalde vernieuwingen (soms echter ook verbinden ze zich juist met het
streven van de docenten!). Stellig zijn er wel meningen van studenten, die de onderwijsre-
searcher aanspreken en die hij in het rapport - al of niet bewust - wat meer nadruk geeft bij de
interpretatie en conclusies. Maar voor het overige is de verdenking vrijwel steeds volledig uit
de lucht gegrepen.

De vragenlijsten worden meestal zo geconstrueerd, dat alle verschillen in opvatting waarnaar
gevraagd wordt aan bod kunnen komen. Tendentieuze vragen in één richting worden in
evenwicht gehouden door al even tendentieuze vragen in de tegengestelde richting. Er is steeds
de mogelijkheid, een vraag niet te beantwoorden of 'geen mening' in te vullen. Het blijkt, dat
de studenten ook niet zomaar meegaan met eventuele suggesties in de vragenlijst. Bij een
Leids onderzoek bleken tweedejaars medische studenten zich, anders dan verwacht, positief
uit te laten over de vele hoorcolleges in dat jaar, om een voorbeeld te noemen. Mijn
overtuiging is dat onderwijsresearchers alles in het werk stellen om de meningen van studenten
zo betrouwbaar en oprecht mogelijk te peilen en weer te geven. De vraag is wèl of dat lukt;
rriaar in geen geval worden opzettelijk a priori meningen aan de respondenten opgedrongen.

Bij het beoordelen van de waarde van enquêtes is het goed de beperkingen van deze methode
in het oog te houden. Meningen van studenten kunnen foutief of vertekend zijn; bepaalde
meningen komen in de vragenlijst niet aan bod en meestal is er een flinke non-respons
(ongeveer 20 ä 50%). Dat interview- en enquêtegegevens 'zacht' zijn blijkt wel uit verschillen
tussen groepsinterviews en individuele interviews; eerstgenoemde leveren meer negatieve
uitingen op, doordat de groepsleden vaak een ontremmende werking op elkaar uitoefenen.
Enquête- en interviewgegevens kunnen echter van ongemeen groot belang zijn als het gaat om
probleemverkenning. Ze leiden immers bij juist gebruik tot hypotheses over de aard en
omvang van de problemen. Verdere toetsing blijft uiteraard geboden.

We hebben in het bovenstaande getracht de heftige reactie, die bij sommige docenten wordt
opgewekt door opinie-peilingen over het onderwijs, te relateren aan het onderzoekerschap
van docenten en aan het hier en daar bestaande wantrouwen tegen onderwijsresearchers.
Daarmee zijn de interpretatiemogelijkheden nog lang niet uitgeput. De virulente reactie kan
op toevallige omstandigheden teruggevoerd worden, op persoonlijke tegensteUingen, op
interne verhoudingen binnen een vakgroep. De hier gegeven interpretaties echter lijken van
wat meer algemeen belang. Acht men ze plausibel, dan zijn de volgende conclusies mogelijk:

- Virulente reacties mogen dan sterk opvallen, vele docenten reageren terecht meer con-
structief op kritiek van studentenzijde.

- Enquêtes leveren wel geen harde feiten op, maar er kunnen genoeg interessante ideeën aan
ontleend worden, van belang voor de verbetering van het onderwijs.

- Wie echter bij de evaluatie van het onderwijs volstaat met opiniepeilingen, mist vermoede-
lijk de boot; andere types onderzoekingen (toetsen, observaties, onderwijsexperimenten
etc.) zullen de subjectieve gegevens uit enquêtes moeten aanvullen en corrigeren. En dan
blijft er altijd nog voldoende ruimte over voor verstandig overleg en weloverwogen besluit-
vorming, kortom voor het voeren van een beleid.

Van Naerssen (1982) doet een aanval op het aan de universiteit meest gebruikte tentamensy-
steem die de lezer aan het nadenken zet; hij maakt duidelijk dat het systeem arbitrair is. Van
Naerssen geeft bovendien een alternatief. In dit voorstel wordt bij elk tentamen de caesuur
voor de beslissing zakken/slagen vervangen door meerdere aftestgrenzen. Een student die een
hoge prestatie levert kan een hoog judicium verruilen voor extra studiepunten. Een student die
in het oude systeem een lichte onvoldoende krijgt cn het tentamen in principe opnieuw zou
moeten doen, heeft toch nog studiepunten verdiend.

In het voorstel is onder meer kompensatie mogelijk: een onvoldoende voor één vak hoeft geen
konsekwenties voor de student te hebben als er redelijke resultaten bij andere tentamens
behaald zijn. Een kompensatie-regeling komt wel voor bij propedeuses. Een dergelijke
regeling is dan heel nuttig om de invloed van meetfouten bij tentamens op de einduitslag te
verkleinen als herhaalde tentamendeelname in eerste instantie niet mogelijk is. Buiten de
propedeuse is het niet gebruikelijk een kompensatoire tentamenregeling te ontwerpen. Wil-
brink's voorstellen (Wilbrink, 1980) zijn in deze een uitzondering.

Kompensatie lijkt intuïtief aantrekkelijk. Zonder kompensatie kan men bijvoorbeeld een
goede student met slechts één lichte onvoldoende nog geen bul uitreiken terwijl men deze
student wellicht verkiest boven een wel geslaagde zesjesklant. Van Naerssen gaat verder. In
zijn voorstel kunnen zwakke onvoldoendes ook gekompenseerd worden door matige resulta-
ten op extra tentamens: een student kan de studie suksesvol beëindigen als hij van veel weinig
afweet. Dat lijkt mij een zwak punt, al moet ik toegeven dat het verschil met het laten
afstuderen van een zesjesklant gering is.

Bovendien is het in principe mogelijk dat een student met wat geluk extra punten in de wacht
sleept bij onvoorbereide tentamens. Van Naerssen onderkent dit laatste probleem: hij eist
terecht ook bij de laagste aftestgrens een redelijke meetnauwkeurigheid. Wellicht betekent dit
dat men een op maat gesneden of tweetraps-testprocedure invoert.

Het voorstel wordt onderbouwd met een verwijzing naar het feit dat de hoeveelheid geleerde
stof een (praktisch) kontinue functie van leertijd is. Van Naerssen kontrasteert dit model met
het model van beheersingsleren dat een te simplistisch alles-of-niets leren zou impliceren.
Dit kontrast is onjuist aangezien bij het kriterium-georienteerd meten veelal uitgegaan wordt
van een beheersingskontinuum. Ook de waardering van het beheersings-niveau in termen van
utiliteit bij zakken en slagen wordt veelal als een kontinue functie van het niveau gezien.
Diskontinu is de beslissing en deze hangt af van het geschatte niveau. Er lijkt niets op tegen om
meer dan twee beslissingsmogelijkheden te creëren. Eén mogelijkheid zou kunnen luiden
'zwak, maar kompensabel door redelijke resultaten op andere tentamens'. Zo is een lichte
kompensatiemogelijkheid ingebouwd die zeker nu studenttijd een schaars goed is, van nut kan
zijn. De besliskundige benadering is dus niet strijdig met het voorstel van Van Naerssen om
meer dan één aftestgrens in te voeren. De ene aftestgrens die gewoonlijk gebruikt wordt, is ook

niet meer arbitrair dan een aantal aftestgrenzen. Hoogstens zwakt de fijnere beslissingsstruk-
tuur het probleem van de arbitraire grenzen wat af.

Zowel in de besliskundige benadering van het aftestgrensprobleem als in het voorstel van Van
Naerssen wordt nogal de nadruk gelegd op het vergelijken van resultaten met normen om
vervolgens een beshssing te nemen. Een tevoren bekende aftestgrens heeft in het huidige
systeem nog een belangrijke functie: zij geeft het minimale niveau aan waarnaar studenten
behoren te streven. In het voorstel van Van Naerssen is er sprake van meerdere niveau's als de
aftestgrenzen redelijk ver van elkaar verwijderd zijn. Het is de vraag of men studenten
meerdere minimale niveau's zou moeten aanbieden, vooral als zij kunnen kiezen uit een
aanbod van kursussen met bijbehorende eisen. Een uitzondering kan gemaakt worden bij
kursussen met verschillende doelgroepen waarbij voor de doelgroepen verschillende eisen
gesteld zouden kunnen worden (De Gruijter, 1978). Het is echter de vraag of in zo een geval
het invoeren van verschillende kursussen niet doelmatiger is.

De Gruijter D.N.M. Slagen of zakken, kleine verschillen met grote gevolgen. In: H.F.M. Crombag en

T.M. Chang Een kleine zoölogie van het onderwijs. Leiden: Universitaire Pers Leiden, 1978.
Van Naerssen, R.F. Over punten, judicia en 'mastery' bij het hoger onderwijs. Tijdschrift voor Onder-
wijsresearch, 1982, 7, 223-225.
Wilbrink, B. Toetsen, herkansen, studievertraging: achterliggende mechanismen. Onderzoek van Onder-
wijs, 1980,9/2,7-11.

Van Naerssen (1982) gooit een balletje op over de mogelijkheid en wenselijkheid studenten bij
de honorering van hun tentamenprestatie de keuze te laten tussen meer studiepunten en een
lager judicium enerzijds en minder studiepunten en een hoger judicium anderzijds. Hij denkt
dan vooral aan tentamens die een min of meer omvangrijke stof bestrijken, waarin een
mengsel van vele inzichten gemeten wordt die niet noodzakelijkerwijze met elkaar samenhan-
gen (zoals 'veelleestentamens' binnen de sociaal-wetenschappelijke studierichtingen).
Een dergehjke keuzevrijheid zou volgens Van Naerssen kunnen bijdragen tot bekorting van
de studieduur (minder tentamenrecidive) en verhoging van de flexibiliteit in het hoger onder-
wijs. Hij constateert echter dat dit idee bij sommige docenten sterke weerstanden wekt en hij
roept de lezers van dit tijdschrift op argumenten pro en contra aan te voeren. Zelf tekent hij als
kritische noot aan dat deze opzet alleen verantwoord is als de toets en de te hanteren
beslissingsregels aan enkele bijzondere eisen van betrouwbaarheid voldoen. Verder schrijft hij
de geconstateerde weerstanden toe aan een 'mastery fallacy', d.w.z. de misvatting van
tentaminatoren dat er bij elke leerstofeenheid (programmaonderdeel, vak) een natuuriijke
grens zou bestaan tussen weters en niet-weters.

Is zo'n opzet mogelijk en wenselijk? Mijn antwoord is: binnen elk examenprogramma is er wel
een aantal onderdelen waarbij deze opzet serieus overwogen kan worden, maar de gangbare
tentamens zijn voor dat doel niet geschikt.

De modale tentaminator heeft één aftestcriterium voor ogen, namelijk het nog-net-acceptabe-
le beheersingsniveau van de desbetreffende leerstofeenheid ('een zesje'). De overige tenta-
menjudicia (nul tot vijf en zeven tot tien) vormen een schaal om dat criterium heen. De
waargenomen of verwachte verdeling van de prestaties rond het criterium wordt zo ongeveer
bestreken door de gehele schaal. Naarmate de prestaties van de student meer onder of boven
de maat zijn, krijgt hij judicia lager of hoger dan zes. De judicia hebben voor de modale
tentaminator geen absolute betekenis maar geven een afstand aan ten opzichte van het
criterium. Nul is zeer ver onder de maat, lager dan de meeste medestudenten. Tien is zeer ver
boven de maat, hoger dan van de meeste studenten verwacht kan worden.
Wat is nu de relatie met het studiepuntensysteem? Studiepunten worden toegekend telkens als
een door de studieleiding relevant geachte leerstofeenheid op of boven een nog-net-acceptabel
beheersingsniveau is voltooid, en wel op basis van het aantal goedbestede weken dat een
gemiddeld begaafde student nodig heeft om dat niveau te bereiken (Holleman, 1983). De
judicia van de modale tentaminator kunnen dus niet met een of andere eenvoudige vuistregel
worden getransponeerd in studiepunten. Immers, afgezien van het grove pass/fail judicium,
zijn de cijferjudicia niet toegesneden op de dubbele eis dat ze corresponderen met door de
studieleiding relevant geachte leerstofeenheden en met aantallen goedbestede weken.
Het voorstel van Van Naerssen heeft een onderwijspolitieke vooronderstelling die we zouden

kunnen betitelen als de 'range fallacy', d.w.z. de misvatting dat de schaal van judicia (die de
modale tentaminator hanteert) niet alleen de afstand ten opzichte van het aftestcriterium
meet, maar ook het gehele traject tussen het veronderstelde beginniveau en het maximaal
bereikbare eindniveau zou bestrijken, in termen van hoeveelheden behaalde leerwinst (geope-
rationahseerd in goedbestede weken).

Deze valkuil kan worden vermeden door modulisering van de leerstof van de desbetreffende
vakken: in basiseenheden, verrijkingseenheden-in-de-breedte en verrijkingseenheden-in-de-
diepte. De faculteitsraad stelt voor elk vak vast welke (of hoevele) modulen verplicht zijn voor
iedere student, welke (of hoevele) modulen de student naar eigen keuze in zijn pakket kan
opnemen, en hoeveel studiepunten de onderscheiden modulen opleveren (naar rato van het
aantal goedbestede weken dat nodig is om het nog-net-acceptabele beheersingsniveau te
bereiken). De tentaminator construeert voor elk moduul een deeltoets en steh daarvoor
telkens een aftestgrens vast. Verder worden de prestaties per moduul met de gangbare
cijferjudicia beoordeeld. De examencommissie werkt in beslissingsregels uit hoe het totaalcij-
fer van het tentamen wordt berekend en in hoeverre voldoende en onvoldoende moduuljudi-
cia elkaar kunnen compenseren. Binnen zo'n opzet heeft de student een zekere keuzevrijheid
om minder studiepunten te halen met een hoger totaalcijfer, danwel meer studiepunten met
een lager totaalcijfer.

Het hierboven bepleite onderscheid tussen kern- en keuzemodulen is tevens een remedie tegen
een andere misvatting: de 'administrators fallacy'. D.w.z. het wanidee van bureaucraten (en
van sommige studenten) dat de kwaliteit van de gediplomeerden van een opleiding niets anders
is dan het aantal behaalde studiepunten, ongeacht de inhoud van het geleerde. Het Ameri-
kaanse 'credit point system' (Bevers, 1975) heeft ernstig geleden van deze misvatting, die de
faculteiten, vakgroepen en docenten verhindert om de kwaliteit van de gediplomeerden in de
hand te houden. Laten we in Nederland daaruit lering trekken.

Bevers, J.A. A.M. Het Amerikaanse studiepuntenstelsel. In De invoering van een studiepuntenstelsel in
het hoger onderwijs (Vijfde publicatie van de Commissie Ontwikkeling Hoger Onderwijs), 'sGra-
venhage: Staatsuitgeverij, 1975.

Holleman, J.W. Contouren van hel universitaire studiepuntensysteem (O&O-lntern 20). Utrecht:
Rijksuniversiteit Utrecht, Afdeling Onderzoek en Ontwikkeling van Onderwijs, 1983.

Naerssen R.F. van. Over punten, judicia en 'mastery' bij het hoger onderwijs. Tijdschrift voor Onderwijs-
research, 1982, 7, 223-225.

Adolescenten met leermoeilijkheden in het IBO
Groningen, Wolters-Noordhoff, 1981, ƒ39,-.

In het proefschrift 'Adolescenten met leermoeihjkheden in het IBO' wordt verslag gedaan van een
onderzoek naar het effect van orthopedagogisch-didactische hulpverlening in het Individueel Technisch
Onderwijs bij leerlingen in het eerste leerjaar. In de presentatie van het onderzoek zijn twee delen te
onderkennen: in het eerste deel worden de theoretische overwegingen, die geleid hebben tot de opzet van
het hulpverleningsprogramma, uiteengezet en in het tweede deel wordt het onderzoek naar het effect van
het programma gepresenteerd. Op beide delen gaan we achtereenvolgens in.

De Groot sluit in zijn onderzoek aan bij de theorie van het partieel defect, of beter gezegd: steunt op een
eigen variant van die theorie. Nu bestaat er, zoals de Groot terecht opmerkt (1.2.), werkelijk geen gebrek
aan theorieën, verklaringsmodellen, hulpverleningsprogramma's ed., gericht op de problematiek van
leerstoornissen. Voeg daarbij dat het overgrote deel nauwelijks empirisch ondersteund is en het zal
duidelijk zijn dat alleen dringende redenen rechtvaardigen dat een nieuwe variant aan het gamma wordt
toegevoegd. De Groot heeft deze dringende redenen: zijn uitgangspunt is de theorie van het partieel
defect (Bladergroen, 1965), aangevuld met de notie 'circulaire causaliteit'. Beide aspecten komen in het
vierde hoofdstuk - 'Verschillende achtergronden van leermoeilijkheden' - aan de orde.
In het vierde hoofdstuk worden een aantal mogelijke oorzaken voor leermoeilijkheden kort genoemd. De
opsomming is gebaseerd op nogal gedateerde literatuur: recente ontwikkelingen in de informatieverwer-
kingsbenadering van leermoeilijkheden ontbreken bijvoorbeeld. De bespreking wordt niet afgerond met
een integratie en/of een eigen visie ten aanzien van de oorzaken van leermoeilijkheden. Alleen in de
paragraaf gewijd aan het begrip multi-causaliteit merkt De Groot op dat de door Van Meel gesignaleerde
multi-causaliteit in de oorzaken van leermoeilijkheden beter vervangen kan worden door circulaire
causaliteit. Het begrip circulaire causaliteit wordt dan gekoppeld aan een visie op de menselijke ontwikke-
ling als een zich tijdens het opgroeien op een steeds hoger en gecompliceerder niveau herstructurerende
totaliteit. Een storing in dit - wel spiraalsgewijs voorgestelde - proces zou kunnen leiden tot problemen op
diverse gebieden van het (schoolse) functioneren. Diagnostiek moet zich dan richten op het identificeren
van de aard van de storing. Terzijde zij opgemerkt, dat de term circulaire causaliteit ook door De Groot in
een heel ander verband gebruikt wordt: De Groot ziet ook een circulair causaal verband tussen theorie,
diagnostiek en behandeling (4.2. en 6.2.2.).

Na een opsomming van diverse definities van leerstoornissen cn een verwijzing naar een uitvoerige
literatuurstudie in een nog niet uitgegeven boek kiest De Groot voor een verklaringsmodel voor leermoei-
lijkheden dat gebaseerd is op Bladergroen's theorie van het partieel defect. De redenen voor die keuze en
- zeker zo interessant - De Groot's antwoord op de kritiek op het partieel defect denken (Franken, 1977;
recent overzicht in Dumont, 1982) ontbreken in de beschouwingen. In de theorie van het partieel defect
worden leerstoornissen van in potentie normale kinderen beschouwd als te zijn veroorzaakt door uitval
van de ontwikkeling van een structuurgebied (motoriek, sensoriek, ruimtelijk voorstellen ed.) van de
intelligentie. Hoe dc theorie van het partieel defect en de notie 'circulaire causaliteit' in elkaar grijpen en
waaruit de op grond daarvan ontwikkelde theoretische achtergrond van het onderzoek nu bestaat, wordt
verder niet toegelicht.

In het daarop volgende hoofdstuk, het vijfde, worden een aantal behandelingsstrategieën aan de orde
gesteld. Ook hier laat De Groot een recente ontwikkeling, namelijk de op taakanalyse berustende
aanpakken, liggen. Onduidelijk blijft tot welke slotsom De Groot nu precies komt na de bespreking van
de behandelingsstrategieën en wat de relatie is met de in het voorgaande hoofdstuk beschreven theoreti-
sche noties. Ronduit spijtig is dat hier niet expliciet aandacht is besteed aan de toch bestaande bchande-
lingstraditie (en het daarop uitgevoerde evaluatie-onderzoek) op grond van de theorie van het partieel
defect. Na de opsomming van behandelingsstrategieën en na enkele beschouwingen over orthodidactiek,
algemene en specifieke voorwaarden, blijkt het onderwerp 'behandelingsstrategieën' afdoende behan-
deld te zijn.

Over het onderwerp van deze evaluatiestudie, de feitehjk toegepaste orthopedagogisch-orthodidactische

hulpverlening, hebben we dan nog niets kunnen lezen. Van de lezer wordt kennelijk verwacht dat hij
aanneemt dat het toegepaste hulpverleningsprogramma een adequate vertaling van De Groot's noties
over leermoeilijkheden is.

Resumerend: het achterliggend theoretisch kader is een niet navolgbaar mengsel van (delen van) de
theorie van het partieel defect, van een visie op ontwikkeling als een zich op steeds hoger en gecompliceer-
der niveau herstructureren en van algemene en specifieke leervoorwaarden. Daarmee blijft ook de
theoretische verantwoording van de differentiatietoets (DIBO) en van het hulpverleningsprogramma in
het vage.

In de opzet van het onderzoek wordt uitgegaan van een experimentele en een controle groep: de
experimentele groep bestaat uit 187 leerlingen, waarvan 60 met een discrepantie in het DIBO profiel; de
controle groep telt 111 leerlingen waarvan weer 60 met een discrepantie in het DIBO profiel. Dc
experimentele groep neemt deel aan het behandelingsprogramma, de controle groep niet.
Omdat de experimentele en de controle groep uit verschillende scholen in verschillende plaatsen gerecru-
teerd zijn en at random toewijzing niet mogelijk was, is 'een vorm van matching' toegepast. Het verslag
meldt slechts dat 'uitgegaan is van demografische variabelen met betrekking tot de bevolkingsopbouw.'
Het effect van de hulpverlening aan de experimentele groep wordt met de DIBO in een pre-post
testsituatie vastgesteld. Verder is bij de 2 x 60 leerlingen met een discrepantief DIBO profiel nog een
aantal individuele tests afgenomen (WISC, Binet-Hiaten, Mozaïektest, ed.).

In feite maakt De Groot naast het onderscheid tussen experimentele en controle groep een tweede
onderscheid in de steekproef leerlingen: namelijk de groep zwakbegaafden en de groep leerlingen met
leerstoornissen (parallel aan harmonisch en discrepantief DIBO profiel).

Wanneer in het onderzoek uitgegaan wordt van de theorie van het partieel defect en als de DIBO en het
hulpverleningsprogramma daarop gebaseerd zijn (wij konden dat niet nagaan, maar stel), dan zou een
nadere analyse van de leerlingen met leerstoornissen (de 2 x 60) voor de hand liggen. Van die leerlingen is
met behulp van de individueel afgenomen tests het partieel defect vrij nauwkeurig te omschrijven en is
vervolgens na te gaan of de DIBO selectie correct was. Tenslotte had in een vergelijking van experimen-
tele en controlegroep het effect van het hulpverleningsprogramma voor dc verschillende vormen van het
partieel defect achterhaald kunnen worden.

De Groot slaat geheel andere wegen in (zie hoofdstuk 8). Er wordt een kwantitatieve vergelijking van de
gemiddelden op de DIBO subtest scores voor de gehele experimentele en de gehele controle groep voor
en na het hulpverleningsprogramma gemaakt. Ofwel: het programma wordt geëvalueerd in een steek-
proef leerlingen, bestaande zowel uit leerlingen voor wie het programma wel, als uit leerlingen voor wie
het programma niet bedoeld was! In de volgende paragraaf (8.3.) wordt met andere woorden dezelfde
informatie nog eens gegeven (nu in termen van voldoende/onvoldoende) en wordt nagegaan wat de
bijdrage van de afzonderlijke DIBO subtestverschillen aan de totaalverschilscore is. Van de individueel
afgenomen tests bij de leerlingen met leerstoornissen (de 2 x 60) wordt de correlatie met de DIBO
totaalverschilscore berekend. Er blijkt geen enkele samenhang van betekenis tc zijn.
Resumerend: het hoofddoel van het empirisch deel van het onderzoeksverslag - duidelijk maken wat het
effect van de hulpverleningsmethode is - wordt o.i. door de inadequate analyse van de gegevens niet
bereikt.

Al met al ontstaat het beeld van een onderzoeksverslag waarin op de theoretische uitgangspunten en de
concrete uitwerking ervan in een hulpverleningsprogramma weinig greep te krijgen is en waarin over de
geldigheid van de empirische bevindingen (De Groot concludeert dat het hulpverleningsprogramma een
positief effect heeft) feitelijk geen uitspraak gedaan mag worden. Bij dat alles blijft het zeer wel mogelijk
dat de theorie, de differentiatietoets en het hulpverleningsprogramma van De Groot de moeite waard
zijn; het blijkt alleen niet uit dit proefschrift.

Bladergroen, W.J. Psychische gevolgen van de remmingen in de sensorimotorische ontwikkeling (oorspr.
1965). In: Broek, F.J. van den en Nooteboom, W.E. (eds.), Keuze uit het werk van Wilhelmina J.
Bladergroen. IJmuidcn, 1978.
Dumont, J.J. Leerstoornissen III, Controversen en perspectieven. Rotterdam, 1982.
Franken, M.L.O. Psychomotorische theorieën en trainingsprogramma's. Groningen, 1977.

Onderwijs en sociale ontwikkeling. Een tijdreeksonderzoek naar de effecten van een onder-
wijsprogramma voor sociale cognitie.
Lisse: Swets & Zeitlinger, 1981. Pp. XI + 331.

In november 1981 werd het hierboven genoemde werk als proefschrift verdedigd aan de Katholieke
Universiteit te Nijmegen, een werkstuk van zeer behoorlijk gehalte dat onder meer de aandacht verdient
omdat het evaluatie bevat van een onderwijsprogramma, dat gebaseerd is op een theorie over de
ontwikkeling van sociale cognitie, waarbij gebruik gemaakt wordt van tijdreeksanalysemethoden.
De wijze waarop de sociaal-cognitieve ontwikkeling beïnvloed kan worden is ten minste vanuit twee
invalshoeken te benaderen: vanuit een ontwikkelingspsychologische en vanuit een onderwijskundige.
Deze optieken hangen nauw met elkaar samen, maar kunnen niettemin onderscheiden worden. Waar het
gaat om de bestudering van de effecten van een onderwijsprogramma voor sociale cognitie kan een
dergelijke studie informatie opleveren over de ontwikkeling van sociale cognities. Onderwijskundig
bezien kan zo'n studie bijdragen tot kennis over het (sub)domein waarop de theorie betrekking heeft. Als
uitgangspunt wordt het beschrijvingsmodel van de ontwikkeling van sociaal perspectiefnemen van Sel-
man en Byme (1974) gekozen, 'omdat het een relatief goed uitgewerkt model is van de sociaal-cognitieve
ontwikkeling dat als longitudinaal model bovendien een aanknopingspunt kan bieden voor de ontwikke-
ling van een longitudinaal gestructureerd curriculum' (p. 10).

De structuur van het onderwijsprogramma bestaat uit de volgende sequentie van 8 sociaal-cognitieve
vaardigheden: identificeren, discrimineren, differentiëren, vergelijken, zich verplaatsen (perspectief
nemen), relateren, coördineren en verdisconteren. Het onderzoek werd uitgevoerd onder leerlingen van
het kleuteronderwijs en van de eerste drie leerjaren van het lager onderwijs, en het werd ingericht volgens
een lange (met tijdsinterval van 1 maand tussen de meetmomenten) en een korte (tijdsinterval van 2
weken) tijdreeksopzet. Het betreft een quasi-experimenteel repetitief controlegroep tijdreeksonderzoek
met meer subjecten en een meervoudige sequentiële interventie.

Komen in de eerste drie hoofdstukken de theoretische achtergronden, de ontwikkeling van het curri-
culum, het algemene onderzoekskader en de onderzoeksvraagstellingen aan de orde, in hoofdstuk 4
worden de taakoperationalisaties van de sociaal-cognitieve vaardigheden beschreven. In dit hoofdstuk
wordt ook verslag gedaan van een onderzoek naar de validiteit van het sociaal-cognitieve instrumenta-
rium gebruik makend van de multitrait-mulimethode aanpak (en factoranalyse).

Gerris legt in zijn proefschrift het accent op het tijdreeksonderzoek naar de effecten van een onderwijs-
programma voor sociale cognitie en het is dan ook niet verwonderlijk dat eerst uitgebreid ingegaan wordt
op de implicaties van tijdreeksonderzoek in het algemeen (hoofdstuk 5) alvorens de lange en korte
tijdreeksonderzoeken aan bod komen (hoofdstukken 6 en 7). Hwifdstuk 8 gaat in op de hiërarchische
ordening van de sociaal-cognitieve taakvariabelen en het laatste hoofdstuk (hoofdstuk 9) op de implicaties
van het uitgevoerde onderzoek en suggesties voor verder onderzoek.

Zoals opgemerkt, het tijdreeksonderzoek staat in dit proefschrift centraal. Het gebruikte analyse-model
is dat van Simonton (1977) en is in feite een lineair model voor multiple-regressie-analyse. Twee
uitwerkingen van dit model worden toegepast: ten eerste, een multiple-regressievergelijking 'om bij
tijdreeksgegevens afkomstig van een enkele (experimentele) groep na te gaan of de interventie het
verwachte effectpatroon heeft opgeleverd' (p. 114), en een tweede, een vergelijking te gebruiken bij
tijdreeksgegevens afkomstig van een experimentele en een controle groep (p. 115). In het laatste geval
bevat de vergelijking 8 regressiecocfficiënten die elk een bepaalde betekenis hebben. Aan de hand van de
b5-coëfficiënten, bijvoorbeeld, kan worden bepaald of de experimentele behandeling geleid heeft tot een
verhoging van het prestatieniveau (intercept). Zie voor een beschrijving van de andere coëfficiënten pp.
116-117. De gegevens zijn op basis van het model van Simonton geanalyseerd op het niveau van de
afzonderlijke sociaal-cognitieve taakvariabelen en op dat van sociaal-cognitieve composiet-variabelen
(gestandaardiseerde scores). In totaal werden 4 onderzoeksgroepen onderscheiden waarbij de invloed is
nagegaan van het onderwijsprogramma op bepaalde sociaal-cognitieve taakvariabelen: Al een groep uit
het kleuteronderwijs, A2 een groep uit het tweede leerjaar van het lager onderwijs, BI een groep uit het
eerste en B2 een groep uit het derde leerjaar van het lager onderwijs. De A-groepen volgen een lange
tijdreeksopzet, de B-groepen een korte.

Het is in het bestek van een bespreking ondoenlijk gedetailleerd in te gaan op de analyseresultaten.
Volstaan wordt met de volgende samenvatting van de hand van Gerris zelf (p. 232): 'Dc verwachte

positieve invloed van de experimentele behandeling met behulp van het onderwijsprogramma voor
sociale cognitie bleek op het niveau van de afzonderlijke taakvariabelen van beperkte omvang te zijn
geweest en zich niet in het algemeen op de gehanteerde taakvariabelen te manifesteren.' Uitgaande van
het niveau van sociaal-cognitieve composietvariabelen 'bleek uit de tijdreeksanalyse het gerealiseerde
onderwijs m.b.t. sociaal-cognitieve vaardigheden aanleiding te hebben gegeven tot een verhoging van het
gemiddelde scoreniveau op de relateer- en verdisconteer-composietvariabele (bij leerlingen van het
tweede leerjaar lager onderwijs), de verplaatsings- en relateercomposietvariabele (bij leerlingen van het
eerste leerjaar lager onderwijs) en de koördineer- en verdisconteer-composietvariabelc (bij leerlingen
van het derde leerjaar lager onderwijs)' (p. 232).

Naast een analyse op de eerder genoemde niveaus werden de gegevens ook op het niveau van algemene
onderliggende dimensies van sociaal-cognitieve taakvariabelen geanalyseerd met behulp van een multidi-
mensonele schaalmethode (ALSCAL), die in het onderhavige onderzoek dienst doet als een multivariate
analuseprocedure voor tijdreeksgegevens. Uit de resultaten bleek 'dat de experimentele behandeling in
de vier verschillende onderzoeksgroepen aanleiding had gegeven tot verschuivingen in het relatieve
belang van algemene onderliggende dimensies van sociaal-cognitief functioneren. De dimensies waarop
sprake was van een positieve verschuiving konden worden gekarakteriseerd als dimensies waarop aflei-
dingsprocessen m.b.t. perspectieven van essentiële betekenis zijn' (p. 233).

Voorts onderzocht Gerris hiërarchische sequenties van (groepen van) sociaal-cognitieve taakvariabelen.
Dit onderzoek is echter door de gevolgde onderzoeksopzet van beperkter omvang en heeft een exploratief
karakter.

Een onderzoeker heeft, afhankelijk van vraagstelling en opzet van zijn onderzoek en afhankelijk van de
aard van de verzamelde gegevens, tal van analyse-mogelijkheden tot zijn beschikking. Het kan geen
kwaad de gegevens op meerdere manieen te analyseren. Dit is zelfs aan te raden wanneer het bijvoorbeeld
niet duidelijk is wat de aard van de gegevens is of wanneer de hebbelijkheden van een analyseprocedure
nog niet duidelijk zijn onderkend. Gerris heeft in zijn onderzoek voor meer dan één aanpak gekozen,
enerzijds een statistisch-toetsendc procedure van Simonton, anderzijds voor meer exploratieve data-
analytische procedures (o.a. ALSCAL en factoranalyse). Bovendien werd de Simonton-procedure op het
niveau van composietscores toegepast. Het is zeker een verdienste van Gerris dat hij zijn tijd-
reeksgegevens op verschillende wijzen heeft geanalyseerd. Dat dit geen eenvoudig karwei is en dat de
uiteindelijke resultaten moeilijk zijn tc combineren en te interpreteren, is uit dit proefschrift wel
gebleken. Op deze problemen, die onder meer voortvloeien uit de keuze van analysetechnieken, zal
geprobeerd worden kort in te gaan.

De eerste vraag die opkomt.is waarom de keuze van het toetsingsmodel t.b.v. de effecten in dit
tijdreeksonderzoek gevallen is op dat van Simonton. Simonton (1979) zelf heeft toegegeven dat de door
Algina en Swaminathan (1979) voorgestelde werkwijze weliswaar complexer, maar statistisch eleganter is
dan de zijne en daarom op de lange duur waarschijnlijk bruikbaarder. Algina en Swaminathan geven een
exacte statistische toetsingsmethode (Simonton geeft een benadering), waarin rekening gehouden wordt
met de multivariate afhankelijkheid van de onderzoeksvariabelen. Er lijken weinig steekhoudende
argumenten te zijn om Simonton's procedure voor de analyse van tijdreeksgegevens te verkiezen boven
die van Algina en Swaminathan.

In een zeer lezenswaardig en leerzaam overzichtsartikel van Kratochwill en Levin (1978) getiteld What
lime-series designs may have to offer educational researchers (ook aangehaald in het proefschrift van
Gerris) worden voor de analyse van tijdreeksen 2 klassen van technieken behandeld: visuele en statisti-
sche data-analyse technieken. Het is zeker spijtig dat Gerris nauwelijks gebruik heeft gemaakt van een
visuele analyse (grafische weergave) van de tijdreeksgegevens. Tijdreeksgegevens immers vertonen
specifieke kenmerken (b.v. baseline stability, variabliteit, score overlap, verloop, veranderingen in
niveau, autocorrelatie) die ook grafisch aan het licht gebracht kunnen worden. Indien het waar is dat
autocorrelatie de nauwkeurigheid van visuele analyse nadeling beïnvloed (Kratochwill & Levin, 1978,
p. 316), dan is het voor de hand liggend eerst het effect van autocorrelatie te elimineren alvorens visuele
data-analyse uit te voeren. Natuurlijk kan een onderzoeker niet volstaan met een visuele analyse van zijn
tijdreeksgegevens, maar dat een dergelijke analyse inzicht kan verschaffen in het verloop van de gegevens
en in het al dan niet optreden van een interventie-effect is in tal van onderzoekingen gebleken. Overigens
is het interessant te lezen dat Kratochwill & Levin (a.w. p. 317) Simonton's aanpak (en andere generali-
seerde regressie-procedures) 'not appropriate for the vast majority of time-series designs' vinden. De
moeilijkheid is dat er 'an unwarranted inflation of the number of independent estimates of error' optreedt.

Een tijdreeksanalyse gebaseerd op het model van Simonton werd eveneens uitgevoerd op samengestelde
taakscores. Scores op de afzonderlijke cognitieve taakvariabelen werden gecombineerd (op basis van een
zgn. ELC-analyse) en gestandaardiseerd. Dit komt er in feite op neer dat een tweestapsprocedure wordt
gevolgd, waarbij de eerste stap daaruit bestaat dat de afzonderlijke taakscores worden gecombineerd,
terwijl de tweede stap pas de eigenlijke toetsing inhoudt met behulp van Simonton's methode. Afgezien
van het feit dat dit een enigszins omslachtige procedure is, is het de vraag hoe optimaal de combinatie van
de afzonderlijke taakscores was. Een meervoudige tijdreeksanalyse zoals Algina en Swaminathan (1979)
hebben voorgesteld is te verkiezen boven de gevolgde tweestapsprocedure.

Interessant vanuit exploratief data-analytisch gezichtspunt is de toepassing van ALSCAL op de tijdreeks-
gegevens (een longitudinale datamatrix bestaande uit 7 herhaalde metingen op een aantal taakvariabelen
over een aantal subjecten). Een dergelijke muhivariate analyse van tijdreeksgegevens is nog relatief
weinig toegepast en er is dan ook nog weinig bekend over de bruikbaarheid ervan ook in vergelijking met
de meer conventionele analyse-methoden. Het is daarom moeilijk te beoordelen in hoeverre de ALSCAL
-resultaten de gertrokken conclusies rechtvaardigen en welke voordelen deze analyse biedt boven andere
analyseprocedures. Op het laatste gaat Gerris helaas niet in. Is ALSCAL één mogehjkheid voor een
data-analytische aanpak van longitudinale datamatrices, de laatste jaren zijn tal van andere technieken
bedacht voor de analyse van dergelijke 3-weg datamatrices (b.v. modellen voor 3-modale principale
componentenanalyse). Overigens zijn muhitrait-multimethode matrices (Gerris geeft er één op p. 74) ook
3-weg datamatrices. Dergelijke matrices kunnen minder ad hoe geanalyseerd worden dan met behulp van
de door Gerris gebruikte Campbell en Fiske analyseprocedure. Laatstgenoemde procedure bevat te veel
subjectieve elementen om verantwoord tot de aanwezigheid of afwezigheid van convergerende en
discriminerende validiteit te besluiten. Afgezien hiervan is het niet duidelijk op welke wijze precies de
correlaties tussen de sociaal-cognitieve vaardigheden zijn berekend, wat de observatie-eenheden en
welke de scoringsmogelijkheden zijn.

Het doen van een longitudinaal onderzoek is een hels karwei, niet alleen organisatorisch maar ook
methodologisch en methodischtechnisch stelt het een onderzoeker tal van problemen. Er is dan ook moed
en doorzettingsvermogen nodig wil een dergelijk onderzoek überhaupt ergens op uitlopen. Dan nog is
succes niet gegarandeerd (en dit geldt uiteraard niet alleen voor longitudinaal onderzoek). Juist longitu-
dinale research is lastig door het feit dat dergelijke researchmethoden en technieken niet 'straightforward"
toegepast kunnen worden, terwijl soms de passende analyseprocedures nog niet ontwikkeld zijn of dat er
te weinig over bekend is. Met al deze problemen heeft Gerris te kampen gehad, een aantal ervan zijn in
het proefschrift aan de orde geweest. Al met al kan dit proefschrift zeker niet onverdienstelijk genoemd
worden. De keuze van zowel een onderwijskundig als een ontwikkelingspsychologisch uitgangspunt en de
ontwikkeling van het curriculum op basis hiervan maakt een gedegen indruk, de uitwerking van de
onderzoeksvraagstellingen is goed, terwijl de methodologische uiteenzetting over dc problematiek van
tijdreeksonderzoek, gezien de relatieve onbekendheid in Nederland met dit type onderzoek, zeker nuttig
is. Dat er op de gevolgde analyseprocedures het een en ander aangemerkt kan worden, neemt niet weg dat
dit proefschrift een degelijk werkstuk is dat ruime aandacht verdient. Secundaire analyse van het
verzamelde materiaal zal uit moeten wijzen of de getrokken conclusies op basis van de door Gerris
gevolgde werkwijze bevestigd worden en of er wellicht meer uit het materiaal is te distilleren.
Tot slot is het wellicht nuttig erop te wijzen dat aan het proefschrift van Gerris uitgebreid aandacht is
besteed - en terecht - in het Informatiebulletin voor ontwikkeiinfispsychoiogen van december 1981.
Heymans en Oud gaan daarbij in op een aantal methodologische punten, terwijl Lamberigts het onder-
zoek naar sociaal-cognitieve vaardigheden plaatst binnen het geheel van de 'role-taking research'. In het
Informatiebulletin voorontwikkelingspsychologen, 1982, nr. 1, plaatst Gerris bij deze reacties een aantal
verhelderende kanttekeningen en schetst daarbij enkele lijnen voor verder onderzoek - en ontwikke-
lingswerk 'om te komen tot een systematische begeleiding van de sociale ontwikkeling in het onderwijs'.
De commentaren en de grondige reactie van Gerris zijn niet alleen voor ontwikkelingspsychologen
relevant, maar ook voor een breder publiek van onderzoekers op het gebied van onderwijs.

Algina, J. & Swaminathan H. Alternatives to Simonton's analyses of the interupted and multiple-group

time-series designs. Psychological Bulletin, 1979,56, 919-926.
Kratochwill, Th.R. & Levin J.R., What time-series designs may have to offer educational researchers.
Contemporary Educational Psychology, 1978,3,273-329.

Schmitt, N., Coyle, B.W. & Saari B.B. A review and critique of analysis of muhitrait-multimethod
maluces. Multivariate Behavioral Research, 1977,12,447-478.

Selman, R.L. & Byrne D.F. A structural-developmental analysis of levels of role-taking in middle
childhood. Child Development, W14,45,803-806.

Simonton, D.K. Cross-sectional time-series experiments: Some suggested statistical analvses. Psycholo-
gical Bulletin, 1977,84,489-502.

Simonton, D.K. Reply to Algina and Swaminathan. Psychological Bulletin, 1979,86, 927-928.

Het beroepsonderwijs voor 16 - 18 jarigen en met name het traditionele onderwijs voor meisjes is in
beweging. De proefprojecten KMBO en de Herstructurering MHNO/MSPO zijn daar voorbeelden van.
Doel van deze onderwijsvernieuwingen is o.a. het maken van goede beroepsopleidingen, waardoor met
name vrouwen een (betere) plaats op de arbeidsmarkt kunnen krijgen. Daarnaast speelt ook de persoon-
lijkheidsontplooiing van de leeriing een belangrijke rol. In de proefprojecten KMBO en met name bij de
opleiding verzorging wordt expliciet aandacht besteed aan het onderwerp roldoorbreking. Sommige
scholen die in 1979 met de KMBO-opleiding verzorging van start gingen hebben van het begin af aan
geprobeerd het thema roldoorbreking een belangrijke plaats in hun onderwijs te geven. Sanny de Korte
en Ida Bontius hebben de opleidingen voor verzorgende beroepen in het KMBO onderzocht op kenmer-
ken die de emancipatie van de meisjes bevorderen dan wel belemmeren. Om dit te bereiken hebben zij
drie soorten activiteiten ondernomen:

1. De problemen in deze sector van het KMBO zijn geïnventariseerd en er is een beschrijving gegeven
van de opleiding verzorging zoals die er op dat moment (najaar '79) uitzag.

Op grond van de probleemstelling wordt de onderzoeksvraag als volgt: 'Hoe de wens van de opleidingen
een goede beroepskwalificatie voor verzorgende functies zonder traditionele rolpatronen in stand te
houden het best gerealiseerd kan worden?' (pag. 27).

2. De onderzoeksvraag is verder toegespitst aan de hand van literatuuronderzoek waarbij het onderwijs
aan meisjes en de ideologie daarvan werd verkend. Tevens is de relatie tussen meisjescultuur en onderwijs
bestudeerd.

In het vervolgonderzoek krijgt de relatie meisjescultuur- onderwijs de meeste nadruk.
Uit de probleeminventarisatie was onder andere gebleken dat er problemen waren met de roldoorbre-
kende activiteiten die op school georganiseerd waren. Met behulp van het theoretisch kader dat door
middel van literatuuronderzoek is ontwikkeld, werd de volgende vraagstelling geformuleerd: 'Wat zijn de
redenen dat de activiteiten in het kader van het thema roldoorbreking bij de leerlingen niet aanslaan?
Komt het doordat

- de meisjescultuur door een verregaande invoeging in de partriarchale cultuur weerstand biedt tegen
het vrouwbeeld dat in de roldoorbrekende activiteiten wordt gepresenteerd?

- het daarin gepresenteerde vrouwbeeld niet (voldoende) aansluit bij de meisjescultuur en daardoor
niet herkend en als irreëel van de hand gewezen wordt? (vergelijk pag. 85).

3. De case-study die op één school is verricht geeft steun voor de tweede hypothese. Een vergelijking van
de resultaten van interviews met enkele docenten en enkele leerlingen laat zien dat de 'leraressencultuur'
en de 'leerlingencultuur' zodanig verschillen dat datgene wat de leraressen als roldoorbrekend presente-
ren totaal niet overeenkomt met datgene waar de leerlingen zich druk om maken. Daamaast blijkt het
beroep waar de leerlingen voor opgeleid worden de traditionele vrouwenrol te bevestigen.

Het onderzoek van Sanny de Korte en Ida Bontius is ongetwijfeld belangrijk als verkennend onderzoek
naar de verbanden meisjescultuur - schoolcultuur - onderwijsinhoud - toekomstig beroep. Er zijn

mogelijkheden te over voor verder onderzoek en verdere ontwikkeling van roldoorbrekende thema's
voor met name deze groep meisjes.

- de keus voor een KMBO-opIeiding (in 1979 - op aanwijzing van het ministerie overigens) valt te
betreuren. Het was het eerste jaar van de proefprojecten, er was nauwelijks tijd voor voorbereiding
geweest op de scholen, wat met zich mee brengt dat er ten aanzien van de opleiding veel onzekerheden
waren. Uit de rapportage blijkt dat duidelijk. Het doel van de opleiding is inmiddels veel duidelijker
geformuleerd in het tweede voorlopige opleidingsleerplan. Daarnaast blijkt ook dat de geïnterviewde
docenten nog niet precies weten wat voor soort leerlingen ze in de klas hebben. De actuele situatie van
de huidige KMBO-leerlingen is op dit moment waarschijnlijk duidelijker;

- het is jammer dat de onderzoekers zich niet bij de organisaties voor gezins- en bejaarden verzorging
hebben georiënteerd op het beroep bejaardenhelpster of gezinshelpster. Hierdoor zou niet alleen het
beroepsbeeld wat duidelijker zijn geworden, maar ook zou er wat meer helderheid geschapen zijn ten
aanzien van de stage: de relatie stage - school (theorie) blijft vaag in de rapportage ondanks het feit dat
het onderzoek plaats vond met geld van de Sector Onderzoeksgroep Participatie Onderwijs (SOG-P).
Waarschijnlijk heeft ook hier het embryonale stadium van de opleiding een rol gespeeld. In het
recente opleidingsleerplan staat het principe van participerend leren centraal;

- het is jammer dat de onderzoekers niet zijn ingegaan op de invloed die zij zelf hebben gehad als
onderzoeker op de resultaten van de case-study en de verslaggeving.

Ik denk dat in de case-study de docenten geneigd waren tijdens de interviews sociaal-wenselijke antwoor-
den te geven. Ten aanzien van de rapportage daarover het volgende voorbeeld:

De leraressen blijken roldoorbreking vooral te presenteren als getrouwd zijn - kinderen hebben en
buitenshuis werken. Dit spreekt de leerlingen totaal niet aan. De onderzoekers verwijten de leraressen
een eenzijdige voorlichting. Zij hebben bijna allemaal betaalde hulp in de huishouding en ze vertellen de
leerlingen niet dat zij zich dat later in zo'n situatie niet zouden kunnen permitteren.
Hieruit blijkt mijns inziens een bepaald vooroordeel van de onderzoekers: buitenshuis werken is leuk als
je thuis iemand in de huishouding hebt. Voor de leerhngen kan dat weer heel anders liggen: waarom zou je
iemand anders de huishouding laten doen als je in diezelfde tijd buitenshuis dc huishouding van een ander
verzorgt?

De rapportage is goed verzorgd. Het boek bestaat uit drie delen - probleeminventarisatie, theoretisch
kader en case-study - die afzonderiijk te lezen zijn. In de inleiding wordt een leeswijzer gegeven opdat de
lezer, indien gewenst, kan kiezen. Jammer genoeg ontbreekt een samenvatting van de drie delen.
Het rapport voorziet in een maatschappelijke behoefte. In kringen van docentenorganisaties is aandacht
besteed aan deze problematiek en ook in Opzij (1982) is er een artikel aan gewijd. Het is te hopen dat aan
deze sector meer onderzoek wordt gewijd in de toekomst.

Op weg naar Emancipatorisch Onderv.'ijs. Tekst van een inleiding door Ans van der Staak, Bemardus 57,
nr.29, 1981.

Landelijke ontwikkelingsgroep. Tweede voorlopige opleidingsleerplan kort-MBO: verzorging. Den
Bosch, PCBB. 1982.

Maria Straathof. Emancipatie: een vies woord in het huishoudonderwijs. Opzij 10, nr. 4, 1982.

Docenten over onderwijs aan meisjes. 'Positieve discriminatie met een dubbele bodem'.
Instituut voor Toegepaste Sociologie, Nijmegen 1982, XII + 289 p., litt. opg.

De dissertatie van Jungbluth is een gerucht-makend boek, en er is in de media reeds veel aandacht aan
besteed. Het is het vervolg op zijn eerdere rapport 'Van traditionele meisjespedagogiek tot roldoorbre-
kend onderwijs' (ITS, Nijmegen 1978), tot op zekere hoogte een herformulering hiervan, aangevuld met
de resultaten van een onderzoek onder docenten.

Het boek bevat twee gedeelten: in het eerste deel wordt een probleemanalyse gegeven van de ongelijk-
heid der seksen in het onderwijs. In hoofdstuk 1 wordt daartoe een breder onderwijssociologisch kader
geschetst: de ongelijkheidsreproduktie (naar sekse of milieu) wordt gerealiseerd doordat er verschillende
socialisatiestandaarden per culturele groep worden gehanteerd. Onderzoek naar deze socialisatiepatro-
nen is derhalve de 'crux' van het ongelijkheidsonderzoek. Dit gezichtspunt wordt in de volgende twee
hoofdstukken uitgewerkt. Hoofdstuk 2 (onderwijs en sekse: ten strijde tegen het moeizaam verworven
meisjesonderwijs) documenteert de betrekkelijk late 'ontdekking' van de onderwijsachterstand van
meisjes, zowel in het beleid als in het onderzoek. De aparte vonnen van meisjesonderwijs die waren
ontstaan bemoeilijkten verder een rechtstreekse vergelijking van de onderwijsloopbanen met die van
jongens.

De specifieke 'meisjespedagogiek' komt in hoofdstuk 3 aan de orde; voor een deel is dit een historische
beschrijving van opvattingen die ten grondslag liggen aan het traditionele meisjesonderwijs: voor ecn
ander deel een diskussie van de overvloedige literatuur over sekse-stereotypering. De belangrijkste
conclusie leek me te zijn, dat er teveel aandacht is besteed aan buitenschoolse socialisatie en dat er
nauwelijks belangstelling is geweest voor de socialisatieprocessen binnen de school, als schakel in de
reproductie van de ongelijkheid via het onderwijs (p. 68 e.v.).

Het is met name deze binnenschoolse socialisatie waarop J. zich verder in het boek wil concentreren. In
het tweede deel wordt daartoe verslag gedaan van de resultaten van een in 1978 gehouden onderzoek
onder ruim 1.000 docenten die onderwijs verzorgden voor 10 tot 16 jarige leerlingen. Centraal in dit
empirische gedeelte van het boek staan de volgende vragen (hoofdstuk 4, p. 86 e.v.):

- in hoeverre is er sprake van een probleembewustzijn van onderwijsgevenden ten aanzien van school-
ongelijkheid?

- in hoeverre is er sprake van een neiging tot rolbevestiging die de traditionele sekseongelijkheid doet
voortbestaan?

- bestaat er een samenhang tussen deze twee houdingencomplexen en hoe zijn ze verdeeld over
verschillende maatschappelijke categorieën?

Hoofdstuk 5 beschrijft opzet, dataverzameling en analyseplan, terwijl in hoofdstuk 6 enige beschrijvende
kenmerken van de docentenpopulatie worden gegeven.

In hoofdstuk 7 wordt op de eerste vraagstelling ingegaan (het probleembewustzijn) waarbinnen een 4-tal
aspecten wordt onderscheiden (onderwijsachterstanden van meisjes; optimaal onderwijs; maatschappe-
lijke sekse-ongelijkheid; rol-doorbrekend onderwijs). Per aspect worden op'basis van principale compo-
nentenanalyse schalen geconstrueerd en vindt een beschrijving van de populatie plaats. Geconcludeerd
wordt dat er bij onderwijsgevenden slechts sprake is van een beperkt probleembewustzijn m.b.t. sekse-
ongelijkheid. In hoofdstuk 8 wordt hetzelfde patroon gevolgd voor de tweede vraagstelling: de mate van
rolbevestiging wordt opgedeeld in eveneens een 4-tal aspecten (stereo-typering naar sekse; stigmatisering
naar sekse; traditionele meisjespedagogiek; rolbevestiging als motief voor differentiatie naar sekse). Er
worden aanwijzingen gevonden dat er inderdaad sekserolbevestigende socialisatie in het onderwijs plaats
vindt, althans naar wat docenten daarvan zeggen. De samenhang tussen de twee houdingenconglomera-
ten - de derde vraastelling - komt in hoofdstuk 9 aan de orde. Het blijkt dat deze houdingen slechts in
beperkte mate samengaan, maar dat beide wèl variëren met de 'maatschappelijke achtergrond' van
docenten (hoe 'rechtser', des te minder probleembewust en des te meer rolbevestigend).
In de nabeschouwing van hoofdstuk 10 worden de onderzoeksresultaten gerelateerd aan de probleem-
analyse uit deel I, in een ruimer kader van sociale ongelijkheid geplaatst en worden lijnen voor toekomsti-
ge theorievorming, onderzoek en beleid uitgezet.

Het wordt de lezer van dit boek tegelijkertijd gemakkelijk en moeilijk gemaakt om tot een eigen oordeel
te komen. Het moeilijke schuilt hem vooral in de gebruikte formuleringen, de overlappingen en het vaak

ondoorzichtige taalgebruik, waardoor niet altijd precies is te achterhalen wat een argument nu waard is.
Dit geldt zowel voor het theoretische eerste deel (met als hoogtepunt de uitspraak: 'Bovenstaande these
Iaat zich verifiëren noch falsificeren op grond van beschikbaar inzicht in het feitelijke onderwijsgebeuren.
Ze is dat ook niet op grond van het materiaal dat wij verderop in deze studie aandragen', pag. 17) als voor
het tweede deel. Hier worden te gemakkelijk brede generalisaties verbonden aan betrekkehjk smalle
indicatoren voor de attituden van docenten.

Het wordt de lezer daarentegen weer gemakkelijk gemaakt, waar de auteur zelf uitgebreid ingaat op de
beperkingen en de nadelen van de gekozen onderzoeksopzet. Op meerdere plaatsen (o.a. pags. XII, 78,
85/86, 91/94) wordt benadrukt dat de 'rijping' van het theoretische eerste deel pas tot stand kwam nadat
het 'docentenonderzoek' uit deel II met veel pijn en moeite door SVO was aanvaard.' Het is dan ook niet
zo verrassend te constateren dat beide delen nogal los van elkaar staan en slechts kunstmatig met elkaar
konden worden verbonden.

Dit leidt er toe dat een aantal belangrijke vragen uit deel I niet kunnen worden onderzocht. Een voor de
hand liggende vraag lijkt me bijvoorbeeld, hoe houdingen en gedragingen van docenten - dus de
binnenschoolse socialisatie - zich verhouden tot de buitenschoolse factoren en op welke wijze deze door
zouden werken op de schoolloopbanen van meisjes. Door de gekozen opzet komt dit in het onderzoek
niet aan de orde. Ten onrechte meent de onderzoeker verder dat op grond van zijn onderzoek onder
docenten er uitspraak zou kunnen worden gedaan over het relatieve gewicht van binnen- en buitenschool-
se factoren in het socialisatieproces (pag. 1%).

Nu kan men natuurlijk niet alles tegelijkertijd onderzoeken en men kan begrip opbrengen voor beperkin-
gen die een auteur in zijn onderzoek wil aanbrengen. Het is echter weinig elegant deze niet alleen toe te
schrijven aan de slechte onderzoekscondities (zie de eerdere opmerkingen over SVO) en anderzijds erop
te wijzen dat geen enkel onderzoek zo mooi verloopt als volgens 'de boekjes' zou moeten (pag. 78). Ten
aanzien van zijn eigen onderzoeksresultaten hanteert de auteur een dergelijk voorbehoud niet.
Het is met name deze dubbele bodem die het proefschrif kenmerkt. Op een groot aantal plaatsen worden
met veel pretenties verwachting gewekt dat hypothetische constructies te zijner tijd worden getoetst
(waarom zou je ze ook anders bedenken?), om de lezer vervolgens te melden dat dat toch niet de
bedoeling was.

Het meest storende daarbij is dan vooral, dat de hoofdthese - het welwillend toegevende gedrag van
docenten ten opzichte van meisjes leidt tot een lager aspiratieniveau; grotere onzekerheid en derhalve tot
inferieure schoolcarrières - alleen maar theoretisch wordt verondersteld en niet in het onderzoeksgedeel-
te wordt uitgewerkt. Waar al feitelijke aanknopingspunten worden gevonden, zijn ze buitengewoon zwak
(pag. 177:'.. .door die benadering te èe/euen als een vorm van positieve discriminatie.. .'(cursief J.P.)).
Toch is het de vaststelling van deze positieve discriminatie die uiteindelijk het belangrijkste resultaat had
moeten zijn. En daarmee valt eigenlijk de bodem uit het boek.

1 Verschillende keren verwijst de auteur naar het feit dat het empirische onderzoek om taktische redenen
wordt doorgezet, (het geld was reeds toegekend, pag. 85 e.v.)' vermoedelijk om te bewijzen dat de
problematiek reëel is (hetgeen ik niet betwijfel). Men zou echter evengoed om taktische redenen hebben
kunnen besluiten het onderzoek niet door te zetten, namelijk wanneer men inschat dat de te bereiken
doelstelling (een overtuigende publicatie) niet kon worden gerealiseerd. Het komt mij voor dat de op
pag. 79 vermelde overweging (de voorkeur van de onderzoekers voor kleinschalig kwalitatief onderzoek)
dan misschien wel niet zo taktisch zou zijn geweest, maar wel heel wat strategischer.

Towards a theory of learning based on individual differences.
Communication and Cognition, Blandijnberg, Ghent, Belgium, 1979 (proefschrift).
Boekaerts, M.,

Onderwijsleerprocessen organiseren: Hoe doe je dat...?
Nijmegen: Dekker & Van derVegt, 1982. (ƒ24,50)

Inmiddels al weer enige tijd geleden verdedigde Monique Boekaerts haar dissertatie over leren en
individuele verschillen aan de Katholieke Hogeschool Tilburg. Als promotor trad op prof. dr. L.F.W. de
Klerk.

Kort geleden publiceerde dezelfde auteur een boekje over het organiseren van onderwijsleerprocessen.
Hierin werd gebruik gemaakt van een informatieverwerkingsmodel, zoals beschreven en getoetst in de
dissertatie. In onderhavige bijdrage zullen wij zowel de dissertatie als het meer op de praktijk gerichte
werk bespreken.

De dissertatie van Monique Boekaerts beslaat ruim 365 bladzijden, waarin een algemeen model betref-
fende de opslag, codering en retrieval van informatie in het geheugen wordt geschetst. Met name wordt
daarbij aandacht besteed aan de individuele verschillen m.b.t. codering en retrieval.
Het boek bestaat uit drie delen. Deel I is gewijd aan cognitieve structuren, in deel II wordt aandacht
besteed aan cognitieve processen, terwijl in het derde en laatste deel alle stukjes van de legpuzzel in elkaar
gepast worden. Het tweede deel van de studie beslaat bijna 200 bladzijden en vormt de kern van het boek.
In deel I wordt een overzicht gegeven van de belangrijkste bijdragen aan de theorievorming betreffende
de representatie van informatie in het geheugen. Ingegaan wordt o.m. op de opvattingen van Paivio
betreffende de 'dual-code'-hypothese. Paivio gaat ervan uit dat er twee afzonderlijke - onderling gerela-
teerde-representatiesystemen bestaan: een verbaal opslagsysteem en een 'imagery' opslagsysteem. Deze
benadering is onder meer bestreden door Anderson & Bower en Pylyshyn. Deze onderzoekers dragen
argumenten aan dat er niet twee verschillende representatiesystemen bestaan, maar dat alle informatie-
opslag propositioned van aard is.

Op blz. 40 van haar dissertatie formuleert Boekaerts een algemeen model voor de representatie van
informarie in het lange-termijn-geheugen. In dit model tracht zij de 'dual-code'-hypothese opnieuw te
interpreteren; zodanig dat deïe interpretatie niet in strijd is met de aanname van prepositionele informa-
tie-opslag. Boekaerts maakt in dit verband een onderscheid tussen informatie-opslag, codering en
'retrieval' van informatie. De opslag kan weliswaar propositioned van aard zijn, dan kan er toch sprake
zijn van verbale codering en 'retrieval' en 'imagery' codering en retrieval. In het door haar voorgestelde
'multi-stage-coding-and-retrieval-modd' worden deze twee verwerkingskanalen van elkaar onderschei-
den. Dit model staat centraal in het tweede deel van de dissertatie.

Het eerste deel wordt afgesloten met de (onduidelijke) beschrijving van een experiment, waarin een
aspect van het domein-gerichte geheugenmodel onderzocht wordt. De hypothese wordt getoetst dat
leerlingen conceptuele informatie zodanig structureren dat elke leerling een concept-idcntificatieplan kan
opbouwen waarmee bepaald kan worden tot welke naast hoger gelegen klasse een begrip behoort. Voorts
wordt nagegaan of bij dit ordeningsproces verschillen in leeftijd van de leerlingen leiden tot verschillen In
gehanteerde ordeningsprincipes. Het experiment is uitgevoerd bij leerlingen in de (Vlaamse) basisschool,
variërend in leeftijd van 7 tot 14 jaar.
We volstaan met het vermelden van de conclusies, te weten:

1 Leerlingen maken gebraik van diverse, verschillende 'superset' labels. De labels kunnen variëren van
ware supersets (gebaseerd op kritische eigenschappen van de te classificeren begrippen) tot onware
supersets (gebaseerd op toevallige kenmerken van de begrippen);

2 Er is een ontwikkelingsmatige trend in het gebruik van verschillende organisatieprincipes;

3 Er waren geen leeftijdsverschillen met betrekking tot het vermogen van de leerlingen om begrippen te
classificeren onder de gekozen 'supersets'.

De analyse van het eerste experiment is nogal onduidelijk. Immers, wat moeten we aan met formulerin-
gen als 'after close analysis...' (p. 92) en 'the six matrices were put into the computer...' (p.94). Voorts
wordt (p. 89) verwezen naar figuren die niet bedoeld zijn en wordt op p. 96 een tabel (3) afgedrukt die ten
dele onleesbaar is.

In het tweede deel van het proefschrift wordt het 'multi-stage-coding-and-retrieval'-model besproken en
in beperkte mate empirisch getoetst. Enerzijds postuleert Boekaerts een modaliteits-vrije lange termijn-
geheugen-opslag en anderzijds een modaliteitsspecifieke korte-termijn-geheugen-codering en -retrieval.
Argumenten voor deze modaliteitsspecifieke processen in het korte-termijn-geheugen worden enerzijds
ontleend aan introspectieve gegevens, en anderzijds aan resultaten van (door anderen) verricht experi-
menteel onderzoek.

Boekaerts (p. 150) veronderstelt dat individuele verschillen een rol spelen bij de preferentie van verwer-
kingskanalen. De een zal stimulusmateriaal uit het lange-termijn-geheugen bij voorkeur transformeren in
verbale codes, terwijl de ander de voorkeur geeft aan een visuele voorstelling. De verschillende vormen
van codering zullen naar inhoud een verschillende informatie-opslag tot gevolg hebben. Als men bv.
gebruik gemaakt heeft van de verbale coderingswijze, dan zal men in staat zijn zich de letterlijke
informatie te herinneren. Door te coderen via visuele voorstellingen kunnen andere details in het
lange-termijn-geheugen terecht komen dan via verbale codering. Het zal duidelijk zijn dat dgl. individue-
le verschillen belangrijke gevolgen kunnen hebben voor de vormgeving van onderwijsleerprocessen.
Voorgesteld wordt (p. 181) voor onderwijsdoeleinden een bepaalde test te gebruiken die code-specifici-
teit kan meten.

De assumptie dat het voorgestelde model individuele verschillen kan verklaren in coding- en retrievalpro-
cessen wordt getoetst in experiment II. In de experimentele taak kunnen twee dimensies gemeten
worden. Enerzijds het onderscheid tussen 'visualizers' en 'weak-visualizers' en anderzijds het onderscheid
tussen 'verbalizers' en 'weak-verbalizers'. Het eerstgenoemde type leerling is in staat visueel-ruimtelijke
informatie in plaatjes, foto's, e.d. plus de semantische informatie daarin te onthouden, ('weak-visualizers'
onthouden alleen de algemene inhoud). Het laatstgenoemde type (de 'verbalizers') is in staat de letterlij-
ke vorm van zinnen te onthouden plus de algemene inhoud ('weak-verbalizers', onthouden alleen de
algemene inhoud). Het experiment is opgezet als een interferentie-experiment. Verondersteld wordt dat
iemand die bij de verwerking van visueel stimulusmateriaal de beeldcode gebruikt geen probleem zal
ondervinden door een verbale paralleltaak; terwijl iemand die bij de verwerking van verbaal stimulusma-
teriaal de verbale code gebruikt geen last heeft van een visuele paralleltaak. De mate van interferentie
wordt bepaald door de prestaties op dubbeltaken te vergelijken met prestaties op ongestoorde enkelvou-
dige taken.

Het uit drie onderdelen bestaande experiment toont o.m. aan dat het mogelijk is onderscheid te maken
tussen 'verbalizers' en 'visualizers', alhoewel de laatste categorie slechts in zeer geringe mate wordt
aangetroffen.

Voorts zijn proefpersonen geclassificeerd als 'bicognitives' (weinig of geen verlies op beide dubbele
taken) en als 'indefinites' (relatief veel verlies op beide dubbele taken). Het onderscheid tussen dc
proefpersonen is gemaakt op grond van hun scores op twee dimensies (een zin- en een diadimensie).
Onduidelijk is op welke wijze de zogenaamde aftestgrenzen bepaald zijn. In het experiment is door
middel van een controle-conditie de garantie geschapen dat geconstateerde verschillen tussen proefperso-
nen niet toegeschreven kunnen worden aan de dubbele taak als zodanig, maar aan het blokkeren van het
alternatieve kanaal.

Op grond van het uitgevoerde experiment concludeert Boekaerts dat leerkrachten bij de vormgeving van
hun onderwijs rekening moeten houden met de verschillen in informatieverwerking zoals zij die heeft
gevonden. De nogal beperkte empirische evidentie in aanmerking genomen, is dit een op zijn minst wat
voorbarige aanbeveling. De vele, onbeantwoorde vragen die zij zelf stelt (zie bv. p.223) m.b.t. de
ontwikkeling van coding- en rctrievalpreferenties maken het geheel niet overtuigender.
In een derde, zeer beperkt experiment tenslotte wordt het onderscheid tussen 'visualizers' en 'verbalizers'
toegepast bij een problem-solving taak. Het experiment is nogal simpel en weinig overtuigend.
Boekaerts zelf merkt op dat het niet de bedoeling van het experiment is om te generaliseren, dat het
slechts tentatief is e.d. (p. 306). Toch wordt aanbevolen door te gaan met het onderzoek naar de
verschillende modaliteiten m.b.t. coderings- en retrievalprocessen bij leerlingen. Deze conclusie kan ik
onderschrijven, echter niet op grond van de uitgevoerde experimenten. De uitstekende theoretische
analyses en suggesties zijn m.i. meer overtuigend.

In het derde en laatste deel tenslotte probeert de schrijfster de diverse theoretische en empirische
bevindingen te integreren. Bovendien geeft zij in dit deel nogal wat didactische aanwijzingen voor dc
vormgeving van onderwijsleerprocessen. Met name op p. 311 en 312 worden veel van dgl. aanwijzingen
gegeven. Een duidelijke aanwijzing die zij geeft, is dat training van het visuele verwerkingskanaal

aandacht moet krijgen in het onderwijs, terwijl de aandacht voor het verbale wel wat verminderd mag
worden. De resultaten van het eerste experiment bieden m.i. hieraan weinig steun. Het is voorts een
kwestie van smaak of men in een dgl. studie, die bepaald niet geschreven is voor leerkrachten, allerlei min
of meer didactische aanwijzingen moet geven. Het tweede hier besproken boek van Boekaerts voldoet
m.i. in dit opzicht beter.

Als generale conclusie wil ik tenslotte stellen, dat de studie van Boekaerts over het geheel van goede
kwaliteit is. Het theoretische gedeelte is uitstekend opgebouwd en zeer breed georiënteerd. Het empiri-
sche gedeelte is aan de magere kant en steekt ongunstig af t.o.v. de theoretische verhandelingen. De
typografische uitvoering, leesbaarheid van tabellen en figuren schiet voor de 'visualizers' onder ons te
kort.

Was de dissertatie van Boekaerts primair bedoeld voor vakgenoten, haar boek 'Onderwijsleerprocessen
organiseren' is bedoeld als inleiding in de psychologie van het leer- en instructieproces. Als zodanig richt
het zich tot studenten onderwijskunde en onderwijspsychologie, alsmede tot (aanstaande) leraren. Enige
onderwijskundige voorkennis wordt overigens wel verondersteld.

Het boekje bestaat uit twee delen, voorafgegaan door een uiteenzetting over leerpsychologie en psycho-
logie van het onderwijzen. Boekaerts expliciteert hier dat zij kiest voor een cognitief-psychologische
benadering van het leerproces. Binnen deze bcnadeing wordt relatief veel aandacht besteed aan de
(veronderstelde) structuur van het geheugen en de cognitieve processen die daarop inwerken.
Deel I van het boek is gewijd aan de psychologie van het leerproces. Uitvoerig wordt ingegaan op
informatie-verwerkingsprocessen bij leerlingen. Leren wordt gelijk gesteld aan informatieverwerking
(p. 31). Het uit haar dissertatie reeds bekende model van het informatie-verwerkingsproces wordt op
heldere wijze uiteengezet en d.m.v. zinvolle voorbeelden duidelijk toegelicht. Boekaerts spreekt in dit
verband (p. 18 e.v.) over een leerling-gericht geheugenmodel, warin het lange-termijn geheugen beschre-
ven wordt als een verzameling van kennisvelden of-domeinen. De abstracte informatie in zo'n kennisveld
is, in de vorm van proposities, hiërarchisch geordend (Boekaerts vermeldt echter niet, dat propositionele
codering in de literatuur ook wel ter discussie staat (zie bv. Hayes-Roth (1979) en Johnson-Laird (1980)).
Binnen elk kennisveld kan informatie op drie verschillende niveaus opgeslagen worden, nl. (a) op
beginniveau, (b) op episodisch niveau en (c) op planniveau.

Op grond van een nadere bespreking van het model komt Boekaerts tot de conclusie dat de voorkennis
van leerlingen met betrekking tot het te verwerven kennisveld uitgangspunt moet vormen voor de
organisatie van het onderwijsleerproces. Met andere woorden de leerkracht moet zich bij het begin van
een les afvragen of leerlingen voldoende voorkennis hebben zodat zij de nieuwe informatie binnen reeds
bestaande kennisvelden kunnen integreren, of dat een nieuw kennisveld moet worden opgebouwd.
Aardig is in dit verband dat de pedagoog-didacticus Herbart ongeveer honderd jaar geleden vanuit een
geheel andere invalshoek (i.c. de associatiepsychologie) tot soortgelijke vragen kwam. Hij sprak welis-
waar niet over kennisveld, maar over apperceptiemassa. Maar toch... Het psychologische model van
informatieverwerking wordt door Boekaerts enigszins aangepast aan de situatie op school. Zij geeft een
model (de zogenaamde 'vijftrapshiërarchie') waarin vijf deelprocessen van het schools leerproces opge-
nomen zijn, te weten (1) gedeeltelijke begrijpen, (2) volledig begrijpen, (3).integreren, (4) activeren en
(5) probleemoplossen. Deze deelprocessen zijn hiërarchisch georganiseerd, waarbij het instapniveau
voor een bepaald leerproces bepaald wordt door de voorkennis van de leerling. Het model geeft voorts
aan welke specifieke cognitieve processen bij de leerlingen op gang moeten worden gebracht (bijvoor-
beeld interpreteren; geheugensteun ontwerpen; probleemruimte construeren; etc.). Terzijde zij opge-
merkt dat de visuele voorstelling van het model (p. 32) wat onlogisch aandoet, in die zin dat het
hiërarchisch hoogste deelproces het laagst in de tekening is afgebeeld. Spiegelen van de figuur lijkt mij
duidelijker.

Boekaerts bespreekt tenslotte ook nog individuele verschillen in informatie-verwerkingsprocessen en
sociaal-affectieve factoren.

In deel II van het boek wordt aandacht besteed aan de psychologie van het instructieproces. Boekaerts
gaat nogal eigenzinnig om met termen als leertaak, les, lessenreeks, leerplan, curriculum, e.d. Beter zou
zijn als zij zich zou conformeren aan de gangbare definities op dit gebied. Voorts kan men zich afvragen of
leerkrachten wel gediend zijn met de door haar voorgestelde 'open procesleerplannen', waarbij zij zelf
keuzen dienen te maken uit diverse aangeboden alternatieven. Leerkrachten zouden bijvoorbeeld een

overzicht moeten maken van noodzakehjke en voldoende leerervaringen met betrekking tot bepaalde
doelstellingen; vervolgens moet een geschikte leerweg gekozen worden, evaluatievormen bepaald wor-
den etc. (p. 58). Ik vrees dat de praktijk praktischer is dan de theorie.

Ondanks deze kritiek meen ik toch dat de door Boekaerts gepresenteerde boomdiagrammen voor de
keuze van didactische werkvormen en leeractiviteiten een zinvolle bijdrage kunnen leveren aan de
onderwijspraktijk. Boekaerts onderscheidt didactische werkvormen die begrijpen van informatie (1),
integreren van informatie (2) en aanwenden van informatie (3) bevorderen. Voor elke leeractiviteit (bv.
begrijpen) worden vele didactische werkvormen aangegeven en besproken. Het is ondoenlijk én onnodig
alle werkvormen hier de revue te laten passeren en te bespreken. We volstaan met enige kritische
kanttekeningen.

Bij de diverse werkvormen wordt regehnatig verwezen naar allerlei literatuur voor verdere studie door de
lezer. Opvallend is dat nogal wat publikaties uit de RWO-sfeer zich daarbij bevinden. De toepasbaarheid
van e.e.a. in bv. het basisonderwijs wordt daardoor nogal beperkt. Voorts zijn sommige referenties nogal
gedateerd en voor studie-doeleinden derhalve minder geschikt. Enige voorbeelden: in een bespreking
over de voor- en nadelen van cijfergeven wordt o.a. verwezen naar Van Hiele (1957), voor de nabespre-
king als werkvorm wordt o.a. verwezen naar Stovall (1958). Soms zijn de literatuur-referenties erg
onvolledig (bv. voor beheersingsleren wordt alleen verwezen naar Nuy (1981) en niet naar het werk van
Bloom, Block, e.a.). De hteratuurreferenties m.b.t. geprogrammeerde instructie (p. 82) zijn zeer onvol-
ledig; geen enkele verwijzing later dan 1974 en het merendeel betrekking hebbend op de 60-er jaren! De
eerlijkheid gebiedt mij op te merken dat ook zeer up-to-date referenties aangetroffen kunnen worden, bv.
Maes, 1983! Tenslotte nog een opmerking over de hoofdpersoon in het boek. Het doet wat merkwaardig
aan als steeds gesproken wordt over de leraar. Een meer geëmancipeerde benaming zou welkom geweest
zijn.

Over het geheel genomen beoordeel ik het werk positief, het is duidehjk en helder geschreven. Of de
opsomming van werkvormen volledig is, is niet zo belangrijk. Het biedt aanknopingspunten genoeg voor
optimalisering van onderwijsleerprocessen. Zowel voor studenten, als (a.s.) leerkrachten is het boekje
aanbevelenswaardig.

Hayes-Roth, F. Distinguishing theories of representation: a critique of Anderson's: 'Arguments concern-
ing mental imagery'. Psychological Review, 1979,86,376-392.
Johnson-Laird, P.N. Mental models in cognitive science. Cognitive Science, 1980,4,71-115.

Groot, H. de. Regeeraccoord en kwartaire sector. (Stukwerk no. 5). Rijswijk: Sociaal en Cultureel
Planbureau, maart 1983.

Harmonisatie van de opleidingsniveaus. Beroepsopleiding, december 1982 (Periodieke publicatie van het

Europees Centrum voor de Ontwikkeling van de Beroepsopleiding).
Imelman, J.D. (red.). Filosofie van opvoeding en onderwijs. Recente ontwikkelingen binnende wijsgeri-
ge pedagogiek (Tweede, gewijzigde druk), Groningen: Wolters-Noordhoff, 1983.
Korthagen, F.A.J. Leren reflecteren als basis van de lerarenopleiding: Een model voorde opleiding van

leraren, in het bijzonder wiskundeleraren (SVO-reeks no. 67). Harlingen: Flevodruk, 1983.
Meij, H. van der & Jong, D. de (Eds.). Proceedings of the irritational conference on independent!

selfresponsible learning. Leiden: Intersubfacultaire Vakgroep Onderwijskunde, 1983.
Nijhof, W.J. Over het ontwerpen van curricula. Inaugurele rede, T.H. Twente, 31 maart 1983.
Roe, R.A. Grondslagen derpersoneelsselektie. Assen: Van Gorcum, 1983.

Scheerens, J. Evaluatie-onderzoek en beleid: Methodologische en organisatorische aspecten (SVO-

reeks no. 68). Harlingen: Flevodruk, 1983.
Schmidt, H.G. Activatie van voorkennis, intrinsieke motivatie en de verwerking van tekst. Studies in
probleemgestuurd onderwijs (Proefschrift Rijksuniversiteit Limburg). Apeldoorn: Van Walraven,

Sociaal en Cultureel Planbureau. Werkprogramma 1982-1983. (Stukwerk no. 5) Rijswijk: Auteur, maart

Weert, E. de (Red.). De vormgeving van na-ervaringsonderwijs. Verslag van het OTO-symposium over

postacademisch en post hoger beroepsonderwijs. Den Haag: Studiecentrum OTO, 1982.
Zee, H. van der. Tussen vraag en antwoord. Beginselen van sociaal-wetenschappelijk onderzoek.
Meppel, Amsterdam: Boom, 1983.

nr. 9 F.J.D. Jehoel, Scholen voor gewoon lager onderwijs, organisatorisch bekeken. Een empirisch
onderzoek, (ƒ 15,50)

nr. 10 M.J. Krutzen, De ontwikkeling van het onderwijs in de Sowjetunie. (ƒ20,25).

nr. 11 A.M.P. Knoers & J.J.R.M. Corten (Red.), Ontwikkelingen in het Nederlandse onderwijs.

Aspecten van kwaliteit en beleid, (ƒ 16,-).
Bestellingen te richten aan: Verkoopcentrale A-Faculteiten, Postbus 9108, 6500 HK Nijmegen. (Tel.
080-516250).

- W.P.R.O. Overzicht, Tijdschrift voor Onderwijsbegeleiding.
W.P.R.O., Noordeinde 94a, 2514 GM Den Haag.

In september 1983 zal het eerste nummer verschijnen van het Tijdschrift voor Didaktiek der Natuurwe-
tenschappen.

De organisatie en financiering van het onderwijsonderzoek ondergaan ingrijpende veranderingen. In het
kader van de voorwaardelijke financiering zullen voor een deel van het traditionele universitair onder-
zoek landelijk te toetsen programma's ontwikkeld moeten worden.

De Stichting voor Onderzoek van het Onderwijs (SVO) besteedt 20% van haar onderzoeksbudget aan
thema-onderzoek, waarvoor door Onderzoeks Thema Groepen (OTG's) programma's worden gemaakt,
en vrij onderzoek, waarvoor een beoordelingscommissie door SVO en ZWO is ingesteld. Momenteel
vindt er overleg plaats om te komen tot een verkaveling van het terrein van maatschappij- en gedrags-
wetenschappen in het kader van de ZWO-structuur van stichtingen en werkgemeenschappen.
Gezien deze ontwikkelingen is een bundeling van onderwijsonderzoekers op dit moment uiterst noodza-
kelijk. De Voorbereidingsgroep Stichting voor Onderwijswetenschappelijk Onderzoek heeft een voor-
stel hiertoe ontwikkeld. Een onder deze naam op te richten stichting met een aantal daaronder ressor-
terende werkgemeenschappen van onderzoekers kan o.a. dienen voor: overleg over onderzoek (forum-
functie) en voor het programmeren, beoordelen en prioriteren van onderzoek.

Momenteel zijn er werkgemeenschappen op de volgende terreinen: opleiding van onderwijsgevenden,
schoolorganisatie, onderwijs en maatschappelijke ongelijkheid, hoger onderwijs. Oprichting van werk-
gemeenschappen op andere terreinen, alsmede samenwerking met de OTG's is niet uitgesloten.
Belangstellenden kunnen zich in verbinding stellen met het secretariaat van de Voorbereidingsgroep, p/a
Westerhaven 16,9718 AW Groningen, tel. 050-115258.

Leergangevaluatie: de curvo-strategie in de praktijk, door J. Terwei, W. Schuit en T. Beumer.
Auditieve analyse en leren lezen, door H. van Leent.

Problemen van beginnende leraren in het basisonderwijs: een exploratief beschrijvend onderzoek, door
S.A.M. Veenman, A.J. Berkelaar en J.M. Berkelaar-Tomesen.

Kritiek van Davydov op de klassieke abstractietheorie. Enige theoretische achtergronden, door R. van
der Veer.

Piaget-taken, traditionele intelligentietest en schoolvorderingen, door J. Kingma en W. Koops.
Diagnostische toetsen voor aanvankelijk lezen en spellen, door L.Th. Verhoeven.

Kongres 'Vrouwen in Onderwijs'. Thema's: A. Vrouwenideaal, meisjespedagogiek en vrouwelijke
dubbelrol, B. Het dagelijks leven op school, C. Feminisering van onderwijs.

Inschrijving door storting van ƒ 10,-op postgironummer 1927527 t.n.v. Ankie Veneberg, Egelantierstraat
142A, 1015 PS Amsterdam. Tel. 020-224841.

Annual Conference of the 'Society for Multivariate Analysis in the Social and Behavioural Sciences'.
Inlichtingen: A.W.M. Duijx, SISWO, Postbus 19079, 1000 SB Amsterdam. Tel. 020-240075.

Theme: Women's Worlds: Strategies for Empowerment. Deadline for submission of papers is August 1,
1983.

Inquiries: Dr. C.E. Clason, R.U. Groningen, Sociologisch Instituut, Grote Markt 23,9712 HR Gronin-
gen, tel. 050-114679.

In the present study the theory of Van der Ven (1969) of time-limit intelligence tests is critically
examined. Especially the so-called constancy hypothesis is inspected. It is shown that this hypothe-
sis is violated in the ISI-tests and furthermore it is argued that the hypothesis can be dispensed with.
The subject parameter in the Rasch model is a satisfactory measure for precision as defined by Van
der Ven (1969). For 5 of the 6 ISI intelligence tests the Rasch model holds to a satisfactory degree.
The Rasch model makes it possible to compare subjects on a common scale, even when the subjects
have different numbers of items completed, as is typically the case in time-limit tests. Transfor-
mation tables to this end are presented.

In the research into the structure of intellectual faculties it has been a common practice to score
time-limit tests only in terms of the number of correctly answered items. Although the rationale
for this scoring procedure is seldom exjplecitly stated, the reasoning behind this is that high
competence in a given domain of intellectual functioning wUl enhance both the number of
items completed and the number of items correctly answered such, that these two facets of test
behaviour can be combined into one score: the number of correctly answered items.
Typically, the scores on several tests of different content are studied by means of factor analysis
and the resulting factors are interpreted in terms of the original content of the tests.
However, there have been authors who have stressed the importance of more quantitative
aspects of intellectual functioning, such as speed, precision and distraction (Spearman (1927),
Thurstone (1937), Fumeaux (1961), and White (1973).

In this last tradition Van der Ven (1969, 1971, 1972, 1973, 1974, 1976a, 1976b) developed a
theory of test behaviour in time-limit tests.

In the present study we will critically examine some results of Van der Ven and offer some
further elaboration of the basic idea in his approach. In section 2 the theory of Van der Ven will
be introduced shortly, a critical examination of his precision score will be undertaken in section
3, whereas an alternative precision score is offered in section 4. Some conclusions and
perspectives are presented in the last section.

Van der Ven (1969,1971,1972,1973,1974,1976a, 1976b) studied the ISI and the GATE tests,
employing a theory of time-limit test behaviour that can be summarized by the following points:
1. Performance in time-limit tests can be explained by means of two basic traits: speed and
precision.

2. Speed (a) is the amount of labour performed in a given time period; the number of items
attempted, a, is a measure for speed.

3. Precision (tt) is defined as the probability of correctly responding to a standard item.

4. For each subject the probability of correctly responding to an attempted item of a given test
is constant over items (constancy hypothesis).

5. Speed and precision are stochastically independent over subjects:
(2) f(jt|a) = f(jr); g(a|K) = g(a).

Under the constancy hypothesis an unbiased estimate for the precision parameter, is given
by:

with Ty the number of correctly answered items and a^ the number of items completed.
In the approach of Van der Ven test behaviour is characterized by two scores, one for speed,
ay, and one for precision, p^. The scores are direct estimates of the trait parameters and all
relevant time-limit tests appeal to only these two traits.

Using his test scores Van der Ven (1969) performed a factor analysis on the ISI-tests (Snijders
et al., 1968) and the GATB-tests (note 1), in which he seemed to find support for his two-factor

theory for time-limit tests. In both analyses the speed scores loaded heavily on one factor,
whereas all precision scores loaded heavily on the other. The factors were approximately
orthogonal. Figure 1 gives the graphical representation of his two-factor solution for the ISI
tests.

These findings of Van der Ven (1969) seem to invalidate the traditional scoring procedure of
time-limit intelligence tests.

It can be shown that (3) is only a valid measure for precision in time-limit tests, when the items
are of equal difficulty; a simple illustration will make the point:

Of two subjects, v and w, the first one has precision parameter .6, the latter has precision
parameter .5 as defined by means of a standard item (in our case item 1). For a time-limit test of
four items the item probabilities, when attempted, are:

The mental speed of subject v is two times that of subject w, which in this test may mean that
subject V completes all items and subject w completes only two items, giving the following
situation:

The precision measures (3) are .5 and .6 respectively. The measure is not even monotone with
the parameter, illustrating the necessity of the constancy requirement.

When a group of subjects has attempted all items of (a subset of) a test, the expected number of
subjects having positively responded to an item must be equal over items:

This consequence of the constancy hypothesis can easily be tested in the data by inspecting the
proportions correct. Van den Wollenberg (1979) presents some relevant figures, which are
presented in Table 1.

These proportions are based on subsamples varying in size from about 1500 through about 2000
subjects, so it can be stated by virtue of the 'hit between the eyes test' that the constancy
hypothesis is violated to a considerable extent. The violation becomes even more severe when
more items of the tests are included. Van der Ven (1969) seems to be aware of this violation,
but does not seem to draw conclusions from it with respect to the empirical validity of the
accuracy measure.

As an essential assumption in the approach of Van der Ven is not valid for the ISl tests, the
accuracy measure (3) cannot be used. The constancy hypothesis can be characterized as a
technical assumption which makes it possible to use (3) as an estimator of the precision trait;
there are no substantial reasons why the items of a time-limit test should be equally difficult.
So an alternative measure for precision is called for, which does not imply the constancy
hypothesis. Such a measure would increase the validity of the approach of Van der Ven for the
ISI-tests and would make the approach more flexible in general, without essentially affecting
its implications.

The definition of precision as the probability of a positive response on a standard item
coincides with the definition of the subject parameter in the Rasch model. Given a standard
item of known difficulty, the probability of a positive response in the Rasch model is only
dependent upon the subject parameter and in fact is a monotone transformation of it, as can be
seen by inspecting the item characteristic function of the Rasch model:

where 6y is the subject parameter in the Rasch model, ej the item parameter and p(+|s,v) the
probability of a positive response on the standard item s of subject v. When the standard item is
fixed to 1.00, (5) becomes:

from which it is clear that the probability is a monotone funrtion of the Rasch subject
parameter.

The Rasch subject parameter seems to be a good alternative for the precision score of Van der
Ven. The constancy hypothesis can be dispensed with. However, in stead of it the empirical
validity of Rasch homogeneous precision measurement has to be ascertained.
The empirical validity of the Rasch model implies that, apart from the assumption that the
items are dichotomous and that Local Stochastic Independence apphes, the following three
substantial axioms are fulfilled:

- Monotony: for every item the probability of a correct response increases with the parameter
value on the latent trait.

- Unidimensionality: the precision facet of test performance is only determined by one latent
(precision) trait.

- Sufficiency: the number of correctly answered items contains all relevant information for
the estimation of the precision trait.

These assumptions are more or less implicit in the approach of Van der Ven. Monotony is
implied by the definition of the precision measure, whereas unidimensionality of the precision
trait is formulated as the first assumption of his theory.

The sufficiency axiom assumes that all subjects have tried all items; in the following section we
will see how this can be relaxed. Taking the simple sum as statistic, instead of for instance a
weighted sum, is in accordance with common scoring procedures.

In the light of the above considerations, the Rasch model does not impose extra requiremdnts
upon the data in comparison with the model of Van der Ven. To the contrary, the constancy
hypothesis can be disposed of, without any consequence; it appears to be an unneccessarily
severe assumption.

According to Rasch (1966a) (see also Fischer, 1974, chapter 19) science deals with statements
that imply comparisons, and these comparisons should be objective. To give meaning to the
word comparison, Rasch defines a set of objects and a set of agents (measurement devices).
Two objects are said to be compared, when the effects are observed of applying an agent on
both of them. Rasch gives a definition of objectivity too. For this concept he uses the term
specific objectivity. Rasch speaks of specific objectivity when:

The comparison of two arbitrary objects from the universe of objects is unequivocal,
independent of the selection of one or more agents from the relevant universe, and when
the comparison of agents is unequivocal, independent of the selection of objects.

In other words: when two objects are compared, the results should be equal for all measure-
ment devices and when two measurement devices are compared the results should be equal for
all objects.

Within the domain of dichotomous, unidimensional, probabilistic models, the Rasch model is
sufficient and necessary for specific objectivity (e.g. Fischer, 1974).

The property of specific objectivity has important implications for subject measurement by
means of time-limit tests. Each item of a test can be looked upon as a measurement device.
When subjects have different numbers of items attempted, it can be said that the selections of
measurement devices differ, but when there are measurement devices in common, the subjects
can be compared with each other. This is known as equating of tests (e.g. Wright & Stone,
1979).

Each selection of measurement devices measures the same trait and, except for transforma-
tion, the same subject parameter is measured, whatever selection of items is at hand.
So, in principle, the Rasch model makes it possible to compare subjects on a joint latent scale,
even when they have different numbers of items completed.

The other way around, in order to measure subjects on a common scale with different numbers
of items specific objectivity is a necessary requirement.

In order to measure precision as defined by Van der Ven, independently from number of items
completed, the Rasch model should apply and when the Rasch model does not apply mea-
surent of precision on a joint scale is impossible.

It should be pointed out that the approach of Van der Ven, and especially the requirement of
equal item difficulty, constitutes a trivial instance of Rasch homogeneity.

In order to use the subject parameter as a measure of precision as defined in the approach of
Van der Ven, the empirical validity of the Rasch model has to be ascertained. Here a difficulty
arises, as the Rasch model assumes that all items have been attempted by all subjects. It should
be noted that the present problem is different from the problem of measuring subjects on a
joint scale, although both problems stem from the fact that the tests are of the time-limit type.
Herfe the problem is not measuring subjects on a joint scale, but using as many subjects as
possible in the course of testing the model.

Van den Wollenberg (1979) solved this problem by using 'restricted subsamples'. The re-
stricted subsample, S^, contains all those subjects having attempted at least the first r items. As
the ISI-tests consist of 20 items, there are 21 restricted subsamples. (r=0,.. .k). Van den
Wollenberg only used the restricted subsamples Sn through S20. By this procedure subsets of
the tests can be inspected with respect to Rasch homogeneity using as much information from
the data as possible.

Testing the Rasch model can be done by splitting up the sample in different subsamples
according to some partitioning criterion. The most commonly used partitioning criterion is the
raw score, but in this instance subject speed (the number of items attempted) offers itself as
another very relevant partitioning criterion. Van den Wollenberg (1979) performed extensive
testing of the ISI-tests on both partitioning criteria using the program RADI (Raaymakers &
Van den Wollenberg, 1979).

It has recently been shown that the existing testing procedures for the Rasch model may fail to
detect violation of the dimensionality axiom (Gustafsson (1980), Stelzl (1979) and Van den
Wollenberg (1979)). In this program, however, the testing procedures developed by Van den
Wollenberg (1982a,b,c) are implemented such that a good test on the dimensionality axiom is
guaranteed. He concluded that the first five tests of the ISI (synonyms, cut figures, opposites,

rotation and word categories) showed an acceptable fit to the Rasch model, although some
items had to be eliminated from some of the tests. ISI-6 (figure categories) did definitely not fit
the model. His results are summarized in table2.

Rasch homogeneity of the ISI-tests thus implies that irrespective of speed, precision can be
measured in a specifically objective way. This is not to say, however, that speed should be an
irrelevant aspect of test behaviour; speed does not influence the quality of the trait that is
measured by means of the precision score. Pieters and Van der Ven (1982) developed a model
for the speed aspect of time limit-tests.

In the preceding section it has been stated that Rasch homogeneity holds to a satisfactory
degree for five of the six ISI-tests, independently of speed. However, for each subject the
parameter is obtained by means of the number of items that have been attempted. So it remains
to be answered how subjects with different numbers of items completed can be compared on
the same scale.

The procedure for this is quite analogous to linking or equating of tests (e.g. Wright and Stone,
1979). The procedure applied to the present situation entails the following steps:

- Under Rasch homogeneity the items are the same over subtests except for a subtest specific
scale constant.

- The subject parameter of subjects with r attempted items is obtained from restricted
subsample Sr and renormed accordingly.

- All subjects are now measured on the same scale, which is normed by the first 10 items.
Given the number of items correctly reponded to and the number of items completed, the
subject parameter estimates can be obtained. This can be done by means of transformation
tables. For the ISI-tests 1 through 5 this is done in the tables 3 up to 7. As can be observed
misfitting items have been removed to this end; as a consequence some columns of the
transformation tables are identical.

-2.63
-1.74
-1.13
-0.61
-0.15
0.29
0.72
1.14
1.57
2.00

2.45
2.93

3.46
4.10
5.00

score
1
2

8
9

10
11
12

16
17

-2.70
-1.81
-1.21
-0.73
-0.33
0.04
0.37
0.69
1.00

1.29
1.59
1.88
2.19
2.52
2.88

3.30
3.83
4.65

score
1
2

8
9

10
11
12

18
19

The same information can be represented graphically, which has been done as an illustration
forISI-4.

By means of the tables the precision aspect of test behaviour can be assessed (scored). So given
the raw score of a subject and his speed (the number of items completed), the precision score
can be read from the tables.

The precision score differs from the traditional raw score in two aspects: it reflects only part of
the test behaviour (also a speed score is needed) and it is non-monotonous with the observed
raw score. However, when the model of Van der Ven, or our modificat'on of it, holds than the
traditional scoring procedure is invalid, contrary to the present one.

For instance in test 2 a subject with raw score 8 out of 11 gets a Rasch score of 1.46 and slightly
excels a subject with raw score 9 out of 20. Of course in the speed aspect the latter subject
outperforms the former. The two scores together should give a complete protocol of test
behaviour.

It was shown that Van der Ven's approach (especially the constancy hypothesis) of behaviour
on time-limit intelligence tests was invalid for the ISI-tests and at the same time unnecessarily
restrictive.

The present study shows that the subject parameter of the Rasch model is an attractive
alternative to the precision score of Van der Ven. For five ISI-tests the Rasch model held

score
1
2

8
9

10
11
12

18
19

-2.66
-1.84
-1.31
-0.90
-0.55
-0.24
0.04
0.30
0.56
0.81

1.07
1.33
1.61
1.90
2.24
2.62

3.08
3.68
4.57

good, by which an invalid precision measure based upon too severe an assumption was
replaced by a valid measure with more flexible applicability. The Rasch-homogeneous
precision parameter is an alternative to the precision measure of Van der Ven. A few points,
however should be mentioned in this context.

- The question whether the precision parameter is a unidimensional construct over tests has
not yet been answered. Only the validity of the Rasch homogeneous scoring has been
ascertained.

- In power-tests the score contains the information with respect to the test; here, however,
the precision score contains only one aspect of test behaviour. The speed score is another
aspect. The relation between the precision parameters and the speed scores remains to be
investigated.

In a following study we will attack these questions. Then the validity of the two-factor theory of
Van der Ven in its modified form can be studied. This study then should give an answer to the
question how time-limit tests should be scored.

1 U.S. Department of Labor, Bureau of Employment Security Guide to the use of the General Aptitude
Test Battery. Washington, 1962.

Fischer, G.H. Einfuehrung in die Theorie psychologischer Tests. Bern: Huber, 1974.

Furneaux, W.D. Intellectual abilities and problem-solving. In H.J. Eysenck (ed.). Handbook of

abnormal psychology. New York: Basic Books, 1961.
Gustafsson, J.E. Testing and obtaining fit of data to the Rasch model. British Journal of Mathematical

and Statistical Psychology. 1980,33,205-233.
Pieters, J.P.M. & Van der Ven, A.H.G.S. Precision, speed and distraction. Applied Psychological
Measurement, 6, 93-109.

Raaymakers, M.H. & Van den Wollenberg, A.L. RADI: program for the dichotomous Rasch model.

Internal report 79-MA-06, K.U. Nijmegen, 1979.
Rasch, G. An informal report on the theory of objectivity in comparisons. In: L.T.J, van der Kamp &
C.A.J. Vlek (eds.). Psychological measurement theory, proceedings of the NUFFIC international
session of science at Het Oude Hof The Hague, july 14-28, 1966.
Snijders, J.T. & Welten, V.J. De ISI-schoolvorderingen en intelligentie-test, vorm I en II. Groningen:

Wolters-Noordhoff, 1968.
Spearman, C. The abilities of man. London: Macmillan, 1927.

Stelzl, I. 1st der Modelltest des Rasch-Modells geeignet Homogenitäts Hypothesen zu prüfen? Ein
Bericht der Simulation Studien mit inhomogene Daten. Zeitschrift für experimentelle und
angewandte Psychologie. 1979,26,652-672.
Thurstone, L.L. Abihty, motivation and speed. Psychometrika, 1937,2,136-152.
van der Ven, A.H.G.S. The binomial error model applied to time-limit tests. Dissertatie, K.U. Niime-
gen, 1969.

van der Ven, A.H.G.S. Het aantal overgeslagen items als testscore in tests met tijdslimiet. Nederlands

Tijdschrift voor de Psychologie, 1970,25,418-428.
van der Ven, A.H.G.S. Time-limit tests; a critical evaluation. Nederlands Tijdschrift voorde Psycholo-
gie, 1971,26,580-591.

van der Ven, A.H.G.S. Speed and precision in the general aptitude test battery. Nederlands Tijdschrift

voorde Psychologie, 1972,27,530-537.
van der Ven, A.H.G.S. Een ware score theorie voor tests met tijdslimiet. Nederlands Tijdschrift voorde

Psychologie, 1973,25,267-280.
van der Ven, A.H.G.S. The correlation between speed and precision in time-limit tests. Nederlands

Tijdschrift voorde Psychologie, 1974,29,447-456.
van der Ven, A.H.G.S. The reliability of speed and precision in time-limit tests. Tijdschrift voor

Onderwijs Research, 1976,1, 68-73. (a)
van der Ven, A.H.G.S. An error score model for time-limit tests. Tijdschrift voor Onderwijs Research,
1976, /, 215-226. (b)

White, P.O. Individual differences in speed, accuracy and persistence: a mathematical model for problem
solving. In H.J. Eysenck (ed.). The measurement of intelligence. Lancaster: Medical and Technical
PublishingCo. Ltd., 1973.
van den Wollenberg, A.L. The Rasch model and time-limit tests. Proefschrift, K.U. Nijmegen, 1979.
van den Wollenberg, A.L. Two new test statistics for the Rasch model. Psychometrika, 1982,47,123-140.

van den Wollenberg, A.L. A simple and effective method to test the dimensionality axiom of the Rasch

model. AppliedPsychologocalMeasurement, 1982,6,83-91. (b)
van den Wollenberg, A.L. On the applicability of the Q2 test for the Rasch model. Kwantitatieve
Methoden, 1982,5,30-55. (c)

Het Optreden en Uitblijven van Halo-Effecten
in de Oordelen van Studenten over Docenten

Inspired by Nisbett's-and Wilson's (1977) study on the halo effect - and the presumably lacking
awareness of it - in students' ratings of professors, two experiments were conducted. The influence
was investigated of the 'warm' (considerate), or 'cold' (inconsiderate) attitude, manifested by a
teacher in a videotaped interview, on judgments of his personal characteristics and aspects of his
lectures.

Experiment 1 showed clear halo effects in students' evaluations: the teacher's appearance,
mannerisms and accent were judged as more appealing, and his lectures were expected to be more
interesting and useful after his warm presentation. His height and age, however, were not assessed
differently in either condition. Respondents predominantly reported that their liking for the
teacher had not affected their appreciation of his appearance, mannerisms and accent; and that
their judgments of these attributes had not affected their liking for him. Both types of inferences
were intercorrelated substantially. Altogether, respondents did not produce reports which were
inconsistent with the experimental manipulation.

In Experiment 2 new respondents observed the same video scenes but judged the teacher's
characteristics on discriminative, non-evaluative scales. On the whole, these judgments were not
distorted by the teacher's warm or cold presentation. Thus, the halo effects of Experiment 1 did not
extend to discriminative judgments, but were restricted to evaluative ratings.

De nadrukkelijke verklaringen, zelfs van de deugdzaamste en onbaatzuchtigste lieden, dat zij
in staat zijn tot onafhankelijke oordelen, moeten als verdacht worden beschouwd. Met deze
krasse generalisering besloten Nisbett en Wilson (1977b) het verslag van hun onderzoek naar
het halo-effect. Uit dit experiment bleek dat de stijl waarin een universitaire docent enkele
onderwijskwesties becommentarieerde in een op videoband opgenomen interview, een drasti-
sche invloed uitoefende op de waardering die de respondenten de man toedroegen. In het ene
geval had hij zich uitgelaten op een 'warme' manier, vol consideratie met zijn leerlingen; in het
andere geval op een 'koude', afstandelijke, wat wantrouwige manier. Niet alleen mochten de
toeschouwers van de 'warme' versie van het interview de docent meer, vergeleken met
degenen die de 'koude' versie hadden bekeken, maar ook traden er halo-effecten op. De
studenten die de docent in zijn 'warme' rol gezien hadden, beoordeelden zijn uiterlijk,
gesticulatie en accent als aantrekkelijker dan hun collega's die hem in zijn 'koude' rol hadden
meegemaakt. Het stimulusmateriaal bevatte echter geen aanwijzingen voor objectieve ver-
schillen in deze kenmerken.

In elke experimentele conditie moesten sommige respondenten ook nog aangeven in hoeverre
zij meenden, dat hun sympathie voor de docent veroorzaakt had dat hun beoordeling van elk

* Vakgroep Sociale Psychologie, Vrije Universiteit, De Boelelaan 1087, 1081 HV Amsterdam. Met
dank aan Prof.Dr. D.Th. Kuiper en Dr. E. van de Vliert voor het uitbeelden van diverse docentrollen; de
laatste ook voor commentaar.

der drie attributen hoger of lager was uitgevallen. Deze respondenten gaven in overgrote
meerderheid te kennen dat hun sympathie voor de docent geen invloed had uitgeoefend op
hun beoordehngen van zijn kenmerken. Aan anderen werd gevraagd in hoeverre zij meenden
dat hun beoordeling van elk der kenmerken hun sympathie voor de docent had gewijzigd. Van
degenen die hem in zijn warme rol hadden meegemaakt gaven er telkens evenveel aan dat hun
sympathie toegenomen of afgenomen of niet beïnvloed was. Van degenen die hem in zijn
'koude' rol hadden meegemaakt, evenwel, rapporteerde steeds het merendeel dat hun waarde-
ring van een bepaald attribuut hun sympathie voor de docent had verminderd. Deze uitkom-
sten verleidden de onderzoekers, in de ban van hun eigen theorie over de onbetrouwbaarheid
van introspectieve rapporten (Nisbett & Wilson, 1977a), tot vérstrekkende interpretaties.
Naar de visie van Nisbett en Wilson (1977a, p. 245; 1977b, p. 255) betekenden deze resultaten
dat de respondenten de werkelijke oorzaken van hun beoordelingen ontkenden en 'de dingen
precies omkeerden'. Deze interpretatie heeft inmiddels veel stof doen opwaaien (cf. Adair &
Spinner, 1981; Ericsson & Simon, 1980; Smith & Miller, 1978; White, 1980).
Wat er onder de term halo-effect verstaan wordt, is onduidelijk (voor een analyse zie van
Rooijen en Vlaander, 1981). Nisbett en Wilson (1977b, p.250) beschouwden het halo-effect
hoofdzakelijk als 'de invloed van een globale evaluatie op de evaluatie van afzonderlijke
attributen van een persoon'. Soms zou zo'n globale evaluatie ook andere - meer cognitieve -
betekeniswijzigingen kunnen teweegbrengen, terwijl ook de percepties van betrekkelijk
ondubbelzinnige stimuli waarover duidelijke informatie beschikbaar is, gewijzigd zouden
kunnen worden. Zij maakten een onderscheid tussen een ruimere en een striktere versie van
halo-verschijnselen. De ruimere versie houdt in (p. 250), dat 'globale evaluaties veronderstel-
lingen over bepaalde trekken kleuren of de interpretatie van de betekenis of affectieve waarde
van ambigue informatie over trekken beïnvloeden'. Het betreft hier attributen waaromtrent
geen of slechts gebrekkige informatie voorhanden is. De striktere versie houdt in dat een
globale evaluatie verandering aanbrengt in de bijzondere evaluaties van bepaalde attributen
waarover iemand voldoende informatie heeft om een onafhankelijke schatting te kunnen
leveren.

Nisbett en Wilson (1977b) waren zeer stellig omtrent de uitwerking van het halo-verschijnsel;
zij spraken zelfs over een fundamenteel onvermogen om deze te weerstaan. Deze veronder-
stelling lijkt ondersteund te worden door de recente resultaten van Wetzel, Wilson en Kort
(1981).

Deze onderzoekers repliceerden het onderzoek van Nisbett en Wilson (1977b), waarbij zij
sommige respondenten vooraf informatie gaven over de werking van het halo-verschijnsel. De
helft hiervan werd wijs gemaakt dat het een gunstige zaak zou zijn als het halo-effect zou
optreden. De andere helft werd het tegenovergestelde wijs gemaakt. Over het geheel genomen
waren de resultaten gelijk aan de oorspronkelijke van Nisbett en Wilson. Noch de vooraf-
gaande informatie, noch de opgeroepen motivatie om het verschijnsel al dan niet te vertonen
was van invloed op de resultaten.

Meer dan 20 jaar geleden wees Tajfel (1962, p.23) erop dat 'First, under some conditions,
value or the emotional relevance of an object may affect the perception or judgement of this
object. The size of valued objects is sometimes over-estimated, or differences in value between
a series of objects may induce an exaggeration of judged differences in size (or in other physical
properties) between them'. Wilson (1968) toonde aan dat ook personen tot deze categorie van
'valued objects' behoren. Hij vond dat de lengte van een bepaalde gastdocent groter geschat
werd naarmate zijn universitaire rang hoger was voorgesteld. De zogenaamde professor werd

gemiddeld 1,7cm langer geschat dan de 'senior lecturer', 3,7cm langer dan de 'lecturer', 4,9cm
langer dan de practicumleider en 5,9cm langer dan de student-assistent. In alle gevallen ging
het om één en dezelfde man. Ward (1967) vond bovendien dat naarmate een mannelijke
stimulus-persoon (een bekende politicus) aardiger gevonden werd, hij ook langer geschat
werd. Degenen die hem het aardigst vonden schatten zijn lengte op 187cm, terwijl de
respondenten die hem het minst aardig vonden hem maar 184 cm gaven.
Omdat het experiment van Nisbett en Wilson (1977b) waar het gericht was op de inductie van
halo-effecten, een theoretisch belangrijk verschijnsel betrof dat ook praktische consequenties
bezit, is het herhaald in de Nederlandse situatie. Het volgende verslag handelt over twee
replicatie-onderzoekingen, waarin de oorspronkelijke procedure op enkele punten wat werd
gewijzigd en aangevuld. Allereerst werd getracht de experimentele manipulaties uit het
experiment van Nisbett en Wilson (1977b) - de meer of minder student-vriendelijke, 'warme' of
'koude' attitude die een docent laat blijken in een interview - zo goed en verantwoord mogelijk
na te bootsen in de Nederlandse situatie, teneinde de oorspronkelijke halo-effecten ook hier te
kunnen vaststellen. Verwacht werd dat uiterlijk voorkomen, gesticulatie en accent van de
docent in zijn 'warme' rol aantrekkelijker gevonden zouden worden dan in zijn 'koude' rol.
Tevens werden enkele andere afhankelijke variabelen opgenomen. De studenten moesten in
het eerste experiment ook enkele speculatieve oordelen omtrent de colleges van de docent
geven, waarin een halo-effect 'in ruimere zin' tot uitdrukking zou kunnen komen. Verwacht
werd dat zijn colleges na zijn 'warme' rol nuttiger en interessanter gevonden zouden worden.
Bovendien moesten zij enkele discriminatieve schattingen omtrent zijn leeftijd en lengte
maken, waarin een halo-effect 'in strikte zin' zou kunnen optreden. Verwacht werd dat de
docent in zijn 'warme' rol langer en verschillend in leeftijd geschat zou worden. Tenslotte
werden de vragen herhaald die Nisbett en Wilson stelden aangaande de vermoedens die de
respondenten hadden over hoe hun beoordelingen beïnvloed waren. In dit geval kregen alle
respondenten de gelegenheid om aan te geven, zowel in hoeverre zij meenden dat hun
algemene sympathie voor de docent hun waardering van zijn attributen had beïnvloed, als in
hoeverre zij meenden dat het omgekeerde het geval was geweest. Verwacht werd dat er tussen
deze twee typen invloedsvragen in het algemeen overeenstemming zou bestaan.
Samengevat luidde de probleemstelling van het eerste experiment:

2. Kunnen halo-effecten zowel 'in ruimere' als 'in striktere versie' aangetoond worden?

Het tweede experiment was erop gericht na te gaan of de halo-effecten van Nisbett en Wilson
met betrekking tot de kenmerken uiterlijk voorkomen, gesticulatie en accent zich uitstrekken
tot meer discriminatieve observaties of dat zij beperkt blijven tot evaluatieve oordelen.

Tijdens een college Sociale Psychologie in de herfst van 1978 namen 77 tweedejaarsstudenten
(21 mannen, 56 vrouwen) in de pedagogiek aan de Vrije Universiteit vrijwillig deel aan het
onderzoek. Hun gemiddelde leeftijd was 22 jaar {SD = 3,3). Volgens toeval werden zij

gelijkelijk aan één van twee experimentele condities toegewezen. Zij kregen geen andere
informatie vooraf dan dat zij een demonstratie over sociale perceptie zouden meemaken. Voor
allen was het de eerste keer dat zij daadwerkeUjk aan een experiment deelnamen.

Het experiment bestond uit twee fasen. In de oefenfase bekeken alle respondenten een
video-scène waarin een hun onbekende universitaire docent op een neutrale wijze in een
interview zijn mening over enkele onderwijskwesties gaf. Na afloop gaven de respondenten
hun mening te kennen over de docent en de wijze waarop hun oordeel tot stand was gekomen.
Hierna volgde de manipulatiefase. Eerst verliet de ene helft van de groep de collegezaal, na
verzocht te zijn het gebeuren niet te bespreken. De andere helft zag toen een video-scène
waarin een tweede hun onbekende universitaire docent op een studentvriendelijke, 'warme'
wijze zijn mening gaf over onderwijskundige kwesties. Na afloop van deze interview-scène
kregen zij dezelfde vragenlijst aangeboden als welke zij in de oefenfase hadden ingevuld. Na
beëindiging van de beoordelingstaak kon deze groep zich elders gaan verpozen. Vervolgens
werd de eerste groep de collegezaal weer ingeroepen om het video-interview met dezelfde
docent te bekijken, die zich op een 'koude' manier voordeed. Ook deze respondenten vulden
na de video-vertoning dezelfde beoordelingsvragenlijst in. Alle video-scènes duurden onge-
veer 6 minuten. Tenslotte volgde een nabespreking met alle respondenten over het oorspron-
kelijke onderzoek van Nisbett en Wilson (1977b).

In elke video-scène werden aan de docent, die gezeten was achter een bureau, een vijftal vragen
gesteld over zijn visie op het onderwijs in het algemeen, de werkgroep als onderwijsvorm, zijn
voorkeur voor diverse manieren van tentamineren, de opvang van studenten met problemen
en zijn beeld van het huidige studentenleven.

De docent wiens interview in de oefenfase werd vertoond, beantwoordde deze vragen op een
vlotte doch neutrale wijze. In de interview-scènes van de manipulatiefase beantwoordde de
tweede docent de vragen in het ene geval op een warme wijze en in het andere geval op een
koude wijze. De warme of koude stijl van deze docent bleek duidelijk uit al zijn antwoorden.
Bijvoorbeeld de vraag over de opvang van probleem-studenten beantwoordde hij in zijn
koude rol aldus: 'Jazeker, de docent heeft hier ook een taak. Je mag het onderwijs niet op zijn
beloop laten. Als een student vertraagd is met zijn studie, moet de docent ingrijpen. De
student in kwestie krijgt dan een oproep van de vakgroep voor een gesprek. Er zal dan voor
die student een studieschema vastgesteld worden, waarin gespecificeerd wordt, wanneer hij
bepaalde onderdelen afgerond moet hebben. Eventueel kunnen hierbij negatieve sancties
gebruikt worden. De docent heeft echter geen taak bij de opvang van studenten met persoon-
lijke problemen. Daar hebben we studentenpsychologen en studentendecanen voor'.
Op dezelfde vraag zei de docent in zijn warme rol: 'U bedoelt de probleemstudent? Jazeker
hebben we daar een taak voor. Er zijn twee soorten probleemstudenten. Allereerst studenten
met studieproblemen. Uiteraard heeft een docent hier een taak. Maar ik vind, dat Je ook
verder moet gaan. Een docent moet ook aandacht besteden aan studenten met persoonspro-
blemen, die inwerken op de studie. De docent zal moeten proberen deze studenten weer op
weg te helpen. Ik kan zeggen, dat wij met deze aanpak goede resultaten hebben. Studenten
die door anderen al lang opgégeven zouden zijn, hebben wij toch nog op het goede spoor
gekregen'.

Na afloop van de video-vertoningen beantwoordden de respondenten aan de hand van
8-puntsschalen de volgende vragen. 'Hoe aardig denkt u dat u deze docent zou vinden?'. 'Hoe
interessant denkt u dat de colleges van deze docent zullen zijn?'. 'Hoe nuttig denkt u dat de
colleges van deze docent zullen zijn?'.

De respondenten hadden geen informatie over het college van de docent gekregen. Deze
laatste twee variabelen waren bedoeld om de ruime versie van het halo-effect te kunnen
vaststellen. Vervolgens beoordeelden de respondenten het uiterlijk voorkomen, gesticuleren,
accent, de lichaamslengte en leeftijd van de docent. Hiervan mag men veronderstellen, dat zij
constant zijn in een koude en warme stijl en beoordeeld kunnen worden onafhankelijk van de
inhoud van het gesprokene. Deze variabelen waren bedoeld om de strikte versie van het
halo-verschijnsel aan het "licht te brengen. Het uiteriijk voorkomen, de gesticulatie en het
accent werden beoordeeld, overeenkomstig de procedure van Nisbett en Wilson (1977b), aan
de hand van een 8-puntsschaal ('bijzonder irritant', ..., 'bijzonder aantrekkelijk'). De lengte
werd geschat in centimeters en de leeftijd in jaren. Deze variabelen waren oorspronkelijk niet
door Nisbett en Wilson onderzocht.

Hierna gaven de respondenten op een 7-puntsschaal aan, in hoeverre zij meenden dat hun
sympathie voor de docent beïnvloed was door hun mening over zijn eigenschappen: voorko-
men, gesticulatie en accent. Dezelfde items als die van Nisbett en Wilson (1977b) werden
hiertoe gebruikt. Bijvoorbeeld, 'Het uiterlijk voorkomen van de docent leidde mij ertoe om de
docent: veel aardiger te vinden', ..., 'veel minder aardig te vinden'.

Tenslotte werd alle respondenten eveneens gevraagd in hoeverre zij dachten dat hun sympa-
thie voor de docent invloed uitgeoefend had op hun oordeel over zijn voorkomen, gesticulatie
en accent (uitspraak). Weer werden dezelfde items als die van Nisbett en Wilson (1977b)
gebruikt. Bijvoorbeeld, 'Hoe (on)aardig ik de docent vind, leidde mij ertoe om het accent van
de docent: veel hoger te waarderen', ..., 'veel lager te waarderen'. Deze twee typen beïnvloe-
dingsvragen werden door Nisbett en Wilson aan twee subgroepen gesteld om na te kunnen
gaan in hoeverre de respondenten zich bewust waren van de werking van het halo-verschijnsel.

Controle van de groepsindeling. Geen enkele variabele bleek significant te verschillen tussen
de mannelijke en vrouwelijke respondenten (/-toets). De gegevens werden derhalve voor
beiderlei kunne samengenomen en verder geanalyseerd. Ook werden er in de beoordehng van
het neutrale interview tijdens de oefenfase geen significante verschillen aangetroffen tussen
degenen die het koude en die het warme interview later te zien zouden krijgen (f-toets). De
toewijzing van de respondenten volgens toeval aan de experimentele condities had dus niet tot
systematische verschillen tussen beide groepen geleid. Deze konden daarom als equivalent
beschouwd worden.

Controle van het stimulus-materiaal. Om na te gaan of de kenmerkende eigenschappen van
de docent inderdaad onveranderlijk waren gebleven in zijn beide rollen, werd elke interview-
scène zonder geluid voorgespeeld aan één van twee volgens toeval samengestelde groepen
onafhankelijke beoordelaars. Dit waren 15, respectievelijk 18 studenten die meegewerkt
hadden aan een ander onderzoek naar het interpreteren van gelaatsexpressies. Zij beoordeel-

den hoe aantrekkelijk - irritant zij zijn uiterlijk voorkomen en zijn gesticulatie vonden.
Bovendien gaven zij aan hoe aardig hij hun toeleek. Zij gebruikten hiervoor dezelfde beóorde-
lingsitems als die welke de eigenlijke respondenten uit dit experiment hanteerden. De scènes
verschilden niet significant bij multivariate toetsing, Hotellings = 6,5, F (3, 29) = 2,0,
p <.14. Dit wees erop, dat het nonverbale optreden van de docent niet verschillend werd
gewaardeerd van de ene tot de andere scène.

De wijze waarop de docent zich voordeed in de interviews had, zoals verwacht, een duidelijke
uitwerking op de sympathie, die de studenten voor hem voelden. In zijn warme rol werd de
docent aardiger gevonden dan in zijn koude rol. De gemiddelde beoordelingen verschilden
zeer significant, zoals Tabel 1 laat zien. Dit resultaat kwam overeen met dat van Nisbett en
Wilson (1977b). Dit hield tevens in dat de manipulatie van de instelling, die de docent
voorwendde, geslaagd was.

De invloed van de warme of de koude presentatie van de docent op de bijzondere beoordelin-
gen valt eveneens af te lezen uit Tabel 1. Overeenkomstig de hypothese waren significant
verschillende verwachtingen omtrent zijn colleges opgeroepen. De respondenten, die het
warme interview hadden gevolgd, verwachtten dat zijn colleges veel nuttiger en interessanter
zouden zijn dan het geval was met degenen, die het koude interview hadden gevolgd. Strikt

Beoordeling van de docent in zijn warme of koude rol: Gemiddelden en standaarddeviaties en
resultaten /-toets;
Experiment 1.

genomen, echter, konden zij niet over informatie dienaangaande beschikken. Bovendien
werden het uiterlijk voorkomen, de gesticulatie en het accent van de docent als aantrekkelijker
gewaardeerd na zijn warme rol dan na de andere rol. Deze verschillen waren eveneens zeer
significant en in overeenstemming met de resultaten van Nisbett en Wilson (1977b). Uit deze
gegevens bleek dus dat het repliceren van Nisbetts en Wilsons experiment (voorzover er een
strikte replicatie was beoogd) goed gelukt was, zowel wat de onderzoeksopzet als wat de
uitkomsten aangaat.

De lengte en leeftijd van de docent werden na het ene interview niet anders geschat dan na het
andere interview. (De docent was in feite 179 cm lang en 38 jaar oud). Dit resultaat kwam niet
overeen met hetgeen bij de aanvang van dit experiment werd verwacht, namelijk dat hij in zijn
warme rol langer geschat zou worden en óf ouder óf jonger.

Invloed van sympathie op bijzondere beoordelingen. De antwoorden van de studenten op de
vraag, in hoeverre zij dachten dat hun oordeel over hoe aardig of onaardig zij de docent
vonden, invloed zou kunnen hebben uitgeoefend op hun oordelen over zijn bijzondere
kenmerken, zijn weergegeven in Figuur 1. De figuur toont de percentages der respondenten
met bepaalde meningen, afeonderlijk voor de beoordeling van het uiterlijk voorkomen, de
gesticulatie en bet accent, en afzonderlijk voor de warme en de koude docentrol. Conform
Nisbett en Wilson (1977b) zijn de zeven respons-alternatieven van elk item teruggebracht tot
drie categorieën: de sympathie verlaagde de waardering van het betreffende kenmerk (3
respons-alternatieven samengevoegd); de sympathie had geen effect (1 antwoordmogelijk-
heid); de sympathie verhoogde de waardering van het kenmerk (de overige 3 respons-alterna-
tieven tesamen).

De verschillen tussen de antwoordpatronen van de twee experimentele groepen waren voor
elk van deze drie variabelen significant. Voor de vermeende invloed van sympathie op de
waardering van het uiteriijk voorkomen X^ (2) = 16,8, p <.0002; op de gesticulatie X^ (2) =
21,8, p <.0001; en op het accent 16,1, p <.0003.

□ warme rol ■ koude rol

Figuur I. De gerapporteerde invloed die sympathie had uitgeoefend op de waardering van de drie
kenmerken.

Toetsing tussen de groepen van verschillen in gemiddelden met de f-toets leverde identieke
resultaten op.

Invloed van bijzondere beoordelingen op sympathie. Alle respondenten rapporteerden ook in
hoeverre zij meenden dat hun beoordeling van de bijzondere kenmerken invloed zou kunnen
hebben uitgeoefend op hun oordeel over de (on-)aardigheid van de docent. Deze opinies zijn
weergegeven in Figuur 2, analoog aan Figuur 1.

Figuur 2. De gerapporteerde invloed die sympathie had ondergaan van de waardering van de drie
kenmerken.

De resultaten in Figuur 2 vertonen grote overeenkomst met die zoals weergegeven in Figuur 1.
Wederom waren de verschillen tussen de respons-patronen van de experimentele groepen
voor elke van deze drie variabelen significant. Voor de vermeende invloed op sympathie van
de waardering van het uiterlijk voorkomen X^ (2) = 6,1, p < .05; van de gesticulatie X^ (2) =
20,8, p < .0001; en van het accent X^ (2) = 13,5 p < .002. Ook de /-toetsen op de verschillen
tussen de gemiddelden van de groepen gaven dezelfde resultaten.

Algemeen patroon. Wat kan men constateren uit de vergelijking van de Figuren 1 en 2?
Allereerst valt op de grote overeenkomst tussen de meningen over de invloed van sympathie
op de specifieke beoordelingen en omgekeerd die over de invloed van de specifieke beoorde-
lingen op de sympathie. De produkt-momentcorrelatie tussen beide vermeende invloeden was
wat betreft uiterhjk voorkomen r = .55; inzake gesticulatie r = ".61 en met betrekking tot
accent r = .58 (elke correlatie significant). Dit week derhalve af van de verwachtingen di^ uit
de gegevens en interpretaties van Nisbett en Wilson (1977b) voortvloeien, namelijk dat er
tussen beide typen meningen over de richting van de invloed geen samenhang zou zijn. Deze
resultaten wijzen op de mogelijkheid dat sommige respondenten een wisselwerking tussen hun
sympathie voor de docent en hun waarderingen van zijn attributen meenden te ervaren. Deze
interpretatie werd door analyse van de betreffende kruistabellen ondersteund. Van'degenen
die enigerlei invloed erkenden bleek dat een kwart tot de helft een wederkerig verband
aannam. *

Ten tweede, in het algemeen was het merendeel der respondenten van mening, dat hun

sympathie-oordeel noch effect had uitgeoefend, noch had ondervonden. Uit de betreffende
kruistabellen bleek dat met betrekking tot uiterlijk voorkomen 47% en accent 43% der
respondenten generlei invloed veronderstelde. Wat betreft de opvattingen inzake gesticulatie
bestond er een wat afwijkend beeld (22% meldde generlei invloed).

Ten derde, voorzover de respondenten al te kennen gaven dat hun sympathie-oordeel invloed
uitgeoefend of ondergaan had, werd na elke interview-scène de richting van deze beïnvloeding
vaker consistent dan strijdig gerapporteerd met hetgeen uit de aard van de experimentele
manipulatie te verwachten was. Immers, zij die de warme rol hadden bekeken gaven vaker aan
dat hun beoordeling van sympathie of kenmerk was opgewaardeerd dan neergewaardeerd.
Degenen, daarentegen, die de koude rol hadden bekeken gaven vaker te kennen dat hun
beoordeling van sympathie of kenmerken was neergewaardeerd dan opgewaardeerd. Dus, als
de respondenten al van een invloed gewaagden, dan was deze invloed in lijn met de experi-
menteel geïnduceerde evaluatieve reacties.

De huidige resultaten inzake het besef van het beïnvloedingsproces kwamen niet overeen met
de hypothese van Nisbett en Wilson (1977b). Deze luidde dat de respondenten wel zouden
aangeven dat hun sympathie beïnvloed was door hun waardering van de bijzondere ken-
merken, terwijl zij niet zouden erkennen dat hun sympathie voor de docent hun beoordeling
van zijn kenmerken had gewijzigd. De uitkomsten van het onderhavige experiment wezen
erop dat de respondenten, over het geheel beschouwd, geen strikte oorzakelijke samenhang
tussen hun sympathie en hun bijzondere beoordelingen meenden vast te stellen. Maar even-
tueel een correlatief verband erkenden tussen hoe aardig - onaardig de docent hun toescheen
en hoe aantrekkelijk - irritant zij zijn voorkomen, gedrag of spraak vonden.
De resultaten betreffende het optreden van halo-effecten toonden aan dat de voorgewende
oriëntatie van de docent de oordelen over de nuttigheid en interessantheid van zijn colleges
beïnvloedde. Met andere woorden, de ruime versie van het halo-effect was opgetreden. Na de
warme presentatie van de docent werden zijn uiterlijk voorkomen, gesticulatie en accent als
aantrekkelijker beoordeeld dan na zijn koude presentatie. Deze laatste bevindingen waren
een getrouwe kopie van wat Nisbett en Wilson (1977b) eerder aantoonden. Dat hiermee, zoals
zij beweerden, een meer strikte versie van het halo-verschijnsel zou zijn opgetreden, valt
echter te betwijfelen. De roluitvoering van de docent had immers geen uitwerking op de wijze
waarop de studenten zijn leeftijd en lengte beoordeelden. Deze inconsistentie in de experi-
mentele effecten deed het vermoeden rijzen dat het halo-effect wel zal optreden voor waarde-
ringen, maar niet voor non-evaluatieve beoordelingen.

Dit onderzoek had ten doel de reikwijdte van de eerder aangetroffen halo-verschijnselen
nader te bepalen. In het vorige experiment bleken de speculatieve oordelen ten aanzien van de
colleges van de docent en de waarderingen van zijn uiterlijk, gedrag en spraak te zijn beïnvloed
door de wijze waarop de docent zich in de interviews had uitgelaten. Deze beoordelingen
echter hielden alle een waardering in, in de zin van de Evaluatie-component van Osgoods
Evaluatie-Potentie-Activiteit-stmctuur van affectieve betekenissen (Osgood, May & Miron,

1975). De tegenstellingen 'nuttig - nutteloos', 'interessant - oninteressant', 'aantrekkelijk -
onaantrekkelijk' en 'aardig - onaardig' hebben alle een evaluatie-karakter.
Daarentegen bleken de schattingen van de lengte en de leeftijd van de docent niet beïnvloed te
zijn door de rol die hij had gespeeld. Deze beoordelingen werden uitgevoerd op een wijze die
geen enkele voorkeur of afkeer uitdrukte, door de lengte in centimeters, en de leeftijd in jaren
aan te geven. Dit resultaat wees erop dat de waarneming van deze attributen niet was
veranderd ten gevolge van de ene of de andere interview-scène. Welk beeld de studenten zich
van de docent gevormd hadden, hoe aardig of onaardig zij hem ook vonden, dit had geen
uitwerking op hun discriminatieve beoordeling van deze aspecten.

In het volgende experiment werd de veronderstelling getoetst, dat de eerder geconstateerde
beïnvloedbaarheid van de beoordeling van de kenmerken van de stimulus-persoon beperkt
blijft tot beoordelingen die een waarderingskarakter bezitten. Als deze bijzondere kenmerken
beoordeeld kunnen worden, op een wijze die geen waardering uitdrukt, dan zullen deze
beoordelingen geen halo-effect vertonen. Er zal dan geen invloed optreden van het beeld dat
de docent oproept door zijn warme of koude oriëntatie.

Te dien einde werd in het volgende onderzoek Experiment 1 herhaald met enkele wijzigingen.
De respondenten moesten in dit geval het uiterlijk voorkomen, de gesticulatie en het accent
van de docent beoordelen aan de hand van response-schalen die geen evaluatief karakter
hadden, maar meer descriptief van aard waren. Verwacht werd, dat het halo-effect uit
Experiment 1 zich op deze meer zakelijke beoordelingen niet meer zou voordoen. Bovendien
moesten de respondenten nog een beoordeling geven van de kwaliteit van de uitlatingen van de
docent. Dit onderdeel was opgenomen om te kunnen uitsluiten dat de verwachte verschillen in
sympathie voor de docent te wijten zouden zijn aan een grotere diepgang van zijn betoog in de
warme versie dan in de koude versie van zijn optreden. Voor het overige werden geen
wijzigingen in de experimentele procedure aangebracht. De items uit de beoordelingslijst van
Experiment 1 betreffende de vermeende invloed van de sympathie voor de docent op de
beoordeling van zijn karakteristieken en omgekeerd, werden echter weggelaten.

Zeventig tweedejaarsstudenten (van wie 55 vrouwen) in de pedagogiek aan de Vrije Universi-
teit werkten aan het experiment mee tijdens een college Sociale Psychologie in novemljer 1979.
Hun leeftijd was gemiddeld 21 jaar {SD = 3,2). Deze groep werd volgens toeval in twee helften
gesplitst. Net zoals in Experiment 1 werd de respondenten alleen verteld dat een demonstratie
over sociale perceptie zou plaatsvinden. Het was ook voor hun de ^liereerste daadwerkelijke
kennismaking met een psychologisch experiment.

De procedure van dit experiment was identiek aan die van het vorige. Dezelfde stimulus-
scènes werden vertoond. Na de voor allen gelijke oefenfase bekeek de ene helft van de groep
het warme interview, waarna de andere helft het koude interview te zien kreeg. Het enige
verschil met de gang van zaken in Experiment 1 lag in de beoordelingen die van de responden-
ten gevergd werden. Zowel na het eerste interview met de neutrale docent in de oefenfase, als
na het interview met de tweede docent in zijn warme of koude rol beoordeelden de studenten
de volgende facetten:

- Hoe aardig zij de docent vonden, zijn lengte en leeftijd en hoe nuttig zij zijn colleges
achtten, net zo als in Experiment 1.

- Hoe doordacht ze zijn betoog vonden (aan de hand van een 8-puntsschaal, 'buitengewoon
weldoordachf, ..., 'huilengev/oonoppervlakkig').

- Hoe onberispelijk zijn uiterlijk voorkomen was (8-puntsschaal, 'bijzonder onberispelijk',
..., 'bijzonderslordig').

- Hoe levendig zijn gesticulatie (8-puntsschaal, 'bijzonder levendig', ..., 'bijzonder mat')
was.

- Hoe verstaanbaar zijn accent (8-puntsschaal, 'bijzonder verstaanbaar', ..., 'bijzonder
onverstaanbaar') was.

De tegenstellingen die in de respons-alternatieven van de laatste vier beoordelingsschalen
voorkwamen, waren gekozen vanwege hun evaluatief neutrale karakter, in de zin van Osgoods
Evaluatie-Potentie-Activiteit-structuur van de gevoelswaarde van woorden (Osgood, May &
Miron, 1975). Het contrast 'weldoordacht - oppervlakkig' betrof voornamelijk de Potentie-
dimensie, terwijl 'levendig - mat' hoofdzakelijk betrekking had op de Activiteit-dimensie van
de affectieve betekenis. Van 'verstaanbaar - onverstaanbaar' en 'onberispelijk - slordig' werd
aangenomen, dat deze tegenstellingen in het algemeen nauwelijks een evaluatieve betekenis
inhielden.

Ook in deze groep respondenten bleek uit afzonderlijke /-toetsen, dat de mannen niet
significant van de vrouwen afweken in hun beoordelingen. De gegevens van beide seksen
werden daarom gezamenlijk verder geanalyseerd.

De 35 personen die in de eigenlijke manipulatiefase aan het warme interview werden bloot-
gesteld, verschilden niet significant van hun collega's die het koude interview meemaakten,
wat betreft de beoordelingen die zij over de eerste docent tijdens de oefenfase hadden
uitgebracht (r-toets). Dus de halvering van de totale groep volgens het toeval had wederom
twee proefgroepen opgeleverd, die als equivalent te beschouwen waren.
Tabel 2 toont de gemiddelden en standaarddeviaties van de beoordelingsvariabelen betref-
fende de tweede docent, afzonderlijk voor de kijkers van het warme interview en de kijkers
van het koude interview. Zoals voorspeld, bleken de studenten de docent aanmerkelijk
aardiger te vinden na zijn warme presentarie dan na zijn koude optreden. Eveneens overeen-
komstig de resultaten van Experiment 1, meenden degenen die het warme interview hadden
bekeken, dat zijn colleges nuttiger zouden zijn dan het geval was met de toeschouwers van het
andere interview. Bovendien liepen de gemiddelde schattingen van de lengte en de leeftijd
opnieuw niet significant uiteen tussen de twee groepen. Tot zover ging het om de identieke
afhankelijke variabelen in Experiment 1 en 2.

De tabel laat ook zien dat de ene groep niet significant van mening verschilde van de andere
groep over hoe weldoordacht of oppervlakkig het betoog van de docent was. Zowel in zijn
warme als in zijn koude rol achtte men datgene wat hij vertelde gemiddeld 'tamelijk weldoor-
dacht'. Dit resultaat verleende dus geen steun aan de hypothese dat het betoog van de docent
in zijn warme rol van beter gehalte zou zijn.

Wat betreft de overige beoordelingen van de bijzondere kenmerken van de docent bleek, dat
de wijze waarop hij zich had uitgelaten geen invloed had gehad op hoe onberispelijk - slordig
de studenten zijn uiterlijk voorkomen aanmerkten en hoe verstaanbaar zij zijn spraak vonden.

Beoordeling van de docent in zijn warme of koude rol: Gemiddelden en standaarddeviaties en
resultaten r-toets;
Experiment 2.

Daarentegen was er nog wel een effect opgetreden op de beoordeling van hoe levendig - mat
zijn gedrag scheen. Na het warme interview werd zijn gesticulatie gemiddeld als levendiger
beoordeeld dan na het koude interview.

Uit deze resultaten viel het volgende op te maken. Het halo-verschijnsel in ruimere zin had zich
opnieuw voorgedaan, als een stabiel effect van de experimentele manipulaties. Ook bij de
onderhavige respondenten leidde de algemene indruk, die zij zich van de docent hadden
gevormd op grond van zijn uitlatingen tijdens het ene of het andere interview, tot een
uiteenlopende beoordeling van hoe nuttig zij dachten dat zijn colleges zouden zijn. Daaren-
tegen trad het halo-verschijnsel in striktere zin (de vertekende beoordeling van kenmerken
waaromtrent voldoende informatie voorhanden is) niet of nauwelijks op. De schattingen van
de lengte en leeftijd van de docent werden niet door de experimentele manipulatie beïnvloed.
Dit gold ook voor de beoordeling van hoe verstaanbaar het accent en hoe onberispelijk -
slordig het voorkomen van de docent was.

Alleen in de beoordeling van zijn gesticulatie leek toch het halo-effect tot uitdrukking te
komen. Dit laatste stemde niet overeen met de verwachtingen. Een mogelijkheid was dat de
gesticulatie van de docent in |iet warme interview objectief toch wat levendiger was uitgevallen
dan in het andere interview. Dit werd gecheckt door de video-scènes zonder geluid door 12
onafhankehjke studenten te laten beoordelen. Elke beoordelaar bekeek volgens toeval de

warme of koude versie van het interview. Na afloop beoordeelden zij hoe onberispelijk -
slordig het voorkomen en hoe levendig - mat de gesticulatie van de docent was. De beoor-
deling van het uiterlijk voorkomen bleek niet significant te verschillen tussen de ene en de
andere interview-scène. Echter in de warme versie beoordeelden de kijkers de gesticulatie van
de docent als levendiger (M = 6,2, SD = 1,2) dan in de koude versie (Af = 4,2, SD = 1,2); t
(10) = 3,0, p <.02'. De respondenten in Experiment 2, die het gedrag van de docent in de
warme versie als levendiger beoordeelden dan hun collega's deden na de koude presentatie,
gaven dus geen vertekende inschatting van de stand van zaken. Van het optreden van de strikte
versie van het halo-effect ten gevolge van de voorgewende attitude van de docent was dus in dit
experiment geen sprake.

Enkele nadere gegevens leverden een ondersteuning voor deze interpretatie. Aan een nieuwe
groep van 24 studenten (12 mannen, 12 vrouwen) werd één van beide interviews voorgespeeld
zonder beeld. Elke beoordelaar beluisterde volgens toeval de warme of de koude versie.
Hierna beoordeelden zij hoe aardig zij de docent vonden en hoe doordacht zijn betoog was.
Van zijn accent gaven zij aan zowel hoe aantrekkelijk zij dit vonden als hoe verstaanbaar het
was. Zij gebruikten hiervoor dezelfde beoordelingsschalen als die in Experiment 1 en 2 werden
gehanteerd. Wederom werd de docent in de warme rol aardiger gevonden (Af = 5,3, 5Ö = 1,0)
dan in zijn koude rol (A/ = 3,9, SD = 1,4); t (22) = 2,5, p <.01. De doordachtheid van zijn
betoog werd na de warme of de koude presentatie niet significant verschillend beoordeeld.
Zoals verwacht, werd het accent van de docent aantrekkelijker gevonden na de warme versie
(A/ = 5,0, SD = 0,9) dan na de koude versie (Af = 3,8, SD = 0,9); t (22) = 3,1, p < .01. Zijn
accent werd echter niet significant als meer of minder verstaanbaar beoordeeld na de ene of de
andere presentatie.

Deze experimentele onderzoekingen toonden aan dat de algemene sympathie van studenten
voor een docent gauw te beïnvloeden was. Niet alleen in de Amerikaanse, maar ook in de
Nederlandse situatie bleken de studenten een docent aardiger te vinden, naarmate deze zich
meer op een warme dan koude wijze had uitgelaten in een interview over onderwijskwesties.
Op zichzelf beschouwd was deze uitkomst niet schokkend. De student-vriendelijke instelling
van een docent - of een waargenomen overeenstemming in opvattingen - is iets dat studenten
direct aanspreekt.

Een opmerkelijker zaak was dat de speculatieve waarderingen van zijn colleges-hoe nuttig of
interessant men deze verwachtte te zijn - een halo-effect 'in ruimere zin' vertoonden. 'Onge-
hinderd door feitenkennis' schatten de studenten het nut en de interessantheid van 'smans
colleges hoger in als hij zich warmer had voorgedaan. Bovendien kwamen er in Experiment 1
halo-effecten tot uiting in de waarderingen die de respondenten hechtten aan enkele bij-
zondere kenmerken die in principe objectief constateerbaar en onafhankelijk beoordeelbaar
waren. Het uiterlijk voorkomen, de gesticulatie en het accent van de docent werden aantrek-

1 Uit de controle van het stimulus-materiaal in Experiment 1 (zie aldaar) bleek dat de gesticulatie van de
docent zonder gesproken woord niet significant aantrekkelijker werd gewaardeerd in de warme dan in de
koude versie.

Beide controles tesamen wezen erop dat beoordelaars kunnen differentiëren tussen evaluatie en feitelijke
beoordeling van de gesticulatie.

keiijker gevonden na het warme interview. Deze waarderingen waren derhalve beïnvloed door
een voor de discriminatie van deze attributen irrelevante factor: de manifeste attitude van de
docent. Toen in Experiment 2 de beoordeling van deze attributen kon geschieden, niet als een
uitdrukking van voorkeur of afkeer, maar aan de hand van non-evaluatieve, feitelijke beoor-
delingsschalen, bleken er geen halo-effecten 'in strikte zin' op te treden. Ook bleek er in beide
experimenten geen invloed vast te stellen op de schattingen van de lengte of de leeftijd van de
docent. In eerdere onderzoekingen in Australië "en de Verenigde Staten waren lengteschat-
tingen wel beïnvloed door het prestige van of de sympathie voor de stimuluspersoon.
Alles tesamen manen deze bevindingen tot voorzichtigheid bij het voor praktische doeleinden
gebruiken van beoordelingen omtrent docenten afkomstig van studenten (zie ook Blom &
Langerak, 1979). De evaluatieve component is vaak moeilijk te vermijden in beoordeUngs-
items. Soms moeten de studenten eigenlijk speculatieve oordelen geven als hun - om goede of
minder goede redenen - feitelijke observatiegegevens ontbreken. In dergelijke gevallen, zo
lieten de onderhavige resultaten zien, is de kans groot dat de beoordelingen van bepaalde
kenmerken vertekend worden door impressies van andere karakteristieken die voor de eigen-
lijke beoordeling irrelevant zijn.

Van de andere kant bleek ook duidelijk dat de studenten wel in staat waren tot onafhankelijke
observaties en oordelen, gegeven voldoende informatie en non-evaluatieve respons-moge-
lijkheden, niettegenstaande het sterke emotionele appèl dat de roluitvoering van de docent op
hun deed. Althans onder bepaalde condities derhalve kon de door Nisbett en Wilson (1977b)
geuite verdenking, vermeld bij de aanvang van dit verslag, ontzenuwd worden.
Aangaande de vermoedens die de respondenten naar voren brachten over de beïnvloeding van
hun beoordelingen, leverde Experiment 1 ook interessante gegevens op. Het merendeel
rapporteerde geen effect van hun sympathie voor de docent op hun waardering van zijn
uiterlijk, gedrag of uitspraak en ook omgekeerd geen effect van deze bijzondere beoorde-
lingen op hun sympathie. De manier waarop Nisbett en Wilson (1977b) de onbetrouwbaarheid
van het introspectieve proces trachtten vast te stellen (en die in Experiment 1 werd overge-
nomen), was nader beschouwd niet optimaal (cf. Adair & Spinner, 1981; White, 1980). De
respondenten werden immers niet ondervraagd over hun vermoedens omtrent de halo-wer-
king van de warme of koude stijl die de docent manifesteerde. De onderhavige respondenten
rapporteerden strikt genomen niet iets dat in strijd was met de experimentele gebeurlijkheden.
Het getuigde eerder van adequate inzichten of veronderstellingen. Enig vertrouwen in de
beweringen over hun hogere mentale processen die sommige respondenten verstrekken, is niet
uit de lucht gegrepen.

Adair, J.G., & Spinner, B. Subjects' access to cognitive processes: Demand characteristics and verbal

report. Journal for the Theory of Social Behavior, 1981, II, 31-52.
Blom, S.J.M., & Langerak, W.F. Beoordeling van docenten door studenten. Pedagogische Studiën,
1979,56,308-318.

Ericsson, K.A., & Simon, H.A. Verbal reports as data. Psychological Review, 1980,87,215-251.
Nisbett, R.E., & Wilson, T.D. Telling more than we can know: Verbal reports on mental processes.

Psychological Review, 1977, 231-259. (a)
Nisbett, R.E., & Wilson, T.D. The halo effect: Evidence for unconscious alteration of judgments.

Journal of Personality and Social Psychology, 1977,35,250-256. (b)
Osgood, C.E., May, W.H., & Miron, M.S. Cross-cultural universals of affective meaning. Urbana:
University of Illinois Press, 1975.

Smith, E.R., & Miller, F.D. Limits on perception of cognitive processes: A reply to Nisbett and Wilson.
Psychological Review, 1978,85,355-362.

Tajfel, H. Social perception. In G. Humphrey & M. Argyle (Eds.), Social psychology through experi-
ment. London: Methuen, 1962.

van Rooijen, L., & Vlaander, G.P.J. Beïnvloedbaarheid van studentenoordelen over docenten (Onder-
zoeksmemorandum RM-PS 81-11). Amsterdam: Vrije Universiteit, Vakgroep Sociale Psychologie,
1981.

Ward, C.D. Own height, sex, and liking in the judgment of heights of others. Journal of Personality,
1967, J5,381-401.

Wetzel, C.G., Wilson, T.D., & Kort, J. The halo effect revisited: Forewarned is not forearmed. Journal
of Experimental Social Psychology, 1981,17,427-439.

White, P. Limitations on verbal reports of internal events: A refutation of Nisbett and Wilson and of Bem.
Psychological Review, 1980,87,105-112.

Wilson, P.R. Perceptual distortion of height as a function of ascribed academic status. Journal of Social
Psychology, 1968,74,97-102.

Modern texts in chemistry force the reader to mentally manipulate projected molecular models.
For beginning students this task often proves too difficult. Up till now remedial teaching appears to
be insufficiently effective in bringing students up to mastery level. This article reports on an
experiment in which a student, showing deficiencies in interpreting molecular models, was asked to
solve a number of relevant problems. Analysis of the resulting thinking-aloud protocol (40 min.)
led to the conclusion that our subject was lacking a number of specific cognitive and perceptual
skills. In order to be completely successful in solving the chemical problems, mastery of these skills
appears logically necessary. More data need to be gathered and analyzed to provide a sound
empirical basis for implementing the training of relevant skills in the fresmen's chemistry curri-
culum.

Nogal wat beginnende scheikundestudenten hebben grote moeite met het interpreteren van
schematisch op papier weergegeven ruimtelijke structuren. Een hoog vaardigheidsniveau op
dat gebied is voor chemici noodzakehjk, vanwege een ontwikkeling die zich de afgelopen
decennia in de scheikunde heeft voltrokken: een doorbraak in de bestudering van stoffen in
vaste toestand. Scheikundigen moeten tegenwoordig uit de ruimtelijke structuur van een
atomaire of moleculaire configuratie de fysische en chemische eigenschappen van een stof
kunnen afleiden en, omgekeerd, naar aanleiding van een aantal gewenste eigenschappen
verbindingen kunnen ontwerpen.

Ongeveer tegelijkertijd met die heoriëntatie heeft zich een tweede ontwikkeling voorgedaan
die niets met scheikunde als vak te maken heeft, maar wel gevolgen blijkt te hebben voor het
scheikundeonderwijs. Achtereenvolgens zijn in het voortgezet onderwijs juist die vakken
afgeschaft waarbij ervaring kon worden opgedaan met getekende figuren die ruimtelijke
vormen voorstellen. Eerst werd beschrijvende meetkunde opgeheven en later is ook stereo-
metrie uit de schoolprogramma's verdwenen. Het samenvallen van deze twee ontwikkelingen
- behoefte aan ruimtelijk inzicht en afschaffen van oefening daarin - heeft het onderwijspro-
bleem voor scheikundigen verscherpt.

In de chemische vakhteratuur zijn een aantal nogal verschillende typen afbeeldingen in
gebruik. Ieder van die typen vindt zijn eigen rechtvaardiging in de chemische theorie. Nog

afgezien van deze afbeeldingstypen worden verschillende projectietechnieken en allerlei hy-
bride vonnen daarvan gebruikt, omdat zich in de literatuur nog geen standaard-conventie voor
afbeelding van ruimtelijke structuren heeft ontwikkeld. Voor naïeve waarnemers-en dat zijn
aankomende studenten door hun gebrek aan scholing - doet zich zo een nogal verwarrend
mengsel van figuren voor, onderling sterk verschillend in herkenbaarheid. Veel studenten
hebben met de interpretatie en met het mentaal manipuleren van de bedoelde ruimtelijke
vormen dan ook grote moeite. Een aanzienlijke onderwijsinspanning wordt thans besteed aan
het oefenen van deze voor chemiestudenten noodzakelijke vaardigheid. Het oefenmateriaal in
de huidige opleiding bestaat uit een reeks figuren in opklimmende moeilijkheidsgraad, waar-
mee interpretatie en toepassing in een scheikundige context onder begeleiding in een practi-
cumsituatie stap voor stap wordt doorgenomen. Als hulpmiddelen worden daarbij verschil-
lende soorten echte ruimtelijke modellen gebruikt. De resultaten blijven, door gebrek aan
inzicht in de ware aard van de problemen, vooralsnog onbevredigend. Het einddoel van ons
project is het onderwijs effectiever en efficiënter te maken. De eerste fase van onderzoek,
waarover in dit artikel wordt gerapporteerd, gaat niet verder dan de ontwikkeling van een
theoretisch model voor diepte-interpretatie. In een latere fase zullen toetsing van de theorie en
implementatie in het onderwijs plaatsvinden.

Aan het interpreteren van plat afgebeelde ruimtelijke structuren zitten voor de waarnemer
drie probleemaspecten: vaktheoretisch, afbeeldingstechnisch en perceptueel. Ieder van die
problemen moet worden opgelost, willen ruimtelijke voorstellingen via platte figuren in een
scheikundetaak een rol kunnen spelen.

De vaktheoretische kant betreft de twee in de inleiding genoemde taken die bij hedendaags
scheikundeonderzoek van belang zijn: het ontwerpen van chemische verbindingen, door een
gewenste ruimtelijke configuratie op te bouwen, en het analyseren van een ruimtelijke
structuur om eigenschappen van stoffen te kunnen afleiden. Voor beginnende studenten is
alleen het laatste relevant. Het vaststellen van ruimtelijke vormen aan de hand van gegeven
tekeningen betekent bij die taak slechts een eerste stap. Is de vorm eenmaal vastgesteld, dan is
de volgende stap dat alle denkbare symmetrieassen in de structuur moeten worden gevonden.
De fysische eigenschappen van een stof hangen ten nauwste samen met de symmetrie-eigen-
schappen. Zo zijn bijvoorbeeld infrarood- en ultravioletspectra van stoffen niet interpreteer-
baar zonder inzicht in elementen van symmetrie. Een belangrijke deelvaardigheid bij het
vinden van symmetrieassen is mentale rotatie van de vastgestelde vorm. Als derde stadium
volgt daarna een vrijwel algorithmische afleiding van eigenschappen aan de hand van de

/	/

/		/

Fig. I Necker-kubus, waarbij ruimtelijk evenwijdige
lijnen evenwijdig zijn afgebeeld.

gevonden symmetrieassen. De gang van zaken kan worden verduidelijkt met behulp van een
eenvoudige, overbekende figuur, de z.g. Neeker kubus (figuur 1).

Herkent men hierin een kubus, dan volgt het aanwijzen van symmetrieassen: drie viertallige
assen worden herkenbaar als men een kubus zo draait dat figuur 2a zichtbaar wordt (een as
loodrecht op het midden van ieder vlak); vier drietallige assen bij figuur 2b, kijkend langs de
Uchaamsdiagonalen (bij een kubus tenminste, want bij de platte figuur is het één zestallige as);
zes tweetallige assen, tenslotte, vinden wij door een kubus te bekijken als figuur 2c (een as door
het midden van telkens 2 parallelle ribben). Wie, uitgaande van figuur 1 niet in staat is al deze
symmetrieassen aan te wijzen, kan onmogelijk de fysische eigenschappen van de stof afleiden.

Fig. 2. Geroteerde kubus, gezien langs een viertallige as (a), een drietallige as (b) en een tweetallige as
(c).

Een kubus is door zijn regelmaat en bekendheid gemakkelijk te herkennen. Bij andere, meer
complexe of minder gewone vormen is het vaststellen van de vorm zo moeilijk dat velen daarin
niet slagen. Zij komen daardoor niet eens toe aan het zoeken naar symmetrieassen, laat staan
aan het afleiden van de juiste eigenschappen van de stof.

In de chemische vakliteratuur worden verschillende typen modellen gebruikt. De Necker-
kubus toont één van die typen. Men dient zich daartoe voor te stellen dat de hoekpunten van
de kubus de positie van een achttal atomen in een moleculaire samenhang aanduiden. De
kubus omsluit dan de ruimte die door die structuur wordt ingenomen. Dit modeltype kunnen
wij volumemodel noemen.

Dezelfde configuratie kan ook anders worden voorgesteld, bijvoorbeeld door de chemische
bindingen, die in het molecuul voorkomen, als uitgangspunt te nemen. De vier lichaamsdiago-
nalen tonen bij een kubus de chemische structuur, waarbij een negende atoom op het snijpunt
van de diagonalen ligt. Figuur 3 toont dit modeltype, een verbindingsmodel, dat als een
geraamte binnen het volumemodel van de necker-kubus (figuur 1) past.

Nog een dercje type wordt door chemici gebruikt, een bolstapelingsmodel. Hierbij wordt een
molecuul voorgesteld als een stapel bolvormige ionen. Bij de eerdere typen werd alleen de
positie van de atomen aangeduid, gelegen in de middelpunten van de hier getekende bollen.
Figuur 4 geeft als voorbeeld weer de kubus-configuratie.

Fig. 4 Bolstapelingsmodel van negen (1 centraal en 8 omliggende) ionen in een kubus-configuratie

Ieder van deze analoge typen modellen vindt zijn eigen rechtvaardiging in de chemische
theorie. Studenten moeten leren deze modellen voortdurend door elkaar te gebruiken, omdat
dit in de hedendaagse chemie onvermijdelijk is. Het proces van overstappen tussen analoge
modeltypen zal transponeren worden genoemd.

Het tweede probleemaspect waar de waarnemer mee wordt geconfronteerd, is de technische
kant van het afbeelden. Er zijn verschillende projectietechnieken in gebruik om ruimtelijke
structuren in de scheikunde weer te geven. Er bestaan twee hoofdvormen van: orthogonale en
polaire projecties. Een orthogonale projectie ontstaat wanneer een voorwerp wordt besche-
nen door een lichtbron met evenwijdige straUng, de zon bijvoorbeeld. Kenmerk van deze
projectievorm is, dat ruimtelijk evenwijdig lopende lijnen ook parallel worden afgebeeld,
zoals bij de Necker-kubus (figuur 1) het geval is. Bij polaire projectie van voorwerpen ontstaan
perspectivische afbeeldingen: horizontale evenwijdige lijnen, buiten vlakken die zich lood-
recht op de kijkrichting bevinden, komen 'in de verte' samen in een verdwijnpunt. In feite kan
men deze technieken plaatsen op één continue afstandsschaal: polaire projectie wordt gelijk
aan orthogonale projectie wanneer de afstand tussen projector en object toeneemt tot onein-
dig. De twee hoofdtypen van projecteren zijn conventies, afspraken om de werkelijkheid op
een bepaalde manier in het platte vlak aan te duiden.

Voor projecteren is een projectievlak nodig. De hoek tussen het projectievlak en de projectie-
richting bepaalt in sterke mate de vorm van de afbeelding. Vormvariaties, onstaan door
standveranderingen van het projectievlak, heten anamorfe projecties. De reële ruimtelijke
vormen in de scheikunde kunnen echter zowel 'schuine' als 'rechte' versies van eenzelfde
algemene geometrische vorm zijn. Wanneer het projectievlak daarbij een variabele stand zou
innemen, wordt het de waarnemer onmogelijk gemaakt tussen een schuine en een rechte vorm
te kiezen. Die keuze is evenwel nodig om de juiste symmetrieassen te kunnen aanwijzen. In de
scheikunde moet men daarom uitgaan van een vaste positie van het projectievlak, waarbij één
stand van dat vlak, loodrecht op de projectierichting, de meest vanzelfsprekende is. Per
conventie is de vorm van de afbeelding dan alleen afhankelijk van stand en vorm van het
object.

Projecties van een object op een vlak lijken min of meer op een netvliesbeeld dat ontstaat
wanneer men het object zelf bekijkt. Polaire projecties lijken meer op het netvliesbeeld van de
werkehjkheid dan orthogonale. Een afbeelding in het platte vlak is gemakkehjker herkenbaar,
naarmate hij beter aansluit bij ervaring met reële objecten en bij de gebmikelijke afbeeldings-
methoden in het dagehjks leven. Polaire projecties zijn dus relatief gemakkelijk te interpre-
teren. Het nadeel van een afbeelding in polair perspectief is, dat in werkelijkheid evenwijdige
lijnen slechts zelden evenwijdig worden getekend. Bij rotatie van de ruimtelijke stmctuur
treden bij afbeeldingen in perspectief zeer sterke vormveranderingen op, hetgeen de rotatie-
taak voor studenten bemoeilijkt. Orthogonale projecties zijn minder gemakkelijk interpre-
teerbaar, omdat slechts hier en daar bij de ervaring van de kijker met de werkelijkheid wordt
aangesloten. Bij rotatie verandert de vorm van de afbeelding echter niet zo radicaal. Vooral bij
complexe bewerkingen is dat een voordeel.

In de chemische literatuur worden perspectivische afbeeldingen (b.v. foto's van reële model-
len) en orthogonale projecties (b.v. de kubus uit figuur 1) door elkaar gebruikt. Bovendien
worden bij orthogonale projecties nogal eens typografische trucs gebmikt om perspectief te
suggereren (bijvoorbeeld van dik naar dun verlopende lijnen). Hierdoor wordt bij de studen-
ten de indmk gewekt dat er maar één afbeeldingstechniek is, die in alle gevallen gebruikt
wordt. Wanneer de verschillende afbeeldingsconventies tegelijkertijd in een scheikunde-tekst
worden gebruikt, zullen de studenten op eigen kracht het verschillende effect van de conven-
ties op de afbeeldingen moeten herkennen. Een sprong van overstappen tussen conventies zal
met transformeren worden aangeduid.

Het derde probleemaspect voor de waarnemer ligt op perceptueel gebied. Via een voor velen
chaotisch aandoende presentatie van analoge modeltypen en afbeeldingsconventies moet de
kijker een meestal onbekende vorm definiëren, die ook nog eens in een onbekende stand is
weergegeven. De bijzondere aandacht in de scheikunde voor symmetrie-elementen veroor-
zaakt nog een extra waarnemingsprobleem: symmetrie in een ruimtelijke structuur wordt pas
goed herkenbaar wanneer de kijkrichting samenvah met de symmetrieas. Wanneer een object
echter zo wordt afgebeeld, blijven er nauwelijks of geen optische aanwijzingen meer over voor
ruimtelijke interpretatie (zie bijvoorbeeld figuur 2) en de kijker is aangewezen op extra
informatie uit zijn geheugen.

In de psychologie doen dan ook vanouds twee typen verklaringen voor het herkennen van
ruimtehjke vormen de ronde, oorspronkelijk afkomstig van Helmholz (1867) en Hering
(1879). Verklaringen van het eerste type (Helmholz) nemen aan dat (a) de waarnemer
informatie uit andere bronnen dan het retinabeeld gebruikt om de Vorm van een voorwerp vast
te stellen en (b) dat dit proces een cognitieve operatie vergt of een onbewuste afleiding, waarbij
voorafgaande ervaring een belangrijke rol speelt. De waarnemer baseert op niet-extern
gegeven informatie een hypothese, die aan de hand van de aangeboden stimulus wordt getoetst
(Epstein, 1977). Volgens de andere benadering (Hering) bepalen de onderlinge verhoudingen
tussen aspecten binnen een stimulus en andere vormen in de omgeving de ruimtelijke perceptie
van een object. In deze gedachtengang bevat het netvliesbeeld dus afdoende informatie voor
een stabiele ruimtelijke interpretatie. Een hypothese, gebaseerd op interne informatie, is dan
een overbodige verondersteUing.

Zo oud als het strijdpunt is, de discussie wordt tot op heden voortgezet. De voornaamste
moderne exponenten ervan zijn Pylyshyn, die het standpunt verdedigt dat kennis over objec-

ten wordt gebruikt bij de interpretatie van het waargenome (Pylyshyn, 1980; Fodor &
Pylyshyn, 1981), en Gibson die de Heringiaanse benadering aanvoert (Gibson, 1950, 1951,
1966, 1979). De twee benaderingen hoeven niet in alle opzichten met elkaar in strijd te zijn
Hochberg (1981) komt echter tot de conclusie dat er maar weinig gevallen zijn, waarin directe
perceptie (Gibson's benadering) een houdbare verklaring kan geven voor de waargenomen
verschijnselen. Pylyshyn (1981 a en b) geeft aan dat een empirisch onderscheid tussen directe
en hypothese-gestuurde waarneming kan worden gemaakt op grond van 'cognitieve penetreer-
baarheid' van het waarnemingsproces: kan het resultaat worden beïnvloed door houding,
behoefte of plan van de waarnemer, dan is directe waarneming als verklaringsgrond uitge-
sloten. In recente ontwikkelingen op het gebied van kunstmatige intelligentie tekent zich
eindelijk een tendens tot integratie van beide stromingen af. McArthur (1982) beschrijft hoe in
moderne computersimulaties van visuele waarneming 'bottom-up' processen vanuit de opti-
sche informatie interpretatie-mogelijkheden en begrenzingen genereren (directe perceptie).
Deze worden dan voortdurend gemodificeerd, ingeperkt en aangevuld door kennisbronnen op
alle interpretatieniveaus vanaf minimale diepteaanwijzingen tot namen voor ruimtelijke vor-
men.

In hoeverre optische informatie en kennis een rol spelen in het waarnemmgsproces is afhanke-
lijk van 'overbodige' informatie die wordt aangeboden. Hoe groter de redundantie, des te
minder voorkennis is nodig om een beeld te kunnen interpreteren. Bij de schematische
afbeeldingen die in de scheikunde worden gebruikt, is de redundantie gering. Zeker bij
ondergeïdentificeerde figuren, zoals bijvoorbeeld bij figuur 2, waar door de speciale projectie-
richting allerlei vormindicaties voor het oog wegvallen, is voorkennis in de zin van vorm-
hypothesen onmisbaar voor ruimtelijk interpreteren.

De taak waar beginnende scheikundestudenten zich voor geplaatst zien, is zeer complex:

- in de eerste plaats wordt van hen gevraagd, één ruimtelijke vormhypothese op te stellen bij
een gegeven figuur;

- de gekozen hypothetische structuur moeten zij vervolgens mentaal kunnen roteren;

- dezelfde taken moeten zij binnen één opgave kunnen uitvoeren bij verschillende analoge
modeltypen;

- de vormhypothesen, die uit deze gescheiden processen voortkomen, moeten worden
geïntegreerd.

Pas dan kan de chemische theorie worden toegepast, waarbij uit de symmetrieaspecten van de
geroteerde vormhypothesen conclusies over eigenschappen van stoffen moeten worden ge-
trokken. Het is niet zo verwonderlijk dat sommigen op een of meer punten van zo'n proces in
moeilijkheden raken, zeker wanneer daarbij verschillen in afbeeldingsconventies moeten
worden overbrugd. Het kan bijvoorbeeld mislukken, de juiste hypothese te vinden of vast te
houden. Gevolg daarvan is een strijdigheid tussen bij elkaar behorende vormhypothesen,
waardoor afleidingen onmogelijk worden.

Ook kan het rotatieproces problemen opleveren met één van de hypothesen of met meerdere
analoge voorstellingen. De moleculaire configuratie wordt dan te star om afleidingen te
kunnen maken. Uiteindelijk kan het ook nog zijn dat de theorie onvoldoende wordt beheerst,
zodat weliswaar de hypothetische vormen kloppen, maar de afleidingen alsnog mislukken.

Deze typen fouten kunnen natuurlijk ook gezamehjk of als gevolg van elkaar voorkomen.

Om te bezien in hoeverre de gegeven foutenclassificatie overeenkomt met de werkelijke
problemen die zich bij studenten voordoen, is nader onderzoek verricht, waarvan in de rest
van dit artikel verslag wordt gedaan. In oktober 1980 is als oriënterend experiment op
magneetband een introspectieprotocol vastgelegd (40 minuten tekst) van een student 'met
moeilijkheden' (Vos & Zuur, 1981). Deze student gaf hardop denkend ruimtelijke interpre-
taties van een aantal tekeningen (zie figuur 5), zoals die in scheikundeteksten voorkomen. Om
niet meteen de problemen in hun volle omvang op te roepen, is het experiment voorlopig
beperkt tot interpretatie en mentale rotatie van volumemodellen, waarbij de proefpersoon
opdracht had de resulterende vormhypothesen in zelf te definiëren klassen van vormen in te
delen. Vanwege deze beperking in de opzet van het onderzoek mogen alleen uitkomsten
worden verwacht die relevant zijn voor de eerste twee bovengenoemde foutentypen.
Er werd slechts één proefpersoon onderzocht, uitgekozen op grond van 'moeilijkheden' met
diepte-interpretaties. Deze proefpersoon kan niet beschouwd worden als representatief. De
resultaten moeten worden gezien als een demonstratie van een probleemoplossingsproces met
een aantal fouten. Conclusies over mogehjkheden tot vermijding van deze denkfouten kunnen
leiden tot een theoretisch ideale gedachtengang als basis voor een nieuwe opzet van onderwijs.
Zo'n rationele reconstructie van een perfect verlopend denkproces, gebaseerd op één proef-
persoon, is zeer beperkt in die zin dat één persoon natuurlijk niet alle relevante fenomenen
hoeft te vertonen. Andere typen denkfouten zijn zeer goed mogelijk. Voor een enigszins
volledige omschrijving van het arsenaal aan benodigde vaardigheden zijn meer gegevens
nodig. In de loop van 1982 zijn daartoe nieuwe protocollen verzameld. Vanwege de lange tijd,
nodig voor de analyse van dit materiaal, kan daar thans nog niet over worden gerapporteerd.
Er zijn twee redenen om een student, die moeite heeft met diepte-interpretaties, als proefper-
soon te gebruiken:

a. Een stroef verlopend denkproces geeft voldoende aanknopingspunten om een introspectief
verslag te kunnen geven. Bij meer succesvolle studenten is de kans op herkenbaarheid van
het eigen denkproces zeer gering, door het onmiddelijk gegeven eindresultaat.

b. Het gaat bij dit onderzoek om het verbeteren van een cursus.^Het bestuderen van misluk-
kende denkprocessen geeft een directe ingang in de problemen waarvoor oplossingen
moeten worden gevonden.

Het kiezen van proefpersonen met deficiënties houdt het risico in van klinische vertekening:
men kan op deze manier een theorie over abnormaal dieptezien ontwikkelen. Dat gevaar is
niet geheel denkbeeldig. De proefpersoonkeuze bij dit onderzoek werd o.a. bepaald door de
gedachte dat volwaardige waarnemers in een introspectieprotocol geen herkenbaar denk-
proces zouden kunnen weergeven. Dat kan natuurlijk het gevolg zijn van het ontbreken van
een gefaseerd denkproces. Een eventuele cursus waarin fasering een prominente rol speelt,
zou in dat geval belemmerend kunnen werken voor hen die ruimtelijke modellen onder de

huidige omstandigheden foutloos leren hanteren. Onze benadering betekent feitelijk een
voorkeur voor de opvatting, dat een gefaseerd redeneerproces in ieder geval ontogenetisch aan
alle diepte-interpretaties ten grondslag ligt. Het aanleren van interpretatie in fasen is alleen
dan een noodzakelijke eerste stap voor studenten. Later zullen zij deze fasering niet meer
demonstreren, omdat de respons op een hoog beheersingsniveau automatisch gaat verlopen.

De proefopzet is als volgt. In een situatie met twee proefleiders (een chemicus en een
psycholoog) zijn aan de proefpersoon gelijktijdig 17 visuele stimuli voorgelegd (zie figuur 5),
afbeeldingen van chemische structuren. Deze stimuli kunnen in groepen worden ingedeeld,
waarbij binnen groepen verschillen in afbeeldingsconventie en waamemingshoek voorkomen.
De instructie aan de proefpersoon was zeer algemeen en luidde als volgt:

'Je ziet hier een heleboel tekeningen. Een aantal daarvan horen bij elkaar in verschillende groepen.
Sommige passen in één groep en een aantal andere horen in andere groepen. Zou je daar hardop denkend
wat orde in willen aanbrengen, en zeggen wat je vindt dat bij elkaar hoort en waarom en hoe je dat ziet?'

Het was de proefpersoon van tevoren bekend dat 'ruimtelijke interpretaties' onderwerp van
onderzoek zouden zijn.

(1) keuze van bij elkaar passende tekeningen en het opstellen van een gemeenschappelijke
hypothese over de voorgestelde ruimtelijke structuur;

(2) herkennen van afbeeldingsconventies en daarmee het sorteren van relevante aanwijzingen
die de vormhypothese kunnen ondersteunen;

(4) manipulatie van één of meer van de hypothesen om te bewijzen dat de indeling in één
groep correct is.

De proefpersoon werd verzocht het denkproces hardop weer te geven. Het resultaat daarvan is
op 'de band' vastgelegd. De rol van de proefleiders in het experiment was niet identiek. Het
was de taak van de chemicus, dóór te vragen bij vermoeden van redeneerfouten bij het proces
van hypothesevorming en rotatie. Opdracht voor de psycholoog was, onduidelijkheden in het
weergegeven waarnemings- en denkproces via doorvragen op te helderen. Zodoende is een
vorm van discussie ontstaan die vooral tegen het einde van het onderzoek sterk suggererend
heeft gewerkt. Suggestief doorvragen hoeft in dit geval geen probleem te vormen, omdat de
soort en graad van suggestie, nodig om de proefpersoon door de opgave te leiden, de
moeilijkheden in het denkproces etaleren. Het ging erom dat de hele weg van het oriënterend
bekijken van een tekening tot het vinden van een indeling in een groep van stimuli werd
afgelegd en niet alleen maar om vast te stellen, wat de proefpersoon op eigen kracht tot stand
kon brengen.

Uitgangspunt van het onderzoek is het laten benoemen, door de proefpersoon, van een aantal
categorieën van bij elkaar behorende stimuli. Het criterium voor inhoudelijke samenhang is,
dat de stimuli binnen één categorie afbeeldingen zijn van getransformeerde en/of geroteerde
versies van één ruimtelijk object. Theoretisch vallen in het stimulusmateriaal zes klassen te
construeren:

(1) viervlakken. De stimuli 1,2,6,9 en 16 (zie figuur 5) kunnen hierbij worden ingedeeld;

(3) pyramides en octaeders. In deze categorie kunnen de figuren 2,6 en 8 worden ingedeeld;

(5) Een aparte categorie wordt gevormd door de minder regelmatige stimulus 12, die niet met
andere stimuli in één klasse valt.

(6) Door een afwijking in stimulus 13, die bedoeld was als een octaeder uit categorie 3, is in
feite een zesde klasse ontstaan.

De stimuli kunnen nog op een tweede manier worden ingedeeld, naar gebruik van afbeeldings-
conventie. Sommige zijn perspectivisch afgebeeld (conventie I). Dit is het geval bij de
nummers 5, 7, 11 en 14. Bij andere stimuli is een orthogonale projectie gebruikt. Dit is het
geval bij de stimuli 1, 3, 4, 8,10,12,15 en 17 (conventie II). Eigenlijk vormt nummer 10 een
onderafdeling van de tweede conventie (IIA), omdat het object ondoorzichtig is afgebeeld.
In een aantal gevallen ook hangt het van de gekozen interpretatie af, welke conventie geldt
(stimuli 2, 6, 9, 13 en 16). Stimulus 2 bijvoorbeeld kan men als een tetraeder zien met
gelijkzijdige driehoeken als vlakken. De afbeelding ervan kan alleen vierkant zijn wanneer er
geen perspectivisch verloop wordt weergegeven. Ziet men deze tekening (2) echter als pyra-
mide met het grondvlak frontaal bezien, dan is het verschil in conventies niet relevant: er doen
zich geen evenwijdige lijnen voor buiten het frontvlak dat loodrecht staat op de projectie-
richting. Voor stimulus 16 is eigenlijk een indeling in conventies niet relevant, omdat I en II in
dit geval dezelfde afbeelding geven. Wel is bij stimulus 16 hetzelfde aan de hand als bij nummer
10: 'verborgen' lijnstukken zijn niet afgebeeld. Naar analogie van conventie IIA kan dus
worden betoogd dat ook een conventie IA in het stimulusmateriaal is verwerkt. Eén stimulus
tenslotte (11) is van een hybride type (maar qua conventie homogeen), omdat behalve
lijnstukken ook 'bollen' zijn aangegeven.

De gevolgde procedure heeft een introspectieverslag van 40 minuten opgeleverd, een zeer lang
protocol, waarin zowel invloeden van de wijze van instrueren als van een toenemende
diepgang van de probleembenadering door de proefpersoon zichtbaar zijn.
Door de open instructie is in het begin kennelijk de bedoeling van de proefleiders niet helemaal
duidelijk. In de loop van het protocol wordt de instructie impliciet en expliciet door de
proefleiders uitgebreid en specifieker gericht op het samenbrengen van figuren in klassen van
identieke objecten. Daardoor, maar ook door een verdieping in het redeneren, zijn een aantal
perioden zichtbaar met een toenemende complexiteit van de gedachtengang. In feite is een
shaping-procedure gevolgd, waarbij de proefpersoon al doende heeft geleerd waar het de
proefleiders om te doen was.

In totaal kunnen in de tijd drie perioden worden onderscheiden, waarvan één nader onder te
verdelen is in twee subcategorieën.

1. De eerste twaalf minuten van het protocol vormen in zekere zin een aanloopperiode,
waarin oriëntatie op het stimulusmateriaal overweegt en waar de proefpersoon bovendien
leert wat de bedoelde soorten classificaties zijn. Kenmerkend voor deze periode is dat de
afbeeldingen als plaatjes worden vergeleken. Veranderingen in de zin van rotaties en
transformaties doen zich niet herkenbaar voor.

2. De tweede periode betreft de helft van de protocoltekst (20 minuten). Kenmerkend is dat
rotaties worden uitgevoerd om overeenkomsten tussen stimuli aan te tonen. Daarbij

ontstaan redeneringen van twee verschillende typen die een indeling in aparte categorieën
rechtvaardigen:

a. de mentale rotatie van niet-identieke vormhypothesen levert in projectie identieke af-
beeldingen op;

b. door de rotatie van vormhypothesen wordt de gelijkvormigheid van ruimtelijke objec-
ten bewezen.

Deze twee categorieën zijn niet ruimtelijk gescheiden in het protocol. Waarschijnlijk speelt
hier de moeiHjkheidsgraad van de betreffende vergelijking een rol. Vergelijkingen van type
a worden gemaakt wanneer de rotatie bewerkelijk is (veel graden en/of meer assen), want
voor dit type vergelijking hoeft telkens maar met één ruimtelijke hypothese te worden
gewerkt. Vergelijkingen van type b vragen twee simultane ruimtelijke hypothesen. De
manipulatie daarvan komt alleen voor wanneer slechts eenvoudige bewerkingen nodig zi jn.
3. In de derde periode van het protocol (8 minuten) worden zowel rotaties als transformaties
toegepast. Op eigen initiatief begint de proefpersoon niet aan dit type vergelijkingen.
Onder druk van suggestieve instructies komen echter toch enkele vergelijkingen tot stand,
waarbij de grenzen tussen afbeeldingsconventies worden overschreden (vooral op het
gebied van de prisma-categorie).

Het denkwerk van de proefpersoon leidt tot het vinden van een aantal oplossingen voor de
gegeven probleemfiguren. In totaal zijn 50 verschillende interpretaties gegeven, variërend van
een minimum van 1 (stimulus 14) tot maximaal 8 bij stimulus 15. De aantallen gevonden
oplossingen op zichzelf zijn niet zo interessant, omdat kwantificering in dit stadium van
onderzoek om twee redenen irrelevant is: (a) de gebruikte afbeeldingen vormen een deelver-
zameling van figuren die in de scheikunde gebruikelijk zijn en (b) het gaat om de prestaties van
één individu waarbij een vergelijking met anderen onmogelijk is. Belangrijker is de manier
waarop oplossingen tot stand komen. De indeling hierboven geeft globaal structuur aan het
protocol. Een geleidelijk toenemende diepgang wordt zichtbaar als gevolg van een leerproces.
Onder deze oppervlakkige globale indeling valt een tweede structuur te herkennen, die
ontstaat door de manier waarop problemen worden aangepakt. Wij kunnen hieraan een
analyserende beschrijving ontlenen, aansluitend bij de taak van de proefpersoon.

Bij de interpretatie van de stimuli worden regels gehanteerd. Op vele plaatsen in het protocol
blijkt zo dat kennis over 'dieptewerking bij plaatjes' invloed heeft op het waarnemingsproces.
Soms worden zulke regels terecht toegepast, op andere momenten leveren zij denkfouten op.
In totaal zijn in de protocoltekst zes verschillende regels herkenbaar, die voor deze proefper-
soon als dieptecues fungeren:

1. schuin naar boven lopende lijnstukken, gezien vanuit het gekozen frontvlak, betekenen
'naar achteren';

3. lijnstukken die elkaar in de tekening snijden, snijden elkaar ook in de hypothetische
ruimtelijke structuur op het kruispunt;

4. getekende hjnstukken hoeven bij ruimtelijke interpretatie geen snijlijnen tussen vlakken te
betekenen;

6. alle stimuli die niet centraal georiënteerd zijn, worden vanuit een bovenaanzicht geïnter-
preteerd.

De eerste drie regels hebben algorithmische kenmerken. Zij gaan uit van indicaties die in de
stimulus gegeven zijn en leiden zonder veel verdere overwegingen tot een conclusie. De vierde
regel heeft een immunisatiefunctie (Popper, 1978), dienend ter bescherming van een falend
model. De laatste twee regels vormen meer algemene randvoorwaarden. Zij begrenzen het
gebied waarbinnen de proefpersoon naar oplossingen zoekt. Erbuiten wordt niet gekeken,
zelfs niet wanneer de proefleiders daarop aandringen.

Bijzonder soepel verloopt het bedenken van een vormhypothese bij stimuli die min of meer
stereotype afbeeldingen zijn. De stimuli 11,14 en 15 (zie figuur 5) zijn daar voorbeelden van.
Het gemeenschappelijke van deze stimuli is niet alleen dat zij vertrouwd zijn van vorm, maar
ook dat alle vormaspecten van de objecten zichtbaar zijn, meer aspecten dan de proefpersoon
voor het herkennen nodig heeft. Modellen van deze soort kan men overgeïdentificeerd
noemen. De opgestelde hypothese kan worden getoetst aan de hand van redundante aspecten
van de tekening.

Zodra alle onderdelen van een afbeelding voor de tot standkoming van de vormhypothese
noodzakelijk zijn, is er sprake van een geïdentificeerd model. Stimuli van deze soort (bijvoor-
beeld de nummers 10 en 12 uit figuur 5) vergen in het protocol een langdurige redenering
voordat een conclusie over de vorm wordt bereikt.

Het derde, moeilijkste type betreft ondergeïdentificeerde modellen, waarbij niet alle door de
hypothese veronderstelde vormkenmerken aanwijsbaar zijn in de stimulus. Een voorbeeld is
een driehoek (zie figuur 5 nr. 9), die gezien kan worden als prisma, pyramide of tetraeder. Bij
zo'n stimulus valt er aan de tekening niets te toetsen, omdat de hypothese al voor een deel op
gefantaseerde informatie berust. Op eigen kracht komt onze proefpersoon in het protocol niet
tot ruimtelijke hypothesen voor ondergeïdentificeerde modellen. Met assistentie lukt het
tenslotte wel voor de stimuli 4, 9 en 10, gezien in de vorm van een prisma. De mate van
identificatie van de hypothese geeft dus de moeilijkheidsgraad weer van het herkennings-
probleem.

De zes genoemde regels dienen om het oneindige aantal mogelijke oplossingen terug te
brengen tot één of enkele, waarbij soms (voor deze proefpersoon) geen enkele goede (ruimte-
lijke) oplossing overblijft. Kwalitatief de beste regel is de vijfde: het zoeken naar regelmatige
vormen. Deze regel weerspiegelt wat in de Gestalt-psychologie het herkennen van 'goede'
vormen is gaan heten (zie bijvoorbeeld Hochberg, 1953). In het werk van Leeuwenberg (1973,
1978) wordt daarvoor een exacte specificatie gegeven: de vorm die kan worden beschreven met
de 'kortste structurele-informatiecode', is de meest in het oog springende.
Voor Chemiestudenten is het echter van belang, niet afhankelijk te zijn van de interpretatie
met het meest pregnante karakter. Hier moeten juist allerlei alternatieve interpretaties worden
overwogen om de meest bruikbare te kunnen kiezen. De driehoek in figuur 5 (nr. 9) moet
onder conventie I (polair) als tetraeder worden gezien en tegelijkertijd onder conventie II
(orthogonaal) als tetraeder, prisma of pyramide worden herkend.

Is regel 5 op zichzelf een goede regel, alle andere regels beperken de interpretatiemoge-
lijkheden verder dan nuttig of verstandig is. Het denkproces verkrampt hierdoor, zoals op tal
van plaatsen in het protocol blijkt. Regel 6 (kijkrichfing is centraal of van bovenaf) maakt het
bijvoorbeeld onmogelijk, een orthogonaal geprojecteerd prisma (figuur 5 nr. 15) vanuit twee
posities te bekijken: alleen de rechthoek in de tekening kan volgens regel 6 de voorkant
vormen. Regel 4 wordt speciaal gebruikt om bij ondergeïdentificeerde modellen een plat-vlak-

hypothese te kunnen handhaven. Overbhjvende hjnstukken worden als ornament beschouwd.
Zo wordt stimulus 4 'een rechthoek met een streep' in plaats van een prisma. Door regel 3 toe
te passen wordt het onmogehjk, bij afbeeldingen als de stimuli 2 en 6 (zie figuur 5) een
tetraeder te zien. De regels 1 t/m 3 maken deel uit van een complex van redeneringen,
gebaseerd op wat men het verdwijnpuntprincipe zou kunnen noemen, een soort theorie van
deze proefpersoon over dieptezien, waarbij geen onderscheid wordt gemaakt tussen afbeel-
dingsconventies. Stimulus 11 wordt dientengevolge - wij zullen dat een conventiefout noemen
- gezien als een kubus (volumemodel) met een ingesloten tetraeder en een centraal atoom (vijf
losse bollen, geïnterpreteerd volgens een verbindingsmodel). De kubus is afgebeeld in con-
ventie 1 (polair). Een regehnatige - daar gaat het ook bij deze proefperson om - tetraeder kan
echter alleen een vierkant lijken bij orthogonale projectie (conventie II). Uit de 'onmisken-
baar' perspectivische afbeelding van de kubus zou geconcludeerd moeten worden dat de losse
bollen ook in conventie I zijn afgebeeld en 'dus' een octaeder vormen, waarbij twee bollen,
midden voor en midden achter, voor het oog samenvallen.

Onzekerheid over de vorm van afgebeelde objecten, gevolg van het maken van conventie-
fouten, veroorzaakt een tweede type fouten op het gebied van vormconstantie. Dit doet zich
bijvoorbeeld voor bij de vergelijking van de stimuli 7 en 15 (zie figuur 5), waarbij voor het
bewijs dat de objecten dezelfde vorm hebben (prisma's), zowel rotatie als transformatie nodig
is. De stap van convergerende naar evenwijdige lijnen (transformatie), samen met het draaien
van het prisma (rotatie), blijkt de vormhypothese aan te tasten. Verandering in de afbeelding
hanteert de proefpersoon hier dus als wijziging van de vorm van het object. Dat betekent
verandering van de fysische en chemische eigenschappen van de stof. Weliswaar moeten
Chemiestudenten ook daar mee kunnen omgaan, maar zolang de onafhankelijkheid van stand
en vorm van afgebeelde objecten onvolledig is gerealiseerd, ook in de transformatiesituatie,
blijven fouten bij het afleiden van eigenschappen van moleculen onvermijdelijk.

De twee typen fouten die onze proefpersoon maakt in het protocol demonstreren het mis-
lukken van een denkproces dat zich bij de waarnemer van geprojecteerde mimtelijke vormen
afspeelt. Het is niet erg waarschijnlijk dat met één protocol een volledig inzicht in alle
denkbare redeneerfouten is verkregen. Wel is het duidelijk dat de gesignaleerde problemen in
ieder geval dienen te worden opgevangen met aangepast onderwijs. Voor een meer volledige
lijst van op te lossen onderwijsproblemen zal meer onderzoeksmateriaal moeten worden
verzameld. Voorlopig kan generalisatie tot stand komen door aan de hand van het protocol
een theorie over ruimtelijk interpreteren op te stellen. De aangetroffen denkfouten vormen
daarbij systematische afwijkingen van de goede weg. Zij demonstreren dan enkele kernpro-
blemen die de waarnemer dient op te lossen, alvorens het eigenlijke chemieprobleem met een
redelijke kans op succes kan worden aangegrepen.

Voordat het eigenlijke werk van de chemicus kan beginnen moet de waarnemer een tweetal
fasen van probleemoplossing passeren:

1. In de eerste plaats moet aan de hand van de afbeelding verschil worden gemaakt tussen
afbeeldingsaspecten en vorm-indicaties.

2. Heeft de kijker in de eerste fase de vorm-indicaties voldoende losgeprepareerd uit de
afbeelding, dan volgt in een tweede fase het probleem, het positie van de kijker/projector te
onderscheiden van de vorm van het object.

Deze beide hoofdfasen kunnen op hun beurt weer onderverdeeld worden in een aantal
subfasen met een noodzakehjke onderlinge volgorde. Zo ontstaat een rationele reconstructie,
een soort ideaal denkproces, waaruit conclusies kunnen worden getrokken over een effi-
ciëntere opzet van de cursus.

Binnen het probleemgebied van de eerste fase, onderscheid maken tussen vorm- en afbeel-
dingskenmerken van de stimuh, vallen drie subfasen te herkennen. In figuur 6 zijn deze fasen
in het denkproces schematisch weergegeven.

a. In de eerste plaats moeten aanwijzingen voor analoge modellen worden herkend. Dat is
nodig, omdat voor verschillende modeltypen niet dezelfde cues gelden om conventies te
kunnen vaststellen. Bij een volumemodel is bijvoorbeeld het kenmerk 'evenwijdige lijnen
die schuin zijn afgebeeld' een eenvoudige, veel voorkomende indicatie voor conventie II.
Deze aanwijzing komt maar zelden voor bij verbindingsmodellen, waar een orthogonale
projectie eerder herkend wordt aan herhaling van minder in het oog vallende (niet met
contourlijnen getekende) congruente patronen.

b. Zijn de kenmerken van het modeltype eenmaal herkend dan volgt eerst het opsporen van
conventieaanwijzingen in de tekening. Gebeurt dit niet, dan worden vormindicaties in de
afbeeldingen te absoluut gehanteerd en ontstaan conventiefouten. Snijdende lijnen wor-
den dan bijvoorbeeld altijd gezien als een puntig object en kunnen niet duiden op evenwij-
dige lijnen in perspectief.

c. Pas wanneer de conventiekenmerken vastgesteld zijn, kan aan een figuur worden onder-
scheiden, wat de eigenlijke vormindicaties zijn. Het ordenen en selecteren van onderdelen
van afbeeldingen als indicaties voor een bepaalde vorm kan alleen gebeuren aan de hand
van een al bestaand idee over de vorm, een schematische anticipatie (Selz, 1922) van een
oplossing die nog nader moet worden bevestigd. Zeer expliciet gebeurt dat bij een onder-
geïdentificeerd model als stimulus 9 (driehoek). Zonder achterliggend idee geeft zo'n
tekening alleen aanwijzingen voor een twee-dimensionale interpretatie. Op grond van de
opdracht zoekt de proefpersoon toch naar een verborgen derde dimensie, weggevallen
door een speciale projectiemethode.

De rol van voorkennis bij dit proces is groot, zowel op een laag niveau tijdens het selecteren
van vormindicaties als op een hoger niveau bij het completeren van vormhypothesen. Het
'zien' van een oplossing berust voor een groot deel op ervaring met vormen en afbeeldingen.
Wie deze ervaring mist, zal in een te laag tempo of helemaal geen oplossingen vinden. Het is de
taak van het onderwijs, te voorzien in een voorstadium van ervaring opdoen met afbeel-
dingstechnieken en vormen, voordat zinvol met de chemische problemen kan worden gestart.

De tweede hoofdfase heeft, sterker dan de eerste, een evaluatief karakter. De vormindicaties
en de hypothese worden nu met elkaar geconfronteerd. Bij strijdigheden moet de vorm-
hypothese aangepast dan wel verworpen worden. In figuur 6 is dit laatste niet weergegeven,
omdat het schema vooral bedoeld is om vanuit een geïdealiseerd denkproces tot een lineaire
reeks instructiestappen te komen. Doen zich geen strijdigheden voor, dan kunnen hier twee
subfasen worden onderscheiden, waarin de vorm van het object wordt bewezen:
a. De aanwijzingen voor de vorm worden pas solide bewijsstukken wanneer de stand van het
object kan worden vastgesteld. In sommige gevallen is deze fase triviaal omdat het object
door een overbekende afbeeldingswijze meteen wordt herkend. Meestal kan deze stap
echter niet worden overgeslagen. Twee gevallen doen zich voor. In de eerste plaats zijn de
afbeeldingen in conventie II altijd dubbelzinnig, niet qua vorm maar wat betreft de

projectie- en/of kijkrichting, zoals de Necker-kubus die van onderen of van boven kan
worden gezien. Omdat mentaal roteren tijd kost (Shepard & Metzier, 1971; Metzier &
Shepard, 1974; Shepard & Cooper, 1981) moeten de studenten leren de gunstigst geplaatste
mogelijkheid te kiezen en zich daaraan ter voorkoming van verwarring ook te houden.
In de tweede plaats zijn er afbeeldingen die vanuit een enigszins bizarre positie worden
geprojecteerd of bekeken, zodat een ondergeïdentificeerd model ontstaat. Herkent de
waarnemer die positie niet, dan wordt de meest eenvoudige (regelmatige) vormhypothese
(Leeuwenberg, 1978) overgeslagen, wat meestal op een fout antwoord neerkomt,
b. Het vaststellen van de vorm is na het voorafgaande een kwestie van toetsing of alle
afbeeldingsaspecten passen bij de hypothese onder de vastgestelde condities. Er is maar één

geval waarin de toetsing binnen deze subfase niet definitief kan zijn: een ondergeïdenti-
ficeerd model. Een onzekere waarnemer zal misschien met het ontbreken van contra-
indicaties niet tevreden zijn. In dat geval volgt nog een extra stap die ons buiten het gebied
van de tweede hoofdfase van het denkproces voert: het hypothetische model moet worden
geroteerd om vast te kunnen stellen dat de niet getekende lijnstukken in de veronderstelde
stand inderdaad verdwijnen.
Het schema in figuur 6 geeft niet twee maar drie hoofdfasen in het denkproces weer. Afgezien
van het toetsen bij ondergeïdentificeerde modellen hoort de derde fase niet meer bij het
denkproces ter identificatie van de objectvorm. In de derde fase worden modellen gemanipu-
leerd. Dat kan, zoals wij gezien hebben, roteren inhouden, maar ook transformeren (tussen
conventies) en transponeren (tussen analoge modeltypen). Welke van deze of welke combi-
natie ervan, hangt af van de taak van de waarnemer. De proefpersoon in ons experiment had
de opdracht, stimuli te groeperen. Bij de gegeven afbeeldingen impliceerde dat vooral rotatie
en transformatie. Bij andere taken zal ook transponeren samen met de hier onderzochte
manipulatievormen een rol spelen.

Epstein, W. (Ed.). Stability and constancy in visual perception: Mechanisms and processes. New York:
Wiley, 1977.

Fodor, J.A. & Pylyshyn, Z.W. How direct is visual perception?: Some reflexions on Gibson's 'Ecological
Approach'. Cognition, 1981,9,139-196.

Gibson, J.J. The perception of the visual world. Boston: Houghton Mifflin, 1950.

Gibson, J.J. The senses considered as perceptual systems. Boston: Houghton Mifflin, 1966.

Gibson, J.J. The ecological approach to visual perception. Boston: Houghton Mifflin, 1979.

Helmholz, H. Handbuch der physiologischen Optik. Hamburg/Leipzig: Southall, 1867.

Hering, E. Der Raumsinn und die Bewegungen des Auges. In L. Hermann (Ed.), Handbuch der
Physiologie (Vol. 3). Leipzig: Vogel, 1879.

Hochberg, J. Perception I: Color and shape. In J.W. Kling & L.A. Riggs (Eds.), Woodworth and
Schlossherg's Experimental Psychology (3rd ed.). New York: Holt, Rinehart, Winston, 1971.

Hochberg, J. On cognition in perception: perceptual coupling and unconscious inference. Cognition,
1981,10,127-134.

Hochberg, J. & McAlister, E.A. A quantitative approach to figural 'goodness'. Journal of Experimental
Psychology, 1953,46,361-364.

Kopferman, H. Psychologische Untersuchungen über die Wirkung zweidimensionaler Darstellungen
körperlicher Bildungen. Psychologische Forschung, 1930, 13, 293-364.

Leeuwenberg, E. Meaning of perceptional complexity. In D.E. Berlyne & K.B. Madsen (eds.). Pleasure,
reward, preference. New York: Academic Press, 1973,99-114.

Leeuwenberg, E.L.J. & Buffart, H.F.J.M. (Eds.). Formal theories of visual perception. New York:
Wiley, 1978.

McArthur, D.J. Computer vision and perceptual psychology. Psychological Bulletin, 1982, 92-2, 283-
309.

Metzler, J. & Shepard, R.N. Transformational studies of the internal representation of three-dimensional
objects. In R.L. Solso (Ed.), Theories in cognitive psychology: The Loyola Symposium. Potomac,
Md.: Lawrence Erlbaum, 1974.

Pylyshyn, Z.W. The rate of 'mental rotation' of images: a test of a holistic analogue hypothesis. Memory
& Cognition, 1979,7,19-28.

Pylyshyn, Z.W. Computation and cognition: issues in the foundations of cognitive science. The
Behavioral and Brain Sciences, 1980,3,111-133.

Pylyshyn, Z.W. The imagery debate: Analogue media versus tacit knowledge. Psychological Review,
1981,88-1, 16-45.

Pylyshyn, Z.W. Psychological explanations and knowledge dependent processes. Cognition, 1981, 10,
267-274.

Selz, O. Zur Psychologie des produktiven Denkens und des Irrtums. Bonn: Cohen, 1922.
Shepard, R.N. & Cooper L.A. Mental images and their transformations. Cambridge, Mass.: MIT Press,
1981.

Shepard, R.N. & Metzler, J. Mental rotation of three-dimensional objects. Science, 1971,171,701-703.
Vos, P. & Zuur, A.P. Dieptezien bij Chemiestudenten. Leiden: Bureau Onderzoek van Onderwijs, 1981,
memorandum 648-81.

Een sociologische analyse van strijd om onderwijsverandering.
Deventer: Van Loghum Slaterus, 1982. (ƒ35,-)

De omslag laat twee mooie bomen zien waarvan aan één de bijl aangelegd wordt. Gedurende de hele tijd
dat ik het boek zat te lezen vroeg ik mij af wat deze metafoor in god's, Matthijssen's of Van Loghum
Slaterus' naam zou betekenen. Ik besloot: de bedreigende boom correspondeert met het één in het boek
geanalyseerde kennismodel, t.w. het aristokratische, de andere met het dit model opvolgende technokra-
tische. En het mooie is nu dat beide bomen nog staan. Als ik met de metafoor doorga is de man met de bijl
óf een wanhopige leerling (maar dan zou hij eigenlijk de hand aan de tweede boom hebben moeten
leggen) óf hij representeert de maatschappelijke eliten die het aristocratische met het technokratische
kennismodel doen verwisselen. Deze vraag liet ik maar in het midden.

In mijn perceptie bestaat Matthijssen's boek uit 4 delen: le de probleemstelling, 2e het theoretisch kader
en onderzoeksmethode, 3e een analyse van de eerste in beschouwing genomen periode (eerste helft 19e
eeuw) en 4e de tweede in beschouwing genomen periode (tweede helft 20e eeuw). Bij alle vier delen
doken echter onduidelijkheden op.

Ik kon uit het le hoofdstuk, getiteld 'de probleemstelling' geen helder probleem opmaken. Beloofd wordt
om 'de huidige onderwijsproblematiek (welke? - M. d B.-R.) te interpreteren op basis van

b) 'een manifestatie van vitale behoeften, die binnen de kapitalistische maatschappijorganisatie onver-
vulbaar zijn.' (p. 15/16)

Later - maar nu zitten we al in deel 2 - blijkt dat 'het centrale probleem' 'de relatie' is 'tussen kennis en
sociale omgeving' (p. 25).

P. 33 e.V. behelzen zes meer gespecificeerde onderzoeksvragen. Vragen naar: de dominante eliten, hun
kennisdefinitie, de kenmerken van de struktuur van het onderwijs in een gegeven periode; selektiemecha-
nismen, 'contradicties van het dominante regelsysteem' en vragen naar de mechanismen die een 'nieuwe
dominant' van kennis begeleiden. Dat is nogal wat, vooral als dit voor 4 landen moet (zie later).
Het theoretisch kader en de onderzoeksmethode. Laat ik meteen toegeven, dat ik de grootste moeite had
om mij door de definitie-jungle heen te slaan. Ik kan Matthijssen's plezier aan formele definities (zie voor
kennis, kennissystemen, kennisvorm, regelsysteem, cognitief interpretatieschema, behoeften-interpre-
tatieschema's, p. 25/26) niet delen en kreeg ook bij het verder lezen de indruk dat hij met zijn veelvuldige
theoretische kategorieën - naar mijn smaak toch vrij willekeurig aangehaald uit kennissociologische en -
filosofische literatuur - de historische analyse geweld aandoet. Zinvoller lijkt mij dan nog Matthijssen's
toepassing van Bourdieu's kultureel kapitaal-concept, ook al blijft het vaak slechts bij het noemen van dit
concept. De finesse van dit begrip ligt immers in een analyse van de konkrete selektiemechanismen op
school. Met de corresponderende notie van de relatieve autonomie van het onderwijs doet Matthijssen
weinig. Later haalt hij waar hem dit te pas komt Bowles/Gintis aan, zelfs Willis ontbreekt niet, zij het dan
in een kontekst die Wilhs geweld aandoet (p. 139).

Het tweede bezwaar in dit deel betreft de periodisering. Er is nogal wat geschoven met perioden.
Enerzijds gaat het erom 'onderwijsproblemen en onderwijsveranderingen in de eerste helft van de
negentiende eeuw en de tweede helft van de twintigste eeuw te interpreteren' (p. 28,43), anderzijds wordt
een 'wisseling van dominante rationaliteiten in de loop van de negentiende eeuw' gekonstateerd, wil men
zich 'concentreren op de strijd om de middelbare school in de negentiende eeuw en de strijd om de
middenschool in de tweede helft van de twintigste eeuw' (p. 44). Het laatste citaat spitst de probleem-
stelling toe en Iaat tegelijkertijd zien dat het blijkbaar om een meer summiere beschouwing van de hele
19e eeuw gaat, terwijl voor wat betreft de 20e eeuw inderdaad de wederopbouwperiode en wat daarna
komt centraal staat. Verstandig, want aan het begin van de 19e eeuw stond in Nederland het lager
onderwijs centraal; de diskussie omtrent het middelbaar onderwijs begon pas in de 2e helft een maat-
schappelijk discours te worden. Matthijssen kiest voor juist deze beide perioden omdat hij vindt dat in

beide een belangrijke paradigmawisseling t.a.v. het vigerende kennismodel heeft plaatsgevonden c.q.
plaatsvindt. Namelijk in de eerste periode de overgang van een godsdienstige en literaire rationaliteit naar
een technische rationaliteit (p. 45) en in de tweede helft van de 20e eeuw een paradigmawisseling van het
technokratisch kennismodel naar ev. een sociale rationaliteit.

Daarmee ben ik bij het 3e gedeelte beland, een historisch-sociologische analyse van het eerste tijdperk
(hoofdstuk 3-7). Hier irriteerde mij dat niet Nederland centraal staat in de analyse maar tegelijk
Nederland, Frankrijk, Duitsland en Engeland. Voor mij was dat niet nodig geweest en had ik meer aan
een doortimmerde analyse van de Nederlandse verhoudingen gehad. Zo blijft de analyse naar mijn smaak
steken in te algemene beschouwingen over de wisselwerking tussen maatschappelijke en onderwijsver-
anderingen t.a.v. het voortgezet onderwijs en worden nationale verschillen verwaarloosd. Het komt
allemaal hierop neer dat met de opkomst van de bourgeoisie nieuwe eisen aan het onderwijssysteem
gesteld worden en wel t.a.v. de opleiding van middenkaders voor de bourgeoisie.
De zwakte van Matthijssen's analyse van dit tijdperk openbaart zich in hoofdstuk 7 'Het proletarisch
alternatief, waar de opkomende arbeidersbeweging en hun onderwijspolitieke visie en - strijd op SVi
bladzijde afgedaan wordt als 'mislukte klassenstrijd' (p. 44). En dit niet eens betrokken op Nederland,
waar de analyse toch uiteindelijk om draait, maar op Engeland (waarom?). In feite wordt dus de
wezenlijke klassentegenstelling tussen bourgeoisie en arbeiders, die zich in de loop van de 2e helft van de
19e eeuw ontwikkeld heeft, met één zin afgedaan. Zo wordt ook in het laatste gedeelte, waar het over de
Middenschool gaat, het concept van klassen en machtseliten losgelaten en wordt de klassentegenstelling
teruggebracht naar 'de tegenstelling tussen "deskundigen" en "leken"' (p. 207).

Sprong naar het (recente verleden) heden: de Middenschool (hoofdstuk 8-12), deel 4 dus. Hier nu de
grote teleurstelling: geen materiaal en geen analyse van de achtergronden van het beleid t.a.v. de
invoering van de Middenschool. In plaats daarvan een magere opsomming van de ontwikkelingen in de
buurlanden (voor wat West Duitsland betreft overigens met gedateerde literatuur) en met het verwijt dat
studies in Nederland ontbreken. Voor wat het konkrete schoolnivo betreft is dat wel zo - de Middenschool
bestaat immers pas als experiment. Maar Matthijssen's thema en legitimatie voor het kiezen van juist het
middelbaar onderwijs in de 19e eeuw en de Middenschool in de 20e eeuw als parade-vorbeelden van
paradigmawisseling van kennismodellen zou dan toch tenminste een grondige analyse van de maatschap-
pelijke diskussie omtrent de Middenschool inkluis beleid vereisen. Tenslotte was hij toch nauw betrokken
bij het middenschoolbeleid? Zo blijft het in het theoretisch hoofdstuk opgetrokken begrippenkader voor
dit deel van de analyse dan ook een beetje in de lucht hangen, kan Matthijssen zijn kategorieën bij
ontbreken van empirisch materiaal niet werkelijk in het spel brengen. Hij suggereert een overgang van het
rationalistisch-technokratische kennismodel naar één, gebaseerd op 'sociale rationaliteit'. Maar dat blijft
een abstrakt verhaal als niet de ellende van het L.B.O. in de diskussie wordt betrokken. In algemenere
bewoording, als niet de diepe krisis, waarin kapitalistische onderwijssystemen (en voor mijn part die in
het reeël bestaande socialisme ä la DDR) verkeren in beschouwing wordt genomen.
Ik geloof overigens - maar nu treed ik in een persoonlijke controverse met mijn kollega Mathieu
Matthijssen - niet in deze 'sociale rationaliteit'. De Middenschool op zich is prima in staat om de
reproduktieve funktie van het onderwijs te waarborgen; daar doet ook 'diploma-inflatie' niets van af Het
is vandaag de kwestie of de maatschappij überhaupt nog in staat is om jeugdigen een perspektief te
bieden. De Middenschool speelt daar maar een zeer ondergeschikte rol in.

Berckmoes, A., De Decker, D., De Decker, M., & Goossens, H. Inleiding tot de informatica en
begrippen van basic. Leuven/Amersfort: Acco, 1982.

Boef-van der Meulen, S., Bronneman-Hehners, R., & Konings-van der Snoek, M. Schoolkeuzemotieven
en meningen over onderwijs (Stukwerk nr. 7). Rijswijk: Sociaal en Cultureel Planbureau, april 1983.

Bouhuijs, P.A.J. De ontwikkeling van het praktisch medisch onderwijs in de huisartspraktijk. Proef-
schrift Rijksuniversiteit Limburg, Maastricht, 1983.

Calcar, C. van, & Dool, P. van den. Verantwoording evaluatieopzet van het creativiteitsproject Maas-
tricht (SCO Cahier nr. 18) Amsterdam: Stichting Centrum voor Onderwijsonderzoek van de Univer-
siteit van Amsterdam, 1983.

Eek, E. van, & Lington, H. Middenschool in de maak: Onderzoek naar vormgevingen van midden-
schoolonderwijs in relatie tot de vier uitgangspunten. Amsterdam: Stichting Centrum voor Onder-
wijsonderzoek, oktober 1982.

Eek, E. van, & Lington, H. Uitgangspunten en hun vormgeving: Enkele resultaten van het uitgangs-
puntenonderzoek middenschool. Amsterdam: Stichting Centrum voor Onderwijsonderzoek, oktober

Klerk, L.F.W. de. Onderwijspsychologie (tweede herziene druk). Deventer: Van Loghum Slaterus,

Linden, W.J. van der. Van standaardtest naar itembank. Inaugurele rede, T.H. Twente, 26 mei 1983.

Mascini, N.W. J. De ontwikkeling van een instrument voor de beschrijving van individualisering in het
basisonderwijs. Proefschrift R.U. Leiden, 1983 (met twee bijlagen).

Moonen, J., & Gastkemper, F. Computergestuurd onderwijs (Onderwijskundige informatie voor bet
hoger onderwijs). Utrecht/Antwerpen: Spectrum, 1983 (Aula pocket 811).

Onderzoeksbeleid met betrekking tot onderwijsvernieuwing: Een beleidsanalyse gebaseerd op de erva-
ringen met wetenschappelijk onderzoek ten dienste van landelijke innovatieprojecten in het onder-
wijs (SVO Memo nr. 4). 's Gravenhage: Stichting voor Onderzoek van het Onderwijs, 1983.

Het paardemiddel van Deetman. De universitaire lerarenopleiding en de nota Beiaard. Tijdschrift voor
Opleiding en Onderwijs, jrg. 2 april 1983 (extra nummer).

Scheerens, J. Het sectoronderzoek: onderwijsonderzoek in de marge van wetenschap en beleid? Een
studie naar het functioneren van het beleidsgerichte onderzoek in het kader van enkele landelijke
onderwijs-innovatieprojecten (SVO reeks no 69). Harlingen: Flevodruk, 1983.

Sociale competentie, een perspectief voor de middenschool, door M. A.I.M. Matthijsen.

Enkele kanttekeningen bij de juridische vormgeving van het voortgezet basisonderwijs, door P.W.C.

Onderzoek van onderwijsleerprocessen en onderwijspraktijk. Een exemplarische bespreking met betrek-
■ küTg tot het aanvankelijk wiskunde-onderwijs, door E. De Corte en L. Verschaffel.

'Kunnen' en 'kennen' in de vroeg-kinderlijke ontwikkeling. Een theoretisch-pedagogische verhandeling,
doorB. Spiecker.

Biedt Sleutels theoretische pedagogiek uitzicht? door J.D. Imelman en W. A.J. Meijer.
Geen ontwrichting, maar verlichting (repliek) door J.W. Steutel.

Kroniek: Theoretisch denken in het onderwijs: een congres te Helsinki, door R. van der Veer.

De identificatie van hoogbegaafde jonge mensen, door J.J. Elshout, K. KOuwenhoven en D. Tromp.
Hoogbegaafdheid: geen vanzelfsprekend begrip, door S. Blom en W.L. Wardekker.
Kroniek: Integratie en de kwaliteit van het onderwijs, door J.R.M. Gerris.

Announcement of the Formation of the Division of Educational, Instructional, and School Psychology of the
International Association of Applied Psychology

Educational, instructional, and school psychologists formed a new division of the International Associa-
tion of Applied Psychology at the quadrennial meeting in Edinburgh, July, 1982. The new division's
goals are to 'further the work of applied psychologists interested in educational, instructional, and
school psychology, to facilitate cooperation among them, to foster scientific progress, freedom, and
responsibility to improve the effectiveness of education, and to increase international understanding
among those with common professional interests.
The Division of Educational, Instructional, and School Psychology is concerned with research and
practice on improving the effectiveness of education both in formal educational institutions and in
other instructional situations.
Officers elected at the founding meeting of the Division of Educational, Instructional, and School
Psychology are:

Samuel Ball, University of Sydney
Gery d'Ydewalle, Universiteit Te Leuven
Stephen Foster, University of British Columbia
Alfonso Orantes, Universidad Central de Venezuela
Takashi Sakamoto, Tokyo Institute of Technology
S.M. Hafeez Zaidi, University of Jos Jos, Nigeria

Oprichting van bovengemelde Division geeft onderwijsonderzoekers de gelegenheid eigen symposia te
organiseren tijdens het volgende congres van de lAAP, dat in 1986 te Jerusalem plaatsvindt. Zij die
daartoe initiatieven willen nemen kunnen zich met voorstellen wenden tot de voorzitter van het Divisional
Program, Dr. Gavriel Salomon (Hebrew University, School of Education, Jerusalem 91905, Israel) of tot
Dr. Hans Crombag (Boerhaavelaan 2,2334 EN Leiden).

There is a growing body of research on problem solving behaviour. These findings are scattered
over several research areas which makes it difficult to get a clear picture of this important human
skill. But despite the use of different conceptualizations, models and research designs a lot of
common ground is covered. In an attempt to identify some of these reciprocal concerns, we have
examined three broad areas of research, viz.' (1) cognitive theories of problem solving (2) decision
theory and (3) motivation. We have pointed to a number of deficiencies in each of these isolated
approaches. We also indicated some research perspectives that may lead to the construction of an
explanatory framework.

Een probleem wordt traditioneel gedefinieerd als een taak, opgave of vraag die iemand
ontdekt, of die hem wordt voorgelegd met de bedoeling dat hij er één of meerdere oplossingen
voor zoekt. Iets verwerft probleemkarakter wanneer het (1) nieuwheidswaarde en (2) uitda-
gingskarakter heeft voor de probleemoplosser. Hij kan dus geen oplossing voor het probleem
vinden door middel van een geautomatiseerde reeks deelhandelingen. Of de opgave ook een
probleemkarakter heeft, hangt in sterke mate af van de informatie die in de externe taakomge-
ving (namelijk in de instructie, de situatie) en de interne taakomgeving (namelijk het geheu-
gen) aanwezig is. Anders gezegd, er ontstaat een probleem wanneer de probleemoplosser in
een toestand van desadaptatie komt, omdat het probleem hem onbekend, maar relevant
voorkomt.

Op dit moment beschikken we nog niet over een algemeen geldende theorie over probleem-
oplossen. Wel zijn er op grond van empirisch onderzoek modellen geconstrueerd, die bij het
opzetten van onderzoek met betrekking tot probleemoplossingsprocessen kunnen worden
gehanteerd. Deze modellen kunnen ruwweg in twee hoofdcategorieën worden opgedeeld, nl.
(1) de produkt- en (2) de procesbenadering. De produktbenadering blijft aan de oppervlakte
van het cognitieve en affectieve informatieverwerkingsproces. Daardoor kunnen we geen
uitspraken doen over de cognitieve en affectieve tussenprocessen, die bij de leerlingen op gang
komen, en krijgen we eenzijdige informatie over hun oplossingscapaciteit.
Onder oplossingscapaciteit wordt verstaan de vaardigheid van een individu om een bepaald
type probleem te analyseren en er een oplossing voor te formuleren. Onder ideale oplossings-
condities (geheel van factoren dat in een bepaalde test/probleemsituatie expliciet of impliciet
aanwezig is) wordt de oplossingscapaciteit van het individu maximaal geactualiseerd. Wanneer
de oplossingscondities minder gunstig zijn, wordt de oplossingsvaardigheid niet voldoende
geactualiseerd, of wordt de oplossingscapaciteit gemaskeerd door andere (soms toevallige)
factoren.

Wanneer een leraar of een diagnosticus aan een leerling een taak presenteert met de bedoeling
gegevens te verwerven over zijn informatieverwerkingscapaciteit, heeft hij reeds zelf een
duidelijk beeld van de mogelijke strategieën die een leerling kan aanwenden om de taak uit te
voeren. Dit beeld kan gebaseerd zijn op theoretische overwegingen (modellen van informa-
tieverwerking, leertaakanalyses, expert-novicevergelijkingen e.d.) en/of op ervaring. Wan-
neer een diagnositcus specifiek geïnteresseerd is in de probleemoplossingscapad/eir van
enkele leerhngen met betrekking tot bijv. piagetiaanse probleemtypes, en dit proefondervin-
delijk wil vaststellen, ligt het voor de hand dat hij niet alleen het oplosüngsresultaat kan
anticiperen en verifiëren, maar ook en vooral dat hij alle alternatieve oplossingsroutes met hun
specifieke knelpunten kent. Het is namelijk belangrijk dat de diagnosticus de waarde van de
oplossing bepaalt aan de hand van het oplossingsproces. Dit impliceert dat hij zowel rekening
houdt met (1) de voorkennis van de leerling als met (2) de flexibiliteit waarmee hij de
probleemoplossingsruimte doorloopt. Deze procesbenadering van 'probleemoplossen', staat
tegenover de produktbenadenng die we gewoonhjk in de testpsychologie aantreffen.

Nemen we bij wijze van voorbeeld de volgende opgave uit de Culture Fair 'g' test (Cattell &
Cattell, 1961; Weisz, 1971; Michels en Verhoeven, 1977) (zie Figuur 1). De psycholoog die
deze test afneemt, heeft voor zichzelf uitgemaakt dat er maar 1 juist antwoord is, nl. 2 + 5.
Wanneer hij de testitems corrigeert, streept hij elk ander antwoord aan als 'foutief. Hij vraagt
zich niet af waarom een bepaald alternatief 'foutief gekozen werd. Met andere woorden, hij
kijkt naar het produkt; of het resultaat van het oplossingsproces, en de oplossingsstrategie die
de proefpersoon hanteert, komt niet in aanmerking. Dit betekent dus dat een absolute gok
bijvoorbeeld, 1 -I- 4; 2 -h 4, over dezelfde kam wordt geschoren als een 'foutieve' maar
beredeneerde keuze, bijvoorbeeld 3+4.

De teneur van deze opmerkingen is dat we de produktbenadering van het probleemoplos-
singsproces, zoals we die aantreffen in de meerste psychologische testen, als ontoereikend
beschouwen om de reële oplossingscapaciteit van een persoon te achterhalen. Een dergelijke
benadering schuift ten onrechte de proces-aspecten van het probleemoplossingsproces opzij.
Zij besteedt geen of weinig aandacht aan het feit dat een bepaalde antwoordset of gebrek aan
voorkennis de probleemoplosser kan dwingen tot het kiezen van een minder efficiënte oplos-
singsroute, die niettemin kan getuigen van een flexibele oplossingscapaciteit.
Hoewel we in het onderwijs vaak zogenaamde 'fouten-analyses' aantreffen, worden deze
analyses niet altijd uitgevoerd met behulp van een overzicht van alle mogeUjke oplossingsplan-
nen. Vaak wordt de 'juistheid' van een oplossingsplan beoordeeld op grond van het oplossings-
plan van de deskundige. Het is echter meer reëel het oplossingsplan dat een leerling hanteert te

beoordelen in het licht van (1) zijn probleemspecifieke voorkennis en (2) zijn algemene
heuristische kennis. De oplossingscapaciteit wordt dus niet gezien als een statisch gegeven,
maar veeleer als de vaardigheid van een leerling om zijn voorkennis en algemene oplossings-
vaardigheid flexibel te gebruiken. Wanneer de diagnosticus wel over deze informatie zou
beschikken, zou hij een meer reële inschatting van de oplossingscapad/eiV van de leerlingen
kunnen maken.

We zijn het met Hofstee (1982) grotendeels eens dat het primair doel van vele psychologische
testen erin bestaat het gedrag van een individu te voorspellen en dat opdachtgevers vooral
geïnteresseerd zijn in een eindoordeel over de intellectuele capaciteiten, en/of over de per-
soonlijkheidsaspecten van een individu. Maar, daartegenover staat dat heel wat testen ook, of
uitsluitend, als diagnostische instrumenten worden gebruikt.We willen dan ook een onder-
scheid maken tussen (1) de voorspellende functie en (2) de diagnostische functie van testen.
Daar waar het gaat om snel informafie in te winnen over grote groepen individuen met het oog
op selectie, kunnen psychologische testen als eerste screening worden gehanteerd. Daar waar
het gaat om diagnostische informatie over het cognitief of affectief functioneren van indi-
viduen (hier: leerlingen) wijzen we de produktbenadering af.

Diverse auteurs (Boekaerts & Voeten, 1982; Epstein, 1981; Fiske, 1978; Hettema, 1982)
hebben er overigens op gewezen dat er een beperkte generaliseerbaarheid is vanuit de
testsituatie naar bepaalde criteriumsituaties. Testresultaten zijn slechts momentopnamen. Op
grond daarvan kunnen geen conclusies worden getrokken met betrekking tot reëel gedrag. Wil
men toekomstig gedrag kunnen voorspellen dan moet informatie voorhanden zijn over de
representatieve activiteiten van een individu in een reeks representatieve situaties.
Recentelijk heeft ook Glaser erop gewezen (Glaser, 1981) dat psychologische testen pas
bruikbaar worden voor het onderwijs, indien ze niet uitsluitend een prediktieve functie, maar
evenzeer een diagnostische functie hebben. Met andere woorden, ze moeten ook gericht zijn
op het detecteren van leermoeilijkheden en informatie opleveren om het didaktische handelen
te bevorderen. De vraag is of we over testen beschikken die dit kunnen waarmaken. Een vaak
gesignaleerd probleem is dat de testen die de diagnosticus hanteert om de oplossingscapaciteit
van leerlingen in kaart te brengen, zijn gebaseerd op een specifiek eenzijdig verklaringsmodel.
Daardoor worden bepaalde factoren naar voren geschoven om het geobserveerde probleem-
oplossingsgedrag te verklaren en worden andere factoren bewust of onbewust buiten beschou-
wing gelaten.

Wat we willen benadrukken is dat testen niet beter kunnen zijn dan wat de stand van zaken in
een bepaald onderzoeksdomein toelaat. Het onderzoeksdomein 'probleemoplossen' is een
ruim gebied waarin een aantal xeAatieigeïsoleerde onderzoeksstromen worden aangetroffen.
Elk van deze invalshoeken belicht andere aspecten van het oplossingsproces en draagt daarom
bij tot een beter inzicht in het totaalproces. Het is onze bedoeling deze belangrijke onder-
zoeksstromen te presenteren. We denken daarbij vooral aan de meer cognitieve benadering
van probleemoplossen (Newell & Simon, 1972; Resnick & Glaser, 1976; Greeno, 1978; Pitt,
1978), aan beslissingstheorie (Humphreys, 1980; 1982; Svenson, 1979; 1982; Vlek & Wage-
naar, 1979) en aan de motivationele benadering van taakgedrag (Apter, 1982; Boekaerts,
1982a; Hermans, 1978; Heckhausen, 1980). Maar, we willen verdergaan dan een schets van de
drie theoretische benaderingen. We willen namelijk een poging doen om deze benaderingen
samen te brengen in één geïntegreerd conceptueel kader. We stellen achtereenvolgens aan de
orde (1) probleemoplossen als zoekproces, (2) probleemoplossen als beslissingsproces en (3)
probleemoplossen als gemotiveerd taakgedrag. Tenslotte besluiten we met de presentatie van
deze geïntegreerde benadering.

PROBLEEMOPLOSSEN ALS ZOEKPROCES
Produktiesystemen: een formeel beschrijvingsmodel

Het boek 'Human Infomiation Processing' van Newell & Simon (1972) wordt algemeen
beschouwd als een mijlpaal in de studie van probleemoplossingsgedrag. Hoewel er heel wat
onderzoek met betrekking tot probleemoplossen vóór Newell & Simon plaatsvond, betekende
dit werk een nieuwe start.Het probleemoplossingsmodel dat door Newell & Simon werd
voorgesteld, introduceerde niet alleen een begrippenapparaat maar voorzag eveneens in een
formele beschrijvingswijze van oplossingsgedrag. Daardoor werd het mogelijk vrij gedetail-
leerde gegevens met betrekking tot het oplossingsproces van individuen te vergelijken. Be-
langrijke onderzoeksgegevens, zoals bijv. deze van Merrifield & Guilford et al. (1962) en de
Groot (1965), konden nu ook beter worden geïnterpreteerd en gesitueerd binnen een ruimer
kader.

Merrifield & Guilford et al. (1962) toonden o.a. via factoranalyse op omvangrijke testgegevens
aan dat er niet zoiets bestaat als een 'algemene probleemoplossingsvaardigheid' (unitary
problemsolving ability). Zij beargumenteerden dat specifieke skills zoals o.a. (1) een analyti-
sche aanpak van de probleemopgave, (2) het anticiperen van een oplossingsschema, (3) het
opzetten van een efficiënte zoekstrategie en (4) het evalueren van de verwachte conclusies een
belangrijke bijdrage leverden aan het oplossingsproces. De Groot (1965) zag het probleemop-
lossingsproces als een cyclisch proces van overlappende of geschakelde deelprocessen. Hij
analyseerde verbale protocollen van diverse probleemoplossingsprocessen en onderscheidde
vier kernactiviteiten, nl. (1) het formuleren van het probleem, (2) het expliciteren van doelen
en deeloperaties, (3) het uitvoeren van deeloperaties en (4) het formuleren van gedeeltelijke
resultaten en oplossingen.

Zoals we boven reeds aanstipten, is de belangrijkste verdienste van Newell & Simon dat ze een
formeel model presenteerden aan de hand waarvan het oplossingsgedrag van individuele
probleemoplossers kon worden beschreven in produktiesystemen. Zij zagen het probleem-
oplossingsproces als een zoekproces door de probleemruimte. Dit is een inwendig gecon-
strueerde zoekruimte. De probleemoplosser tracht de complexe hoeveelheid informatie die
het probleem (opgave, taak) bevat, te begrijpen en samen te vatten in een voor hem overzich-
telijke vorm. Daartoe analyseert hij de relevante gegevens in de externe taakomgeving (de
eigenlijke opgave of taak, de context waarin het probleem wordt aangeboden) en de interne
taakomgeving (alle relevante informatie die in het geheugen kan geactiveerd worden). Op
deze manier wordt informatie samengebracht en gebundeld in verschillende kennisbestanden,
die op de knooppunten van de zoek- of probleemruimte zijn gesitueerd.
Informatie die in de verchillende kennisbestanden aanwezig is, vormt als het ware het referen-
tiekader waarover de probleemoplosser beschikt om het probleem op te lossen. Deze infor-
matie kan vrij globaal en vaag zijn, maar ze kan ook vrij complex en onsamenhangend zijn. De
probleemoplosser moet niettemin op grond van de informatie in zijn kennisbestand(en) het
probleem analyseren, en de begin- en doeltoestand bepalen. Op de begintoestand worden
operaties uitgevoerd die het probleem achtereenvolgens omzetten, of transformeren, in een
andere probleemtoestand die dichter bij de doeltoestand komt (dit kan ook in omgekeerde
volgorde gebeuren).

De essentie van dit probleemoplossingsmodel is dat de probleemoplosser, of de computer, een
aantal produktieregels moet uitvoeren. Dit zijn conditie-actieregels die specifieke acties met
specifieke condities verbinden: R: c -> a. Vooraleer een aktie 'a' uit te voeren, moet de

probleemoplosser de conditie 'c' identificeren waaraan moet worden voldaan, (b.v. bij delen:
als de deler groter is dan het eerste cijfer van het deeltal, moet hij het volgende cijfer erbij
nemen). Het resultaat van het oplossingsproces is een oplossingsroute die de vorm aanneemt
van een produktiesysteem; of m.a.w. van een aaneenschakeling van produkties. Deze oplos-
singsroute kan visueel worden voorgesteld als een boomdiagram waarin de verschillende
kennisbestanden (knooppunten) door middel van operaties, of acties, (pijlen) verbonden zijn
(zie Figuur 2).

Fig. 2 Representatie van een mogelijke oplossingsroute voor het rivier-oversteekprobleem: Een boer
staat met een bootje en een geit (G), een kool (K) en een wolf (W) aan de ene oever van een rivier. Hij
moet beide dieren en de kool overbrengen, zonder dat de wolf de geit, of de geit de kool opeet.

Een efficiënt verlopend zoekproces wordt bijgevolg gekenmerkt door een adequate zoek- of
exploreerstrategie, en de zoekstrategie wordt gestuurd, maar ook aan banden gelegd, door de
condities die uit de kennisbestanden kunnen worden afgeleid. We willen dan ook een essen-
tieel onderscheid maken tussen kennisbestanden en kennistoestanden. De term kennistoe-
stand reserveren we voor een gedifferentieerd kennisbestand, waarin de condities waaraan de
acties moeten voldoen, duidelijk werden gespecificeerd. Nu eens valt het opbouwen van
kennisbestanden en kennistoestanden samen, dan weer gaat het terug op verschillende cogni-
tieve processen. Zo kan een probleemoplosser die niet beschikt over voldoende declaratieve
kennis (vakinhoudelijke kennis, o.a. begrippen, regels, wetten, formules) met betrekking tot
het probleem, niet in staat zijn een kennisbestand - en dus ook geen kennistoestanden - op te
bouwen. Een andere probleemoplosser kan wel over voldoende voorkennis beschikken en in
staat zijn die te gebruiken als referentiekader (kennisbestanden) maar toch niet in staat zijn de
condities te anticiperen/specificeren waaraan operaties en deelhandelingen moeten voldoen
(kennistoestanden). Newell & Simon beschouwen de knooppunten van de probleemmime als
kennistoestanden. Protocolanalyses tonen echter aan dat het vaak gaat om vrij onvolledige en
zelfs verwarde kennisbestanden, waarin geen specifieke condities werden gespecificeerd
(Boekaerts, in voorbereiding).

Beschouwen we het probleemoplossingsproces uitsluitend als een zoekproces, waarbij de
probleemoplosser zich een weg baant door de zoekruimte, dan reduceren we het tot een
aaneenschakeling van knooppunten (kennisbestanden/kennistoestanden). Het vinden van
een oplossingsroute wordt dan gezien als het exploreren van de zoekmimte; dat wil zeggen als
het opstellen en uitvoeren van een produktiesysteem. Concreet betekent dit het opstellen en
uitvoeren van een programma, of handelingsvoorschrift, dat uit een geordende reeks produk-
ties bestaat. Idealiter zou de probleemoplosser voor elke produktie zowel de actie (handeling)
als de condities waaraan de actie moet voldoen, in overweging moeten nemen. De informatie
opgeslagen op het eerstvolgende knooppunt (reeks condities) richt met andere woorden het
zoekproces. Frijda & Elshout (1976) en Maes (1976) onderscheiden drie basisvormen om de
zoekruimte te exploreren, nl. (1) de algoritmische methode, (2) de heuristische methode en (3)
de blinde zoekprocedure.

Bij een algoritmische methode doet zich het zoekpr6b\eem helemaal niet voor. De deelhande-
lingen of operaties die uitgevoerd moeten worden, en de volgorde ervan, liggen nauwkeurig
vast in het algoritmische voorschrift, dat, indien nauwkeurig uitgevoerd, met 100% zekerheid
naar de juiste oplossing voert. Bij een heuristische zoekprocedure, maakt de probleem-
oplosser gebruik van vrij algemene oplossingsmethodes, van vuistregels of van een verkort
algoritme (steekproef van deelhandehngen gespecificeerd in het algoritme). Bij een blinde
zoekprocedure tenslotte, exploreert de probleemoplosser de zoekruimte tussen ker\t\\sbestan-
den, of indien hij over opeenvolgende kennistoestanden beschikt, baant hij zich een weg door

de zoekruimte zonder veel te letten op de condities die in de kennistoestanden zijn vastgelegd.

Het probleemoplossingsmodel dat door Newell & Simon werd voorgesteld heeft heel wat
onderzoek met betrekking tot probleemrepresentatie en probleemoplossingsprocessen gege-
nereerd. Het grote voordeel van deze benadering schuilt in het feit dat het oplossingsproces
van diverse individuen in kaart kan worden gebracht, en dat het mogelijk werd vergelijkingen
te maken tussen de produktiesystemen van goede en minder goede probleemoplossers (expert-
novicevergelijkingen).

Door het nauwgezet analyseren van verbale protocollen, slaagden onderzoekers erin indivi-
duele verschillen in oplossingsgedrag bloot te leggen en de kernactiviteiten van het oplossings-
proces te identificeren (o.a. Chase & Simon, 1973; Greeno, 1977; Hayes & Simon, 1974;
Larkin, 1976; Novak, 1976; Pitt, 1976; Resnick & Glaser, 1976; Simon & Simon, 1978).
Zo rapporteerden Chase & Simon (1973) dat het essentieel verschil tussen de schaakexpert en
de amateur erin bestond dat eerstgenoemde over een goed georganiseerde kennisstructuur
met betrekking tot diverse schaakstellingen beschikt. Kennedy, Eliot & Krulee (1970) bestu-
deerden algebraïsche problemen en constateerden dat er geen noemenswaardig verschil
bestond tussen goede en minder goede probleemoplossers wat betreft het uitvoeren van
elementaire operaties. Het onderscheid lag vooral in het feit dat zwakke probleemoplossers
hun probleemruimte sequentieel opbouwden aan de hand van informatie die ze in de pro-
bleemopgave aantroffen en dat ze een oplossingsplan kozen vooraleer alle relevante gegevens
waren verwerkt.

Een meer gedetailleerde studie werd gerapporteerd door Simon & Simon (1978). Zij verge-
leken de produktiesystemen van twee subjecten, nl. Sj, die een goede voorkennis had met
betrekking tot het oplossen van fysicaproblemen, en Sj, die slechts een beroep kon doen op
elementaire voorkennis van fysica. Simon & Simon constateerden dat de novice minder zeker
was van zichzelf en meer rekenfouten maakte, maar ook dat hij een regressieve oplossingsstra-
tegie hanteerde (backward strategy) in tegenstelling tot S, die een progressieve strategie
hanteerde (forward strategy). Verder vertoonde het probleemoplossingsproces van Sj drie
duidelijke kernactiviteiten nl. (1) het formuleren van het probleem, (2) het representeren van
het probleem en (3) het formuleren en uitvoeren van een set vergelijkingen. Bij Sj werd de
tweede kernactiviteit nauwelijks aangetroffen. Simon & Simon verklaren dit verschijnsel als
'gaps in skiir, dat wil zeggen S, heeft meer ervaring met het oplossen van fysicaproblemen en
kan daardoor het probleem beter situeren en een mogelijk oplossingsschema anticiperen (hij
heeft met name meer natuurkundige intuïtie). In onze terminologie vertaald (cf. p. 198) bezit
S| op de knooppunten van de probleemruimte kennistoestariden en moet Sjhet stellen met vrij
ruime kennisbestanden. Dit zou kunnen verklaren waarom S, in staat is beter te anticiperen en
daardoor een progressieve oplossingsstrategie te hanteren.

Dergelijk nauwgezet onderzoek maakt het mogelijk concrete probleemoplossingsprocessen
om te zetten in één of meer efficiënte produktiesystemen. De produktiesystemen kunnen
vervolgens worden ingevoerd in de computer om hun effectiviteit te onderzoeken. Een
bijkomend voordeel is dat een nauwkeurige analyse van diverse produktiesystemen aanleiding
kan zijn om voorschriften te formuleren die de leraar in de klas kan hanteren bij het aanleren
en begeleiden van oplóssingsplannen. Op deze manier kan aan leerlingen een serie produkties
worden aangeboden, en wordt begripsmatige kennis niet los van operationele kennis onder-
wezen, wat de wendbaarheid van deze kennis verhoogt (Boekaerts, 1979). Concluderend
kunnen we stellen dat dit soort studies ons inzicht geven in het cognitief probleemoplossings-
proces dat individuen doormaken wanneer ze met specifieke problemen worden geconfron-
teerd. Hun primair doel is: (1) elementaire subprocessen te identificeren, (2) de aard en de
volgorde van deze elementaire subprocessen te bepalen, en (3) uitspraken te doen over de
tijdsverdeling over de diverse subprocessen, en over de kernactiviteiten (samenhorende
subprocessen) van het oplossingsproces. Het valt evenwel niet te ontkennen dat deze benade-
ring van het probleemoplossingsproces zich scherp toespitst op het zof^aspect. Deze bena-
dering is bij uitstek geschikt voor het bestuderen van zogenaamde 'vind-problemen' zoals
wiskunde bewijzen.

In reële situaties komen problemen echter zelden onder deze zuivere vorm voor. Het explore-
ren van de zoekruimte houdt in bepaalde gevallen ook een beslissings- en een motivationeel
aspect in. Bij het oplossen van alledaagse, concrete problemen grijpen deze verschillende
aspecten in elkaar. Wanneer de onderzoeker-met het oog op de reductie van de complexiteit
- deze aspecten geïsoleerd bestudeert, krijgt hij gedetailleerde, maar eenzijdige informatie
over het oplossingsgedrag. In de volgende paragrafen zullen we een tweede onderzoeksstroom
onder de loep nemen, nl. de studie van probleemoplossen als beslissingsgedrag.

Zoals we reeds opmerkten, richt de cognitieve benadering ä la Newell & Simon zich voorna-
melijk op het zoekaspect van het probleemoplossingsproces. Ze gaat uit van een analogie
tussen de probleemoplosser en de computer en beschouwd de probleemoplosser als de
uitvoerder van een gefaseerd, rationeel zoekproces en het oplossingsproces als een aaneen-
schakeling van conditie-actie regels. Daardoor wordt onvoldoende rekening gehouden met de
beslissingsdïmensie, en met het exploreren van de beslissingsTmmtc.
Nadruk op de beslissingsdimensie maakt van het probleemoplossingsproces een gefaseerd,
bewust risico-nemend!risico vluchtend proces. Het kennisbestand, gesitueerd op een bepaald
knooppunt, doet namelijk ook dienst als 'persoonlijk' referentiekader; of beter gezegd, naast
declaratieve kennis (begrippen en operaties) wordt ook episodische kennis, m.i.v. normen,
attitudes, waarden en probabiliteiten geraadpleegd (cf. Boekaerts, 1979; 1982a). Deze sub-
jectieve informatie kan het keuzeproces op een knooppunt - en daardoor alle verdere beslis-
singen - sterk beïnvloeden. Wanneer de eerste beslissing als uitangspunt functioneert voor een
volgende beslissing, hebben we namelijk te doen met een sequentieel, meerstapsbeslis-
singsproces. Verschillende auteurs hebben dan ook een onderscheid gemaakt tussen dit soort
dynamische beslissingsprocessen en statische, of eenstapsbeslissingsprocessen (cf. Kleiter,
1977; Rapoport, 1975;'Svenson, 1979; Vlek & Wagenaar, 1979).

Dynamische beslissingsprocessen onderscheiden zich van statische beslissingsprocessen op
grond van het feit dat de beslisser meermaals moet kiezen tussen een aantal alternatieve
keuzepaden en dat eerder genomen beslissingen alle volgende beslissingen beïnvloeden. Ola
Svenson (1982) gaat ervan uit dat (1) de beslisser een subjectieve representatie vormt van een
aantal keuzemogelijkheden (keuzepaden), (2) dat elk keuzepad een bepaalde aantrekkings-
kracht uitoefent en (3) dat de keuzepaden kunnen worden beschreven in termen van hun
attributen, of dimensies. De aantrekkingskracht van een keuzepad, of met andere woorden,
de waarde die de beslisser hecht aan een bepaald keuzepad, wordt dan bepaald door de score
op de attributen die het keuzepad karakteriseren. Omdat het keuzepad (resultaat van het
beslissingsproces) bij sommige problemen heel dicht bij het conditie-actiepad (resultaat van
het zoekproces) ligt en de onoplettende onderzoeker deze dimensies gemakkelijk als syno-
niem kan beschouwen, illustreren we dit met een voorbeeld.

Stellen we ons een jong meisje voor dat zich zorgen maakt over contraceptie. Voor de arts
heeft het probleem van zijn patiënte geen cognitief zoekaspect. Hij kan bij wijze Van spreken
een boomdiagram tekenen waarin alle kennis met betrekking tot alle mogelijke vormen van
contraceptie op de knooppunten is gerepresenteerd en waarin de condities, waaraan bepaalde
vormen van contraceptie wel of niet objectief voldoen, nauwkeurig worden geëxpliciteerd. De
patiënte kan ook over deze objectieve gegevens beschikken maar de constructie van de
probleemruimte (invulling van de kennisbestanden en kennistoestanden) kan grondig verschil-

len van die van de arts. De reden daarvoor ligt waarschijnlijk mede in het feit dat zowel de
kennisbestanden als de doeltoestand subjectief worden ingevuld (waarden en normen; episo-
dische kennis). Ook de beoordelingscriteria voor de oplossingsroutes kunnen grondig verschil-
len.

Het oplossen van het probleem is zowel voor de patiënte als voor de arts niet zozeer het vinden
van één of meer oplossingsroutes (aaneenschakeling van conditie-actie regels), maar eerder
een beslissingspToces. Anders gezegd, altematieven worden gewogen op grond van een aantal
subjectief gekleurde attributen die al dan niet een gelijkwaardige status hebben (bijv. kost-
prijs, eigen subjectieve voorkeur, subjectieve voorkeur van de partner, risico op zwanger-
schap, complexiteit van de handeling, impact op de coïtis enz.).

Wanneer onze patiënte een keuze moet maken uit mogelijke vormen van contraceptie, kan zij
een bepaalde beslissingsregel hanteren. Bijvoorbeeld, zij geeft de attributen een bepaald
gewicht en past vervolgens een dominantieregel toe. Dat wil zeggen het alternatief (hier een
bepaalde vorm van contraceptie) dat beter is dan de andere alternatieven ten aanzien van
tenminste 1 van de hoog gewogen attributen, en beter of gelijkwaardig ten aanzien van de
andere attributen, wordt gekozen. Wellicht bestaat de taak van de arts erin, op grond van eigen
beslissingsregels de beslissingsregel van de patiënte te evalueren, en een mogelijke discre-
pantie naar de patiënte toe te verduidelijken. Daarmee is meteen aangetoond dat verschil-
lende mensen in dezelfde situatie verschillende beslissingsregels kunnen hanteren.

Beslissen is in feite een keuze maken uit een set handelingsaternatieven of actiemogelijkheden
(immediate acts) die elk via specifieke actieresultaat sequenties (act-event sequence) tot een
bepaald eindresultaat (consequences) leiden (zie Figuur 3). De studie van beslissingsprocessen
wil vooral een antwoord geven op de vraag: hoe wordt een keuze gemaakt uit de verschillende
handelingsalternatieven. Dit antwoord wordt gezocht door de beslisregels bloot te leggen
waarop de keuze voor een specifieke actie-resultaat sequentie, is gebaseerd.
Humphreys en McFadden (1980), Humphreys e.a. (1982) en Berkeley & Humphreys (1982)
drukken de waardering, die een beslisser heeft voor een bepaalde actie-resultaat sequentie, uit
in termen van utiliteit. Dit is de vermoede opbrengst, of m.a.w., het subjectieve nut dat een
individu aan een bepaalde actie-resultaat sequentie toekent. Deze auteurs zien het bepalen van
de utiliteit als een geïntegreerd subproces van het totale beslissingsproces. Het staat in nauw
verband met het bepalen van de onzekerheid ten aanzien van de consequenties van een
handelingsalternatief. De beslisser kent namelijk subjectieve probabiliteiten toe aan het zich
voordoen, en aan de kans van welslagen van mogelijke handelingen (de p-waarde, zie Figuur
3).

Zoals blijkt uit Figuur 4 bestaat het beshssingsmodel, dat Berkeley & Humphreys (1982)
voorstaan, uit één hoofdcomponent, nl. het construeren van een beslissingsboom, of met
andere woorden, het aftasten van de totale actie-resultaat-structuur, en uit drie buffercompo-
nenten, nl. (1) de representatie van de onzekerheid, (2) het bepalen van de utiliteit en (3) het
aftasten van bijkomende secundaire gebeurtenissen. De aard van het input-output verkeer
tussen deze vier in elkaar grijpende subsystemen en de operaties binnen elk van de sub-
systemen zijn formeel te beschrijven aan de hand van beslissingstheoretische axioma's (cf.
Bayesiaanse theorema's). Meer concreet, een aantal handelingsalternatieven worden in de
toekomst geprojecteerd (decomposition of immediate acts) en hun mogelijke afloop wordt
voorspeld. Terugredenerend worden dan wedersamenstellingsregels (composition rules) ge-
hanteerd waarbij het bepalen van de utiliteit en de probabiliteit van mogelijke actie-resultaat
sequendes en de combinatie daarvan, centraal staat.

Fig. 4 Extended province of decision theory: core system buffered by three subsystems (Humphreys,
1982

Hoewel Humphreys e.a. (1982) benadrukken dat de beshssingen die een individu neemt, sterk
worden bepaald door kennis die in het semantische geheugen (LTM) ligt opgeslagen (nl.
informatie over de fysische en sociale werkelijkheid; over de samenhang tussen bepaalde
gebeurtenissen; en over de gevolgen van acties) nemen zij niet expliciet een model van het
LTM in hun beshssingsmodel op. Evenmin specificeren zij hoe de beslisser de taak en de
taakomgeving waarneemt en interpreteert. Wel creëren zij een soort tussenstadium (interface)
tussen de vier essentiële subsystemen van het beslissingsmodel en de geheugenstractuur
enerzijds en tussen LTM en de omgeving anderzijds (cf. Figuur 4). Op interface-niveau
postuleren ze een aantal heuristieken die de perceptie, de activa tie en de representatie van
informatie regelen.

Heuristieken zijn m.a.w. intuïtieve informatieverwerkingsmethoden die een individu hanteert
om het beslissingsproces vorm te geven. Het zijn vereenvoudigde strategieën (simplifying
strategies, cf. Svenson, 1982) geconstrueerd op grond van eigen ervaring met gelijkaardige
problemen, op grond van ervaring van deskundigen of van leden van de referentie groep. Elk
individu heeft een repertoire van dit soort heuristieken (procedurele kennis). Het hanteren
van deze vereenvoudigde of verkorte zoek- en besUssingsprocedures heeft als voornaamste
doel informatie uit de interne taakomgeving (declaratieve kennis in het LTM) en uit de externe
taakomgeving (taaksituatiecomplex en de instmctie) te integreren; en op grond daarvan te
komen tot een oplossing of een beslissing van een probleem. Deze soort 'intuitieve' aanpak om
het beshssingsprobleem aan te pakken staat tegenover het expliciet toepassen van axiomati-
sche beslissingsregels.

Diverse auteurs hebben getracht de heuristische beslissingsprocedures die een individu han-
teert, in kaart te brengen door hun proefpersonen te vragen luidop te denken tijdens het
beslissingsproces (cf. Bettleman & Jacoby, 1976; Einborn & Hogarth, 1981; Svenson, 1982;
Toda, 1976). Deze idiosyncratische beslissingsprocessen worden vergeleken met een norma-
tief beslissingsproces. Dit is een model dat de optimale verbindingen aangeeft tussen alle
mogelijke actie-resultaat sequenties. Het bepalen van de utiliteit en de probabiliteit wordt
gekoppeld aan normatieve schalen in plaats van aan de subjectieve inschatting van de beslisser
en er worden beslissingsregels aangegeven die de utiliteit en probabiliteitsgegevens combi-
neren (zie Svenson, 1979). Afwijkingen van de ideaaltypische beslissingsprocedure worden
door de onderzoeker geïnterpreteerd als vooroordelen of fouten. Anders gezegd, er wordt
verondersteld, dat inefficiënte, minder geschikte, of sub-optimale heuristieken werden gehan-
teerd in plaats van axiomatische (normatieve) beslissingsregels.

Als voorbeeld van een dergelijk sub-optimaal beslissingsproces citeert Humphreys (1982) de
representativiteitsheuristiek van Tversky & Kahneman (1974). Tversky & Kahneman (1974)
rapporteerden namelijk dat hun subjecten een markante 'bias' vertoonden bij het maken van
gevolgtrekkingen. Wanneer hun gegevens werden verstrekt met betrekking tot de probabili-
teit van bepaalde beroepen in een bepaalde populatie (base-rate data) naast korte persoonsbe-
schrijvingen (case data), hechtten zij ongenuanceerd meer belang aan de informatie in de 'case
data' dan aan de probabihteitsgegevens. Daar het hier om twee gekende groepen ging, nl.
ingenieurs en advocaten, konden de subjecten infonnatie uit het LTM activeren (meestal
stereotype beschrijvingen) en een soort matchingprocedure uitvoeren met de gegevens in de
'case data'. Een probabilistisch oordeel over het beroep van een persoon werd gegeven op
grond van de overeenkomst (fit) tussen de case data en de geactiveerde gegevens, eerder dan
op grond van de 'base-rate data'.

Andere voorbeelden van sub-optimale beslissingsprocedures zijn o.a. de 'availability' heuris-
tiek (Tversky & Kahneman, 1973) waarbij proefpersonen hun probabiliteitskeuze maakten op
grond van de frequentie en het gemak waarmee gegevens konden worden geactiveerd uit het
LTM en de 'anchoring and adjustment' heuristiek (Tversky & Kahneman, 1974) waarbij een
oorspronkelijke waarde dienst doet als een ankerpunt. Om de uiteindelijke beslissing te
bereiken, wordt deze waarde voortdurend aangepast. Wanneer gegevens betreffende reële
beslissingsprocessen worden vergeleken met een normatief model kan dat, zo argumenteren
Kahneman & Tversky (1982), op een positieve of op een negatieve vergelijkingsbasis gebeu-
ren. Bij een negatieve vergelijking stelt de onderzoeker vast dat de beslisser afwijkt van de
systematische en rationele beslissingsprocedure en probeert hij vast te stellen wat de proe:^er-
soon dan wel heeft gedaan. Dit leidt meestal tot het identificeren van een sub-optimale,
inefficiënte of ongeschikte heuristiek. Bij een positieve vergelijking daarentegen, staat de
vraag naar de oorzaak van de discrepantie tussen het beslissingsproces van de proefpersonen
en het standaardmodel centraal. Het ligt voor de hand dat discrepanties in beslissingsprocessen
vaak te wijten zijn aan het feit dat (1) het doel van de beslissingsopdracht door de proe^ersoon
niet op dezelfde manier wordt gepercipiëerd als door de onderzoeker en/of (2) dat hij de
reikwijdte van het beslissingsproces anders percipiëert/interpreteert. Wat de perceptie van de
beslissingsopdracht (doel) betreft, merken Ebbeson & Konecni (1981) op dat het bepalen van
de utiliteit en de mogelijke consequenties van bepaalde handelingen sterk samenhangt met de
doelen die een individu zich stelt. Wanneer zich tijdens het beslissingsproces veranderingen
voordoen in de perceptie van het doel, kan de prioritering van de utiliteiten eveneens
veranderen. Ook Toda (1976) beklemtoonde dat de onderzoeker zeker moet zijn dat alle
proefpersonen het probleem en het doel ervan op dezelfde manier percipiëren, wil men iets
over het beslissingsgedrag van een proefpersoon kunnen zeggen. Dit kan worden opgelost
door een eenduidige formulering van de beslissingsopdracht, zodat een afgebakend doel (goal
closing) wordt gepercipiëerd.

Ten aanzien van de reikwijdte van het beslissingsproces ligt de zaak enigszins anders. Het
probleem schuilt hier in het feit dat er slechts één correcte manier van beslissen zou bestaan (nl.
deze vastgelegd in het normatief model) en dat alle afwijkingen daarvan als fouten of vooroor-
delen worden bestempeld. De wijze waarop 'juistheid' wordt gedefinieerd (Kahneman &
Tversky, 1982), nl. in termen van een juiste, waarheidsgetrouwe perceptie (veridical percep-
tion) van alle relevante aspecten van het probleem, is daarbij nauwelijks verhelderend.

Op blz. 196 merkten we reeds op dat een probleemoplosser een soort referentiekader hanteert
om een probleem te situeren en te definiëren (het geactiveerde deel van het LTM, neergelegd
in kennisbestanden). In de beslistheorie wordt dit referentiekader gezien als een soort beperk-
te wereld (small world), waarin het beslissingsproces zich afspeelt. Om zinvolle vergelijkingen
te maken tussen normatieve beslissingsprocessen en intuïtieve beslissingsprocessen moet er
een afstemming zijn tussen de 'small worlds' van de onderzoeker en die van de proefpersonen.
Is dit niet het geval dan leidt de input die via het tussenstadium (interface) in het formele
beslissingssysteem wordt ingevoerd, naar fundamenteel verschillende handelingsaltematieven
(de beslissingsboom wordt anders opgebouwd), en kunnen bijgevolg verschillen in beslissings-
processen niet eenduidig worden toegeschreven aan het gebruik van verschillende decompo-
sition en composition regels.

De zwakke schakel in de beslistheorie is bijgevolg dat formele criteria ontbreken om valide

inputs te onderscheiden van weinig coherente inputs. Niettemin moet de onderzoeker infor-
matie hebben over het soort input dat via het tussenstadium in het formele beslissingssysteem
werd ingevoerd, wil hij zinvolle uitspraken kunnen doen m.b.t. de beshssingsprocessen die bij
een individu wel of niet op gang komen. Wanneer de input door sub-optimale heuristieken
werd samengesteld (bijv. inadequate zoekprocedure) ligt het voor de hand dat sub-optimale
beslissingsprocessen volgen.

Toch vragen we ons af of het überhaupt mogelijk is de 'small worlds' van de proefpersoon af te
stemmen op die van de onderzoeker, vooral wanneer het beslissingsproblemen betreft die voor
eerstgenoemde realiteitswaarde hebben. In gevallen waar een beslissing ook werkelijk per-
soonhjke consequenties heeft (schoolkeuze, beroepskeuze, kopen van een huis, auto e.d.)
wordt namelijk naast declaratieve en procedurele kennis ook episodische kennis geactiveerd
(cf. p. 200) waardoor ongetwijfeld idiosyncratische 'small worlds' ontstaan. Beslissingen
nemen betekent in deze context een kosten-baten analyse uitvoeren waarbij de p-waarden de
risico-marges reflecteren die een persoon bereid is te nemen om een bepaald resultaat (event)
wel of niet te bereiken. De utiliteit wordt daarbij niet altijd objectief bepaald (d.w.z. common
perceived utility), en meestal primeert de emotionele utihteit zelfs op de objectieve utiliteit.
Concluderend kunnen we stellen, dat naast onderzoek over het al of niet toepassen van
axiomatische beslisregels ook onderzoek nodig is met betrekking tot de subjectieve afwegings-
processen die het keuzeproces sturen. Deze cognitief-affectieve tussenprocessen (KATP)
kunnen ons informatie geven over de reden waarom een alternatief wel of niet werd gekozen.
Meer concreet, over (1) de grootte van de set aan handelingsalternatieven, (2) de reductie van
de keuzeset tot een hanteerbare set, (3) het bepalen van risico-marges, (4) het inbouwen van
stopregels e.d.

We hebben trachten aan te tonen dat een produktbenadering van probleemoplossingsgedrag
ons geen informatie verschaft over de oplossingscapaciteit van een leerling. Vervolgens
hebben we uitvoerig beargumenteerd dat een benadering van probleemoplossen a la Newell &
Simon beperkt blijft tot de studie van het zoekasp&ct van het probleem oplossingsproces en dat
deficiëntie in probleemoplossingsgedrag daardoor terug te voereri is tot (1) het ontbreken van,
(2) het niet kunnen anticiperen en/of (3) het niet kunnen locahseren/activeren van conditie-
actie regels.

Tenslotte hebben we proberen aan te tonen dat beslistheorie weliswaar het beslissingsaspect
van het probleemoplossingsproces benadrukt, maar dat deze benadering zich vooral concen-
treert op de rationele aspecten van beslissingsgedrag. Beslissingsgedrag wordt, met andere
woorden, gereduceerd tot een soort tweede fase proces dat formeel kan worden beschreven
aan de hand van beslissingsregels. Door deze inperking worden motivationele (subjectieve
afwegings- en attributieprocessen) processen naar een eerste en/of derde fase teruggedrongen
en daardoor buiten beschouwing gelaten. In reële taaksituaties spelen deze subprocessen
niettemin een belangrijke rol.

De problemen die door de meeste onderzoekers worden bestudeerd met het oog op theorie-
vorming en modelbouw zijn meestal risicovrij. Dit wil zeggen dat het subject of de leerling met

een opgave wordt geconfronteerd, die voor hem weinig of geen werkelijkheidswaarde heeft,
onder rationele condities moet worden opgelost, en waarvan de oplossing geen persoonhjke
consequenties heeft (als bijvoorbeeld, 'afgaan in het oog van de docent of van medeleer-
hngen', 'weinig punten krijgen', 'extra opgaven moeten maken', 'zitten blijven' e.d.). Of hij op
een bepaald keuzepunt alternatief a of b kiest, veel of weinig tijd aan het afwegingsproces
besteedt, veel of weinig alternatieve oplossingen bedenkt vóór hij een uiteindelijke keuze
maakt, draagt niet bij tot zijn oplossingscompetentie, noch tot het oordeel van belangrijke
anderen daarover.

De reden voor het kiezen van risico-vrije opgaven, ligt ongetwijfeld in het feit dat onder-
zoekers vooral geïnteresseerd zijn in het in kaart brengen van de diverse sub-processen, die
deel uitmaken van het zoek en/of beslissingsproces en in de tijd die daaraan wordt besteed.
Deze resultaten, verkregen in een gereduceerde en gesimplificeerde werkelijkheid, zijn welis-
waar bruikbaar voor verdere theorievorming maar ze zijn niet zonder meer van toepassing op
probleemoplossen zoals dat zich in de klas afspeelt (zie Boekaerts, 1983a, waar een onder-
scheid wordt gemaakt tussen verschillende types van onderzoek). Wanneer het oplossings-
gedrag van individuen wordt bestudeerd met de bedoehng uitspraken te doen over hun
oplossingscapaciteit (in tegenstelling tot aspecten van oplossingsgedrag), of met de bedoeling
onderwijsleerprocessen te optimaliseren, heeft de onderzoeker behoefte aan een criterium, of
een maat op grond waarvan hij het objectief en het suh]ectietprobleemkarakter van een taak
kan bepalen. In de volgende bladzijden zullen we een dergelijke meerdimensionele maat
voorstellen. Eerst willen we het motivationeel aspect van probleemoplossen onder de loep
nemen.

De subjectieve inkleuring van een probleem kan uiteraard veel moeilijker in kaart worden
gebracht, vooral omdat ze berust op perceptuele, interpretatie- en afwegingsprocessen die
moeilijk verbaliseerbaar zijn. In recente theorievorming met betrekking tot motivatiever-
schijnselen hebben deze interpretatie- en afwegingsprocessen een belangrijke plaats gekregen
(Heckhausen, 1980; Magnusson & Endier, 1976; De Bruyn, 1980). De relatie tussen de
kognitief-affectieve tussenproccssen (KATP) en de taak enerzijds en de leeromgeving en het
oplossingsplan anderzijds werd elders reeds uitvoerig besproken (Boekaerts, 1982a, 1983a).
Onder verwijzing naar Figuur 5 merken we op dat het uitdagingskarakter van een taak wordt
bepaald op grond van het persoonlijke referentiekader (small world) dat de probleemoplosser
op dat moment hanteert.

Het persoonlijke referentiekader (PR) is de neerslag van persoonlijke ervaringen met gelijk-
aardige taken (bijvoorbeeld: ik deed x in situatie y en er gebeurde z; maar toen ik x' deed in
situatie y (x' < x) gebeurde er ook z). Het PR drukt zijn stempel op de situatie-inkleuring en op
het verwachtingspatroon t.a.v. het resultaat; het stuurt m.a.w. de afwegingsprocessen (kosten-
baten analyse) t.a.v. (1) de bereidheid tot handelen en (2) de intentie om informatieverwer-
kingscapaciteit ter beschikking te stellen van het probleem.

De bereidheid tot handelen verwijst naar het belang dat het individu aan de situatie/taak
toekent. De intentie om informatieverwerkingscapaciteit toe te kennen verwijst daarentegen
naar de vorm van het gedrag; namelijk de leer- of oplossingsstrategie die hij wil inschakelen.
Sommige van deze strategieën (heuristische procedures) gaan terug op een standaard aanpak
(bijv. nauwkeurig, hypothetisch deductief werken bij rekenopgaven, en creatief, impulsief-
spontaan reageren bij talen/vreemde talen, cf. Boekaerts, 1982b). Andere strategieën zijn

hier-en-nu gericht, d.w.z. de leer/oplossingsstrategie wordt op het moment gekozen uit het
repertoire aan efficiënte en minder efficiënte heuristieken (bijv. schatten, dominantieregel
toepassen). Op deze manier wordt de vorm van het oplossingsgedrag gekoppeld aan het belang
ervan. De keuze voor een oplossingsstrategie wordt o.a. mede bepaald door de ideeën die het
individu heeft over eigen competentie, de objectieve en subjectieve utiliteit van de taak, de
risicomarges die hij bereid is te nemen, zijn normale succesratio, de mate van inspanning die
hij voor soortgelijke taken doorgaans levert, en zijn normen en waarden in het algemeen. Zo

kan een individu normaal geneigd zijn een degelijke inspanning te leveren wanneer de
waargenomen utiliteit hoog is; iemand anders kan dit enkel doen wanneer hij emotioneel
betrokken is bij de situatie (de subjectieve utiliteit is hog) en nog iemand anders kan met zo
min mogelijk inspanningen een goede beurt willen maken (zie ook Biggs, 1982).
De gekozen leer/oplossingsstrategie bepaalt en beperkt in sterke mate het verloop van het
oplossingsproces; met name de keuze van het handelingsaltematief (HA). Het HA wordt door
de probleemoplosser in de toekomst geprojecteerd en met behulp van wedersamenstellings-
regels onder concrete handelingen (actie-resultaat sequenties) geconstrueerd. Het resultaat (r)
van elke actie-resultaat sequentie en van het totale handelingsplan (grand R) wordt vluchtig of
vrij gedetailleerd geëvalueerd. De optimaliteitseis die hiervoor wordt gehanteerd is opnieuw
subjectief gekleurd; d.w.z. dat de evaluatie de vorm aanneemt van een reeks causale toeschrij-
vings- en attributieprocessen (Weiner, 1980). Daarbij spelen de geleverde inspanning, de
vermoede competentie en de reeds verkregen feedback een cruciale rol. Het resultaat van deze
tweede reeks KATP's geeft de deficiëntie of de meerwaarde van de oplossingsstrategieën en
het HA aan. Het PR wordt op grond daarvan bijgesteld (gegeven optimaliteitseis x in situatie y
is HA| meer effectief dan HAj).

We hebben drie betrekkelijk gescheiden onderzoeksstromen de revue laten passeren. We
willen nu deze gegevens integreren. Wanneer een onderzoeker een studie wil opzetten om de
probleemoplossingscapaciteit van bepaalde individuen of groepen te achterhalen, moet hij op
de eerste plaats een keuze doen uit een reeks mogelijke probleemtypen. Wanneer hij de
proefpersonen met het probleem confronteert, moet hij er zeker van zijn dat hij de oplossings-
capaciteit 'sec' bestudeert, en niet de bereidheid of intentie om het probleem op te lossen. Hij
moet daarbij eveneens een onderscheid maken tussen (1) vind-problemen (er bestaan één of
meer juiste oplossingen voor het probleem en het is de taak van de leerling deze te herkennen
of te produceren) en (2) keuzeproblemen (de leerling moet een keuze maken uit verschillende
mogelijke alternatieven).

Wanneer de onderzoeker enkel geïnteresseerd is in de kwaliteit van het zoekproces, moet hij
trachten de invloed van keuzeprocessen en van motivatie uit te schakelen. Wanneer hij enkel
geïnteresseerd is in de kwaliteit van het keuzeproces (afwegingsprocessen gebaseerd op
persoonlijke ervaring, normen en waarden) moet hij daarentegen de invloed van het zoekpro-
ces en van motivatie proberen te reduceren of uit te schakelen. In beide gevallen impliceert dit
dat de problemen zoveel mogelijk in een 'zuivere vorm' worden aangeboden waardoor ze
minder realiteitswaarde hebben. Wanneer de onderzoeker uitspraken wil doen over de pro-
bleemoplossingscapaciteit van een leerling in een ecologische valide setting, mag hij de
interactie tussen het zoek-, het beslissings- en het motivationeel aspect echter niet buiten
beschouwing laten. We stipten in dit verband reeds aan dat de problemen waarmee een leerling
in de klassituatie wordt geconfronteerd niet risico-vrij zijn en dat de probleemoplossings-
condities niet altijd optimaal zijn. Daaruit volgt dat reële schooltaken niet altijd éénduidig
kunnen worden geclassificeerd als zoek- of beslissingsproblemen. Om problemen van uiteen-
lopende aard te typeren en dus de diverse aspecten van het oplossingsproces te beschrijven,
heeft de onderzoeker een criterium of maat nodig om het objectief of subjectief probleem-
karakter van het probleem of de opgave te bepalen. In de volgende paragrafen zullen we een
dergelijke meer-dimensionele maat beschrijven.

Het objectief probleemkarakter wordt gedefinieerd vanuit het probleem zelf. Het refereert
aan de nieuwheidswaarde, of m.a.w.' aan de objectieve moeilijkheidsgraad, die een bepaalde
opgave voor een individu of voor een doelgroep heeft. Omdat deze aspecten van het probleem
objectief vast te stellen zijn, kan de onderzoeker vooraf het objectief probleemkarakter van
een taak, of probleem, bepalen.

Volgende vragen kunnen hem daarbij helpen, nl. (a) Wat is de begintoestand van het
probleem? (het gegeven). Is deze volledig gespecificeerd?, (b) Wat is de doeltoestand van het
probleem? (gevraagde). Is deze volledig gespecificeerd?' (c) Met behulp van welk materiaal
wordt de begintoestand gedefinieerd? (concreet, verbaal, symbolisch), (d) Met behulp van
welk materiaal wordt de doeltoestand gedefinieerd? (concreet, verbaal, symbolisch), (e) Zijn
er één of meer oplossingsplannen en worden deze in de opgave gespecificeerd?, (f) Indien er
geen specifiek oplossingsplan voorhanden is, welke voorkennis (declaratieve, procedurele en
episodische kennis) is dan nodig om zelf een oplossingsplan te construeren?, (g) Hoeveel tijd is
gemiddeld nodig om één/het oplossingsplan te genereren en uit te voeren?, (h) Hoeveel tijd is
beschikbaar?, (i) Zijn er beoordelingscriteria voorhanden om het oplossingsplan en de oplos-
sing zelf te beoordelen?

Deze vragen kunnen worden samengevat in zes kernpunten, of dimensies van een probleem.
Deze dimensies werden op de dimensieschijf in Figuur 6 afgebeeld, nl. (1) de begintoestand,
die gespecificeerd' I ' of niet gespecificeerd kan zijn (' 1' ) uitgedrukt in concreet,'P'; verbaal,
'V'; of symbolisch materiaal, 'M'; (2) de doeltoestand, die eveneens gespecificeerd' G ' of niet
gespecificeerd ('G') kan zijn, en kan uitgedrukt zijn in verbaal, symbolisch of concreet
materiaal, (3) het oplossingsplan, dat een specifiek plan ' P ' kan zijn (nl. een algoritme) of
een algemene oplossingsmethode (een heuristiek), (4) de nodige voorkennis, nl. de declara-
tieve, de procedurele of de episodische voorkennis, (5) de tijdsdimensie (t = ^ waar b de tijd is
die gemiddeld nodig is en a de beschikbare tijd), waarbij mogelijk a< b of a > b (6) de
beoordelingscriteria, diegespecificeerd ('B') of niet gespecificeerd 'B' kunnen zijn.

B	-►P
IV	--- P
IV	-^ P
IV	-► P
IM	-P
IM	-► P
IM	-► P
IP	-P
IP	-► P
IP	-► P

GV
GM
GP

G^
GM
GP

GV
GM
GP

P -
P .
P .

P ■

■ P -
P.

■ P -
• P-

P-

De onderzoeker, die het probleemoplossingsproces bestudeert, kan deze dimensieschijf han-
teren om een bepaalde probleemopgave te typeren. Hij heeft dan namelijk een vergelijkings-
basis om uiteenlopende problemen en hun oplossingsprocessen tegen elkaar af te zetten. De
vergelijkingscriteria van de dimensieschijf laten de onderzoeker toe problemen te situeren in
een meerdimensionele ruimte en daardoor meer inzicht te krijgen in de unieke structuur van
een opgave of probleem. Een aantal van deze dimensies hebben we elders reeds uitvoerig
besproken (Boekaerts, 1979). De taxonomie die we daar voorstelden, was een poging om
diverse probleemopgaven te ordenen (cf. Figuur 7). Hier willen we meer gedetailleerd ingaan
op de dimensie oplossingsgedrag en voorkennis. We willen namelijk een onderscheid maken
tussen (1) probleemspecifieke kennis en (2) heuristieke kennis.

Onder probleemspecifieke kennis verstan we declaratieve kennis, d.w.z. relevante begrippen
en regels. Deze probleem-gebonden kennis (gewoonlijk een set conditie-actieregels) vormt de
dataset, waarop de probleemoplosser kan steunen om de opgave of taak uit te voeren. Onder
heuristische kennis verstaan we, zoals aangegeven op blz. 205, vereenvoudigde strategieën
geconstrueerd op grond van eigen ervaring met gelijkaardige problemen. In tegenstelling tot
probleemspecifieke kennis betreft het hier meer algemene probleemoplossingsmethodes (pro-
cedurele kennis), die een coördinerende en sturende functie hebben. We denken hier o.a. aan
hogere orde processen, zoals o.a. subprocessen, die parallelle en sequentiële zoekprocessen
initiëren aan subprocessen die tot doel hebben de complexiteit van het probleem te reduceren
tot een hanteerbare set, aan processen die het structureren, het tijdelijk vasthouden en het
permanent opslaan van informatie regelen, en aan planning in het algemeen.
Diverse auteurs hebben reeds opgemerkt dat succesvol probleemoplossen meer is dan alleen
maar het toepassen van relevante begrippen en regels (toepassen van probleem- specifieke
kennis) (cf. Flavell, 1976; Neisser, 1976; Pitt, 1976; Resnick & Glaser, 1976; Saris, 1982;
Spivak & Shure, 1979; Simon, 1978). Zo merkt Flavell (1976) naar aanleiding van het
onderzoek van Resnick & Glaser (1976) op, dat kinderen vaak ervaring missen met betrekking
tot het plannen (coördineren en organiseren) van de diverse subprocessen van het oplossings-
proces. Elshout-Mohr (1982) constateerde evenwel dat vaardige studenten reeds in een vroeg
stadium beslissingen nemen m.b.t. het verdelen van de beperkte verwerkingscapaciteit over de
vele deelactiviteiten van een studietaak. Bij automatisch verlopende handelingen is geen
bewuste planning nodig. Bij taken waar geen of weinig probleemspecifieke voorkennis aan-
wezig is, moet de probleemoplosser zich oriënteren op het probleem, informatie via zoekpro-
cedures activeren, deze ordenen via reflectie een handelingsplan construeren. De aard van het
probleem (reversibel of irreversibel) en het belang ervan bepaalt in hoge mate of, hoeveel en
hoe nauwgezet er moet worden gepland. Hierbij dient te worden opgemerkt dat 'plannen' niet
altijd de vorm moet aannemen van een gedetailleerde en systematische uitstippeling van het
handelingsverloop. Het anticiperen van mogelijke stappen en het evalueren van de^e gedach-
tensprong (predictie) vooraleer over te gaan tot het uitvoeren van (irreversible) acties is
eveneens een efficiënte vorm van planningsgedrag. Deze capaciteit lijkt een belangrijk onder-
scheid te zijn tussen het oplossingsgedrag van experten en novicen (Elshout-Mohr, 1982; Simon
& Simon, 1976; Pitt, 1976; Spivak & Shure, 1979). Pitt (1976) rapporteerde bijvoorbeeld dat
ervaren wetenschappers niet altijd systematisch plannen.Wanneer hen expliciet wordt ge-
vraagd te plannen (plan-conditie) leidt dit tot een betere definitie en representatie van het
probleem vergeleken met de doe-conditie (manipuleren van materiaal in Piagetiaanse taken).

Bij 15-jarigen was er evenwel geen effect te bespeuren van deze expliciete vraag.
Plannen - wanneer, hoeveel en hoe nauwgezet - is een deelaspect van gemotiveerd handelen
en wordt daarom besproken onder het kopje 'subjectief probleemkarakter van de opgave of
taak'. Wat het objectief probleemkarakter betreft kan de onderzoeker via taakanalyses
proberen vast te stellen welke alternatieve oplossingsplannen (of routes) er zijn. Elk oplos-
singsplan kan dan worden uiteengelegd in (1) noodzakelijke probleemspecifieke voorkennis
(begrippen, operationele kennis) en (2) heuristische kennis. Wanneer een leerhng zowel over
(1) als (2) beschikt moet hij in staat zijn het probleem op te lossen. Is dit niet het geval dan ligt
de oorzaak waarschijnlijk in het feit dat het probleem voor hem geen uitdagingskarakter heeft.
Wanneer iemand niet beschikt (of slechts gedeeltelijk beschikt) over (1) dan getuigt een goede
oplossing van een hoge oplossingscapaciteit. Wanneer een leerling wel over (1) beschikt en
toch het probleem niet kan oplossen, ligt de oorzaak bij ontoereikende heuristische kennis. Dit
is met name het fundamentele onderscheid tussen goede probleemoplossers (hoge oplossings-
capaciteit ongeacht het type probleem) en minder goede probleemoplossers (cf. Webb, 1975).
Tenslotte dit, bij de beoordeling van het objectief probleemkarakter van een taak of opgave,
kan het accent liggen op één, of op meer van deze zes dimensies. Bijvoorbeeld, bij een
speedtest kunnen de begintoestand en de doeltoestand volledig gespecificeerd zijn en kan ook
het oplossingsplan duidelijk af te leiden zijn uit de opgave (algoritme of serie conditie-actie
regels). Hier schuilt het probleemkarakter in het snel herkennen van het probleem, het snel
localiseren en activeren van de conditie-actie regels en het nauwkeurig en snel uitvoeren ervan
binnen de beschikbare gestelde tijd (a < b). Wanneer de test erin bestaat zoveel mogelijk
alternatieve oplossingen voor elk probleem te bedenken, maar het aan beoordelingscritera
ontbreekt, schuilt het probleem veeleer in het zelf genereren van deze criteria en het efficiënt
inbouwen van stopregels.

Een individu dat met een opgave of taak wordt geconfronteerd, stelt zelf het objectief
probleemkarakter ervan vast. Dit wil zeggen, hij bepaalt aan de hand van een eerste - zij het
dan vaak oppervlakkige probleemanalyse de objectieve moeilijkheidsgraad van de hem opge-
legde taak (cf. dimensieschijf in Figuur 6). Maar naast het vaststellen van het objectief
probleemkarakter, dat vanuit het probleem zelf gebeurt, stelt de leerling ook het subjectief
probleemkarakter van de opgave vast. Hiermee verwijzen we naar de persoonlijke inschatting
van het uitdagingskarakter, dat een persoon op grond van zijn ervaringen met soortgelijke
taken, aan de taak toekent.

Het subjectief probleemkarakter kan aan de hand van volgende kernvragen of dimensies
worden bevraagd: nl. (1) Heeft de opgave een objectief probleemkarakter (verschillend van
een routineprocedure)?, (2) Spreekt de inhoud van het probleem je aan? (perceptie van de
inhoud), (3) Is het zinvol het probleem binnen deze context (in de klas, thuis, alleen, in
groepjes) op te lossen? (perceptie van de probleemcontext), (4) Wat heeft de klas, de school,
de maatschappij aan de oplossing (objectief utiliteitscriterium)? (5) Wat heb jijzelf aan de
oplossing (subjectief utiliteitscriterium)?, (6) Heb je de nodige voorkennis?, (7) Kan je
gewoonlijk dit soort vragen oplossen (competentiecriterium)? (8) Is het haalbaar dit probleem
(a) binen de gegeven tijd, (b) met het gegeven matriaal, (c) op de gegeven plaats op te lossen
(haalbaarheidscriterium)?, (9) Hoe groot zijn de inspanningen die je ervoor moet leveren

(inzetcriterium)?, (10) Hoe zal je presentatie worden beoordeeld (prestatiebeoordeling)? (11)
Hoe zullen belangrijke anderen (leraar, peergroep, ouders) je prestatie beoordelen (sociaal
beoordelingscriterium).

Het spreekt vanzelf dat niet alle afwegingsprocessen (gevisualiseerd in de dimensieschijf in
Figuur 8) voor elke opgave even relevant zijn. Evenmin willen we de indruk wekken dat elke
leerling een dergelijke dimensieschijf zou hanteren wanneer hij met een opgave wordt gecon-
fronteerd. Wat we Wel willen benadrukken is, dat op grond van een aantal expliciete of
impliciete afwegingsprocessen het uitdagingskarakter van een probleem (opgave) wordt vast-
gesteld, en dat deze subjectieve beleving (taak- en situatiebeleving) zowel de taakspanning of
de oplossingsbereidheid, als de mate waarin de zoek- en beslisruimte wordt geëxploreerd,
bepaalt

Om iets zinvols te kunnen zeggen over de oplossingscapaciteit van de leerling, moet er een
zorgvuldige taakanalyse per probleemtype worden uitgevoerd. Daarin moet een duidelijk
onderscheid worden gemaakt tussen het objectief en het subjectief probleemkarakter van de
opgave. De objectieve en subjectieve dimensieschijven kunnen daarbij een hulp zijn. De
objectieve dimensieschijf helpt vooral bij het bepalen van de nieuwheidswaarde van het
probleem. Dit wil zeggen: bij het in kaart brengen van de voorkennis (probleemspecifieke en
heuristische) vereist om (1) het probleem te identificeren, (2) een probleemruimte (zoek- en
beslissingsruimte) te construeren en (3) een oplossingsplan te construeren en evalueren,
binnen de gegeven tijd.

Met behulp van de subjectieve dimensieschijf kan de onderzoeker informatie verzamelen over
het uitdagingskarakter van de taak. Meer specifiek over (1) de werkelijkheidswaarde die de
probleemoplosser aan de opgave toekent, (2) de taakspanning die hij voelt en de energie, die
hij in (de oplossing van) het probleem wenst te investeren (keuze uit mogelijke handelings-
alternatieven).

Op deze manier kan niet alleen de unieke structuur van een probleem in kaart worden
gebracht, maar kan de onderzoeker ook de competentie en bereidheid.wan de probleemop-
losser in het beoordelingsproces betrekken. Zo kunnen problemen, die voor de leerling een
betrekkelijk hoge nieuwheidswaarde hebben (bijv. geen specifieke voorkennis) maar die wel
een hoog uitdagingskarakter bezitten, informatie opleveren over de manier waarop hij alge-
mene probleemoplossingsmethodes (heuristische kennis) kan aanwenden om diverse pro-
blemen te analyseren en op te lossen.

In omgekeerde zin kunnen probleemopga ven, die betrekkelijk weinig nieuwheidswaarde en
weinig uitdagingskarakter hebben, leiden tot oplossingsgedrag dat niet efficiënt-effectief en
weinig flexibel overkomt. Het volstaat waarschijnlijk in dit laatste geval het uitdagingskarakter
te vergroten (door de opgave meer werkelijkheidswaarde te geven, of de subjectieve utiliteit
op te voeren) om ander oplossingsgedrag te zien te krijgen.

Bij taken waar een oplossingsplan wordt gesuggereerd in de opgave, of door de onderzoeker
impliciet of expliciet wordt voorgesteld, wordt een bepaalde oplossingsstrategie opgedrongen.
In dit geval moet worden geverifieerd of de gesuggereerde oplossingsstrategie in overeen-
stemming is met de oplossingsstrategie die de leerling zelf zou hebben gekozen (relatie
belang-vorm van gedrag). Is dit namelijk niet het geval, dan kan de leerling deze strategie
afwijzen, niet op grond van de effectiviteit ervan, maar op grond van de discrepantie tussen het
belang van de taak en de informatieverwerkingscapaciteit die hij ervoor moet uittrekken
(efficiëntie). Dit kan vooral het geval zijn wanneer een tijdslimiet wordt gesteld.

Wanneer een diagnosticus de oplossingscapaciteit van een individu in kaart wil brengen, moet
hij er rekening mee houden dat een hoge score op een bepaalde toets of test hem slechts
toelaat uitspraken te doen over een aspect van de oplossingscapaciteit van een leerling. Deze
uitspraken zijn namelijk probleemtype-, tijd- en contextgebonden. Bij een lage score kan
evenmin een alles omvattende uitspraak worden gedaan over de oplossingscapaciteit van de
leerling. De lage score kan te wijten zijn aan het feit dat dc leerling de bedoeling van de test of
opgave niet heeft begrepen; kan het gevolg zijn van gebrek aan probleemspecifieke voorkennis
of van gebrek aan heuristische kenns; of kan verwijzen naar te weinig inzet.
Wil de diagnosticus de oplossingscapaciteit in zuivere vorm vaststellen, dan moet hij de invloed
van motivationele factoren en van afwegingsprocessen op grond van persoonlijke normen en
waarden als verklaring van het gedrag zoveel mogelijk uitschakelen. Wil hij de oplossings-
capaciteit in een ecologisch valide setting vaststellen dan moet hij bereid zijn de gebruikelijke
testen te vervangen door opgaven en taken die voor de leerling werkelijkheidswaarde hebben.

Apter, M.J. Tfie experience of motivation: The theory of psychological research. Academic Press, 1982.
Berkeley, D. & Humphreys, P. Structuring decisions problems and the bias heuristic. Paper presented at

the annual conference of the BPS, York, 1982.
Bettleman, J.R. & Jacoby, J. Pattern of processing in consumer information acquisition. In B.B.
Anderson (ed.), Advances in consumer reseach. Association for Consumer Research, 1976,315-320.

Biggs, J.B. Motivational pattern, learning strategies and subjective estimates of succes in secondary

and tertiary students. Paper presented at the BPS annual conference, Yorlc, 1982.
Boekaerts, M. Toward a theory of learning based on individual differences. Ghent: Communication &
Cognition, 1979.

Boekaerts, M. Motivatie tot leren: Situatiebeleving als sleutelbegrip. In M. Boekaerts & C.F.M. van
Lieshout (red.). Sociale en motivationele aspecten van hel leren. Lisse: Swets & Zeilinger B.V.,
1982.(a)

Boekaerts, M. The comprehension process: A multi-level processing task. In M. Boekaerts & L.F.W. De

Klerk (eds.). Psycho-educational Research. Ghent: Communication & Cognition, 1982. (b)
Boekaerts, M. Motivatie en onderwijs: Theorieën en modellen op een rijtje gezet. In R.J. Takens (ed.),

Psychologie en onderwijs. Lisse: Swets & Zeitlinger, 1983.
Boekaerts, M. Enkele kanttekeningen bij het interaktionistisch motivatiemodel. In Th.C.M. Bergen &

E. Roede (eds.), Motivatie en meten (SVO-reeks), in druk.
Boekaerts, M. & Voeten, R. Van leerlingkenmerken naar leerlingprofielen. In E. de Corte (red.).

Onderzoek van onderwijsleerprocessen (SVO-reeks nr. 53). Harlingen: Flevodruk, 1982.
Bruyn, E. de (red.). Ontwikkelingen in het onderzoek naar prestatiemotivatie. Lisse: Swets & Zeitlinger,

Cattell, R.B. & Cattell, A.K.S. Handbook for the Culture Fair Intelligence Test - A measure of'g' -

Scale 3, Forms A and B. The Institute for Personality and Ability Testing, Champaign, Illinois, 1961.
Chase, W.G. & Simon, H.A. The mind's eye in chess. In W. Chace (ed.). Visual information processing.

London: Academic Press, 1973,215-281.
Ebbesen, E.B. & Konecni, V.S. On the external validity of decision-making research. In T.S. Wallsten
(ed.). Cognitive processes in choice and decision behaviour. Hillsdale, N.J.: Lawrence Erlbaum
Associates, 1980.

Einhorn, H.S. & Hogarth, R.M. Confidence in judgement: Persistence of the illusion of validity.

Psychological Review, 1978,35,395-416.
Elshout-Mohr, M. De duivel en de hoop. Paper voorgedragen op het jaarlijks NlP-congres, Amsterdam,
1982.

Epstein, S. The stability of behaviour: Implications for psychological research. American Psychologist,

Fiske, D.W. Strategies of personality research. The observation versus interpretation of behaviour. San

Francisco: Jossey-Bass, 1978.
Flavell, J.H. Intracognitive aspects of problem solving. InL.B. Resnick &R. Glaser (eds.). The nature of

intelligence. Hillsdale, N.J.: Lawrence Eribaum Associates, 1976.
Frijda, N.H. & Elshout, J.J. Probleemoplossen en denken. In J.A. Michon, E.G.J. Eijkman & L.F.W.

De Klerk (eds.), Handhoek der Psychonomie. Deventer: Van Loghum Slaterus, 1976.
Glaser, R. The future of testing: A research agenda for cognitive psychology and psychometrics.

American Psychologist, 1981, ió, 923-936.
Greeno, J.G. A study of problem solving. InR. G\asei (ed.). Advances in psychology (yo\. 1). Hillsdale,

N.J.: Lawrence Erlbaum Associates, 1978.
Greeno, J.G. Proces of understanding in problem solving. In N.J. Castellan, D.B. Pisoni & G.R. Potts

(eds.). Cognitive theory (Vol. 2). Hillsdale, N.J.: Lawrence Eribaum Associates, 1977.
Groot, A.D. de. Thought and choice in chess. The Hague: Mouton 1965.

Hayes, J.R. & Simon, H.A. Understanding writen problem instructions. In L.W. Gregg (ed.). Know-
ledge and Cognition.. Hillsdale, N.J.: Lawrence Erlbaum Associates, 1974.
Heckhausen, H. Motivation und Handeln. Berlin: Springer Verlag, 1980.

Hermans, H.J.M. De aard van het waarderingsonderzoek. Nederlands Tijdschrift voorde Psychologie,
1978, JJ (7).

Hettema, P.J. Situaticspecifieke persoonlijkheidsdiagnostiek. In K.A. Soudijn (red.). Psychologisch

onderzoek in perspectief. Tilburg: K.H. Tilburg, Subfaculteit Psychologie, 1982.
Hofstee, W.K.B. De methodische deskundigheid van de Psycholoog, 1982,17, (fm-lOl.
Humphreys, P.C. & McFadden, W. Experiences with MAVD: Aiding decision structuring versus

bootstrapping the decision-maker. Acta Psychologica, 1980,45,51-69.
Humphreys, P.C., Wooler, S. & Phillips, L.D. Structuring decisions: The role of structurnig heuristics.
Technical Report 80-1.

Kahneman, D. & Tversky, A. On the study of statistical intuitions. Cognition, 1982, II, 123-141.

Kennedy, G., Eliot, J. & Krulee, G. Error patterns in problem solving formulations. Psychology in the
Schools, 1970, 7,93-99.

Kleiter, G.D. Optimal policies, degrations and cognitions. In H. Jungerman & G. de Zeeuw (eds.).
Decision making and change in human affairs. Dordrecht: Reidel, 1977.

Larkin, J. Human problem solving in physic, I: Global features of an information-processing model.
Working paper, Berkeley, 1976.

Maes, S. Quasi algoritmen en onderwijs. Academisch proefschrift. Rijks Universiteit, Gent, 1976.

Magnusson, D. & Endier, N.S. Personality at the crossroads: Current issues in interactional psycho-
logy, London: Wiley, 1977.

Merrifield, P.R. & Guilford, J.P. et al. The role of intellectual factors in problem solving. Psychological
Monographs, 1962. 6.

Michels, C.G.J. & Verhoeven, A.F.M. Testklapper 0256 - Deel I. Nijmeegs Instituut voor Onderwijs-
research, Projekt SVO - 0256, rapport 0256-6.

Newell, A. & Simon, H.A. Human problem solving. Englewood Cliffs, N.J.: Prentice-Hall, 1972.

Novak, G.S. Computer understanding of physics problems stated in natural language. Technical report
NL.30, University of Texas, 1976.

Pitt, R.B. Toward a comprehensive model of problem solving.. Doctoral Dissertation, University of
California at San Diego, 1976.

Rapoport, A. Research paradigms for studying dynamic decision behaviour. In: D. Wendt & C.A. Vlek
(eds.). Utility, probability and human decision making. Dordrecht: Reidel, 1975.

Resnick, L.B. & Glaser, R. Problem solving and intelligence. In: B. Resnick (ed.). The nature of
intelligenve. Hillsdale (N.J.): Lawrence Erlbaum Associates, 1976.

Saris, W.E. Integratie van informatie is een probleem. Paper voorgedragen op het jaarlijks psychologen
congres, Amsterdam, 1982.

Simon, D.P. & Simon, H.A. Individual differences in solving physics problems. In R.S. Siegler (ed.).
Children's thinking: What develops? HWhóaXe, 1978.

Simon, H.A. Information processing models of cognition. Annual Revies of Psychology, 1979, 30,
363-396.

Spivack, G. & Shure, M.B. Social adjustment of young children. A cognitive approach to solving
real-life problems. San Francisco: Jossey-Bass, 1974.

Svenson, O. Process description of decision making. Journal of Verbal Behaviour and Human
Performance, 1979,23,86-112.

Svenson, O. On a process model of decision making. Paper presented at the annual conference of the
British Psychological Society, York, 1982.

Toda, M. The decision process: A perspective. International Journal of General Systems, 1976, i, 79-88.

Tversky, A. &Kahneman, D. Availability: A heuristic frequency and probability. Cognitive Psychology,
1973, J, 207-232.

Tversky, A. & Kahneman, D. Judgement under uncertainty: Heuristics and biases. Science, 1974, 185,
1124-1131.

Tversky, A. & Kahneman, D. The framing of decisions and the psychology of choice. Science, 1981,2//,
453-458.

Vlek, C. & Wagenaar, W.A. Judgement and decisions under uncertainty. In J.A. Michon, E.G.J.
Eijkman & L.F.W. De Klerk (eds.). Handbook of Psychonomics. (vol. II). Amsterdam: North
Holland Publishing Co., 1979.

Weiner, B. The role of affect in rational (attributional) approaches in human motivation. Educational
Researcher, 1980,9 (7), 4-11.

Weisz, R.H. Grundintelligenztest CFT3 Skala 3-Handanweisung. Stuttgart: Georg Westerman Verlag,
1971.

Least Squares Estimation of the
Item Parameters in the
Three-Parameter Logistic Model

The three-parameter logistic model is one of the important latent trait models in testing and
educational research. The most widely used computer program for this model is LOGIST. In this
program item and person parameters are estimated simultaneously. A more satisfactory procedure
for the estimation of item parameters is to get rid of the individual person parameters by integration
over the population distribution of examinees. This approach which has been successful with other
models, is proposed here in connection with the three-parameter model. More specifically, a least
squares estimation procedure will be developed.

Latent trait models have several applications in testing and educational research. They are
used, for example, in equating studies, in item bias studies and in test construction. There are
two competing models: the Rasch model and the three-parameter logistic model. The latter,
more complex model has attracted attention in wider circles after publication of the important
book on applications of latent trait models by Lord (1980).

In the three-parameter logistic model the probability of a correct answer to item i, given the
person parameter or latent ability 0, equals

where D is a scaling constant equal to 1.7, aj is the slope parameter of item i, bj is the difficulty
parameter and q a pseudo-guessing parameter. For aj greater than zero the probability of a
correct answer as a function of 0 increases from a minimum equal to Cj to a maximum equal to
1.0. Due to the fact that bj and 0 in Equation (1) are determinedup to a linear transformation,
the latent scale can be chosen in such a way that the 0's in a study have a mean equal to zero and
a variance equal to one. When the 0's in a study may be regarded as a random sample from
some population, one may chose the latent scale for which Aig = 0 and oj = 1-
For the estimation of the item parameters the additional assumption of local independence is
made. For the estimation in the three-parameter model two approaches are in use. The first is
the well-known simultaneous maximum likelihood estimation of item and person parameters
in LOGIST (Lord, 1980). The second is a heuristic approach under the assumption of normally
distributed 0's (Urry, 1979).

The simultaneous estimation of item and person parameters is not quite satisfactory (Ander-
sen, 1973). Furthermore, LOGIST sometimes does not converge and item parameter
estimates from later iteration stages may be worse than estimates from eariier stages (Hulin et
al., 1982). Another problem is the fact that the information with respect to the pseudo-
guessing parameters can be low except in very large examinee samples. In order to alleviate the

problems the range of admissible values for the a's and c's is restricted in LOGIST, as well as
the relative changes in the a's and c's between consecutive iterations.

In other models joint estimation of item and person parameters has been avoided by integrat-
ing over the distribution of person parameters. Bock and Lieberman (1970) and Bock and
Aitkin (1981) have used this procedure in maximum likelihood estimation. Bock and Aitkin
(1981) show how to update a preliminary distribution in connection with the two-parameter
normal ogive model. They also show, however, that the final parameter estimates do not
critically depend upon the choice of a distribution which remains fixed during the estimation of
the item parameters.

Another procedure has been used by Christoffersson (1975, 1977) and Muthen (1978) within
the context of factor analysis of dichotomous variables. In this procedure item parameters are
estimated from marginal proportions for simple items or proportions correct Pj and marginal
proportions for item pairs Pjj. Mooijaart (1980) estimates item characteristics along with the
latent distribution, which is assumed to be discrete with a known number of 0-values or latent
classes, from marginal proportions.

In this article an item parameter estimation procedure from marginal proporfions will be
developed for the three-parameter model. A discrete population distribution will be used. This
does not restrict applications of the procedure because continuous distributions can be ap-
proximated by discrete distributions. The distribution can be fixed during the estimation of the
item parameters, or free, i.e. estimated along with the item parameter.

To the observed marginal proportions Pj and Pjj for n items model marginal proportions Pfand
Pjj correspond, which are defined as follows

In these equations K is the number of latent classes and Vj^ (k = 1, ..., K) is the relative
frequency of latent class k.

Parameter estimates aj, bj and q should be chosen in such a way that the errors Ej = Pj - Pj* and
Ejj = Pjj - Pj^j are small in some sense. The latent distribution can be estimated along with the
item parameters by allowing K-2 of them's to be estimated too (two0's should remain fixed in
order to fix the latent scale). In GLS (generalized least squares) parameter estimates are
obtained by minimizing

where P is a vector in which the Pj and Pjj are collected and P* is the corresponding vector with
model marginal proportions, with respect to the parameters. The unknown variance-

covariance matrix of the error components can be replaced by an estimate based upon
observed marginal proportions (Christoffersson, 1975). Unfortunately, GLS is not a practical
estimation method: it can be used only with relatively small tests. Christoffersson (1977)
therefore suggested to use only the diagonal values of the estimated matrix in which case the
function to be minimized reads

Muthen (1978) reports satisfactory results with OLS (ordinary least squares). In OLS the
function

is minimized. OLS fits the same parameters as GLS, but less efficiently due to non-optimal
weighting of the error terms E; and Eij. A ftirther disadvantage of OLS is that a goodness of fit
test is not available. Nevertheless, OLS seems attractive because with OLS relatively large tests
can be analyzed. Here, a modified least squares procedure is chosen: instead of F3 function

will be minimized. This procedure might be viewed as an approximate Bayesian least squares
procedure (see Lindley, 1969). The addition of the term on the right hand side of the equation
penalizes deviations of the q from their mean value and in this way reduces the variation in the
c's. This seems to be more appropriate than setting the c's equal to a common value in case of
inaccurate estimates. Which is the procedure in LOGIST. Further, in order to exclude possibly
negative c's, F4 will be minimized with respect to yj, where c; = V2 sin^yi(i = 1, ..., n), instead
of the Cj; this variable transformation effectively constrains the c's within the range 0.0-0.5.
The variance-covariance matrix of the parameter estimates may, in principle, be obtained in
the same way as the variance-covariance matrix for GLS (see Christoffersson, 1975). The
computation is impractical for large n, however. Therefore Christoffersson (1977) suggests
application of the Jackknife. Another alternative is to compute the inverse of the information
matrix (Lord, 1980, p. 191), in order to obtain an indication of the accuracy of the estimates;
but one should keep in mind that the error variances obtained in this way, are adequate for an
asymptotic efficient estimation procedure, which the proposed procedure clearly is not.
An experimental computer program' for the estimation of parameters was written. In this
program some parameters may be set equal to a fixed value (for example, all K 0's) and
equality constraints may be defined. So, it is possible to esfimate parameters for submodels like
the model with q = 0 for all i or the model with q = c and a; = a for all i. The stopping rule for
the program is based upon the relative change in the value of F4 between successive iterations,
comparable to the stopping rule in LOGIST: the iterative procedure stops in case of a relative
decrease in F4 less than 0.001 in two successive iterations. For the minimization of F4 the
method of Fletcher and Powell as adapted by Gruvaeus and Jöreskog (1970) is used.

1 A description of the program, LATENT, with details on starting values may be obtained from the first
author. Adress: Educational Research Center, Boerhaavelaan 2, 2334 EN Leiden, The Netheriands.

In order to investigate the performance of the LS-procedure and to compare its performance
with LOGIST a simulation study has been done. For this simulation a sample of 1000 0's was
generated from a standard normal distribution. Next, item scores were generated on a 40-item
test. The a-parameters on this test ranged from .6 to 1.4 with a = 1.0 and s^ = .172, the
b-parameters ranged from -1.25 to 1.25 with b = 0.0 and Sb = .583 and the c-parameters ranged
from . 15 to .35 with c = .25 and Sc = .043.

The starting value of the c's was set equal to .20, the starting value for four-choice items in

A: the O's and v's were chosen so as to obtain an eleven-point approximation to the standard

normal distribution (see Stroud and Secrest, 1966),
B: a five-point distribution was chosen with equal v's, and with 0 = 0 and s^ = 1; K = 5 seems a

reasonable minimum value,
C: the same distribution was chosen as in alternative B but three of them's were allowed to
vary.

The results for these alternatives differed, but the differences were small compared to the
differences between these alternatives, LOGIST and the model parameters. So the precise
form of the assumed distribution of them's does not seem to be crucial in the estimation of the
item parameters, a conclusion which has been reached earlier by Bock and Aitkin (1981). For
reasons of convenience only the results of alternative A will be discussed.
With the adopted stopping rule the LS-program was twice as fast as LOGIST (execution time)
which used the maximum number of estimation stages. The parameter estimates of LOGIST
and the LS-program, and the model parameters cannot be compared directly because the
scales for the b's may differ by a linear transformation. For this reason all latent scales were
rescaled in order to have b = 0.0 and s^ = 1.0. Some of the results are given in Tables 1 and 2.

In this example all three MSE's are in agreement: the LS-estimates are better than the
LOGIST-estimates.

Generally, one may not expect all MSE's to point in the same direction. Further, an estimated

item characteristic curve P (+ |0) may reasonably approximate the true ICC or item charact-
eristic curve, even when the individual parameters are poorly estimated (Hulin et al., 1982).
For these reasons there is need for an overall index of fit. One possibility is to compute the area
between tme and estimated ICC for a certain range of 6 (Rudner, 1977; see also Shepard et al.,
1981). A more convenient index is the root mean squared error, RMSE, proposed by Hulin et
al. (1982) where Pj (+ |0) and Pj (+ |0) are compared for a number of values ofO:

In this study the RMSE for each item was obtained by comparing Pj (+ |0) and Pj (4-10) for 41
values of 0chosen at equal intervals from 0 = -2.0 to 0 = 2.0 on the scales with b = 0, Sb = 1 and
b = 0, Sb = 1. The RMSE was also computed at the test level: the true test characteristic curve
(TCC) n-l ?Pi (+ |0) was compared with the estimated TCC.

The average RMSE was .041 for LOGIST and .024 for the LS-procedure; the RMSE on the
test level was .035 for LOGIST and .012 for the LS-procedure. The unfavourable results for
LOGIST are due in part to the large differences between the c's and c's.
A weakness of this approach to compare procedures is that the scales in the comparison are
based upon the bj and bj only: scales are chosen so that the bj and bj are standardized. An
alternative is to use the TCC in defining the latent scales: one can find transformations for the
bj and aj, namely bj* = fbj + g and aj* = f~' aj, for which RMSE on the test level is minimized.
For LOGIST RMSE^jn was equal to .009, for the LS-procedure RMSE^in was .006. Clearly, a
large improvement in RMSE is possible, which means that recovery of the three-parameter
model may be better than suggested by Hulin et al. (1982). Further, in this example the
LS-procedure was better in terms of RMSEn,jn.

A further analysis with the LS-procedure was done, using four subsamples with N = 250. For
this sample size the r^j dropped to values between .39 and .62. For rbfi values between .93 and
.97 were obtained while for r^g values between .29 and .51 were obtained. The results for rgj
were in agreement with results in a simulation study with LOGIST by Hulin et al. (1982). This
does not mean much, however, because the size of correlations depends on the true variation in
parameter values. The overall agreement between true and estimated TCC's for the four
subsamples was higher than the corresponding results for LOGIST based upon the total
sample. RMSE on the test level ranged from .012 to .017, RMSE„,i„ from .005 to .008.

A LS-procedure for the estimation of item parameters in the three-parameter logistic model
has been presented and results using this procedure have been compared with the performance
of LOGIST. In the particular study the LS-procedure was faster and more accurate than the
procedure incorporated in LOGIST. In connection with the comparison a new procedure for
adjusting the parameter estimates to the same scale has been proposed. The LS-procedure also
was superior to LOGIST for this transformation.

One study clearly is not enough to make a general statement about the efficiency of the
LS-procedure. However, taking into account the experience with LOGIST and favourable
results with a LS-procedure in other contexts, it appears safe to assume that the procedure is a
useful parameter estimation procedure. The LS-procedure especially seems useful with
medium sized tests. With small tests a GLS-procedure becomes feasible. With very large tests

the LS-procedure will need too much computing time while the performance of LOGIST is
likely to improve.

The minimal sample size for the LS-procedure will depend a.o. upon the purpose of the study:
whether accurate item parameters are needed or whether only a reasonably accurate estimate
of the test characteristic curve is needed. From the results in this study it would seem that
sample sizes of about 250 examinees might be adequate when only the overall test character-
istics are relevant.

The LS-procedure can be used even when a small number of data is randomly missing or may
be assumed to be randomly missing. One might count each missing answer as h""', where h is the
number of alternatives. Of course, LOGIST is more flexible: in LOGIST it is possible to have
large numbers of planned missing data when overlapping subtests are administered to groups
of examinees.

Andersen, E.B. Conditional inference for multiple-choice questionnaires. British Journal of Mathemat-
ical and Statistical Psychology, 1973,26,31-44.
Bock, R.D. and Lieberman, M. Fitting a response model for n dichotomously scored items. Psychometri-
ka, 1970, 179-197.

Bock, R.D. and Aitkin, M. Marginal maximum Ukehhood estimation of item parameters: application of

an EM algorithm. Psychometrika, 1981,46,443-459.
Christoffersson, A. Factor analysis of dichotomized variables. Psychometrika, \915,40,5-32.
Christoffersson, A. Two-step weighted least squares factor analysis of dichotomized variables. Psycho-
metrika, 1977,433-438.
Gruvaeus, G.T. and Jöreskog, K.G. A computer program for minimizing a function of several variables.

Research Bulletin, RB-70-14, Princeton, N.J.: Educational Testing Service, 1970.
Hulin, C.L., Lissak, R.I. and Drasgow, F. Recovery of two-and three-parameter logistic item character-
istic curves: a monte carlo study. Applied Psychological Measurement, 1982,6,249-260.
Lindley, D.V. Bayesian least squares. Bulletin of the International Statistical Institute, 1969, 43,
152-153.

Lord, F.M. Applications of item response theory to practical testing problems. Hillsdale, N.J.: Erlbaum,
1980.

Mooijaart, A. Latent Class Analysis with order restrictions on the latent parameters. MDN (Methoden en

Data Nieuwsbrief van de sociaal wetenschappelijke sectie van de VVS), 1980, S, 22-37.
Muthén, B. Contributions to factor analysis of dichotomous variables. Psychometrika, 1978,551-560.
Rudner, L.M. An approach to biased item identification using latent trait measurement theory. Paper
presented at the annual meeting of the American Educational Research Association, New York, 1977.
Shepard, L.,Camilli, G. and Averill, M. Comparison of procedures for detecting test-item bias with both

internal and external ability criteria. Journal of Educational Statistics, 1981,6,317-375.
Stroud, A.H. and Secrest, D. Gaussian quadrature formulas. Englewood Cliffs, N.J.: Prentice-Hall,
1966.

Urry, V.W. Ancillary estimators for the item parameters of mental test models. In Computers and
testing: steps toward the inevitable conquest. Research Section Personnel Research and Develop-
ment Center U.S. Civil Service Commission. Washington, D.C. September, 1972.

Naar aanleiding van een artikel van Dirkzwager (1981) waarin deze het toetsen van kennis en
inzicht met multiple-evaluatie-items propageerde (in de literatuur ook genoemd partial know-
ledge, of personal probability testing, of confidence scoring, zie Lord en Novick (1968, p. 313
e.v.) werd een simulatie-studie verricht, waarvan de belangrijkste conclusie was dat de
multiple-evaluatie-score zo hoog zal correleren met de gewone ruwe score dat het nut van de
scoring voor validiteitsverhoging twijfelachtig moet worden geacht (van Naerssen, 1982).
Dirkzwager (1982) uit kritiek op het bij de simulatie gehanteerde model. Dit zou te simpel zijn
en niet fair tegenover de methode van multiple evaluatie. Hij stelt een aantal wijzigingen voor
waardoor het model intuïtief meer in overeenstemming zou zijn met de werkelijkheid (zie ook
errata in T.O.R. 1983, p.41.). De meeste van deze wijzigingen zijn nu, met enkele andere
wijzigingen, geïmplementeerd in een programma (D 206) waarin opnieuw de zes scores (ware,
subjectieve, ruwe, log-score, kwadratische score en zekerheidscore) worden geïntercorre-
leerd.

Er wordt nu aangenomen dat de proefpersonen een gegeven verdeling hebben over een trek
thèta. In de berekeningen tot nog toe werd ongeveer een normale verdeling ingevoerd maar
elke verdeling zou mogelijk zijn. De ware itemscore w is een logistische functie van thèta met
twee parameters, een discriminatie-index a^ en een moeilijkheids-index bj. (De ware itemscore
mag uiteraard niet random gekozen worden zoals Dirkzwager abusievelijk voorstelde). Met
het feit dat personen raden bij multiple-choice items wordt niet op deze plek rekening
gehouden maar later. De items verschillen in moeilijkheid, de verdeling van de b's is rechthoe-
kig met gegeven range. De items hoeven volgens Dirkzwager niet verschillende a's te hebben,
maar hij stelt voor (persoonlijke mededeling) om de personen te laten verschillen in een
eigenschap (bèta), die erop neer komt dat de personen verschillende a^ hebben. De redenering
is dat sommige personen meer dan anderen volgens het mastery-principe leren waardoor bij de
eerste groep steilere itemkarakteristieken ontstaan (hogere aj). In het programma wordt de aj
van de persoon random gekozen uit een rechthoekige verdeling van a min de halve bèta-range
tot a plus de halve bèta-range, waarbij de bèta-range kan worden ingevoerd (gevarieerd).
Het programma D 206 beperkt zich tot vier alternatieven. De 'ware subjectieve kansen' Q
worden uit w berekend precies als in Dirkzwager's tabel 1 (p. 268). Uit deze kansen worden de
'ingevulde kansen'.berekend volgens de formule op p. 269 uit de O's en een 'realismescore' a.
Deze a's (die uiteraard niet verward moeten worden met de discriminatie aj) worden per
persoon getrokken uit een normale verdeling met gemiddelde 0.71 en standaardafwijking 0.16.
Maar bovendien schommelt de a nog per item volgens een normale verdeling om het persoons-
gemiddelde met eenzelfde standaardafwijking (suggestie van Dirkzwager, persoonlijke mede-
deling). De a moet tussen bepaalde, door Dirkzwager afgeleide grenzen liggen. Wordt
toevallig buiten die grenzen gekozen dan wordt de grens aangehouden. En tenslotte wordt, als
toevallig de aangestreepte kans van het juiste alternatief kleiner is dan 0.01 (in het programma

kan elke grens gekozen worden) de kans 0.01 aangehouden om niet èrg negatieve scores te
krijgen bij de log-scoring van Dirkzwager.

Het leek niet nodig weer elke correlatiecoëfficiënt tien keer te laten uitrekenen zoals in het
eerste simulatieonderzoek. Hier beperken we ons tot één keer per variant maar dan met een
grote groep (N = 200).

Het programma werd tweemaal gedraaid met een 'standaardsituatie', daarna met een aantal
varianten, waarbij elke variant slechts in één opzicht verschilt van de standaard. Bij de
standaardsituatie wordt uitgegaan van item-discriminatie-waarden van 0.4, moeilijkheids-
indices van -2 tot +2, een bèta-range van de personen van 0,4 een gemiddelde realismescore
van 0.71 met een standaarddeviatie van 0.16. De varianten vertonen resp. de volgende
verschillen:

Steeds constant werden gehouden: aantal personen (N = 200), aantal items (n = 50) en de
verdeling van de trek thèta (11-waardige discrete benadering van de normale verdeling).

Gemiddelden, standaard deviaties en intercorrelaties van de zes scores (gedeeld door n).
gemidd. st.dev. ware_aubj._ruwe_logsc._kwadr. zekerh.

De KR-21 was .721. Een contróle-run, a.h.w. bij een volgende groep van 200, leverde een
KR-21 van .737 en in verband daarmee ware-score-correlaties van iets, nog geen .01 hoger,
maar overigens zijn er nauwelijks verschillen. Variant 1 (realismescore 1) gaf weinig verschil-
len met de standaardsituatie (minder dan .005). Variant 2 (gemakkehjker items) leverde
hogere scores, maar lagere intercorrelaties, vooral van de ware scores (.031 lager) overeen-
komend met een lagere KR-21 (.645). Variant 3 (moeilijker items) leverde omgekeerd een
hogere KR-21 (.801), hogere correlaties vooral met de ware score, evenals variant 5 (hogere
discriminatie) met KR-21 .775. Het omgekeerde treedt op bij de lagere discriminaties van
variant 6. Variatie van de 'bèta-range in de varianten 7 en 8 levert nauwelijks enige verschillen.
Wat echter practisch niet verandert bij de diverse varianten is de hnpe correlatie tussen ruwe

score en Dirkzwager's log-score: .963 en .958 bij de twee standaardsituaties, en bij de acht
varianten resp. .962, .967, .914, .973, .957, .962, .967 en .960.

De ware score correleert in dit model steeds hoog (ongeveer 0.96) met de subjectieve score,
wat minder met kwadratische en log-score (0.88), weer minder met ruwe en zekerheidscore
(0.86).

In dit model blijkt er nauwelijks enig verschil tussen wat de ruwe score en wat de zeker-
heidscore meten, de correlatie is omstreeks .995, en het laagst bij de moeilijke toets (variant 3)
nl. .973, doch bij de gemakkelijke toets (variant 2) zelfs 1.000.

Dit laatste wijst, bij duidelijk lagere vroeger empirisch gevonden correlaties, op iets wat
minder realistisch is in het model: practisch steeds wordt 'zeker' gekozen, en waarom wordt
duidelijk bij de beschouwing van Dirkzwager's tabel van de waarden op p. 267 (de ware
subjectieve kansen): alleen bij zeer kleine ware itemscore w is pl kleiner dan 0.5. In werkelijk-
heid zal er bijv. bij w = 0.5 wellicht minder dan 81% 'zeker' worden gegeven.
Het model van Dirkzwager is veel ingewikkelder dan het eenvoudige model dat ik gehanteerd
heb. Het kan zijn dat het in vele (maar blijkbaar niet in alle) opzichten realistischer is dan mijn
model, maar dat is niet waar het hier om gaat. De correlatie tussen ruwe score en logscore is wel
iets lager (.96 i.p.v. .98) dan bij de vorige simulatiestudie, maar toch nog zo hoog dat men er
weinig of geen practisch nut van kan verwachten voor wat betreft de verhoging van de
validiteit. De conclusie blijft dus overeind. Dit komt niet omdat er iets mis is aan de methode,
integendeel, theoretisch acht ik het nog steeds een uitstekend idee. Maar het practisch nut is
laag omdat de gewone ruwe-somscore van dichotome items, die geniale uitvinding van Binet
en enkele anderen van zijn tijd, zo moeilijk duidelijk is te overtreffen.
Het is in de Amerikaanse literatuur stil geworden om de 'confidence weighting of items'. Hier
zijn een viertal al wat oudere empirische studies, die ook al niet veel nut doen verwachten.
Hopkins et al. (1973) vonden door de methode de betrouwbaarheid verhoogd maar de
vahditeit verlaagd. Pugh en Brunza (1975) maten eigenlijk alleen de betrouwbaarheid, die wat
omhoog ging. Diamond (1975) vond wel de betrouwbaarheid maar niet de validiteit verhoogd.
En tenslotte concludeerden Hakstian en Kansup (1975) in hun overzichtsartikel en empirische
studie dat noch de betrouwbaarheid noch de validiteit verhoogd waren.

Diamond, J.J. A preliminary study of the reliability and validity of a scoring procedure based upon

confidence and partial informstion. Journal of Educational Measurement, 1975,12, 129-133.
Dirkzwager, A. Multiple evaluatie in plaats van multiple choice. Tijdschrift voor Onderwijsresearch,
1981,6,230-245.

Dirkzwager, A. Het meten van kennis en inzicht. Tijdschrift voor Onderwijsresearch, 1982, 7,264-269.
Hakstian, A.R. & Kansup, W. A comparison of several methods of assessing partial knowledge in

multiple choice tests: II. Journal of Educational Measurement, 1975, 12,231-239.
Hopkins, K.D., Hakstian, A.R. & Hopkins B.R. Validity and reliability consequences of confidence

weighting. Educational and Psychological Measurement, 1973, ii, 135-142.
Lord, F.M. & Novick, M.R. Statistical theories of mental test scores. Reading: Addison-Wesley, 1968.
Naerssen, R.F. van. Multiple evaluatie en zekeraanduiding. Tijdschrift voor Onderwijsresearch, 1982,7,
256-263.

Pugh, R.C. & Brunza, J.J. Effects of a confidence weighted scoring system on measures of test reliability
and validity. Educational and Psychological Measurement, 1975,35,73-78.

Curriculum Implementation and its Relationship to Curriculum Development in Science
Israel Science Teaching Center, Hebrew University, Jerusalem, 1979,465 pp.

Deze zeer omvangrijke bundel bevat de neerslag van een in Israël belegd internationaal seminar over
curriculumontwikkeling en -implementatie op het terrein van science. De deelnemers waren afkomstig
uit vele delen van de wereld; behalve afgevaardigden uit, gezien hun vele curriculumactiviteiten, voor de
hand liggende naties als de Verenigde Staten, Groot-Brittannië, BR Duitsland, Israël, Canada en
Australië, was er ook een opvallend aantal vertegenwoordigers van derde wereld-landen. Het doel van
het seminar was gelegen in het vanuit verschillende ervaringen bediscussiëren van problemen die zich
voordoen bij de implementatie van nieuwe ic/ence-programma's.

Ter verheldering: science wordt in ons taalgebied doorgaans aangeduid met de term natuuronderwijs en
staat voor een geïntegreerde onderwijsbenadering van vakken als natuurkunde, scheikunde en biologie.
Ook in Nederland wint natuuronderwijs snel terrein en vindt er curriculumontwikkeling voor plaats. Zo is
er bij de SLO een project natuuronderwijs voor de basisschool al enige jaren in uitvoering en is een
soortgelijk project voor de Ie fase van het voortgezet onderwijs in voorbereiding.
Waarom die bijzondere aandacht voor implementatieproblemen, er zelfs ecn heel congres aan gewijd?
Welnu, die interesse vloeit voort uit de nogal teleurstellende resultaten van vele, dikwijls grootscheeps
opgezette curriculumprojecten in de afgelopen twee decennia. Bij nader inzien blijkt vrijwel allerwegen
dat de uiteindelijke effecten van het toch omvangrijke en vaak zeer inventieve ontwikkelwerk gering zijn
als men het feitelijke gebruik van de produkten in de klaspraktijk als maatstaf neemt. In een interview van
Lee Shulman met Joseph Schwab, dat bij wijze van introductie in de bundel is opgenomen, kan men de
diagnose reeds aantreffen. Schwab (een pionier op vele fronten en o.a. dc architect van het bekende
BSCS-project) wijst erop dat er in science-projecten dikwijls twee doelen nagestreefd worden: zowel een
modernisering van de leerstof als het bevorderen van 'the teaching of science as inquiry'. Het eerste was
over het algemeen geen probleem, het tweede des te meer. Het bleek uiterst lastig bij de leerkrachten een
zodanige rolverandering te bewerkstelligen dat er iets terecht kon komen van de gewenste onderzoekende
en ontdekkende leeractiviteiten van de leerlingen.

In diverse varianten geformuleerd, komt men deze ietwat mistroostige constatering op vele plaatsen in de
bundel tegen. Een van de aantrekkelijke kanten van de bundel is echtcr-en dat maakt lezing ervan ook zo
boeiend - dat in vele bijdragen ook concrete ideeën aangedragen worden om dit soort problemen aan te
pakken en ook gerapporteerd wordt over meer succesvolle pogingen daartoe.

Dan nu iets meer, zij het noodgedwongen op zeer beknopte wijze, over de opbouw en inhoud van de
bundel.

Het boek bestaat uit in totaal 77, doorgaans korte papers, gerangschikt in een zevental thematische
hoofdstukken plus een afsluitende beschouwing. Elk hoofdstuk start bovendien met een kort overzicht
van het aan de orde te stellen thema.

Het eerste hoofdstuk is gewijd aan ecn conceptualisering van het hoofdthema: curriculumimplementatie.
Opvallend in de diverse papers, startend met ecn historisch getint overzichtsartikel van Tamir cn
eindigend met een bijdrage van Shulman over de relatie met onderzoek van leerkrachtgedrag, is de
nadruk die wordt gelegd op de centrale rol van de leerkracht in curriculumimplementatie. Of het nu gaat
om beschouwingen vanuit meer of minder gecentraliseerde onderwijssystemen (Eden over Israël, resp.
Kelly vanuit de Britse situatie), om dc relatie met nascholing (Connelly, Silberstein) of met research
(Shulman), telkenmale stuit men op de leerkracht als de sleutelfiguur in daadwerkelijke onderwijsveran-
dering.

Het tweede hoofdstuk bevat een aantal papers rond het vraagstuk hoe men curriculummateriaal goed kan
laten aansluiten op de behoeften en mogelijkheden van de leerlingen. Hoewel ook in de science-wereld de
laatste jaren nogal wat sceptische woorden te beluisteren vallen over de instrumentele waarde van het
werk van Piaget, komt men sporen van diens opvattingen in veel science-projecten tegen.
In hoofdstuk 3 staat de leerkracht centraal. Men kan pleidooien aantreffen voor een hogere prioriteit voor

(na)scholing van leerkrachten (Ben-Peretz; Harlen; Sutton) en voor een intensievere samen- en wissel-
werking tussen ontwikkelaars en leerkrachten (Mcintyre en Brown; Sabar en Shafiri). Een hoofdstuk ook
met veel praktische suggesties (Leith; Yager).

Hoofdstuk 4 bevat bijdragen vanuit heel andere invalshoek, namelijk de sociale en politieke context van
onderwijsveranderingen. Papers van o.a. Atkin, Fensham en Rutherford maken duidelijk hoe complex
de problemen zijn, die gepaard gaan aan onderwijshervorming.

In het vijfde hoofdstuk wordt speciale aandacht besteed aan adaptatieprocessen. Analyses en enkele
gevalsbeschrijvingen (o.a. Blum; Williams; Dreyfus en Tamir; Thier) verschaffen een beeld van hetgeen
zich voordoet bij het aanpassen van elders ontwikkeld materiaal t.b.v. de eigen situatie. Het zesde
hoofdstuk bestaat uit een nogal bonte verzameling van allerlei losstaande gevalsbeschrijvingen hoe her en
der implementatieprocessen zijn verlopen. Eens te meer blijkt hieruit hoe lastig het is enigszins algemene
uitspraken te doen over de bruikbaarheid van verschillende implementatiestrategieën.
Hoofdstuk 7 is gewijd aan diverse wijzen waarop implementatieprocessen geëvalueerd kunnen worden.
Papers zijn onder meer afkomstig van Welch, Atkin (over het befaamde CSSE-project), Neufield, Brown
en Mcintyre.

Shevach Eden (directeur van het Israëlisch Curriculum Development Center en ook in Nederlandse
'curriculumkringen' een welbekend persoon) en Pinchas Tamir (de belangrijkste redacteur van de
bundel, verbonden aan de Hebrew University en een uiterst produktief auteur op een breed terrein) staan
tot slot borg voor een voortreffelijk afsluitend hoofdstuk.

Na een recapitulatie van wat ze onder implementatie verstaan (ze hanteren de volgende bondige formule-
ring: 'the proces of putting ideas and materials which embody these ideas into practice') analyseren ze
de rolverhoudingen tussen een centraal ontwikkelteam enerzijds en individuele leerkrachten anderzijds.
Ze schetsen de karakteristieken van de diverse bekende veranderingsmodcllen (Research, Development,
Diffusion; Social interaction; Problem Solving) en komen dan met een eigen 'geïntegreerd' model voor
curriculumontwikkeling en -implementatie op de proppen.

Dat 'nieuwe' model ziet er op zich weinig verrassend uit, maar is redelijk overzichtelijk, bevat heldere
aanwijzingen en wordt redelijk en genuanceerd beargumenteerd. En dat is winst vergeleken bij de soms
nogal geforceerde en/of simplistische 'syntheses' die veel onderwijskundige auteurs zo graag ten toon
spreiden. Voor onderzoekers is het overigens prettig te lezen dat hen in het model een sleutelrol wordt
toebedeeld met als belangrijke functies: het creëren van nieuwe ideeën en benaderingen, van efficiëntere
procedures, en bovenal het zorgdragen voor een beter en dieper inzicht in de processen en de daarop van
invloed zijnde factoren. Eden en Tamir besluiten hun beschouwing met een veertiental conclusies die zich
laten lezen als-zeer behartenswaardige richtlijnen voor succesvolle implementatie. Daaruit blijkt onder
meer een duidelijke voorkeur voor een vervaging van de grenzen tussen ontwikkeling en implementatie.
Daarbinnen past de notie van 'halfprodukten', aangeleverd door een centrale instantie en vervolgens
aangevuld en toegespitst door de gebruikers zelf in hun eigen school en klas. (N.B. Er dringt zich een
sterke overeenkomst op met de aard van de produkten van de SLO.)

Het zal inmiddels wel duidelijk zijn dat er mijns inziens sprake is van een zeer geslaagde publikatie, die
veel waardevolle informatie bevat voor zowel meer praktisch als meer theoretisch geïnteresseerden in
curriculumontwikkeling en -implementatie. Dat de bijdragen gecentreerd zijn rond een bepaald 'vakge-
bied' (natuuronderwijs) bevordert de samenhang en concreetheid van het gebodenc, zonder dat het
'vakoverstijgende' belang van de problematiek geweld wordt aangedaan.

Het geheel is gemakkelijk leesbaar (ondanks de grote hoeveelheid typefouten) en goed toegankelijk. Een
compleet opgenomen adressenbestand van alle deelnemers verhoogt bovendien de bruikbaarheid voor
diegenen, die, geïnspireerd door bepaalde teksten, rechtstreeks contact willen opnemen met de auteurs.

Praktijkleren in het MHNO/MSPO nieuwe stijl
SVO Reeks 59, Harhngen: Flevodruk, 1982

Praktijkleren in het MHNO/MSPO nieuwe stijl is een rapport waarin verslag is gedaan van een onderzoek
naar enkele aspekten van praktijkleren in een deel van het mbo. Opdrachtgever was het ministerie van O
& W, met bemiddeling van SVO. De stuurgroep Herstructurering MHNO/MSPO vroeg om het onder-
zoek.

Het rapport bestaat uit vier delen. Ik zal deze delen achtereenvolgens bespreken, waarna een eindkonklu-
sie volgt.

Onder praktijkleren verstaat Nieuwenhuis, in navolging van Schellekens (1980): 'een proces of activiteit
waarbij volgens een vooropgezet doel, kennis en vaardigheid wordt opgedaan door rechtstreekse aanra-
king met dingen, feiten en gebeurtenissen (...).'

In deel 1 beschrijft de auteur drie modellen van praktijkleren: een model van Schellekens, van Kolb en een
eigen bewerking van modellen van Mertens en De Groot. Op basis daarvan construeert hij een nieuw
model, waarin elementen van dc drie beschreven modellen geïntegreerd zijn. De beschrijving van de drie
modellen is tamelijk globaal, en niet steeds even helder. Ze roept soms meer vragen op dan dat ze
verduidelijkt. Helaas stelt Nieuwenhuis deze vragen niet. De modellen worden weinig kritisch beschreven
en gebruikt.

Een voorbeeld: Schellekens onderscheidt intermediair leren en praktijkleren. Bij intermediair leren leer
je middels een intermediair over een onderwerp, terwijl je bij praktijkleren rechtstreeks in aanraking bent
met het onderwerp. Dit is misschien een goed onderscheid voor het leren van een houtverbinding, maar
hoe moeten we ons dat voorstellen bij abstracte begrippen, formules of ideëen? Is het leren van een
wiskundige regel intermediair leren zodra er een blokkendoos bij gebruikt wordt, maar praktijkleren
zodra de leerling de regel ergens ziet staan?

Het grootste probleem in dit deel is echter de pretentie van algemene geldigheid van het gepresenteerde
model en de onmiddellijke vertaling ervan in handelingsaanwijzingen. Mijns inziens is het leren van
werken in de praktijk vooralsnog te ondoorzichtig om nu al in modellen gegoten te worden. Drie
problemen van deze modellen ter toelichting:

a. De modellen d.w.z. die van Schellekens, Kolb en Nieuwenhuis zelf, beschrijven cychsche processen
met enkele fasen waarin het leren in de praktijk verloopt. Ze gaan uit van enkelvoudige leerinhouden.
Elk beroep is echter een conglomeraat van deelhandelingen met een grote variatie in diepgang,
komplexiteit en vooral tijdsduur. Een stagiaire in de verpleegkunde moet zowel leren een behande-
lingsplan van enkele weken op te stellen, en uit te voeren, als een kateder in te brengen, wat in enkele
minuten gepiept is.

In de buitensciioolse praktijk gaat het niet meer om geïsoleerde leerinhouden, maar om een veelheid
van geïntegreerde leerinhouden. Noch Schellekens, noch Nieuwenhuis gaan in op dit probleem: welke
soort leerinhoud is uitgangspunt bij het opstellen van de modellen?

b. Behalve van enkelvoudige leerinhouden, gaan de modellen ook uit van enkelvoudige leerprocessen.
Eerst zou echter aangetoond moeten worden dat er zich identieke leerprocessen afspelen bij zulke
uiteenlopende zaken als zich oriënteren, oefenen van eenvoudige handelingen, oefenen van komplexe
handelingen, zelfvertrouwen krijgen, enzovoort.

Er worden hier te snel modellen gemaakt voor iets waarvan we de empirische verschijningsvormen
nog nauwelijks helder voor ons hebben. Door Nieuwenhuis wordt dit niet ter diskussie gesteld.

c. Ondanks deze problemen worden de modellen onmiddellijk vertaald in inrichtingsvoorstellen voor
onderwijsleervormen. Voorbijgegaan wordt aan de diversiteit in leerinhouden en leerprocessen. Om
bij het voorbeeld van zonet te blijven: welke handeling bepaalt nu de fase van de cyclus, het
behandelingsplan opstellen en uitvoeren, of dc kateder inbrengen?

Bovendien kan men zich afvragen of de verwerkingsfase van de modellen wel steeds binnenschools
plaats moeten vinden. Voor de begeleiding van de verwerking van veel handelingen is de praktijkbe-
geleider veel geschikter.

De konklusie over dit deel is dan ook dat er in de modellen te veel vereenvoudigd wordt. Bovendien wordt
er te snel een vertaalslag naar inrichtingsvoorstellen gemaakt. En dit alles zonder discussie of verant-
woording.

Het tweede deel bevat beschrijvingen van 7 voorbeelden van vormen van praktijkleren. Eerst worden ze
ingedeeld in drie kategorieën van praktijkleersituaties uit het model van Schellekens, t.w. 'verkennend
praktijkleren', 'experimenterend praktijkleren in echte praktijksituaties', 'experimenterend praktijk-
leren in gesimuleerde praktijksituaties' en 'experimenterend praktijkleren in gestileerde praktijksitua-
ties'. In deel 1 zijn verkennend en experimenterend leren nog fasen van praktijkleren. Zonder nadere
toelichting blijken deze begrippen in dit hoofdstuk opeens op gehele vormen van praktijkleren van
toepassing. Zijn het dan toch geen fasen van praktijkleren welke achtereenvolgens binnen één vorm terug
te vinden moeten zijn, zoals Schellekens, maar zeker het eigen model van Nieuwenhuis suggereert? De
wijze waarop termen, begrippen en kategorieën behandeld zijn, doet niet erg helder aan.
Na deze indeling volgen beschrijvingen van voorbeelden. Deze zijn kort en duidelijk. De problemen die
steeds ook vermeld worden, riepen de gedachte op, dat er buiten de traditionele stages en excursies toch
maar weinig goed uitgekristalliseerde vormen van praktijkleren zijn. Een beschouwing in deze zin, dus
over de betekenis van de inventarisatie ontbreekt helaas.

Overigens stuitte ik hier op iets vreemds. De beschrijving van een simulatiebedrijf bevat vele zinsneden
welke woordelijk afkomstig zijn van een door mij gemaakt verslag van een bezoek aan dat bedrijf uit 1979.
Dit verslag is gepubliceerd in het derde voortgangsrapport van het Leerplaatsenprojekt (ITS, Nijmegen,
dec. 1979). Nieuwenhuis vermeldt dit niet. Op z'n minst onzorgvuldig, lijkt me.

Het derde deel beschrijft de opzet en de resultaten van een onderzoek bij stagebiedende instellingen.
Doel hiervan was: a) problemen bij bestaande vormen van stages inventariseren, en b) medewerking aan
alternatieve vormen van stages peilen. Hiertoe koos Nieuwenhuis voor een survey-opzet.
Men kan grote vraagtekens zetten bij de zin van deze opzet. Een survey als inventariserende methode
geeft niet anders dan globale antwoorden. En de globale antwoorden op de beide vragen zijn bekend (zie
b.v. Alebeek, 1978), en eigenlijk niet zo interessant. En als er ook nog een respons is van slechts 43%, dan
wordt de opbrengst helemaal twijfelachtig.

Behalve deze algemene kritiek komt er nog eens bij dat de tweede vraag, die van bereidheid, eigenaardig-
heden in de relatie tussen school en instelling miskent. Het kenmerkende van die relatie is dat het een
onderhandelingsrelatie is (De Vries, 1981 en 1982). Dat betekent dat elke school met elke instelling steeds
opnieuw moefonderhandelen. Hierin moeten de vragen van de school en de mogelijkheden en voor-
waarden van de instelling op elkaar afgestemd worden, uiteraard in goed overleg. Dit is een flexibel
proces, waarbij er afhankelijk van de kwaliteit van de voorstellen, de onderhandelingsbekwaamheid en
de machtsverhouding veel te bereiken valt. Dat we weten dat een deel van dc instellingen onder zekere
voorwaarden medewerkingsbereid is, is, behalve dus niet nieuw, in dit proces een tamelijk oninteressant
gegeven. Er zal toch onderhandeld moeten worden.

Dat dit deel zo weinig oplevert was m.i. al met de formulering van de onderzoeksvragen gegeven. Hier
hebben de onderzoekers een kans gemist. De vragen van de opdrachtgever en de Stuurgroep (p. 16)
boden voldoende ruimte het anders aan te pakken. Uitvoerings- en randvoorwaardenproblemen bij de
werkvelden waren zinniger in een diepgaande analyse van bijvoorbeeld de 7 voorbeelden uit deel 2 te
onderzoeken geweest.

Dit deel illustreert nog eens de stelling van Mertens (1981, p. 234) dat fundamenteel onderzoek op dit
gebied 'op den duur meer relevant zal zijn dan het doorgaan op de weg van de in oriëntatie beperkte
enquête-onderzoekjes die ogenschijnlijk wel een grote praktische relevantie hebben.'

In het laatste deel worden konklusies getrokken en aanbevelingen gedaan. Enkele daarvan zijn vreemd
genoeg niet uit de empirische gedeeltes afkomstig, maar uit het verder niet getoetste theoretische. Op de
belangrijkste konklusies ga ik hier in:

- Praktijkleren moet volgens Nieuwenhuis zoveel mogelijk geïndividualiseerd worden. Uit interviews
met stagiairs bleek ons dat zij in gesprekken op school juist van elkaar veel kunnen leren. Een
zorgvuldig gewogen afwisseling van individueel en grocpsonderwijs lijkt daarom beter dan een
rücksichtslose individualisering.

- Er is volgens Nieuwenhuis een tekort aan stageplaatsen. Hierover twee opmerkingen. Eerst over de

toename van de vraag naar plaatsen. De onderzoeker denkt (p. 113) dat dit komt door een toename
aan buitenschools leren per opleiding.

De hoeveelheid buitenschools leren ligt echter in grote lijnen in inrichtingsbesluiten vast en een paar
projectjes zetten niet veel zoden aan de dijk. Waarschijnlijker is dat dit komt door een toename van
het leerlingenaantal.

Volgens de nota Stages (1977) veroorzaakt dit een toename in stagejaren in het mbo van 1975/1976 van
18.000 naar 24.000, dat is 34%, en van 1980/1981 naar 1984/1985 van 8% nl. van 24.000 naar 26.000.
De toename neemt dus af.

De tweede opmerking gaat over het tekort zelf. Het aardige is nu dat Nieuwenhuis dat niet onderzocht
heeft en het ook niet kan konkluderen. Tweederde van de instellingen zegt dat ze vaak 'nee' moet
verkopen, maar eenderde heeft nog plaatsen over! In totaal kan er een tekort zijn, maar het hoeft niet.
Wel kan er een betere afstemming op de stagemarkt plaatsvinden, zoals Nieuwenhuis zeer terecht
opmerkt.

- Nieuwenhuis hecht grote waarde aan de afwisseling van buiten- met binnenschools onderwijs. Hier
zijn goede argumenten voor. Wat hij onvoldoende onderkent is echter hoe belangrijk het is dat
stagiairs niet teveel een uitzonderingspositie innemen, maar juist zoveel mogelijk opgenomen worden
in een werkkring. Dit versterkt het zelfvertrouwen, de motivatie en het leerproces in hoge mate, zoals
ons uit de eerder genoemde interviews bleek. Onderbrekingen werken dit tegen. Bij de afweging van
de mate van afwisseling moeten dergelijke overwegingen zeker ook een rol spelen. Buitenschools
leren moet niet te schools worden!

- Tenslotte zegt Nieuwenhuis dat binnenschools goede alternatieven gevonden kunnen worden. Hier
denkt hij m.i. te gemakkelijk over. Een aantal niet te simuleren omstandigheden bepalen nl. vooreen
groot deel de waarde van stages: het niet langer als onwetende en afhankelijke leerling aangesproken
te worden, maar als zelfstandig individu die zekere, vooral noodzakelijke taken toevertrouwd kan
worden; het in nieuwe situaties alleen voor het blok staan waardoor essentiële, op geen andere manier
te verkrijgen leerervaringen worden opgedaan, enzovoorts. Alles wat binnenschools gebeurt is hier
een verschraling van.

Natuurlijk kan er veel binnenschools. De afweging dient echter zorgvuldig en met diepgaand inzicht
plaats te vinden. Het gaat om veel méér, dan alleen om dc 'omgang met cliënten' zoals Nieuwenhuis
zegt.

Resumerend vind ik het boek een weinig opzienbarende studie. De verslaglegging als zodanig is redelijk.
Inhoudelijk levert noch het eerste deel, noch de survey veel belangwekkends op. De voorbeeld-beschrij-
vingen zijn misschien nog wel het aardigst. De delen vertonen weinig samenhang; het theoretische deel
heeft geen vervolg in de empirische delen.

Verder lijdt het boek aan een steeds terugkerende versimpeling van de ingewikkelde stageproblematiek.
Het tamelijk grove persbericht van SVO bij het verschijnen van dit rapport versterkt deze vereenvoudi-
ging op ontoelaatbare wijze.

Alebeek, F.M.T. & Visser E.F. Tussen schoolbank en arbeidsplaats. SMO-boek7, Scheveningen, 1978.

Stages, discussienota van de ministers van SoZa en O&W. Staatsuitgeverij, Den Haag, 1977.

Vries B. de. Leren van Werken, Handleiding voor Buitenschools Leren. ITS, Nijmegen, 1982.

Methoden en technieken van psychologisch onderzoek, deel 1, model, observatie en beslis-
sing.

De auteursnaam Meerling staat voor een collectief van veertien personen, (oud-) medewerkers van de
vakgroep Methoden en Technieken van de Subfaculteit Psychologie en de afdeling Datatheorie van de
Rijksuniversiteit Leiden. Het boek is voortgekomen uit vele revisies van een college-dictaat methoden-
leer voor eerste en tweede jaars Psychologie studenten.

Het boek (275 pagina's) telt zeven hoofdstukken met de volgende titels en onderwerpen:

1. Wetenschap en methodologie: wetenschapsopvattingen, de empirische cyclus en modelgebruik.

3. Beslissen: beslissingstheorie en statistische procedures geformuleerd in termen van de besliskunde.

4. De exploratieve analyse van gegevens: zoeken naar verbanden tussen twee variabelen, met nadruk op
regressie-analyse.

7. Verwerkingstechnieken: schaalmethoden, factor-analyse en analyse van categorische gegevens.
Hieruit blijkt dat een redelijk representatief beeld van de moderne methodenleer gepresenteerd wordt.
Bij een inleidend boek heeft iedereen zijn particuliere opvattingen over dat wat al dan niet belangrijk is.
Zo vind ik de gedeelten betreffende mathematische modellen (p. 67 t/m 87), statistische procedures
geformuleerd in besliskundige termen (p. 107 t/m 127) en verwerkingstechnieken (p. 224 t/m 257) niet
thuis horen in een inleidend boek. De mathematische modellen en de besliskundige formulering van
statistische procedures zouden veel korter besproken kunnen worden; de verwerkingstechnieken zouden
beter passen bij een inleiding in de Statistiek. Anderzijds vind ik een aantal onderwerpen te summier
behandeld: wetenschapsopvattingen, klassieke testtheorie, testconstructie, quasi-experimentele proef-
opzetten, artefacten in en validiteit van proefopzetten. Ook worden enkele onderwerpen, zoals multi-
variate en covariantie ontwerpen, zo summier behandeld dat de student er niet veel van kan begrijpen.
Tenslotte zou een hoofdstuk over lineair structurele modellen voor correlationele gegevens eigenlijk niet
mogen ontbreken in een inleidend methoden-leer-boek.

Na deze, persoonlijke getinte, kritiek op de inhoud niets dan lof. Het boek onderscheidt zich in positieve
zin van de meeste, veelal amerikaanse, inleidende leerboeken. In tegenstelling daarmee wordt door
Meerling voortdurend een zekere diepgang nagestreefd. Voorbeelden te over: Bij de bespreking van
meetschalen worden de toegestane transformaties behandeld; bij beslissen wordt de gehele beslissings-
situatie keurig uiteengezet; bij de verbanden tussen twee variabelen wordt onderscheidt gemaakt tussen
stochastische en deterministische variabelen; bij de experimentele proefopzetten worden de correspon-
derende lineaire modellen behandeld. Meerling is er in geklaagd de principes en grondslagen van de
moderne methodenleer begripsmatig in te leiden zonder te vervallen in een pure opsomming van
methodologische regels en richtlijnen.

Er is in het bock veel zorg en aandacht besteed aan de didactiek: heldere formuleringen, voorbeelden uit
de Psychologie en blokken met toelichtingen en uitbreidingen. Toch is het - juist door de diepgang - geen
gemakkelijk boek; voor beginnende studenten moet het boek ondersteund worden met colleges of
werkgroepen, maarzo is het boek ook bedoeld.

Bij de Subfaculteit Psychologie van de Universiteit van Amsterdam is het boek verplicht voor tweede
jaars studenten. Wij slaan enkele stukken over, met name bovengenoemde onderdelen (mathematische
modellen, statistische procedures besliskundig geformuleerd en verwerkingstechnieken). Het boek dient
als een basistekst, .die aangevuld wordt met onderwerpen waarvan wij menen dat de student meer moet
weten o.a. validiteit van proefopzetten (Cook & Campbell, 1979, hfdst. 1 en 2; Hoogstraten, 1979);
wetenschapstheorie (Pratt, 1978); bovendien geven wij een aparte cursus testleer. De ervaringen met het
boek zijn goed: Enerzijds vinden de studenten de stof moeilijk, maar anderzijds waarderen zij de aanpak
en behandeling van de stof. Het boek wordt dan ook warm aanbevolen.

Cook, T.D., & Campbell, D.T. Quasi-experimentation. Chicago: Rand McNally, 1979.
Hoogstraten, J. De machteloze onderzoeker. Meppel: Boom, 1979.
Pratt, V. The philosophy of the social sciences. Londen: Methuen, 1978.

Methoden en technieken van psychologisch onderzoek, deel 2: Data-analyse en psycho-
metrie.

Dit boek is, net als deel 1, geschreven door Meerling, een kollektief van elf auteurs die allen verbonden
zijn of waren aan de vakgroep Methoden en Technieken van de Subfakulteit Psychologie van de R.U.
Leiden. Het is een inleidend leerboek in de methoden en technieken van psychologisch onderzoek en in
eerste instantie bestemd voor (ongeveer) tweedejaars. Door de vele relevante literatuurverwijzingen kan
het echter ook een handig naslagwerk vormen voor al diegenen die zich verder willen oriënteren over een
analysetechniek. 'De inhoud van dit boek', zoals de flaptekst zegt, 'vah ruwweg uiteen in schaaltech-
nieken en multivariate analysetechnieken. In de hoofdstukken over schaaltechnieken worden metrische
en nietmetrische technieken voor de analyse van gelijkenis- en preferentiegegevens behandeld, alsmede
enkele logistische modellen voor de analyse van tests en andere dominantiedata. Van de muhivariate
technieken worden onder andere multipele correlatie en regressie, principale komponentenanalyse,
canonische correlatie en factoranalyse behandeld. Daarnaast komen dummy-variabelen en de toepassing
daarvan in discriminantanalyse en in uni- en muhivariate variantieanalyse eveneens aan de orde.'
De verschijning van dit boek, uniek in het Nederlandse taalgebied, is een gebeurtenis die een gedetail-
leerde bespreking wettigt. Hieronder zal hoofdstuksgewijs de inhoud nader besproken worden.
Hoofdstuk I - Mathematische modellen voor de analyse van psychologische data - bevat een aardige
paragraaf over het hoe cn waarom van wiskunde in de psychologie. Wellicht kan deze paragraaf echter
beter in deel 1 ingepast worden. Ik zie overigens niet in (p. 11, 12), waarom Tolman's formule
B=f(S,H,T,P,A), die zegt dat waarneembaar gedrag (B) het resultaat is van situationele (S), erfelijk-
heids- (H), trainings- (T), fysiologische (P) en leeftijdsvariabelen (A), minder triviaal is dan Buikhuisen's
D=f(P,S), die zegt dat delinquent gedrag (D) een funktie is van persoonlijkheid (P) en situatie (S). Het
politieke partijen voorbeeld in par. 4, aan de hand waarvan gelijkenisrelaties, dominantierelaties en
afstandsrelaties uitgelegd worden, is uitstekend. De daarop volgende, meer formele bespreking vind ik
minder duidelijk.

Hoofdstuk H - Gelijkenis, afstand en ruimtelijke afbeelding - is mooi systematisch opgebouwd. Eerst
worden het begrip gelijkenis en mogelijke manieren om gelijkenisgegevens te krijgen besproken. Vervol-
gens komen het begrip afstand en mogelijke afstandsfunkties aan de orde. Drie voorbeelden van
empirisch onderzoek worden gegeven waarin gelijkenisoordelen gebruikt worden om de psychologische
relatie tussen stimuli in een ruimte af te beelden. Tenslotte komen mogelijkheden en moeilijkheden van
de koppeling tussen afstanden en gelijkenissen ter sprake: hoeveel dimensies en welke afstandsfunktie
kies je? Kun je een evenredige, lineaire of alleen monotone relatie tussen afstanden en gehjkenissen
aannemen?

Het verschil tussen metrische en niet-metrische schaaltechnieken wordt uit de doeken gedaan en de
Young-Householder-methode (voor evenredige relaties en euclidische afstanden) besproken. Het stuk
over afstandsfunkties (p. 40-47) had veel korter gekund. Wat mij betreft hoeven tweedejaars alleen maar
te weten dat er behalve met al dan niet gewogen euclidische afstanden ook wel eens met city-block
afstanden gewerkt wordt; de uiteenzetting over de algemene Minkovski-metriek is teveel van het goede.
De notatie van punten en dimensies strookt niet met de notatie die in de hoofdstukken VI t/m VIll
gebruikt wordt en dat is nodeloos verwarrend. De mogelijkheid en moeilijkheid om een gelijkenismaat
aan 'profielovereenkomst' te ontlenen (p. 32) is een belangrijk onderwerp en kon beter uitgewerkt
worden.

Hetzelfde geldt voor de soorten korrespondentie die men kan aannemen tussen gelijkenissen en afstan-
den (p. 48). De beschrijving van de Young-Householder techniek (p. 50) is te moeilijk.
Hoofdstuk HI — Meerdimensionale schaaltechnieken voor de analyse van gelijkenisgegevens - begint
met een over het algemeen heldere bespreking van de klassieke, metrische schaaltechnieken van
Thurstone en Torgerson en de rol van de 'sterke aannamen' daarbij. Een aparte plaats is ingeruimd voor
het fraaie BTL model. De nogal complexe Torgerson techniek wordt met al zijn stappen uitgebreid
behandeld, hetgeen mij voor een inleidend leerboek als overdaad voorkomt, temeer daar die techniek
niet vaak meer gebruikt wordt. De uitleg van het waarom van de cumulatieve standaardnormale verdeling
als 'koppeling' tussen relatieve frequenties en afstandsverschillen in het Thurstone model (p. 63) had
duidelijker gekund. Het achter elkaar zetten van het Thurstone model voor het schalen van stimuli en de
Thurstone methode voor het konstrueren van een attitudeschaal (p. 57) is ongelukkig; de naieve lezer die
net geleerd heeft hoe je bv. de ernst van misdrijven kunt schalen zal niet meteen begrijpen wat het
betekent personen m.b.v. het Thurstone model op een attitude-dimensie te schalen.
Als eerste voorbeeld van niet-metrische meerdimensionale schaaltechnieken wordt de Shepard-Kruskal-
methode uitgebreid en duidelijk behandeld. Er wordt naar mijn smaak wat erg uitvoerig op komputer-
programmatische aspekten ingegaan. Het is wat onhandig dat ó op p. 75 een ongelijkheidsmaat voorstelt
en op p. 22 een gelijkheidsmaat. Ook de notatie van afstanden op p. 81 is weer anders dan de notaties die
gebruikt werden bij de bespreking van afstandsfunkties (p.40 e.v.). Een preciezere uitleg van wat een
monotone transformatie is in de stressformule op p. 78 zou wenselijk geweest zijn. Twee meerdimensio-
nale schaaltechnieken voor individuele verschillen worden besproken: Carroll en Changs INDSCAL-
model en Tucker en Messicks 'points of view' procedure. INDSCAL wordt bondig besproken, met een
mooi voorbeeld. De uitleg van de 'points of view' procedure begrijpt geen tweedejaars. Een eenvoudige
vorm van hiërarchische clusteranalyse wordt met goede voorbeelden adekwaat toegelicht, maar de
diskussie op p. 100/101 over de ultrametrische ongelijkheid is wel erg sophisticated. Speciaal het voor-
beeld (p. 103) waarbij een clusteranalyse aan een Shepard-Kruskal analyse wordt vastgeknoopt is erg
geslaagd (fig. 25 bevat overigens enige fouten en fig. 26 vereist meer toelichting). De slopopmerkingen,
inklusief het apart besproken en draaierig makende model van IDIOSCAL, zullen grotendeels alleen aan
meer gevorderden besteed zijn.

Hoofdstuk IV -Analyse van dominantiedata: deterministische modellen - begint met wat omstandig de
aard van dominantierelaties en gegevens uit te leggen. Als analysemogelijkheden voor voorkeursrang-
ordeningen worden achtereenvolgens behandeld: ééndimensionaal ontvouwen, meerdimensionaal ont-
vouwen, het yectormodel, varianten en externe analyse. De uitleg van het ééndimensionaal ontvouwen is
uitstekend, evenals de keuze van het voorbeeld. De behandeling van de andere technieken in een
inleidend leerboek vind ik buitensporig, te meer daar het puur technisch-theoretische besprekingen
betreffen zonder psychologisch-inhoudelijke voorbeelden waaruit de praktische relevantie kan blijken.
Als analysemogelijkheden voor categorische dominantiedata passeren achtereenvolgens de revue: scalo-
gramanalyse, parallellogramanalyse, meerdimensionele varianten voor dichotome data - het compensa-
torische, conjunctieve en disjunctieve model - en HOMALS. Het scalogrammodel wordt kort en
adekwaat besproken. (Verwarrend is dat fig. 12 en fig. 14 veiVisseld zijn). Een goed vorbeeld ervan wordt
in hoofdstuk V (p. 142) gegeven. De behandeling van de andere mogelijkheden past m.i. niet goed in een
inleidend leerboek. Betreurenswaardig is dat waar (p. 126) het schaalprobleem bij vaardigheidstests
wordt besproken - in essentie, is iemand met het antwoordpatroon 'goed, fout' meer/even/minder vaardig
dan iemand met het antwoordpatroon 'fout, goed' - het zeer eenvoudige 'summatieve model' niet nader
besproken wordt. Dit model is niet alleen het meest gebruikte, maar daar zijn ook zeer goede redenen
voor (bv. Nunnally, 'Psychometric methods', 1978, p. 82-84).

Hoofdstuk V-Analyse van dominantiedata: probabilistische modellen - begint met een goede inleiding
over de kenmerken van probabilistische modellen. De schrijfwijzen voor voorwaardelijke kansen (p. 147-
148) hadden in de tekst iets meer verduidelijkt kunnen worden. Als voorbeelden van probabilistische
modellen worden vervolgens het Rasch-model en het Birnbaummodel besproken. Een toelichting van het
Rasch-model met fiktieve getallen ware uit didaktisch oogpunt wenselijk geweest. Het gegeven voorbeeld
van een Rasch-analyse had beter met minder technische details gepresenteerd kunnen worden en de
verdiensten van Rasch t.o.v. het scalogram-model meer benadrukt (dezelfde data werden als voorbeeld
gebruikt). De algemene diskussie van de merites van Rasch (p. 158) blijft voor tweedejaars in de lucht
hangen. Een bespreking van het Bimbaum-model in een inleidend leerboek vind ik teveel van het goede.
We zijn nu op p. 160 aangekomen en in de resterende 67 bladzijden passeert het hele arsenaal van
multivariate technieken de revue. Tweederde van dit inleidende leerboek wordt dus besteed aan schaal-
technieken en dat vind ik buitensporig, temeer daar men schalingstechnieken veel minder in de psycho-

logische research toegepast ziet dan bv. faktoranalyse of variantie-analyse. Zoals reeds aangegeven,
hadden de eerste 5 hoofdstukken m.i. aanzienlijk uitgedund kunnen worden. Anderzijds had ik graag wat
meer mogelijkheden uitgewerkt gezien om op basis van profielen tot typologieën van personen te komen.
In Hoofdstuk VI - Multivariate analyse - wordt eerst een overzicht gegeven van de te behandelen
modellen in de rest van het boek en wordt afgesproken voor bv. variabele Y de notatie y te gebruiken voor
afwijkingsscores en y voor standaardskores. Vervolgens houdt Meerling zich nauwelijks aan die afspraak
en is inkonsistent en'onduidelijk in de schrijfwijze. Ook de afgesproken notatie is ongelukkig: aan bv. y is
niet te zien of de standaardskore van de schatting of de schatting van de standaardskore bedoeld is.
Allerlei verwarringen zijn het gevolg, vooral bij de meer geïnteresseerde student die bv., uitgaande van de
korrelatie als het kruisproduktengemiddelde van standaardskores, zelf wil nagaan dat = r^y. De
presentatie van enkelvoudige en multipele regressie is slonzig en vereist veel nadere uitleg. Er is kennelijk
geen poging gedaan e.e.a. goed te laten aansluiten op wat in deel I over regressie gezegd is. Simpele
dingen Komen niet of niet adekwaat aan de orde, zoals het feit dat een multiple korrelatie altijd groter is
dan een enkelvoudige; dat men 'krimping' kan verwachten; dat P-gewichten en partiële korrelaties min of
meer broertje en zusje zijn; dat men de waarde van extra predictoren kan beoordelen doorR^-waarden te
vergelijken. De tekst bovenaan p. 175 waar staat dat men aan de regressiegewichten py,. (i= 1 t/m 6) kan
zien dat X2 het meeste gewicht in de schaal legt, gevolgd door X3, kan licht tot verkeerde interpretaties
leiden. Bedoeling en interpretatie van partiële korrelaties (p. 173) komen onvoldoende uit de verf. Een
aardig voorbeeld van 'spurious correlation' wordt op p. 178 gegeven. Als volgende beschrijvende multi-
variate techniek wordt principale komponentenanalyse behandeld en ook daar valt veel op aan te merken.
Richtingen in de ruimte worden plotseling met vektorsommen aangeduid, hetgeen het begrip van fig. 4
bepaald verkleint. Een getallenvoorbeeld van iemands skores op de nieuwe en oude assen zou didaktisch
wenselijk geweest zijn. Dc algemene bedoeling van principale componentenanalyse had duidelijker uit dc
verf kunnen komen. Zeer ongelukkig is dat het begrip verklaarde variantie hier een ogenschijnlijk heel
andere betekenis krijgt dan in het regressiemodel. Het Stimczo-voorbeeld is geslaagd; het afzetten van
deelgroepgemiddelden in de principale ruimte (fig. 5) is erg instruktief. Principale componentenanalyse
had m.i. een veel uitgebreidere bespreking verdiend - inklusief rotaticmogelijkheden die onbesproken
blijven, al was het alleen maar omdat deze techniek erg veel gebruikt wordt. Het tegenovergestelde geldt
wat mij betreft voor canonische correlatie-analyse, waar eveneens 6 bladzijden aan besteed worden. Deze
techniek zal niet meer dan een zeer abstract begrip bij de student ontmoeten.

Hoofdstuk VH-Multivariate analyse met categorische data - is eveneens over het geheel genomen vrij
slecht. Het is toe te juichen variantieanalyse als een vorm van regressieanalyse met kategorische variabelen
te presenteren, maar waarom dan niet uitgegaan van het gangbare model zoals dat in deel 1 (p.211)
besproken is? Er is geen enkele aansluiting. De uitleg is tot p. 200 overigens goed, maar vanaf p. 2(X)
onhelder. Slecht begrijpelijk wordt waarom er in een 2x4 design slechts 3 interaktie-dummies nodig zijn
cn wat de bijbehorende gewichten precies voorstellen. De relatie met de 'klassieke' variantieanalyse (met
zijn kwadratensommen etc.) blijft ondoorzichtig voor tweedejaars (p. 202-204). De aparte behandeling
van MANOVA als een vorm van canonische correlatie is eveneens niet aan deze 'doelgroep' besteed. De
laatste paragraaf over discriminantanalyse begint goed maar verzandt al gauw in een volslagen oninzichte-
lijke opeenhoping van formules.

Hoofdstuk VIH - Multivariate analyse: causale modellen voor samenhang - is qua opzet uitstekend.
Eerst wordt het algemene 'denkmodel' van latente variabelen cn pijldiagrammen gepresenteerd en
vervolgens komen als aparte gevallen het faktormodel cn andere strukturele modellen aan de orde.
Didaktisch had de tekst er bij gewonnen als bij de introduktie van het algemene 'denkmodel' de gangbare
assumpties (errorskores korreleren nergens mee) wat meer in het volle licht geplaatst zouden zijn. Met
enige voorbeelden (bv. fig. 4, fig. 11 en fig. 12) zou men dan kunnen laten zien, hoe een bepaald model de
grootte van correlaties (in termen van A-gewichten) impliceert. Het faktormodel wordt adekwaat maar
wel erg kort besproken. In de paragraaf over het 'fitten' van een faktormodel wordt uitgebreid Leder-
man's bound geïntroduceerd, die onjuist is¹, en komt merkwaardigerwijs voor het eerst in het boek een
statistische toets ter sprake. Meeriing hield zich tot nu toe verre van statistische toetsen. Daar valt veel
voor te zeggen, hoewel ik persoonlijk wel graag de standaard F-toets bij regressie/variantie analyse
besproken had gezien. Tenslote moet een aankomend psycholoog ook dc rapportage over toetserij
enigszins kunnen beoordelen bij de vele regressie/variantie analyses die hij onder ogen zal krijgen. In een

voorbeeld wordt een scheve rotatie toegepast, hetgeen ik als eerste introduktie op roteringsmogelijkhe-
den zeer ongelukkig vind. Het hoofdstuk en het boek eindigt met enige geslaagde voorbeelden van andere
structurele modellen, waarbij goed naar voren komt dat men voor dezelfde variabelen redelijkerwijs
verschillende modellen kan postuleren. De portee van de opmerkingen m.b.t. de korrektie voor attenua-
tie (p. 225) zal niet gevat worden.

Kan dit boek als inleidend leerboek aanbevolen worden? Zoals gezegd zijn er nogal wat aanmerkingen te
maken. Anderzijds valt er ook wel veel goeds over te zeggen. Het is in het Nederlands - hetgeen voor een
vak dat vaak moeilijk gevonden wordt duidelijk een voordeel is - en het is niet saai.
De sterk modelmatige aanpak spreekt mij erg aan. Ik heb het boek onlangs voor het tweede jaar in een
kursus Methoden en Technieken gebruikt, waarbij ik vele stukken heb laten overslaan en in een aparte
klapper veel, m.i. zeer nodige, kanttekeningen heb gemaakt. Opgaven, waarbij dankbaar geput is uit een
verzameling die Meerling zelf gebruikt te Leiden, werden in parallelle werkkolleges besproken. Het boek
wordt niet onverdeeld gunstig of ongunstig ontvangen door de studenten (notatieproblemen vormen vaak
een bron van ergernis) en de weifelende en ambivalente 'grondhouding' die daar uit spreekt deel ik m.b.t.
een eventuele aanbeveling. Een ingrijpende herziening kan echter een prachtig en uniek leerboek
opleveren.

een voor de praktijksituaties samengesteld boekje. Dit produkt moet de handelingscompetentie van
actoren vergroten. Het proces dat daartoe moet leiden stelt Doets voor als een dubbel zoekproces, van
onderzoekers en actoren apart, waarbij een aantal koppelingsmomenten moet garanderen dat de pro-
cessen elkaar wederzijds bevruchten. In het proces aan de kant van de onderzoeker worden vier
momenten onderscheiden:

1. de opbouw van een ontwikkelingskader- dat is een theorie over de praktijksituatie, het daarin ervaren
probleem, en de mogelijke oplossingsrichtingen. Die laatste worden niet verkregen door uit een
bestaande theorie handelingsconsequenties af te leiden: theorieën vormen, naast praktische ervarin-
gen en een bezinning op waarden en normen die een rol spelen, 'basismateriaal' van waaruit gewerkt
gaat worden.

2. ontwikkelingsactiviteiten - het leggen van contacten met als exemplarisch te beschouwen praktijk-
situaties en het in samenwerking met de actoren in die situaties ontwikkelen van inzichten die moeten
leiden tot het nagestreefde kennisprodukt. Vele technieken kunnen hier een rol spelen, waarbij het
ook kan gaan om terugkoppeling, dus het 'uitproberen' van ideeën in de praktijk.

3. bewerkingsactiviteiten - het voorleggen van een voorlopig kennisprodukt aan de praktijksituatie, en
nagaan of dit produkt acceptabel en hanteerbaar is.

4. verspreidingsactiviteiten - zorgen dat het produkt ook buiten de exemplarische situaties werkzaam
kan worden.

Ten aanzien van elk van deze momenten besteedt Doets veel aandacht aan mogelijk bruikbare tech-
nieken, aan eisen aan de onderzoeker te stellen, en (wat een belangrijk maar vaak vergeten aspect is)
criteria om de fase c.q. het hele onderzoek te stoppen. Het is met name in deze elementen dat ik het boek
van waarde acht, al zal nog blijken dat ik er ook problemen mee heb.

Exemplarisch praktijkonderzoek moge geen wetenschapsmodel zijn, het is wel op een wetenschapsop-
vatting gebaseerd. Doets haalt daarbij instemmend Nijk en De Zeeuw aan, die binnen de andragologie
het handelingsbegrip hebben uitgewerkt. Of het nu aan die handelingsopvatting zelf ligt of aan de
beperkingen die Doets zich heeft opgelegd wil ik hier niet analyseren; feit is dat mijns inziens de relatie
wetenschap-praktijk onvoldoende doordacht is. En dit probleem in de uitgangspunten werkt door in de
voorgestelde methode. Afgezien van die momenten waar een terugval in een eerst afgewezen kennisop-
vatting optreedt (bv waar kritiekloos Havelock's opvatting wordt overgenomen dat een bruikbare
praktijksituatie wordt gekenmerkt door niet-inhoudelijk gebonden innovatiebereidheid, p. 108) valt dat
gebrek aan analyse mij vooral op in het systematisch absoluut stellen van de praktijk zoals die is. Het
onderzoek moet zich richten op een probleem zoals door de praktijk ervaren; de behoeften van de praktijk
aan bepaalde oplossingen zijn het richtsnoer; het uiteindelijk kwaliteitscriterium is de beoordeling van het
kennisproduct door de praktijk in de bewerkingsfase. Hoewel hier en daar de mogelijkheid wordt
opengelaten dat tijdens het onderzoek een leereffekt optreedt van wetenschap naar praktijk, is dit toch
voornamelijk beperkt tot het uiteindelijk gebruik van het kennisprodukt - een produkt dat moet passen
(gezien uitgangspunten èn valideringsprocedure) binnen de opvatting die de praktijk al van zichzelf had.
De rol van de wetenschap is dus beperkt tot dienstverlening. Dat blijkt ook uit de wijze waarop de vulling
van het ontwikkehngskader wordt gedacht. Er is daar geen sprake van theorieën die de zelfinterpretatie
van de praktijk overstijgen: 'essentieel is dat aangesloten kan worden bij ontwikkelingen in de praktijk'.
Zo'n opvatting leidt ertoe dat ieder ontwikkelingsprojekt op zichzelf komt te staan; een projekt-overstij-
gende wetenschappelijke theorie speelt geen rol en wordt ook niet opgeleverd. Zeker voor de onderwijs-
kunde, die haar bestaansrecht m.i. zou moeten ontlenen aan het leveren van theorieën die de praktijk-
gebonden interpretaties van actoren overstijgen, vind ik dit uitgangspunt te mager.
Een ander aspect van dit uitgangspunt van Doets is dat de regels waarvan de praktijk in haar zelfinter-
pretatie uitgaat niet ter discussie worden gesteld. Niet alleen ontbreekt daarvoor de theoretische basis,
maar het zou ook het begrip 'exemplarisch' van zijn kracht beroven: want een praktijksituatie is alleen
exemplarisch voorzover daar, vanuit het volgen van dezelfde regels, hetzelfde probleem wordt gevoeld als
in andere situaties. Het streven naar generaliseerbaarheid leidt dus in deze opvatting tot de bestendiging
van het bestaande. Waar dat gebeurt schiet wetenschap in haar maatschappelijke taak tekort.
Een meer adequate invulling van 'praktijkontwikkeling' zou mijns inziens niet de nadruk moeten leggen
op het eindresultaat: een hanteerbaar kennisprodukt, maar zou het onderzoekproces als wederzijds
leerproces moeten zien. Dat onderzoekproces zou een construerend karakter moeten hebben in die zin,
dat geprobeerd wordt de grenzen van de veranderingsmogelijkheden van de praktijk te vinden. Dat
impliceert dat de zelfinterpretatie van de praktijk met de daarin gepercipieerde veranderingsmogelijk-
heden niet als criterium wordt genomen, maar als te veranderen grootheid - zonder dat dat betekent dat
een wetenschappelijke theorie óver de praktijk absoluut wordt gesteld.

In een bijbehorende methodologie zou systematisch gebruik gemaakt kunnen worden van het inzicht dat
een onderzoeksproces altijd een leerproces is, een inzicht gekoppeld aan een ervaring die Doets nu
toevallig opdeed: nl. dat onderzoeksinstrumenten als het rollenspel ook een leereffekt hebben (182). Met
alle respekt voor wat Doets heeft gedaan zit ik nog te wachten op een boek dat die opvatting methodisch
uitwerkt.

Denken en doen bij experimenteel onderzoek. Een inleiding tot het begrijpen en zelf verrich-
ten van experimentele research in de gedragswetenschappen.
Groningen: Wolters-Noordhoff, 1982. (ƒ24,75).

Volgens voorwoord en achter-cover-tekst stelt dit boekje een eerstejaars student in staat om zonder
verdere toelichting een eenvoudig experimenteel onderzoek te verrichten. Jarenlange ervaring (en
bijstelling) heeft de schrijver zulks geleerd. Geheel in de geest van het boekje zou het best nuttig zijn als er
wat meer produkt-informatie bij geleverd zou zijn, want eerlijk gezegd kost het me grote moeite om de
positieve en interessante evaluatie van het boekje alleen op gezag van de uitgever en de schrijver te
aanvaarden.

Inhoudelijk biedt het boekje in slechts 64 klein uitgevallen, riant bedrukte pagina's een breed overzicht
over de beslissingsproblemen die bij een experiment aan de orde komen: probleemstelling, formulering
van hypothesen, instructie van ppn, proefopzetten (ook wat minder simpele), validiteitsproblemen en
rapportage. In feite lijkt het op een soort stevig ingedrukt uittreksel uit een omvangrijker werk: alle franje
is er af. Dat is bezwaarlijk, althans in zoverre dat om der wille van wenselijke leereffecten allerlei 'franje'
(voorbeelden, herhaling, organizers etc.) moeilijk gemist kan worden. Een voorbeeld: 'Men stelt groep-
jes samen van Ss die onderling gelijk zijn ten aanzien van een of meer relevante subjectvariabelen (...).
Vervolgens wijst men de Ss uit deze groepjes at random toe aan de experimentele condities.' (pag. 55)
Nog afgezien van de vraag of men uit de voorafgaande tekst zou hebben geleerd wat relevante subject-
variabelen zouden zijn, dan nog lijkt mij deze uitleg van het matched-group design voor de doelgroep te
weinig operationeel om met zelfstandige bestudering te kunnen volstaan. Of de aanbevolen discussie met
medestudenten bij de oplossing van de toegevoegde ruim 2(X) vragen en opgaven bij de tekst hier
voldoende compensatie levert?

Op de inhoud van het boekje is weinig aan te merken. Uiteraard, ieder heeft zijn voorkeuren en beperking
is nodig, maar het boekje is tamelijk volledig als men het b.v. wil gebruiken als basisstof voor een eerste
kennismaking met de materie. Ik vermoed dat het boekje goed gebruikt kan worden door docenten M&T
die het als een soort stramien willen gebruiken voor de jopzet van een serie colleges, demonstraties,
oefeningen etc. rondom 'het experiment'. Voor studenten kan het achteraf als samenvatting wellicht van
nut zijn. Ik besef dat deze schatting overigens nauwelijks op kan tegenover de empirische bevindingen van
de schrijver met zijn werk.

Kursussen georganiseerd door het Leids Instituut voor de Stimulering van Sociaal Beleidsonderzoek
(LISBON) in samenwerking met de vakgroep M & T van het Sociologisch Instituut. Inlichtingen:
Stationsplein 242, 2312 AR Leiden.

De actuele betekenis van Herbarts didactische en schoolorganisatorische opvattingen, door C. Martens.
De relatie tussen leerconceptie, studiestrategie en leerresultaat, door E. J. van Rossum en S. Schenk.
Leren vanuit een tweede-orde perspectief kritisch bekeken. Een reactie op E.J. van Rossum en S.
Schenk, doorG. d'Ydewalle.

Leren: het tweede-orde perspectief nader toegelicht. Een weerwoord op de reactie van G.d'Ydewalle,
door E.J. van Rossum cn S. Schenk.

Belgisch-Nederlands symposium over onderzoek van onderwijsleerprocessen, Leuven, 3 en 4 juni 1982,
doorL. Verschaffel.

Leren omgaan met (literatuur)informatie; het congres 'User Education' te Oxford, door C.A. Arnold en
E.J. Boerma.

Van intelligentie, persoonlijkheid, studiestrategie, en studeergedrag naar studieresultaat, door M.F.E.
Laçante.

Innovatiestrategieën van directeuren van dag-/avondscholen voor volwassenen, door A.J. Cozijnsen en
R.A.C. Hoksbergen.

Kronieken: Beiaard en de universitaire lerarenopleiding, door J.H.G.I. Giesbers.
Colloquium: Tien jaar V.S.O. Een confrontatie tussen onderzoek en praktijk, door H. De Neve.

De bezuinigingen lijken de kwaliteit van het onderwijs aan te
tasten. Vanuit een sociaal-economische benadering gaat de
auteur in op de vraag of het hier schijn of werkelijkheid betreft.
De omvang en effecten van bezuiniging op het onderwijs worden
doorzichtig gemaakt.

Het boek maakt de economische benadering van het onderwijs
voor een breed publiek toegankelijk. Voor een ieder, die In deze
ontwikkeling belang stelt, wordt helder uiteengezet op welke
manier het onderwijs een essentiële rol kan spelen bij het
verbeteren van de economische situatie.
Het boek gaat eveneens in op de gevolgen van dalende leerlingen-
aantallen voor onderwijscapaciteit, de overheidsultgavencrisls
en de onderwijs 'performance'-crlsls.

In het onderwijsonderzoek kent het onderzoek van het onderwijzen een lange traditie. Er is
gezocht naar persoonlijkheidskenmerken van de 'goede' leerkracht, de processen in de onder-
wijsleersituatie, de activiteiten van de efficiënte leerkacht, de produkten van het onderwijzen.
Met een zekere regelmaat verschijnen overzichten van de resultaten van onderzoek (bijv.
Gage, 1963,1978; Rosenshine en Furst, 1973;Medley, 1982). Sinds enige jaren wordt door een
aantal onderwijskundigen de nadruk gelegd op het onderzoek van de cognitieve processen die
een rol spelen bij leerkrachten tijdens de voorbereiding en uitvoering van onderwijs (Clark en
Yinger, 1979).

Over modellen en accenten in het onderzoek bestaat verschil van mening. Toen de redactie
enige tijd geleden de bijdrage van De Corte en Lowyck kreeg aangeboden waarin een wending
in het onderzoek van het onderwijzen werd bepleit, is dan ook besloten commentaar op deze
publikatie te vragen aan anderen die op dit terrein onderzoek verrichten.
De volgende vragen zijn aan de discussiedeelnemers voorgelegd.

1. Acht u de beschrijving die gegeven wordt van het onderzoek van het onderwijzen in de
publikatie van De Corte en Lowyck adequaat?

2. Kunt u de conclusie onderschrijven of moeten daarin nuanceringen of accentueringen
worden aangebracht?

3. Wat verwacht u, gezien de huidige en te verwachten studies op dit terrein, van het
voorgestelde model voor het onderzoek van het onderwijzen?

Aan de discussianten is niet gevraagd of het onderwijsonderzoek zich, gezien de analyse van
De Corte en Lowyck van het onderzoek van het onderwijzen en het eigen commentaar daarop,
niet beter op andere meer belovende onderwerpen zou moeten richten en zo ja welke. De
discussie daarover is nog open.

Na de bijdrage van De Corte en Lowyck zijn de discussiebijdragen van Knoers, Veenman en
Creemers opgenomen. De bedoeling ervan is zowel een, 'persoonlijk gekleurd', beeld van het
onderzoek van het onderwijzen te geven en de richting die volgens de discussianten moet
worden ingeslagen, als daarmee de lezer in staat te stellen zijn of haar eigen opvatting omtrent
onderzoek op dit terrein te vormen.

Clark, C.M. & Yinger, R.J. The hidden world of teaching: Implications for research on teacher
planning. (Research Series, nr. 77). East Lansing, Michigan: Institute for Research on Teaching,
Michigan State University, 1980.
Gage, N.L. Paradigms for research on teaching. In N.L. Gage (Ed.), Handbook of research on teaching.

Chicago: Rand McNally, 1963,94-141.
Gage, N.L. The scientific basis of the art of teaching. New York: Teachers College Press, 1978.
Medley, D.B. Teacher effectiveness. In H.E. Mitzel (Ed.), Encyclopedia of Educational Research (5th

ed.). New York: The Free Press, 1982,1894-1903.
Rosenshine, B. & Furst, N. The use of direct observation to study teaching. In R.M.M. Travers (Ed.),
Second handbook of research on leaching. Chicago: Rand McNally, 1973,122-183.

On the background of a short overview of the history of research on teaching in the twentieth
century, recent trends in this domain of investigation are discussed. Two broad categories of
approaches are distinguished: more quantitative and more qualitative approaches.
Three important quantitative approaches - namely, process-product studies, ATI-research, and
the learning-time approach - are critically discussed.

In the seventies criticism of those approaches on the one hand, and the breakthrough of cognitive
psychology on the other, have led to a re-orientation of research on teaching toward more
qualitative approaches, such as ethnographic studies, educational connoisseurship and criticism,
and the information-processing approach.

As a whole these approaches are characterized by a process orientation, and they pay more
explicitly attention to the intentionality and the social context of teaching. Taking into account the
merits of both broad categories of approaches, we finally present a provisional model of the
essential teacher and leamer variables, which should be studied more thoroughly in future re,search
on teaching.

In de gehele Westerse wereld en ook daarbuiten wordt de laatste tijd vrij intens aan de
vernieuwing van het onderwijs gewerkt. Daarbij stelt men steeds weer vast dat innovaties in
het onderwijs staan of vallen met de bekwaamheid en de bereidheid van hen die deze
innovaties moeten implementeren, m.n. de onderwijsgevenden. Vandaar dat vanuit het
onderwijsvernieuwingswerk gewezen wordt op het belang van de opleiding en de bijscholing
van leraren. Het is derhalve niet verwonderlijk dat in het recente verleden ook veel aandacht
besteed is aan de problematiek van de vorming en Üe opleiding van onderwijsgevenden.
Bij het uitbouwen van een verantwoorde efficiënte opleiding van leerkrachten wordt door-
gaans gepoogd aansluiting te zoeken bij resultaten van onderwijskundig speurwerk. Dit blijkt
bij velen tot teleurstelling te leiden. Het pessimisme wordt echter niet door iedereen gedeeld
((Dage, 1978, De Corte, 1980 b). Onderhavige bijdrage wil één deelgebied van onderzoek dat
in het perspectief van de opleidingsproblematiek van centrale betekenis is, nader toelichten
m.n. het onderzoek van onderwijzen. Gage (1963, p. 96) verstaat Hieronder: 'het zoeken van
relaties tussen variabelen waarvan tenminste één variabele betrekking heeft op het gedrag of
een kenmerk van de leerkracht'. Omdat onderzoek steeds gesitueerd is in een specifieke
tijdruimtelijke context, lijkt het aangewezen om de actuele tendens in het speurwerk te
bespreken tegen de achtergrond van eraan voorafgaande stromingen.

De kernproblematiek die als een rode draad loopt doorheen de geschiedenis van het onder-
zoek van het onderwijzen kan samengevat worden in de volgende vragen 'wat is een goede
leerkracht?', 'wat is goed onderwijzen?'. In de Engelse vakterminologie komt dit overeen met
het bekende concept 'teacher effectiveness', resp. 'teaching efficiency'. In de loop van de
historiek van het onderzoek van het onderwijzen werden deze vragen op diverse wijzen
beantwoord (Lowyck, 1981).

In de Verenigde Staten werd reeds sinds het begin van deze eeuw onderzoek verricht met een
sterke praktische inslag, in die zin dat men hoopte er gegevens te kunnen uithalen als basis voor
selectie, opleiding, bijscholingen bevordering van leerkrachten (Veenman, 1975). Men zocht
naar het verband tussen persoonlijkheidskenmerken van de onderwijsgevenden enerzijds en
'goed onderwijzen' anderzijds. De karakteristieken van leerkrachten die bestudeerd werden
waren uiteenlopend: intelligentie, persoonlijkheidstrekken en attitudes, maar ook de sociale
afkomst, opleiding, leeftijd en geslacht. Als criteria voor 'goed onderwijzen' nam men meestal
oordelen van z.g. experts (supervisoren, schoolleiders, opleiders) naast deze van leerlingen ,
resp. studenten (Domas & Ticdeman, 1950). Het momenteel nog meest bekende voorbeeld
van dit type onderzoek is de studie van Ryans (1970) over affectieve en intellectuele kenmer-
ken van leerkrachten.

Overzichten van dit omvangrijke speurwerk - Getzels & Jackson (1963) vatten de bevindingen
samen van 800 studies uitgevoerd na 1950 en van meer dan 1000 van vóór die tijd - komen vrij
unaniem tot een negatieve balans: het heeft allemaal weinig opgeleverd. Er komt zeker niets of
weinig uit dat voor het onderwijzend handelen min of meer rechtstreeks relevant en bruikbaar
is. Een kernoorzaak van de teleurstellende opbrengst is ongetwijfeld dat er in dit soort
onderzoek te weinig gekeken werd naar wat er zich in de concrete onderwijsleersituatie
voordoet, m.a.w. het leergedrag en het onderwijzend handelen blijven helemaal buiten
beschouwing.

Een stroming in het onderzoek die wel rekening houdt met wat er in de klas gebeurt, kunnen
we samenvatten onder de titel leiderschapsstijlen in de schoolklas. Het model voor deze
richting was het bekende onderzoek van Lewin, Lippitt & White in verband met autoritair,
democratisch en 'laisser faire' leiderschap (Lippitt & White, 1943) in buitenschoolse situaties,
zoals vrije-tijdsclubs. Andere onderzoekers ondernamen evenwel analoog werk dat wel in de
schoolklas werd uitgevoerd en daardoor vanuit pedagogisch-didactisch oogpunt meer relevant
is. Tot de pioniers in deze behoren H.H. Anderson en zijn medewerkers, die het hadden over
dominerend en sociaal integrerend gedrag (Anderson, 1943). Ook in Europa werd speurwerk
verricht dat onder deze stroming thuishoort, vooral in Duitsland door het bekende echtpaar
Anne-Marie en Reinhardt Tausch (1963) die spreken over autoritair en sociaal geïntegreerd
gedrag.

In 1959 publiceerde R.C. Anderson ecn interessant artikel in de Harvard Educational Review,
waarin hij een kritisch overzicht geeft van het werk over leiderschapsstijlen. De auteur
bespreekt daarin 32 studies over het effect van leiderschapsstijlen die in een onderwijscontext
uitgevoerd werden.

In deze onderzoekingen komen twee verschillende criteria voor het effect naar voren: (I) de
produktiviteit uitgedrukt in termen van leerresultaten, vooral kwantitatief; (2) het moreel,
d.w.z. de mate waarin de groepsleden het groepsklimaat als positief beleven en overtuigd zijn
dat de groep vooruitgang maakt in de richting van de gestelde doelen.

De bevindingen van deze studies betreffende het effect van leiderschap op de leerresultaten
blijken erg tegenstrijdig: 11 studies rapporteren een beter resultaat bij democratisch leider-
schap, 8 studies stelden een hoger effect vast bij autoritair leiderschap en volgens 13 onderzoe-
kingen maakt het geen verschil uit. Wat het moreel als criterium betreft was er weliswaar meer
eenduidigheid in de onderzoeksresultaten, doch een belangrijk probleem was hier de verge-
lijkbaarheid aangezien in de studies uiteenlopende criteria gehanteerd werden als indicatoren
voor het moreel. De conclusie van Anderson (1959, p. 212) is overigens duidelijk:

'We were not fortunate enough to find that one method is consistently better or even consistently
different from the other; thus we are forced to explore new avenues. In short, the authoritarian-
democratic construct as far as education is concerned at least has far outlived its usefulness either as
a guide to research or as interpretation of leadership behavior'.

Ter verklaring van het gebrek aan consistentie in de onderzoeksresultaten van de studies over
leiderschapsstijlen dient men diverse oorzaken in acht te nemen (zie Anderson, 1959; Dunkin
& Biddle, 1974; Flanders, 1965; Van de Griend, (1964). Vele studies waren methodologisch
zwak en inadequaat van opzet. De gebruikte concepten 'autoritair versus democratisch' waren
behept met waarde-oordelen, hetgeen zich soms op subtiele en impliciete wijze liet gelden bij
de planning en de interpretatie van de onderzoekingen. Dit houdt het gevaar in dat men door
onderzoek zogezegd objectief datgene gaat bewijzen, wat in feite de uitvoering van het
onderzoek medebepaald heeft. De belangrijkste oorzaak voor de tegenstrijdigheden in de
onderzoeksresultaten ligt evenwel in de gebrekkige operationalisering van de gebruikte con-
cepten, d.w.z. er werd veelal onvoldoende nauwkeurig omschreven door welke specifieke
gedragsvormen de stijlen binnen een bepaald onderzoek gekenmerkt waren. Volgens Ander-
son (1959) is dit trouwens een symptoon van een meer fundamenteel probleem, m.n. het feit
dat de dimensie autoritair-democratisch een inadequate basis vormt voor het onderzoek,
omdat het veronderstelt dat de complexiteit van het groepsleven in de klas in één enkele
dimensie te vatten is, terwijl er in werkelijkheid zeker meerdere dimensies in het spel zijn. Zo
stellen Dunkin & Biddle (1974, p. 94) dat men tenminste twee dimensies moet onderscheiden,
m.n. affectieve warmte (verwijzend naar de affectieve reacties van de leerkracht op de
leerlingen) en directiviteit (verwijzend naar de mate waarin de onderwijsgevende de leerling-
activiteit stuurt en controleert).

Het zal na de voorafgaande kritiek niet verwonderen dat de studies over leiderschapsstijlen in
onbruik geraakten. Overeenkomstig de daareven geciteerde suggestie van Anderson (1959) is
men inderdaad op zoek gegaan naar nieuwe wegen, die rekening houden met de bezwaren
tegen het speurwerk over leiderschapsvormen in de klas. De nieuwe richting die daaruit
voortgekomen is en die dus duidelijk in het verlengde ligt van de vorige stroming kunnen we
kortweg aanduiden met de term interactie-analyse; daarbij gaat het om de systematische
registratie en analyse van de (verbale) interactie tussen leerkracht en leerlingen in de klas.
Baanbrekend werk op dat gebied werd verricht door Flanders (1970). Hij is de ontwerper van
het meest verspreide systeem voor interactie-analyse in de klas, dat niet alleen gebruikt wordt
voor onderzoek naar het didactisch gebeuren, maar bovendien een nuttig instrument is
gebleken in het kader van de opleiding van onderwijsgevenden. De interactie-analyse brengt
ons meteen tot de recente periode in het onderzoek van het onderwijzen, waarin we aanslui-
tend bij Clark (1979) twee grote categorieën onderscheiden, m.n. meer kwantitatieve en meer
kwalitatieve benaderingen. Beide categorieën hebben heden ten dage hun aanhangers. Ruw-
weg kan men stellen dat de kwantitatieve benaderingen ontstonden in de jaren zestig. De

kwalitatieve tendensen die een belangrijke heroriëntatie representeren, dateren eerder uit de
jaren zeventig; ze ontstonden ten dele als reactie op de zuiver kwantitatieve studies en ten dele
onder invloed van de doorbraak van de cognitieve psychologie.

Binnen de kwantitatieve benaderingen onderscheidt Clark (1979) nog drie verschillende
richtingen, m.n. de proces-produkt studies, de 'apdtude-treatment-interaction approach' en
de z.g. 'Carroll model approach'. Gemeenschappelijk aan deze benaderingen is de gerichtheid
op observeerbare gedragingen van leerkrachten en het streven naar het ontdekken van
wetmatige verbanden tussen onderwijsgedragingen enerzijds en leerprestaties anderzijds.

De hamvraag bij de proces-produktstudies kan als volgt omschreven worden: welke onder-
wijsgedragingen (= procesvariabelen) zijn effectief in het tot stand brengen van leerwinst bij
de leerlingen als groep (= produkt). Men ziet hier nogmaals de kernidee van 'goed onderwij-
zen' of 'teacher effectiveness' uitdrukkelijk naar voren komen. In dit soort studies worden één
of enkele variabelen van het didactisch handelen (bijv. het prijzen van de leeriingen, het stellen
van denkstimulerende vragen) geoperationaliseerd in observeerbare gedragingen; de frequen-
tie van deze gedragingen wordt via observatie in een aantal klassen nagegaan; vervolgens
wordt de correlatie berekend tussen de frequentie van de betreffende gedragingen en bepaalde
leerprestaties bij de leerlingen gemeten op het einde van de observatieperiode. Stelt men
daarbij een statistisch significant verband vast tussen bijv. het stellen van denkstimulerende
vragen en de gemiddelde prestatie op toetsen voor begrijpend lezen, dan volgt daaruit de
conclusie dat het stellen van denkvragen een effectieve onderwijsgedraging is. Betekenisvolle
onderwijsgedragingen ontdekt in correlatiestudies moeten daarna bij voorkeur verder op hun
effectiviteit getoetst worden in beter gecontroleerde situaties in het kader van experimentele
onderzoekingen. De voorstanders van de proces-produkt benadering hopen langs deze weg tot
een soort inventaris te komen van effectieve onderwijsgedragingen; de stap van daaruit naar de
opleiding ligt voor de hand.

Het is in het kader van de proces-produkt studies dat de systemen voor interactie-analyse
gebruikt worden, m.n. als instrumenten voor het registreren en meten van de procesvariabe-
len, d.w.z. de observeerbare gedragingen van leerkrachten en leerlingen in de onderwijsleersi-
tuatie. In tegenstelling tot de onderzoekingen over leiderschapsstijlen worden de gehanteerde
concepten (bijv. direct en indirect leraarsgedrag bij Flanders) hier wel beter geoperationali-
seerd. Meestal neemt dit de vorm aan van een reeks observatiecategorieën met een stel
bijhorende regels die de observatie- en verwerkingsprocedures specificeren. De betere opera-
tionalisering brengt ook mee dat men hier niet meer vervalt in het eerder gesignaleerde euvel
van de leiderschapsstudies, nl. de reductie van het klasgebeuren tot één enkele dimensie.
Integendeel er zijn interactie-analyse systemen ontwikkeld voor diverse aspecten van het
klasgebeuren. Een basisonderscheid in dit verband is dit tussen affectieve systemen (die zich
richten op de invloed van het leerkrachtengedrag op het emotionele klimaat in de klas) en
cognitieve systemen (waarin de klemtoon valt op de logische aspecten, m.n. cognitieve
processen en denkactiviteiten en op de linguïstische patronen waarin ze tot uiting komen).
Voor een overzicht van een groot aantal observatiesystemen kan men terecht in de bekende

publikatie van Simon & Boyer (1970) en in het literatuuroverzicht van Rosenshine & Fürst
(1973).

Voor een uitvoerige bespreking van de proces-produkt studies verwijzen we naar het werk van
Dunkin & Biddle (1974). Een beknoptere samenvatting vindt men in een bijdrage van Lowyck
(1980). Op grond van een analyse van ruim 50 correlatie studies rapporteren Rosenshine &
Fürst (1973), p. 156-158) 9 onderwijsgedragingen die een significant en vrij consistent verband
vertonen met leerprestaties: helderheid, variabihteit, enthousiasme, taakgerichtheid, kritiek
vanwege de leerkracht, indirect optreden van de leerkracht, de mate waarin de leerlingen de
gelegenheid krijgen het criterium-materiaal te leren, gebruik van structurerende commentaar,
diversiteit in het niveau van de vragen en de cognitieve activiteiten.

Alles bij elkaar moet echter gesteld worden dat de opbrengst van de vele proces-produktstu-
dies gering te noemen is. Zoals veelal bij onderwijsonderzoek het geval is, worden ook hier
vele tegenstrijdigheden in de onderzoeksresultaten geconstateerd. Gezien de tekorten inzake
opzet, methodologie en statistische analyse waarmee vele studies behept zijn, is dit overigens
niet zo verwonderlijk. Er zijn evenwel meer fundamentele kritische kanttekeningen bij dit
soort onderzoek te maken. Allereerst is er het feit dat men in de proces-produkt studies enkel
oog heeft voor het uitwendig observeerbare gedrag, waardoor de onderliggende processen en
handelingstructuren van dit gedrag, evenals de intentionele gerichtheid ervan aan de aandacht
van de onderzoekers ontsnappen. Verder wordt het onderwijsgedrag sterk gefragmenteerd en
wordt de tijd-ruimtelijke situering van het onderwijsleerproces buiten beschouwing gelaten.
M.a.w. er is een te sterke reductie, waardoor essentiële componenten van de onderwijsleersi-
tuatie in het algemeen en van het onderwijsgedrag in het bijzonder buiten beschouwing
blijven.

Op deze onbevredigende resultaten van de klassieke proces-produkt studies is op twee
verschillende wijzen gereageerd (Clark, 1979). In de eerste plaats zijn er diegenen die in deze
benadering als zodanig blijven geloven, op voorwaarde dat men bepaalde methodologische en
statistische verbeteringen kan aanbrengen. Belangrijk in deze is o.a. het werk van Glass (1976)
die het bestaande onderzoeksmateriaal aan statistische technieken voor meta-analyse onder-
werpt. De bedoeling hierbij is om via een dergelijke analyse van een reeks studies over
dezelfde variabelen tot meer algemene tendensen en conclusies te komen (zie ook Peterson,
1979). Andere onderzoekers pleiten voor het gebruik van beter onderzoeksinstramenten, inz.
meer verfijnde observatie-instrumenten (Brophy &• Good, 1974). Nog anderen menen dat
men zich in het verleden te zeer beperkt heeft tot correlationeel onderzoek en bevelen aan
meer systematisch experimenteel speurwerk op te zetten naar de verbanden tussen onderwijs-
gedrag en leerprestaties (Gage, 1978).

Een tweede reactie op de geringe opbrengst van het proces-produkt onderzoek komt er
eigenlijk op neer dat men deze aanpak verlaat en een nieuwe richting inslaat. Deze nieuwe
benadering kunnen we meteen als een echte heroriëntatie bestempelen. Immers de klassieke
vraag van het 'teacher effectiveness' onderzoek, m.n. welk onderwijsgedrag leidt tot goede
leerprestaties?, wordt naar de achtergrond verschoven en de aandacht gaat in de eerste plaats
naar het wat en het waarom van het onderwijzend handelen als zodanig. Meer concreet
betekent dit o.m. dat men niet in de eerste plaats geïnteresseerd is in uiterlijk waarneembare
onderwijsgedragingen en de effecten ervan op de leerlingen, maar zich vooral richt op de
studie van de processen die zich bij de onderwijsgevende voltrekken. Daarbij worden dan
vooral kwalitatieve onderzoekstechnieken toegepast. Op deze nieuwe procesmatige benade-
ring komen we verder temg.

Waar de proces-produkt studies geïnteresseerd zijn in de relatie tussen onderwijsgedragingen
en de leerwinst bij de leerlingen als groep, vertrekt het ATI-onderzoek in zekere zin van een
kritiek op deze invalshoek. De basisidee is immers dat er geen enkele onderwijsmethode als de
beste voor alle leerlingen kan beschouwd worden, maar dat de methode moet afgestemd
worden op de individuele kenmerken van de leerling. ATI-onderzoek is er derhalve op gericht
om langs empirische weg interacties op te sporen tussen leeriingenkenmerken en onderwijsme-
thoden. Men hoopt aldus een bijdrage te leveren tot het beantwoorden van de vraag: welke
methode is het best voor welke type van leerlingen? Een centrale kwestie is hierbij te
achterhalen met welke leeriingenkenmerken men vooral dient rekening te houden om het
afstemmingsprobleem zo goed mogelijk op te lossen.

Aan de oorsprong van dit ATI-onderzoek staat een artikel van Cronbach uit 1957. Daarin
pleitte hij voor een onderzoeksmodel waarin de z.g. experimentele en de correlationele
methode - die tot dan toe naast elkaar toegepast werden - zouden gecombineerd worden. Op
allerlei methodologische problemen van dit type onderzoek kunnen we hier niet ingaan. We
beperken ons tot een beknopte toelichting van de algemene gedachtengang. Om de vraag te
beantwoorden welke de beste methode is voor het aanvankelijk leesonderwijs, de globaalme-
thode of de structuurmethode, kan de experimentele benadering toegepast worden. Bij twee
gelijkgestelde groepen (Gl en G2) past men respectievelijk de globaalmethode (A) en de
structuurmethode (B) toe en men vergelijkt naderhand de gemiddelde uitslag van beide
groepen op een criteriumtoets. Laat ons aannemen dat daarbij blijkt dat methode A een
significant beter resultaat oplevert dan methode B. Gaan we nu evenwel in Gl en G2 de
correlatie na tussen de scores op de criteriumtoets en een leerlingenkenmerk, bijv. de structu-
reringstendentie dan kan daarbij blijken dat methode A niet voor alle leerlingen beter is, maar
bijv. enkel voor leerlingen met een zwakke structureringstendentie, terwijl daarentegen
kinderen met een sterke structureringstendentie het beter doen bij een structuurmethode. Er
is hier dan sprake van een interactie tussen een leerlingenkenmerk en onderwijsmethoden in
deze zin dat leerlingen die dc betreffende eigenschap in hoge mate bezitten beter leren volgens
de ene methode, terwijl kinderen die op dit kenmerk laag scoren beter gediend zijn met een
andere methode.

Er is in de voorbije twintig jaar heel wat ATI-onderzoek verricht. Het monumentale werk van
Cronbach & Snow gepubliceerd in 1977 geeft er een gedegen overzicht van. Alles bij elkaar
zijn ook de resultaten van dit onderwijskundig onderzoek eerder teleurstellend. Er werden
weliswaar een aantal ATI-verschijnselen geconstateerd, doch dc resultaten van het vele
speurwerk zijn weinig consistent, vaak zelfs tegenstrijdig. Snow (1977, p. 50) geeft op dc
ATI-resultaten bovendien volgend commentaar: sommige ATI-bevindingcn zijn weliswaar
plausibel en sommige zelfs repliceerbaar; er zijn echter weinig van deze vaststellingen die we
op dit ogenblik goed doorzien en kunnen verklaren, en geen ervan zijn reeds toepasbaar in de
onderwijspraktijk.

Tot de meeste consistente bevindingen behoren deze die betrekking hebben op twee min of
meer complexe leerlingenkenmerken, m.n. faalangst en algemene verstandelijke bekwaam-
heid. Op grond van het reeds verrichte speurwerk heeft Snow (1977) aanbevolen om verder
onderzoek te doen rond volgende twee globale hypothesen: (1) individuele verschillen in
faalangst interageren met onderwijsmethoden die onderling verschillen in graad van structure-
ring door de leerkracht en in de mate van leerlingparticipatie (faalangstigen zouden beter
presteren in sterker gestructureerde onderwijsleersituaties); (2) individuele verschillen in

mentale bekwaamheid interageren met onderwijsmethoden die verschillen wat de mate betreft
waarin beroep gedaan wordt op zelfstandige informatieverwerking door de leerling (verstan-
dehjk bekwame leerlingen zouden meer gebaat zijn door leersituaties die sterk appelleren aan
zelfstandige verwerking van de informatie). Uit deze hypothesen moge ook blijken dat de
notie 'aptitude' in het ATI-onderzoek breed wordt opgevat. Recent heeft Snow (1980, p. 27)
de volgende definitie gegeven: 'Aptitudes are psychological constructs about individual diffe-
rences in learning or performance in specified situations'. Onder deze omschrijving kunnen
zowel cognitieve als conatieve en affectieve kenmerken van individuen vallen. Eveneens
volgens Snow (1978, p. 227) is de doorslaggevende karakteristiek van een 'aptitude' de relatie
tot leren.

Om evenwel bij het verder onderzoek tot beter inzicht te komen in de verbanden tussen
leerlingenkenmerken, onderwijsgedrag en leerprestaties zal ook hier een heroriëntatie nodig
zijn. Men kan zich in dit geval evenmin blijven beperken tot het registreren van uitwendig
constateerbare gedragsvormen; de verschillen tussen de leerlingen zullen daarentegen moeten
bestudeerd worden in termen van individuele verschillen in psychologische processen. Met
Snow (1980, p. 28-29) kan men stellen dat de oude 'aptitude constructs' tnoeten omgezet
worden in 'aptitude processes' opgevat als voorspelbare, gerichte veranderingen in het psy-
chisch functioneren op grond waarvan individuele leerlingen: (1) er al dan niet in slagen zich
aan te passen aan de vereisten van de onderwijssituatie wat de belasting van het korte-termijn
en het lange-termijn geheugen betreft; (2) er al dan niet toe komen om doorheen de leeractivi-
teiten de verwachte organisatie van kennis en vaardigheden op te bouwen; (3) onderling
verschillen inzake kwaliteit en kwantiteit van het bereikte leerresultaat. De verschillen in deze
'aptitude processes' die moeten verhelderd worden, bestaan vóór, opereren tijdens, maar zijn
tevens het produkt van het onderwijs. Derhalve is het ook nodig na te gaan welke de cognitieve
processen zijn die zich bij de leerlingen afspelen tijdens het onderwijsleerproces in de klas.
Immers, deze processen spelen een mediërende rol tussen de verschillen in leerlingenkenmer-
ken en de- onderwijsgedragingen en daaruit resulteren verschillen in leerresultaten. In dit
verband kan verwezen worden naar Doyle's (1978) mediërend proces paradigma waarin juist
de impliciete cognitieve processen centraal staan die mediëren tussen de onderwijsstimuli en
de leerresultaten. Dit paradigma moet evenwel uitdrukkelijk gekoppeld worden, aldus Doyle
(1978), aan het 'classroom ecology paradigm' waarmee hij bedoelt dat de cognitieve processen
die het onderwijs bij de leerlingen uitlokt, moeten bestudeerd worden in zo natuurlijk
mogelijke ondenvijsleersituaties. Onderzoek in deze richdng is vrij recent op gang gekomen in
Canada (Winne & Marx, 1979) en in de Verenigde Staten (Peterson e.a., 1981). Tenslotte zal
men naast de procesanalyse van leerlingenkenmerken en leeractiviteiten ook de 'treatments'
procesmatig moeten benaderen. Samenvattend kan gesteld worden dat ook de heroriëntatie
van het ATI-onderzoek neerkomt op een 'process approach'.

Een actueel thema in het onderzoek van het onderwijzen in de jaren zeventig staat vrij
algemeen bekend onder de benaming 'time-on-task' studies. Eigenh jk gaat deze research terug
op het bekende 'model of school learning' dat Carroll in 1963 publiceerde en dat tevens aan de
basis ligt van de 'mastery-leaming' strategie (Bloom, 1968). Volgens Carroll (1963) en Bloom
(1968,1974) is de leertijd de belangrijkste factor voor het verklaren, voorspellen en beïnvloe-
den van leerprestaties. Daarbij maakt Carroll onderscheid tussen enerzijds de tijd die een
leerling nodig heeft om iets te leren (benodigde leertijd) en de tijd die hij effectief aan het leren

besteedt (actieve leertijd). De benodigde tijd is afhankelijk van drie factoren, m.n. de
bekwaamheid van de leerling in het betreffende domein van leertaken als zodanig, zijn
bekwaamheid om het gegeven onderwijs te begrijpen en te volgen en de kwaliteit van dit
onderwijs. De actieve leertijd wordt bepaald door enerzijds de voorziene leertijd ('opportuni-
ty') en anderzijds de hoeveelheid tijd die de leerling aan een leertaak wil besteden ('perse-
verance'). Het Carroll-model kan schematisch als volgt weergegeven worden (zie Figuur 1).

Uit dit model volgt dat de leerling een gegeven leertaak kan leren, op voorwaarde dat hij de
benodigde leertijd krijgt en ook bereid is zoveel actieve leertijd te investeren als hij nodig
heeft.

Het Carroll-model ligt aan de basis of vormt althans de achtergrond van veel onderzoek waarin
de leertijd bestudeerd wordt als de cruciale variabele in het onderwijsleerproces (zie o.m.
Harnischfeger & Wiley, 1976). Een eerste vaststelling uit dit type studies is dat er zich in het
onderwijs zeer grote verschillen voordoen zowel wat de voorziene leertijd voor bepaalde
vakken betreft, als wat de actief bestede leertijd aangaat. Zo blijkt bijv. dat in bepaalde klassen
veel meer tijd verloren gaat in alleriei organisatorische activiteiten (bijv. uitdelen en ophalen
van werken, opsplitsen van de klas in groepen) dan in andere klassen. Een tweede belangrijke
bevinding is dat er er een verband bestaat tussen de voorziene en vooral de actieve leertijd
enerzijds en de leerresultaten anderzijds. Eén van de meest representatieve studies in dit
verband is een onderdeel van het groots opgezet Amerikaanse project uit de jaren zeventig
'The Beginning Teacher Evaluation Study' (BTES), dat liep van 1972 tot 1978 (Fisher, Filby
e.a., 1978; Fisher, Berliner e.a., 1978; zie ook Jones & Romberg, 1979; Veenman, 1980).
Het doel van BTES was het identificeren van onderwijsactiviteiten en -condities die het leren

van lagere schoolkinderen bevorderen. Concreet handelt het onderzoek over lezen en rekenen
in het tweede en het vijfde leerjaar. Uitgangspunt van de studie was het z.g. 'Academic
learning time' model (ALT) dat in figuur 2 schematisch wordt weergegeven.

Volgens het model leiden onderwijsprocessen tot leeractiviteiten bij de leerlingen, die op hun
beurt resulteren in leerprestaties uitgedrukt in toetsscores. De bekwaamheden van de leerlin-
gen beïnvloeden rechtstreeks zowel hun leren als de toetsscores. Het model maakt dus
expliciet onderscheid tussen de leeractiviteit van de leerling en de leerprestaties zoals die in
toetsscores tot uiting komen. Het leren wordt derhalve niet alleen gemeten in termen van
toetsscores, maar ook meer direct door het leergedrag zelf van het kind na te gaan. Het is deze
laatste variabele die de 'academie learning time' uitmaakt en waarover in het onderzoek
gegevens verzameld werden via rechtstreekse observatie.

De component 'onderwijsprocessen' uit het model wordt nog verder geanalyseerd. Meer
concreet wordt gesteld dat de onderwijsgedragingen die de actieve leertijd beïnvloeden vijf
verschillende, maar onderling gerelateerde functies vervullen, m.n. diagnose, prescriptie,
presentatie, evaluatie en feedback. Diagnose en prescriptie vormen de planningsfase of
pre-interactieve fase van het onderwijzen. Diagnose verwijst naar het vaststellen van het
beginniveau van de leerling. Prescriptie omvat het bepalen van aangepaste doelstellingen en
het ontwerpen van onderwijsactiviteiten om ze te bereiken. De beslissingen bereiden de
interactieve fase voor, die begint met de aanbieding van informatie of van een leertaak aan dc
leerlingen. De leerkracht moet vervolgens nagaan welke de reacties zijn van de leerling op
hetgeen hij aangebracht heeft; dit komt neer op het evalueren van de kennis of de vaardigheid
van de leerling na een bepaalde onderwijsactiviteit. Op basis van deze informatie kan de
leerkracht feedback verstrekken aan de leerling, maar hij kan er ook conclusies uithalen in
verband met zijn planning. Het model gaat ervan uit dat de vijf functies een min of meer
cyclisch patroon vertonen en ook dat elke functie vervuld kan worden door verschillende
specifieke gedragingen. De gegevens over het interactieve onderwijsgedrag werden samen met
deze over ALT verzameld via observatie. Informatie over de planningsfunctie werd verkregen
via interviews. In het model is ook sprake van het klasmilieu dat eveneens ALT kan beïnvloe-
den; over dit klasmilieu werden eveneens gegevens ingewonnen en dit via beoordelingsschalen
en interviews.

Een uitvoerige toetsing van het ALT model werd gedurende één schooljaar uitgevoerd in 25
Iclassen van het tweede en 21 klassen van het vijfde leerjaar. De bevindingen van deze
indrukwekkende studie worden in detail beschreven en besproken door Veenman (1980).
Deze uitkomsten zijn weliswaar interessant, doch ze geven onmiddellijk aanleiding tot enkele
vragen die meteen de zwakheden van dit soort onderzoek aantonen. De resultaten verwijzen
ook hier weer naar verbanden tussen uiterlijk waarneembare gedragingen, zowel bij de
onderwijzer als bij de leerlingen. Om echt inzicht te verkrijgen in onderwijsleerprocessen en
om deze processen te kunnen optimaliseren, moeten we daarentegen een antwoord kunnen
geven op volgende vragen: (1) welke zijn de processen en handelingen die zich bij de leerlin-
gen voordoen tijdens de actieve leertijd?; (2) welke beslissings- en probleemoplossingsproces-
sen voltrekken zich bij de onderwijsgevenden wanneer zij hun onderwijs plannen en tijdens
hun interactie met de leerlingen?; (3) welke interne processen en welke leerhandelingen
worden uitgelokt door het onderwijsgedrag van de leerkracht? (zie ook Doyle, 1978, p. 175).
Het belang van deze vragen willen we hier even nader illustreren aan de hand van drie
BTES-bevindingen.

Eerste bevinding: Het gedeelte van de voorziene leertijd dat de leerlingen actief aan de
leertaak besteden, vertoont een positief verband met de leerprestaties.
Dit is a.h.w. een vanzelfsprekend resultaat. Niettemin is het een belangrijk gegeven, omdat
het aantoont dat de actieve leertijd sterk verschilt tussen de klassen. De bevinding doet
evenwel onmiddellijk de vraag rijzen: welke verschillen zijn er op het vlak van de handelings-
structuren en beslissingsprocessen tussen onderwijzers wier leerlingen een hoge mate van
actieve leertijd vertonen en de onderwijzers bij wie deze actieve leertijd laag is?

Tweede bevinding: De bekwaamheid van de onderwijzer om geschikte leertaken voor te
schrijven hangt positief samen met dc leerpresentaties en de succes-ervaringen van de leerlin-
gen.

Prescriptie zoals opgevat in BTES impliceert het bepalen van doelen en het ontwerpen van
geschikte onderwijsleersituaties om deze doelen te bereiken. Dit houdt in dat de leerkracht
een reeks beslissingen moet nemen en wellicht veelal ook bepaalde problemen moet oplossen.
Welnu het zou erg nuttig zijn om na te gaan hoe een succesvolle leerkracht daarbij tewerk gaat.
Welke informatie neemt hij in aanmerking? Overweegt hij alternatieve oplossingen voor
bepaalde problemen?

Derde bevinding: Het structureren van de les en het geven van richtlijnen bij dc uit te voeren
leertaken vertonen een positief verband met de succes-ervaringen van de leerlingen.
Het zou hier opnieuw interessant zijn te weten hoe, wanneer en waarom de leerkracht
structuur aanbrengt of richtlijnen geeft. Verder zou het relevant zijn zicht te krijgen op de
leerhandelingen en de cognitieve processen die structurerende tussenkomsten en richtlijnen
bij de leerlingen uitlokken.

Uit de voorafgaande kritische bespreking van de diverse kwantitatieve benaderingen in het
onderzoek van het onderwijzen mag men niet concluderen, dat wij het daarbinnen geleverde
speurwerk van geen of weinig betekenis achten. We zijn zelfs van oordeel dat het belangrijk is
ermee door te gaan; daarbij moet evenwel rekening gehouden worden met gemaakte fouten

op methodologisch gebied en dient men te streven naar verbetering van de gebruikte onder-
zoeksinstrumenten en -technieken. Wel menen we te hebben aangetoond dat het kwantitatief
gerichte werk aanvulling behoeft met meer kwalitatieve benaderingen die het mogelijk maken
vat te krijgen op de procesmatige aspecten van het onderwijsgebeuren en die meteen ook meer
recht doen aan de intentionaliteit en de totale contexst van het onderwijsgedrag. Proberen
door te dringen tot de onderhggende structuren en processen van het uitwendig observeerbaar
onderwijsgedrag is overigens niet alleen belangrijk vanuit het oogpunt van de wetenschappe-
lijke theorievorming over onderwijzen, maar evenzeer vanuit het standpunt van de opleiding
van onderwijsgevenden. Immers, optimalisering van het onderwijsgedrag van leerkrachten
door training zal ons inziens het meest efficiënt kunnen gebeUren via beïnvloeding van de
onderliggende variabelen van het uitwendige gedrag.

Zonder volledigheid te beogen menen we momenteel een drietal belangrijke richtingen te
kunnen aanduiden die als kwalitatieve benaderingen te karakteriseren zijn, m.n. de etnogra-
fische studies, Eisners 'educational connoisseurship and criticism' en de cognitieve procesbe-
nadering. Het gemeenschappelijke van de kwalitatieve benaderingen wordt door Clark (1979,
p. 5) als volgt omschreven:

'Teachers and students are seen as purposive agents whose thoughts, plans, perceptions, and
intentions influence their behavior and moderate its effects. The social context in which teaching
and learning take place is considered an important source of explanations for classroom phenome-
na. Much of this research is descriptive rather than prescriptive, and the description depends, in
part: on teachers' and students' reports of their thinking, reasoning, and understanding of a given
situation'.

Het zal duidelijk zijn dat een dergelijke visie op onderzoek een belangrijke aanvulling vormt
op de traditionele vooral Angelsaksische opvatting over 'educational research', waarin de
gerichtheid op uiterlijk waarneembare gedragingen en de reductie van de onderzoekssituatie
met het oog op het waarborgen van de interne validiteit centrale uitgangspunten vormen.
Over elk v^n de drie voornoemde richtingen, willen we nog een beknopte toelichting geven om
dan af te sluiten met een omvattend model van de leerkracht- en leerlingvariabelen binnen het
onderwijsleerproces. Dit model kan o.i. als referentiekader dienen voor verder onderzoek.

De etnografische benadering stamt uit de culturele antropologie en steunt aldus Wilson
(1977) op twee complexe basishypothesen over het menselijk gedrag, m.n. de naturalistisch-
ecologische hypothese en de kwalitatief-fenomenologische hypothese. Beknopt uitgedrukt
komt dit hierop neer. De naturalistisch-ecologische hypothese gaat uit van de gedachte dat het
menselijk gedrag op een complexe manier beïnvloed wordt door de omgeving waarin het zich
voordoet. Daarom is het noodzakelijk dit gedrag te bestuderen in zijn natuurlijke context.
Men streeft dus naar onderzoek met een hoge graad van ecologische validiteit. De kwalitatief-
fenomenologische hypothese stelt voorop dat het menselijk gedrag meer inhoudt en betekent
dat men kan afleiden uit uitwendig observeerbare feiten. Om ten volle door te dringen tot de
betekenis van het gedrag moet men rekening houden met het referentiekader waarbinnen het
subject zijn gevoelens, gedachten en handelingen interpreteert.

Op grond van deze basishypothesen wordt de participerende observatie beschouwd als de
meest aangewezen onderzoekstechniek voor etnografisch onderzoek. Centrale aspecten daar-
in zijn de rechtstreekse observatie van het onderwijsleerproces in de reële situatie en het

stellen van vragen aan en luisteren naar de leerkracht en de leerlingen die in het klasgebeuren
betrokken zijn geweest. Een bezwaar dat steeds weer gemaakt wordt tegen een dergelijke
methode is dat ze behept is met subjectiviteit.

Wilson (1977, p. 258) is het daar echter niet mee eens. Goed opgezette etnografische studies
steunen op een beheerste subjectiviteit, die even diepgaand en objectief is als alle andere
vormen van onderzoek. Dit standpunt steunt op de hiervoor vermelde kwalitatief-fenomeno-
logische hypothese: menselijk handelen bezit meer betekenis, dan uit concrete observeerbare
gegevens als wie, wat, wanneer en waar kan worden afgeleid en zelfs meer dan een individu
door middel van introspectieve technieken aan het licht kan brengen. De etnograaf tracht
precies deze betekenissen te onthullen.

Aan het einde van de jaren zestig werden reeds enige interessante studies van etnografische
aard gepubliceerd. We vernoemen vooral het werk van Jackson (1968) en de studie van Smith
& Geoffrey (1969). Jackson beschrijft in zijn boek Life in classrooms het leven in de
basisschool op grond van veelvuldige observaties en systematische interviews met een 50-tal
leerkrachten. Het onderzoek van Smith & Geoffrey is een zeer uitvoerige studie van één
enkele klas uit een achterbuurtschool van een grootstad. Uit deze onderzoekingen komt naar
voren, dat de klas als omgeving gekenmerkt wordt door mulitidimensionaliteit, gelijktijdig-
heid en onvoorspelbaarheid. Doyle (1977) is tot dezelfde bevindingen gekomen. Onderwijzen
wordt derhalve beïnvloed door de specifieke kenmerken van de omgeving, en is het resultaat
van de interactie van de participanten aan het onderwijsgebeuren met elkaar en met de
omgeving. Copeland (1980) heeft meer bepaald de invloed onderzocht van situationele varia-
belen op de totstandkoming van onderwijsgedrag bij aanstaande leerkrachten. Ook Kounin &
Sherman (1979) hebben in hun onderzoek het belang van de omgeving op het gedrag van
kleuterleidsters en hun jonge kinderen beschreven. In andere studies uit de etnografische
richting wordt expliciet gebruik gemaakt van het symbolisch interactionisme als referentie-
kader voor de uitvoering en de interpretatie van de onderzoekingen. We verwijzen hier vooral
naar het werk van Delamont & Hamilton (1976).

Eisners' (1979; zie ook Deen, 1982) benadering die hij aanduidt als 'educational connoisseur-
ship and criticism' is te zien als een alternatief voor de gebruikelijke aanpak van het evalueren
in het onderwijs. Vertrekpunt was een kritische reflectie op de gangbare evaluatiemethoden in
de Verenigde Staten. Deze methoden zijn voortgekomen uit het klassieke model van 'educa-
tional research', waaraan de methode van de natuurwetenschappen ten grondslag ligt en dat
gericht is op het verwerven van veralgemeenbare wetmatigheden. Het merendeel van deze
werkwijzen beoogt het meten van leerprestaties en is in ruime mate gebaseerd op statistische
en psychometrische principes. Volgens Eisner zijn dergelijke methoden ongetwijfeld waarde-
vol, maar ze vertegenwoordigen slechts één benaderingswijze van het onderwijsgebeuren.
Doordat deze technieken gekarakteriseerd zijn door een sterke reductie van de bestudeerde
fenomenen, brengen ze geen verheldering van de complexiteit van onderwijsleersituaties.
Eisner meent derhalve dat het klasmilieu en de school zoals ze georganiseerd zijn en beleefd
worden door de leerlingen en de leerkrachten, één van de meest verwaarloosde domeinen
uitmaken van het onderwijsonderzoek. Als uitzondering verwijst Eisner naar het reeds ver-
noemde werk van Jackson (1968). Eisner zelf wil bijdragen om de situatie te verhelpen door
het uitbouwen van methoden voor het indringend beschrijven van 'educational settings'. Zijn
bedoeling daarbij is onderwijsmensen helpen om bewust te worden van de complexe processen

die zich in de onderwijspraktijk afspelen. Op basis van een dergelijke bewustwording zullen zij
in staat zijn om didactische situaties adequater te beoordelen en om zich op een meer
gefundeerde wijze over hun eigen didactisch handelen te bezinnen.

De methoden die Eisner op het oog heeft, ontleent hij aan de kunstkritiek, m.n. 'educational
connoisseurship and educational criticism'. Het is wellicht goed er hier op te wijzen dat Eisner
'professor of education and art' is. 'Connoisseurship' kunnen we omschrijven als de bekwaam-
heid tot bewustworden en aanvoelen van de eigenschappen en kwaliteiten van een object of
een gebeuren, gepaard aan inzicht in andere gevallen en waarden waarmee het actuele object
of gebeuren vergeleken kan worden. Een dergelijke deskundigheid is een noodzakelijke
voorwaarde tot 'criticism', opgevat als het onthullen of zichtbaar maken via beschrijving,
interpretatie en evaluatie van van de kwaliteiten van een object of gebeuren, zodat dit gegeven
ook toegankehjk wordt voor anderen die niet dezelfde mate van deskundigheid bezitten.
Eisner (1975, p. 14) stelt het als volgt:

'The critic's task is to provide a vivid rendering so that others might learn to see what transpires in
that beehive of activity called the classroom. What the educational critic employs is a form of
linguistic artistry replete with metaphor, contrast, redundancy, and emphasis that captures more
aspects of the quality and character of educational life'.

Onder Eisners' leiding werden reeds een aantal studies uitgevoerd waarin dergelijke evaluatie-
technieken werden uitgeprobeerd en ontwikkeld. Voor de materiaalverzameling wordt ge-
bruik gemaakt zowel van directe observatie als van video-opnamen. In zijn boek van 1979 The
educational imagination geeft Eisner enige voorbeelden van de indringende, kritische be-
schrijvingen van klassituaties zoals hij die beoogt. We zijn het met Deen (1982, p. 385) eens
dat deze voorbeelden niet zeer overtuigend zijn en dat er nodig aan de op punt stelling van
Eisners methode moet gewerkt worden. Toch menen we dat zijn benadering inspireert tot het
verder exploreren van nieuwe, aanvullende kwalitatieve wegen in het onderzoek van onder-
wijzen in het algemeen en van het evalueren van onderwijs in het bijzonder.
•

De etnografische studies en Eisners' 'connoisseurship and criticism' zijn erop gericht het
complexe klasgebeuren zo volledig en indringend mogelijk te beschrijven wat betreft de
interacties en de processen die er zich in voordoen. De cognitieve procesbenadering is
daartegenover enigszins beperkter van optiek, in die zin dat ze zich in hoofdzaak richt op dc
interne psychologische processen die zich tijdens het onderwijzen voltrekken bij de leerkrach-
ten en die aan dc basis liggen van de onderwijsgedragingen. Deze benadering leunt zeer sterk
aan bij de 'information-processing approach' uit de recente cognitieve psychologie (De Corte,
1980a). Daarin wordt de mens in essentie beschouwd als een informatieverwerker. Deze
algemene benadering wordt ook toegepast op de leerkracht en zijn/haar onderwijsgedrag.
Wanneer we het onderwijzen opvatten als het voorbereiden, uitvoeren en evalueren van
onderwijsleerprocessen, dan kan gesteld worden dat in elk van deze fasen de leerkracht over
een zekere informatie beschikt die hij in zijn geheugen heeft opgeslagen of die vanuit de
omgeving wordt aangevoerd. Deze informatie wordt op een bepaalde wijze verwerkt, d.w.z. er
voltrekken zich bij de leerkracht bepaalde interne, cognitieve processen, zoals het selecteren
en beoordelen van informatie, probleemoplossings- en beslissingsprocessen, enz. Als resultaat
hiervan en tevens parallel hiermee verschijnen er bepaalde uitwendig constateerbare onder-
wijsgedragingen. De cognitieve procesbenadering probeert nu het onderwijzen doorzichtig tc

maken door juist deze psychiselie processen te verhelderen en te beschrijven in hun samen-
hang met het observeerbaar onderwijsgedrag in reële en complexe onderwijssituaties. De
toevoeging van deze laatste zinsnede is erg betekenisvol, omdat ze erop wijst dat men ook hier
ecologisch valied onderzoek op het oog heeft. De cognitieve processen moeten dus bestudeerd
worden in relatie tot de psychologische en ecologische context waarin ze zijn ingebed (Clark,
1979, p. 7). Dit houdt bijv. in dat de mentale handelingen zoals oordelen en beslissen, niet
losstaan van de impliciete opvattingen en naïeve theorieën van de leerkracht over het onder-
wijzen en leren. Verder moet ook rekening gehouden worden met de mogelijkheden en
beperkingen opgelegd door het school- en klasmilieu van de leerkracht. Tenslotte verdienen
ook de z.g. routinegedragingen ven leerkrachten voldoende aandacht in het speurwerk.
Creemers & Westerhof (1982) hebben, evenals Vinger (1979) en Bromme (1982), hieromtrent
onderzoek verricht. Uit de voorliggende resultaten trekken de auteurs de conclusie dat het
plausibel is om aan te nemen dat heel wat onderwijsgedragingen min of meer automatisch
worden uitgevoerd. Hiermee waarschuwen ze tevens tegen een al te overtrokken beeld van de
leerkracht als 'rationeel' handelend.

We willen er hier nogmaals op wijzen dat dit verhelderen van de cognitieve processen tijdens
het onderwijzen van bijzonder belang is niet alleen voor de theorievorming over het onderwij-
zen, maar ook in het perspectief van de opleiding van onderwijsgevenden. Het zou in dit
verband o.m. zeer interessant en nuttig zijn om via contrastieve analyse te achterhalen welke
verschillen er zijn tussen ervaren en beginnende leerkrachten en tussen goede en minder
succesvolle onderwijsgevenden wat hun beslissings-, beoordelings- en probleemoplossings-
processen tijdens het onderwijzen betreft.

De onderzoekstechnieken die in het kader van de cognitieve procesanalyse toegepast worden,
vallen vrijwel samen met deze die in de informatieverwerkingsbenadering in het algemeen
gehanteerd worden, bijv. analyse van lesvoorbereidingsprotocollen, retrospectie, hardop
denken, interview, observatie en registratie van uiterlijk waarneembaar onderwijsgedrag,
ondermeer met behulp van video-opnamen van lessen, dag- of logboekanalyse.
In de tweede helft van de jaren zeventig is in de Verenigde Staten en Europa reeds onderzoek
verricht dat in deze proccsbenadering thuishoort. Daarbij is zowel aandacht besteed aan het
voorbereiden of plannen van onderwijs (Bromme, 1980; Clark & Vinger, 1979,1980; Lowyck,
1979; Peters & Beijaard, 1982), als aan de cognitieve processen tijdens de interactieve fase van
het onderwijzen (Peterson & Clark, 1975; Lowyck, 1979). In enkele studies is ook reeds de
relatie tussen voorbereiding en uitvoering object van onderzoek geweest. (Peterson, Marx &
Clark, 1978; Lowyck, 1979; Peters, Beijaard e.a., 1982). Shavelson & Stern (1981) hebben een
overzicht gegeven van de Amerikaanse onderzoekingen die in het kader van de cognitieve
procesbenadering reeds zijn gedaan. De resultaten wijzen op een sterk verschil tussen de
voorbereidings- en uitvoeringsprocessen. Waar de leerkracht tijdens het plannen frequent
cognitieve processen activeert lijkt het uitvoerend handelen sterker bepaald te worden door
routinegedrag. Door de specifieke situatie van het interactief klasgebeuren, is zelden tijd
voorhanden om uitvoerige rationele processen op gang te brengen. De meeste aandacht gaat
dan ook naar het op gang houden van het lesverloop en van de aandacht van leerlingen.
De verdere ontwikkeling van deze onderzoeksrichting is in die mate belangrijk, dat ze er zou
kunnen toe bijdragen om diverse aspecten van de vorige onderzoekstradities te integreren in
een meer omvattende handelingstheorie van het onderwijzen. Om tot deze integratie te
komen zal het nodig zijn onderzoek op te zetten dat rekening houdt met diverse aspecten van
het zinvol handelen, zoals de doelgerichtheid, de interactie met de omgeving, de interne

processen en het daaraan gekoppeld uitwendig gedrag. De eenheid van analyse moet daarbij
ontleend worden aan betekenisvolle dimensies van het handelen, eerder dan aan een kwantita-
tieve maat (zie ook De Corte, 1982, p. 87 e.v. en Lowyck, 1982, p. 49-51).

3.4. Een model van de leerkracht- en leerlingvariahelen in het onderwijsleerproces
De heroriëntatie van het onderzoek van het onderwijzen kan dus globaal gekarakteriseerd
worden als het streven naar het onderkennen van de kemvariabelen van het onderwijzen en
hun onderlinge relaties binnen reële, d.w.z. ecologische vahde onderwijssituaties. Het is nuttig
om als referentiekader voor dergelijk onderzoek te beschikken over een model waarin de
essentiële variabelen, die men op het oog moet houden, in kaart zijn gebracht - zij het dat zo'n
model, dat gebaseerd is op de beschikbare literatuur, als voorlopig beschouwd moet worden.
Voor de opbouw van het model is gesteund op de overzichten van Mitzel (cit. in Gage 1963, p.
119), Biddle (1964, p. 7), Biddle & Adams (1967, p. 100) en Dunkin & Biddle (1974, p. 38).
De daarin voorkomende variabelen werden door ons met de volgende aangevuld: de interne
processen van leerkracht en leeriingen, de effecten van het onderwijzen op de leerkracht en de
diverse terugkoppelingsvariabelen. Deze aanvullingen steunen op de volgende uitgangspun-
ten: (1) de noodzaak om door te dringen naar de onderliggende, interne variabelen van extern
onderwijsgedrag; (2) de wensehjkheid om in het onderzoek de volgende probleemstelling
expliciet te betrekken: welke cognitieve processen en leerhandelingen worden bij de leerlingen
op gang gebracht door de onderwijsactiviteiten van de leerkracht? Het aanpakken van deze
laatste vraag kan o.i. bijdragen tot de integratie van de studie van het leren en het onderzoek
van het onderwijzen. In figuur 3 wordt het voorlopig model weergegeven (Lowyck, 1979,
p. 431).

Als belangrijke kenmerken van het model noemen we: (1) onderwijzen en leren worden op
elkaar betrokken; (2) er wordt aandacht besteed zowel aan de interne processen als aan de
uitwendige gedragingen van leerkracht en leerlingen; (3) het plannings- of voorbereidingsge-
drag van de leerkracht wordt expliciet in het model opgenomen; (4) de effecten van de
onderwijs-, en leeractiviteiten op de onderwijsgevende zelf vormen een component van het
model.

We willen besluiten met een tweetal methodologische beschouwingen die reeds min of meer
expliciet in het voorgaande aan de orde zijn gekomen. In de eerste plaats is het, zoals reeds
gezegd, nodig het onderzoek over onderwijzen te verrichten in zo reëel mogelijke onderwijs-
leersituaties. Het aldus streven naar ecologische validiteit is een noodzakelijke voorwaarde om
de bevindingen van het speurwerk te kunnen veralgemenen naar de concrete klas in de
onderwijspraktijk. Nochtans moet men daarbij tevens oog hebben voor de interne validiteit
van de studies; zo niet dreigt het gevaar dat men resultaten verkrijgt die niet of alvast niet
eenvoudig interpreteerbaar zijn.

In het voorafgaande hebben we de noodzaak onderstreept om door te dringen naar de
onderliggende, interne processen van uitwendig onderwijsgedrag. Daarvoor moeten geschikte
technieken ontwikkeld worden en in dit opzicht valt er nog heel wat te doen. We menen
evenwel dat het nodig is ook het externe onderwijsgedrag te blijven registreren en meten.
Immers, pas op grond van de gegevens over beide soorten variabelen, de interne en externe,
kan een zo volledig mogelijk beeld van het onderwijzen tot stand komen. Deze stellingname
houdt meteen een pleidooi in voor het gebruiken van diverse types van onderzoekstechnieken.
In dit opzicht zijn we van oordeel dat discussies tussen voor- en tegenstanders van bepaalde
onderzoeksmethoden (bijv. interactie-analyse, etnografische technieken, retrospectie, enz.)

veelal erg steriel zijn. Het meest beloftevolle standpunt ligt in een breedspectmm-visie (De
Corte, 1979, p. 212); deze opvatting komt erop neer dat diverse types van onderzoeks-opzet en
alle researchtechnieken die relevante infomiatie over het onderwijs- en leergedrag kunnen
opleveren, aan bod kunnen komen.

Anderson, H.H. Domination and socially integrative behavior. In R. Barker, J.S. Kounin & H.F. Wright

(Eds), Child behavior and development. New York: McGraw-Hill, 1943, p. 459-483.
Anderson, R.C. Learning in discussions: a resumé of the authoritarian - democratic studies. Harvard

Educational Review, 1959,29,20-215.
Biddle, B.J. The integration of teacher effectiveness research. In B.J. Biddle & W.J. Ellena (Eds.),
Contemporary research on teacher effectiveness. New York: Holt Rinehart & Winston, 1964, p. 1-40.
Bidde, B.J. & Adams, R.S. Teacher behavior in the classroom context. In L. Siegel (Ed.), Instruction,

some contemporary viewpoints. San Francisco: Chandler, 1967, p. 99-136.
Bloom, B.S. Learning for mastery. Evaluation Comment. 1968, / (2), 1-12.
Bloom, B.S. Time and learning. American Psychologist, 1974,29,682-688.

Bromme, R. Die alltägliche Unterrichtsvorbereitung von Mathematiklehrern. Unterrichtswissenschaft,
1980,8, 142-156.

Bromme, R. How to analyze routines in teachers' thinking processes during lesson planning. Bielefeld:

Institut für Didaktik der Mathematik der Universität Bielefeld, 1982.
Brophy, J.E. &Good,T.L. Teacher-student relationships. New York: Holt, Rinehart & Winston, 1974.
Carroll, J.B. A model of school learning. Teachers College Record. 1963,64,724-733.
Clark, C.M. Five faces of research on teaching (Occasional paper, no. 24). East Lansing: Institute for

Research on Teaching, Michigan State University, 1979.
Clark, C.M. & Yinger, R.J. Three studies on teacher planning (Research Series, no. 55). East Lansing:

Institute for Research on Teaching, Michigan State University, 1979.
Clark, C.M. & Yinger, R.J. The hidden world of leaching: implications for research on teacher planning
(Research Series, no. 77). East Lansing: Institute for Research on Teaching, Michigan State Univer-
sity, 1980.

Copeland, W.D. Teaching-learning behaviors and the demands of the classroom environment. The

Elementary SchoolJournal, 1980,50, 163-177.
Creemers, B.P. & Westerhof, K.J. Onderzoek naar routines in het leerkrachtengedrag. In R. Halkes &
W.J. Nijhof (Eds.), Planning van onderwijzen. (Bijdragen tot de Onderwijsresearchdagen 1982,4.).
Lisse: Swets & Zeitlinger, 1982, p. 23-33.
Cronbach, L.J. The two disciplines of scientific psychology. American Psychologist, 1957,12.671-684.
Cronbach, L.J. & Snow, R.E. Aptitudes and instructional methods. A handbook for research on

interactions. New York: Irvington, 1977.
De Corte, E. Objecten, doelen en methodologie van de onderwijspsychologie. Tijdschrift voor Onder-
wijsresearch, 1979,4,209-218.
De Corte, E. Cognitieve psychologie en onderzoek van onderwijsleerprocessen in de Verenigde Staten.
In Gedrag, dynamische relatie en betekeniswereld. Liber Amicorum prof. Dr. J. (R.) Nuttin. Leuven:
Universitaire Pers Leuven, 1980, p. 255-283. (a)
De Corte, E. Onderwijskunde en lerarenopleiding. Pedagogische Studiën, 1980,57, 149-161. (b)
De Corte, E. Het speurwerk over het plangedrag van leerkrachten onder de loep. In R. Halkes &. W.J.
Nijhof (Eds), Planning van onderwijs. (Bijdragen tot de Onderwijsresearcïidagen 1982, 4). Lisse:
Swets & Zeiriinger, 1982, p. 77-91.
Deen, H. Onderwijskundige verbeeldingskracht. Elliot Eisners bijdrage tot de önderwijskunde. Pedago-
gische Studiën, 1982,59,387-396.
Delamont, S. & Hamilton, D. Classroom research: a critique and a new approach. In M. Stubbs & S.

Delamont (Eds), Explorations in classroom observation. New York: Wiley, 1976, p. 3-20.
Domas, S.J. & Tiedeman, D.V. Teacher competence: an annotated bibliography. Journal of Experimen-
tal Education, 1950,19,101-218.
Doyle, W. Learning the classroom environment: an ecological analysis. Journal of Teacher Education,
1977,25,51-55.

Doyle, W. Paradigms for research on teacher effectiveness. In L.S. Shulman (Ed.), Review of research on
teachings. Itasca, 111.: Peacock, 1978, p. 163-198.

Dunkin, M.J & Biddle, B.J. The study of teaching. New York: Holt, Rinehart & Winston, 1974.

Eisner, E.W. Applying educational connoisseurship and criticism to educational settings. A proposal to
the Spencer Foundation. Stanford: Stanford University, School of Education, 1975.

Eisner, E.W. The educational imagination. On the design and evaluation of school programs New
York: MacMillan, 1979.

Fisher, C.W., Berliner, D.C. e.a. Teaching and learning in the elementary school: a summary of the
Beginning Teacher Evaluation Study. (Technical Report Series, Report VII-1). San Francisco: Far
West Laboratory for Educational Research and Development, 1978.

Fisher, C.W., Filby, N.N. e.a. Teaching behaviors, academic learning time and student achievement:
final report of phase IH-B, Beginning Teacher Evaluation Study. (Technical Report V-1). Washing-
ton, D.C.: National Institute of Education, 1978.

Flanders, N.A. Teachers influence, pupil attitudes, and achievement. (Cooperative Research Mono-
graph, nr. 12). Washington, D.C.: U.S. Department of Health, Education and Welfare, Office of
Education, 1965.

Gage, N.L. (Ed.). Handbook of research on teaching. Chicago: Rand McNally, 1963.

Gage, N.L. The scientific basis of the art of teaching. New York: Teachers College Press, 1978.

Glass, G.V. Primary, secondary, and meta-analysis of research. Educational Researcher, 1976, 5 (10),
3-8.

Getzels, J.W. & Jackson, P.W. The teacher's personality and characteristics. In N.L. Gage (Ed.),
Handbook of research on teaching. Chicago: Rand McNally, 1963, p. 506-582.

Harnischfeger, A. & Wiley, D.E. The teaching-learning process in elementary schools: a synoptic view.
Curriculum Inquiry, 1976,6 5-43.

Jones, G.A. & Romberg, T.A. Three 'time on task' studies and their implications for teaching and
teacher education. (Project paper 79-6). Madison: Wisconsin Research and Development Center for
Individualized Schooling, University of Wisconsin, 1979.

Kounin, J.S. & Sherman, L.W. School environments as behavior settings. Theory into Practice, 1979,18,
145-151.

Lippitt, R. & White, K. The 'social climate' of children's groups. In R. Barker, J.S. Kounin & H.F.
Wright (Eds), Child behavior and development. New York: McGraw-Hill, 1943, p. 485-508.

Lowyck, J. Procesanalyse van het onderwijsgedrag. Pedagogische Studiën, 1979,56,427-446.

Lowyck, J., Proces-produktstudies als basis voor de uitbouw van onderwijsvaardigheden. Pedagogisch
Tijdschrift, 1980,5, 152-165.

Lowyck, J., Dc relevantie van het onderzoek van onderwijzen voor de praxis van de lerarenopleiding,
resp. begeleiding. In VULON, Begeleiding van aanslaande en beginnende leraren. Verslag congres
11, 12 en 13 februari 1981. Utrecht: Rijksuniversiteit, 1981, p. 76-103.

Lowyck, J. Het plannen van onderwijzen: een handelingstheoretische benadering. In P. Halkes & W.J.
Nijhof (Eds), Planning van ondem'ijzen. (Bijdragen tot de Onderwijsresearchdagen 1982,4.) Lisse:
Swets & Zeitlinger, 1982, p. 49-63.

Peters, J., Beijaard, D., e.a. Onderzoek naar voorbereiding en uitvoering van leerkrachten. Naar een
handelingstheorie van het onderwijzen. Groningen: Vakgroep Onderwijskunde R.U. Groningen,
1982.

Peterson, P.L., Marx, R.W. & Clark, C.M. Teacher planning, teacher behavior, and student achieve-
ment./lOTf/'(can£'t/Mca//o«a/V?t'Jfarc/iyo«rna/, 1978, /5,417-432.

Peterson, P.L., Braverman, M.T., Swing, S.R. & Buss, R. Students' aptitudes and their reports of
cognitive processes during instruction. Paper presented at the annual meeting of the American
Educational Research Association, Los Angeles, April 1981.

Peterson, P.L. & Clark, C.M. Teachers' reports of their cognitive processes during teaching. American
Educational Research Journal, 1978,15,555-565.

Peterson, P.L., Merx, R.W. & Clark, C.M. Teacher planning, teacher behavior, and student achieve-
ment. American Educational Research Journal, 1978,15,417-432.

Rosenshine, B. & Furst, N. The use of direct observation to study teaching. In R.M.W. Travers (Ed.),
Second handbook of research on teaching. Chicago: Rand McNally, 1973, p. 122-183.

Ryans, D.G. Characteristics of teachers. Their description, comparison and appraisal: a critical study.
Washington, American Council on Education, 1970.

Shavelson, R. & Stem, P. Research on teacher's pedagogical thoughts, judgments, decisions, and
behavior. Review of educational Research, 1981,5/, 455-498.

Simon, A. & Boyer, E.G. (Eds), Mirrors for behavior: an anthology of classroom observation instru-
ments. Philadelphia: Research for Better Schools, 1970.

Smith, L.M. & Geoffrey, W. The complexities of an urban classroom. An analysis toward a general
theory of teaching. New York: Holt, Rinehont & Windston, 1969.

Snow, R.E. Research on aptitudes for learning: a progress report. In L.S. Shulman (Ed.), Review of
research in education4. Itasca, III.: Peacock, 1977, p. 50-105.

Snow, R.E. Theory and method for research on aptitude processes. Intelligence, 1978,2,225-278.

Snow, R.E., Aptitude processes. In R.E. Snow, P.A. Federico & W.A. Montague (Eds.) Aptitudes,
learning, and instruction. Volume I: Cognitive process analyses of aptitudes. Hillsdale, N.J.:
Erlbaum, 1980, p. 28-63.

Tausch, R. & Tausch, A. Erziehungspsychologie. Psychologische Vorgänge in Erziehung und Unter-
richt. Göttingen: Verlag für Psychologie, 1963.

Van de Griend, P.C. Leiderschapsvormen in de schoolklas. (Empirische Studies over Onderwijs, nr. 14.)
Groningen, Wolters-Noordhoff, 1964.

Veenman, S.A.M. Training op basis van interaktie-analyse. Een onderzoek naar het effect hiervan op de
flexibiliteit van het verbaal lesgedrag van onderwijzers en op het klimaat van hun klas. Tilburg:
Zwijsen, 1975.

Veenman, S.A.M. De 'Beginning Teacher Evaluation Study'. Pedagogische Studiën, 1980,57,207-217;
273-287.

Wilson, S. The use of ethnographic techniques in educational research. Review of Educational Research,
mi, 47,245-265.

Winne, P.H. & Marx, R.W. Matching students' cognitive processes and teacher skills to enhance
learning from teaching. (Proposal submitted to and funded by the National Institute of Education.)
Bumaby, B.C., Canada: Simon Fraser University, 1979.

De bijdrage van De Corte en Lowycli draagt een veelbelovende titel. Wordt die belofte
ingelost?

Na een uiteraard niet uitputtend en selectief overzicht van onderzoek van onderwijzen komen
zij aan de hand van een model tot een voorstel voor onderzoek vanuit wat door De Corte
(1979) een 'breedspectrum-visie' is genoemd. Op dat model en op de daarmee verbonden
theoretische optie zullen deze kanttekeningen vooral ingaan.

In aansluiting bij Clark verdelen zij in hun overzicht de benaderingen in het onderzoek in
kwantitatieve en kwalitatieve. (Waarom ook Eisner's boek The educational imagination, dat
herinnert aan de onbekommerde dagen van Highet's The Art of Teaching, tot het wetenschap-
pelijk 'kwalitatief onderzoek wordt gerekend, vermag ik niet in te zien). Clark moet gemeend
hebben dat deze indeling qua formulering niet zo gelukkig was, want in een paper dat hij
presenteerde voor de American Association of Colleges for Teacher Education (1983) en in
een grotendeels gelijkluidend paper voor het RION-congres over De kwaliteit van het onder-
wijs (1983), welk laatste ik van commentaar mocht voorzien, spreekt hij van twee paradigma's:
het 'teacher effectiveness'-paradigma, dat gebruik maakt van correlationele en quasi-experi-
mentele designs en dat procedurele kennis verschaft, en het paradigma van 'propositional
knowledge', d.i. conceptuele kennis over hoe onderwijsgevenden denken als zij plannen en
beslissingen nemen in voorbereiding en uitvoering van onderwijs. De laatste vorm van re-
search maakt vooral gebruik van reflectie en zelfreportage door onderwijsgevenden.
In zekere zin vormt deze laatste soort research een aanvulling op het research-schema van
Mitzel en het daarvan afgeleide model van Dunkin en Biddle, dat De Corte en Lowyck als bron
van hun model vermelden. Dunkin & Biddle's model bevat als proccs-produktmodel, behalve
de directe en lange-termijneffecten bij de leerlingen als produktvariabelen (afhankelijke
variabelen), als onmiddellijke onafhankelijke variabelen de (onderwijsleer) procesvariabelen
en als onafhankelijke variabelen van de tweede orde de contextvariabelen en de voorspellende
variabelen van vorming, training en eigenschappen van de onderwijsgevenden. In het model
van Mitzel en ook in dat van Dunkin & Biddle betreffen de procesvariabelen slechts observeer-
bare processen in de klasse-situatie. Bij Clark gaat het ook om interne processen bij de
onderwijsgevenden, die omdat zij niet observeerbaar zijn door genoemde methoden moeten
worden opgespoord.

De Corte en Lowyck voegen er in hun variant van dit model ook nog de interne processen bij
de leeriingen aan toe. De feedbackloop die zij ook zeggen toe te voegen zat al in het
oorspronkelijke model van Mitzel, althans zoals het wordt weergegeven door Gage (1963,
p. 119). Zij breiden hun model zo uit 'om diverse aspecten van de vorige onderzoekstradities te
integreren in een meer omvattende handelingstheorie van het onderwijzen'. De vraag is of zij
daarin geslaagd zijn.

Het is uiteraard van belang zoveel mogelijk informatie uit onderzoek beschikbaar te krijgen
door convergentie van verschillende onderzoeksmethoden. Het teacher effectiveness-onder-
zoek volgens het model van Dunkin & Biddle kan een hulp zijn bij hypothesetoetsend
onderzoek. Van de 'causale' pijlen in hun model zeggen zij: 'Each arrow is but a source of
hypotheses and not a symbol of invariant truth' (Dunkin & Biddle, p. 37).
Los daarvan en daamaast kan men exploratief onderzoek doen, of zoals Clark het uitdrukke-
hjk noemt 'descriptief onderzoek. Dat behoort niet tot hetzelfde, maar tot een ander paradig-
ma. Wel kan men de paradigma's als complementair beschouwen, aldus Clark in aansluiting bij
Jackson. Dat geldt dan voor het onderzoek van de interne processen die het onderwijsgedrag
beïnvloeden ('teacher-thinking'). De kennis van observeerbare kenmerken van het onderwijs-
leerproces kan daardoor aangevuld worden. Onderwijsgevenden kunnen toelichten waarom
hun onderwijsgedrag dat bepaalde effecten op leerlingen heeft was zoals het was. In die zin is
dat onderzoek complementair.

Overigens is het zeer de vraag of het onderwijsgedrag wel in ruime mate door rationele
processen gestuurd wordt. De Corte en Lowyck zelf verwijzen, evenals Clark, naar bevindin-
gen van Shavelson & Stem e.a. dat het uitvoerend handelen in het onderwijs sterk bepaald
wordt door routinegedrag dat zich al vroeger in het jaar heeft gevestigd. Dat onderstreept nog
eens het belang van het observeerbaar onderwijsgedrag op de leerlingeffecten.
Het incorporeren van het onderzoek naar de interne processen van de leerlingen in het model
maakt het nog complexer en minder inzichtehjk.

Ten behoeve van diagnostisch onderwijs is het uiteraard van belang inzicht te verwerven in de
leerprocessen van leerlingen, in het bijzonder wanneer deze processen niet in de gewenste
richting verlopen. Normaliter zal onderwijsgedrag er echter op gericht zijn leerlinggedrag zo te
sturen dat het regelmatig behalen van goede resultaten slechts een gevolg kan zijn van
adequaat verlopende leerprocessen. De training van onderwijsgevenden als tweede-orde
variabele dient daarop te zijn ingesteld.

Slechts wanneer en voorzover leerhngen na gegeven onderwijs falen heeft het zin zich in het
bijzonder in het verloop van die interne processen te verdiepen. Blijkbaar zijn de normale
voorwaarden voor het onderwijsgedrag dan in onvoldoende mate aanwezig. In die zin is zulk
onderzoek dan weer complementair.

Wanneer de titel van het artikel van De Corte en Lowyck slechts beoogt te signaleren dat z.g.
kwalitatief onderzoek complementair is aan kwantitatief onderzoek, dan sluit dat aan bij een
trend die de laatste tijd weer te bespeuren valt, met name in cognitivistische benaderingswijzen
die daarmee teruggrijpen op vóór-behavioristische paradigmata, en in zoverre is er dan sprake
van een heroriëntatie.

Dunkin & Biddle stellen ten aanzien van hun op Mitzel gebaseerde model dat het er een is 'that
will enable us to organize the findings of research on teaching' (p. 36).
De Corte en Lowyck schijnen een veel verder strekkende theoretische pretentie te hebben,
zodat bij het realiteitsgehalte van hun model in dit stadium van ontwikkeling van het onder-
wijskundig onderzoek vraagtekens te plaatsen zijn. Afgezien van de complexiteit en het tekort
aan samenhang van hun additief uitgebreide model doet zich immers het probleem voor dat
researchbevindingen ten aanzien van interne processen die onderwijsgedrag en leergedrag

zouden induceren nog in geringe mate aanwezig zijn en nog weinig overtuigend zijn, zeker
vergeleken bij de grote menigte, overigens ook niet volledig overtuigende, teacher effecti-
veness-studies.

De Corte en Lowyck geven op p. 19 toe dat er nog maar weinig studies voorhanden zijn. Een
grote bijdrage tot een meer omvattende handelingstheorie moet men er mijns inziens nog niet
van verwachten. In zoverre wordt de belofte van de titel niet ingelost. Voorlopig zullen nog
heel wat microstudies nodig zijn alvorens wij aan een omvattende theorie van het onderwijzen
toe zijn.

Maar de auteurs achten 'kwalitatieve' benaderingen als de hunne nog om een andere reden van
belang, namelijk 'vanuit het standpunt van de opleiding van onderwijsgevenden. Immers,
optimalisering van het onderwijsgedrag van leerkrachten door training zal ons inziens het
meest efficiënt kunnen gebeuren via beïnvloeding van de onderliggende variabelen van het
uitwendig gedrag' (p. 251).

Deze niet beargumenteerde stelling impliceert dat onderliggende procesvariabelen het uit-
wendig gedrag sturen. Maar in het voorafgaande is al door hen zelf gesignaleerd dat dit gedrag
vaak routinegedrag is en juist niet stoelt op rationele processen.

Het zou van belang kunnen zijn te onderzoeken vanaf wanneer en hoe dit routinegedrag tot
stand komt en of dit met name gerelateerd is aan problemen waarvoor onderwijsgevenden in
het onderwijsproces acuut een oplossing moeten vinden.

Tenslotte verbaast mij de verbinding die door de auteurs wordt gelegd tussen de onderzoeks-
technieken van de cognitieve procesanalyse, vrijwel samenvallend volgens hen 'met deze die in
de informatieverwerkingsbenadering in het algemeen gehanteerd worden' (p. 255) en 'een
meer omvattende handelingstheorie', een theoretische optie die van andere oorsprong is dan
de 'information processing approach' en die daarmee, ondanks overeenkomsten, niet vereen-
zelvigd kan worden.

Mijn conclusie kan geen andere zijn dan dat mijns inziens de bijdrage van De Corte en Lowyck
minder geeft dan deze schijnt te beloven, maar wel aandacht vraagt voor benaderingen die de
laatste tijd, vooral door de groep rondom Clark en Yinger, in het onderzoek van het onder-
wijzen de belangstelling opeisen. Als zodanig vormt deze zoals blijkt een bijdrage tot de
discussie.

Clark, C.M. Research on teacher planning: An inventory of the knowledge base. Paper presented to the

American Association of Colleges for Teacher Education, Detroit, Michigan, February 23,1983.
Clark, C.M. Teachers and the Quality of Education. Paper presented to the Congres of the Quality of

Education, Groningen, The Netherlands, March 29, 1983.
De Corte, E. Objecten, doelen en methodologie van de onderwijspsychologie. Tijdschrift voor Onder-
wijsresearch. 1979,-^,209-218.
Dunkin, M.J. & Biddle, B.J. The study of teaching. New York: Rinehart & Winston, 1974.
Gage, N.L. Paradigms for research on teaching. In N.L. Gage (Ed.), Handbook of research on teaching.
Chicago: Rand McNally, 1963,94-141.

Elke poging tot een beschrijving van actuele tendenzen tegen de achtergrond van voorafgaan-
de tradities is van meet af aan gekleurd door de positie die de schrijvers ten opzichte van het
onderzoek van het onderwijzen innemen. Wie het werk van De Corte en Lowyck volgt, weet
dat beide een sterke affiniteit hebben met het plannings- en lesuitvoeringsonderzoek van
leraren. Ook al spreken zij in het artikel van 'cognitieve procesbenadering', in feite bedoelen
ze het plannings- en lesvoorbereidingsonderzoek dat de laatste tijd sterk in de mode is
gekomen. Dit kan men afleiden uit het feit dat zij de beschrijving van het onderzoek van het
onderwijzen in hoge mate laten steunen op een artikel van Clark (1979), een bekend promotor
en onderzoeker van het plannings- en lesuitvoeringsgedrag, zoals dat wordt uitgevoerd aan het
Institute for Research on Teaching te Michigan. Ook de voorbeelden die gegeven worden van
de cognitieve procesbenadering zijn afkomstig uit dit soort onderzoek. Derhalve zal ik ge-
makshalve de cognitieve procesbenadering voortaan aanduiden met planningsonderzoek.
Omdat ik zelf meer affiniteit heb met het proces-product paradigma, maar dan uitgebreid met
kenmerken van het mediërend-proces en het ecologisch paradigma (vergl. Doyle, 1977; Gage,
1978) en leertijd-onderzoek, zou ik de geschiedenis van en de actuele thema's in het onderzoek
van het onderwijzen anders ingekleurd hebben. In tegenstelling tot De Corte & Lowyck zou ik
juist wijzen op de consistente en bruikbare resultaten van dit onderzoek (vgl. o.a. Gage, 1978;
Good, 1979; Brophy, 1979; Medley, 1982), en ze niet afdoen met de kwalificatie 'onbevre-
digend'. Ook zou ik wijzen op de consistente resultaten van het leertijd-onderzoek (vgl. o.a.
Borg, 1980; Walberg & Frederick, 1982). Deze resultaten hebben inmiddels een toepassings-
terrein gekregen in studies naar 'effectieve scholen', (vgl. Mackenzie, 1983). In ons land
hebben ze g.a. hun weg gevonden in het Leeromgevingsonderzoek van de T.H Twente. Met
deze voorbeelden wil ik alleen maar aangeven dat ieder op eigen wijze de geschiedenis van het
onderwijzen interpreteert en die tendenzen en heroriëntaties waarneemt die passen bij het
eigen denk- en interpretatiekader.

Met deze relativering voor ogen wil ik enkele aanvullingen voorstellen. Het gaat hierbij om
richtingen in het onderzoek van het onderwijzen die mijns inziens toch genoemd hadden
moeten worden.

1. Omdat de beschrijving van De Corte & Lowyck voornamelijk steunt op de interpretaties
van Clark, wordt alleen aandacht geschonken aan Amerikaanse stromingen. Zo worden de
ontwikkehngen in de Engelse onderwijssociologie in een woord afgedaan met de typering
'symbolisch interactionisme' zonder in te gaan op de bevindingen, de pluriformiteit en de
waarde van deze stroming (zie o.a. Woods, 1980). Ook vindt geen vermelding het werk van
de Zweed Lundgren (zie o.a. Lundgren & Petterson, 1979). Dit is jammer omdat beide
richtingen het handelen van leraren in de klas in verband trachten te brengen met factoren
op schoolniveau, met maatschappelijk bepaalde begrenzingen, en met in de maatschappij
dominante normen en waarden.

2. Een andere actuele richting die in de context van het onderzoek van het onderwijzen steeds
meer belangstelling krijgt, is de 'cognitive-developmental theory'. Ten onzent heeft deze

richting nog nauwelijks aandacht gekregen. Ik besteed hieraan wat meer ruünte omdat deze
richting zicht probeert te geven op de vraag hoe toekomstig onderzoek er uit zou moeten
zien en de beperktheid van het planningsondeizoek laat uitkomen.
De 'cognitieve ontwikkelingsbenadering' gaat uit van de leraar als een lerende volwassen
persoon. Zij is gebaseerd op de theorieën en het begrippenapparaat van de cognitieve
ontwikkeling waarbij uitgegaan wordt van de gedachte dat menselijke ontwikkeling het
resultaat is van veranderingen in cognitieve structuren. De kwaliteit van de interne me-
diërende cognitieve processen is afhankelijk van de leeftijd en de ontwikkelingsfase waarin
iemand verkeert. De benadering van de cognitieve ontwikkeling steunt op de theorieën en
het gedachtengoed van: Piaget m.b.t. ego-ontwikkeling, Kohlberg m.b.t. morele besluit-
vorming, Loevinger m.b.t. ego ontwikkeling, Hunt m.b.t. conceptuele ontwikkeling en
Perry m.b.t. epistemologische en ethische ontwikkeling. Deze theorieën postuleren een
bepaalde ontwikkelingsvolgorde (fasen of stadia) in cognitieve structuren. Deze ontwikke-
lingsvolgorde voltrekt zich in een invariante, hiërarchische volgorde van minder complex
naar meer complex.

ontwikkelingsvolgorde voltrekt zich in een invariante, hiërarchische volgorde van minder
complex naar meer complex.

Een overzicht van het werk vanuit het perspectief van ontwikkeling kan men vinden bij
Sprinthall & Thies-Sprinthall (1983). Zij tonen op grond van studies samenhangen tussen
ontwikkelingsfasen en gedrag aan: personen in hogere ontwikkelingsfasen vertonen een
meer complex functioneren, zij bezitten een breder gedragsrepertoire aan vaardigheden,
zij bezien problemen vanuit een breder perspectief en reageren meer passend en invoelend
op de behoeften van anderen. Studies over leraren ondersteunen deze bevindingen. Onder-
zoek inzake effectief onderwijzen laat zien dat leraren op hogere cognitieve ontwikkelings-
niveaus in de klas beter functioneren, meer flexibel zijn, meer bestand zijn tegen stress, zich
gemakkelijker kunnen aanpassen, veelzijdiger zijn in het hanteren van gezichtspunten en
een groter aantal onderwijsstrategieën benutten dan leraren op lagere cognitieve ontwikke-
lingsniveaus (Glassberg & Sprinthall, 1983; Sprinthall & Thies-Sprinthall, 1983).
Vanuit de gedachte dat leraren op hogere niveaus van ontwikkeling meer effectief zijn in
het omgaan en leiden van klassen, zijn speciale onderwijsprogramma's ontworpen om een
dergelijke groei in ontwikkeling te stimuleren (Glassberg, 1979; Oja, 1981). Glassberg's
studie over beginnende leraren laat zien dat leraren op lagere niveaus van ego-ontwikkeling
zichzelf zagen als defensief en niet in staat tot het succesvol motiveren van leerlingen. Zij
stelden de schoolleiding primair verantwoordelijk voor hun ordeprobleem in de klas.
Beginnende leraren op hogere niveaus van ego-ontwikkeling benadrukten het belang van
respect, flexibel, tolerant en invoelend zijn, de noodzaak om met individuele verschillen
tussen leerlingen rekening te houden, en de wens om deze leerlingen te begeleiden op hun
leerweg (Glassberg, 1980).

Uit deze studie blijkt dat beginnende leraren op verschillende niveaus van ontwikkeling
anders tegen het onderwijs aankijken, met andere woorden verschillen in niveaus bewerk-
stelligen verschillen in denken, percepties en gedragingen. (Tot dusverre ontbreken nog
studies waarin het verband onderzocht wordt tussen niveaus van ontwikkeling en de
leerresultaten van de leerlingen. Maar dit tekort geldt, zover mijn kennis reikt, ook voor het
onderzoek naar planningsgedrag van leraren.)

De cognitieve ontwikkelingstheorieën trachten veranderingen in personen te verklaren
vanuit een of ander gewenst eindstadium. Zij geven een beschrijving van veranderingen die

een persoon moet doorlopen om van het ene stadium naar een daaropvolgend meer
'volwassen' stadium te komen. Tevens proberen ze de mechanismen te beschrijven waar-
langs deze veranderingen zich voltrekken. De theoretisch gehanteerde begrippen geven
mogeUjkheden om verschillen tussen individuele leraren te verklaren, en om aan te geven
waarom zekere leraren op een bepaald ontwikkelingsniveau zo denken, plannen, voelen en
handelen. Ook bieden ze een raamwerk voor opleiders en nascholers. Nauwkeurige be-
schrijving van veranderingen bieden mogelijkheden om leraren te categoriseren met be-
trekking tot hoe ze in de diverse ontwikkelingsstadia denken en over welke capaciteiten ze
wel of niet beschikken. Deze indeling kan nuttig zijn voor het ontwerpen van opleidings- en
nascholingsprogramma's. Op deze wijze kan worden voorkomen dat men leraren tracht
deskundigheden of vaardigheden aan te Ieren waar ze, gezien hun momentele fase van
ontwikkeling, nog niet aan toe zijn. (Bijvoorbeeld, het aanbieden van theoretische didac-
tische concepten aan beginnende leraren terwijl die slechts bedacht zijn op het overleven
van de eerste confrontatie met de harde onderwijswerkelijkheid. Verg. Fuller & Bown,
1975.)

Ook heeft dit onderzoek in de context van effectief onderwijzen een veel sterkere optimali-
seringsbasis dan het onderzoek rondom het planningsgedrag van leraren. Wanneer men,
zoals tijdens de Onderwijsresearchdagen 1983, aan planningsonderzoekers vraagt wat de
praktische relevantie van hun onderzoek is of hoe hun onderzoek bijdraagt aan de optimali-
sering van het onderwijs, dan blijken ze grote moeite te hebben daar een bevredigend
antwoord op te geven. Veelal komt men niet verder dan de constatering dat het een
bijdrage levert aan het kritisch leren reflecteren van leraren over hun plan- en lesuitvoe-
ringsgedrag (verg. De Corte, 1982; Floden & Feiman, 1981). De cognitieve ontwikkeHngs-
theorieën bieden, hoe men daar dan ook over denken mag, een visie op effectief onder-
wijzen en aanknopingspunten voor de optimalisering van het onderwijsgedrag. Onderzoek
naar planningsgedrag heeft tot dusverre voomameUjk aandacht gehad voor: 'What is
happening here and why?' (vergl. Clark, 1979; Halkes, 1982). In een reflectie op de weg die
het toekomstig onderwijsonderzoek dient te gaan merkt Ebel (1982) aangaande het onder-
wijsproces op: 'It is not in need of research to find out how it works. It is in need of creative
invention to make it work better'. Toekomstig onderzoek dient zich volgens Ebel, en ik sluit
me daarbij aan, sterk te richten op het ontwikkelen van theoretisch gefundeerde en
empirisch beproefde procedures, technieken, materialen e.d. die bijdragen aan de oplos-
sing van concrete onderwijsproblemen ('operational research').

3. Bovengenoemde richting van de cognitieve ontwikkelingstheorieën en de schets van De
Corte & Lowyck is voomameUjk van psychologische aard. Het actuele functioneren van de
school als sociaal systeem krijgt in het onderzoek van het onderwijzen eveneens aandacht.
Gewezen kan worden op het onderzoek met betrekking tot 'effective schools' (Bickei,
1983), en met betrekking tot de school als werkplaats (Goodlad, 1983). Bevindingen van
het onderzoek van het onderwijzen worden hier geïntegreerd in dimensies als: leiderschap,
doelmatigheid, efficiëntie, kwaliteit van het werk.

1. Waarom de 'educational connoisseurship and criticism' van Eisner als een belangrijke
hedendaagse stroming en heroriëntatie wordt opgenomen is me niet geheel duidelijk. Ik
heb nu drie jaar op rij studenten tijdens het vervullen van een onderwijsopdracht een week
een klasse-situatie laten observeren om deze te beschrijven, te interpreteren en te evalue-

ren (dit zijn de fasen in het doen van een onderwijskundige kritiek). Toegegeven, een week
is tekort, maar de opgedane ervaringen hebben vragen opgeroepen of deze methode kan
leiden tot systematische, generaliseerbare en overdraagbare kennis. De onderwijskundige
kritiek steunt op het artistieke paradigma, en maakt in hoge mate gebruik van literaire
stijlvormen en taaluitingen. 'The end of criticism is the reeducation of the perception of the
work of art', aldus Eisner (1979, p. 191) die hierbij Dewey aanhaalt. De voorbeelden die ik
ken van het werk van Eisner en zijn leerlingen zijn literaire pogingen om het onderwijs-
gebeuren uit te beelden, het zijn 'impressionistische schilderijen'. Een groot deel van de
belangstelling voor het werk van Eisner is te verklaren, niet allen vanwege zijn te waarderen
poging andere vormen van kennen en weten dan alleen de wetenschappelijke te benadruk-
ken, maar ook door het literaire talent van Eisner zelf Zijn methode verbleekt in de
handen van anderen. Tijdens de werkconferenties die Eisner in 1980 voor de Landelijke
Stichting Beeldende Vorming verzorgde, werd 'educational connoisseurship and educa-
tional criticism' vertaald als 'onderwijskundig meesterschap en onderwijskundige kritiek'.
Een goede vertaling dunkt mij. Het gaat om meesterschap en vakmanschap om onderwijs
in literaire vormen te schilderen. En Eisner bezit dit vakmanschap.
Een moeilijkheid bij de onderwijskundige kritiek is dat geen duidelijk onderscheid wordt
gemaakt tussen 'feiten' en persoonlijke 'waarden' of 'appreciaties'. Deze lopen voort-
durend door elkaar heen. Hierdoor ontstaat de indruk dat het gaat om het afleggen van
persoonlijke getuigenissen. Een strakke canon voor het verrichten van onderwijskundige
kritiek ontbreekt.

2. Ook is me niet duidelijk hoe het gepresenteerde model een nuttig referentiekader kan
bieden voor toekomstig onderzoek inzake onderwijzen. Het model heeft één groot gebrek:
het voldoet niet aan de eisen van theoretische spaarzaamheid en praktische bruikbaarheid.
De auteurs presenteren een model met meer dan 100 'essentiële variabelen, die men op het
oog moet houden'. Het model suggereert slechts dat alles met alles samenhangt, maar hoe
het kan dienen als leidraad voor toekomstig onderzoek wordt niet aangegeven. Ik vraag me
af wat dit model meer te bieden heeft dan Walberg's (spaarzaam) onderwijsproduktie-
model. Dit model impliceert dat het leren op school en in de klas een multiplicatieve functie
met afnemende schaalopbrengsten is van vier essentiële factoren (de bekwaamheden en de
motivatie van de leeriing, en de kwaliteit en de kwantiteit van de instructie of het onder-
wijzen), en van vier mogelijk aanvullende of ondersteunende factoren (de sociaal-psycho-
logische omgeving van de klas, de stimulerende werking van het huisgezin en van klasge-
noten (peer group), en de invloed van de massa-media). Deze acht constructen zijn
verenigbaar met een achttal theorieën en modellen met betrekking tot het leren in de klas:
Carroll, Cooley & Leinhardt, Bloom, Harnischfeger & Wiley, Bennett, Gagné, Glaser en
Bruner (Haertel, Walberg & Weinstein, 1983). Al deze modellen presenteren belangrijke,
spaarzame variabelen die belangrijk zijn voor het onderzoek van het onderwijzen en de
effecten van het onderwijzen. Waarom steeds nieuwe modellen ontwerpen? Laten we reeds
beproefde en bruikbare modellen eerst verder verfijnen.

3. Volgens de auteurs moet bij het onderzoek van het onderwijzen gestreefd worden naar
ecologische validiteit. Accoord. Toch moet me van het hart dat dit begrip het meest
misbruikte en inflatoire begrip aan het worden is. Iedereen neemt het te pas en te onpas in
de mond. Men spreekt van ecologisch valide onderzoek als men proefpersonen van het
moment dat zij opstaan tot het moment dat zij naar bed gaan met onderzoeksvragen over
hun planningsgedrag achtervolgd. Men spreekt van ecologisch valide onderzoek als men

leerlingen uit de klas haalt en ze via microcomputers opdrachten laat verrichten om
uitspraken te kunnen doen over hun leerprocessen in de klas. Het neerschrijven van het
woord 'ecologische validiteit' maakt een onderzoek nog niet 'ecologisch valide'.

Noot De schrijvers wijzen op de nuttigheid van een 'constrastieve analyse' om te achterhalen welke
verschillen er zijn tussen ervaren en beginnende leraren wat betreft hun beslissings-, beoordelings-
en probleemoplossingsprocessen tijdens het onderwijzen. Een dergelijke studie vindt men bij
Fogartyet al. (1982).

Bickei, W. (Ed.). Effective schools. Educational Researcher, 1983, /2(4), themanummer.

Borg, W.R. Time and school learning. In C. Denham & A. Lieberman (Eds.), Time to learn. Washing-
ton, D.C.: National Institute of Education, 1980.

Brophy, J.E. Advances in teacher effectiveness research. Paper presented at the annual meeting of the
American Association of Colleges of Teachers. Chicago, 1979.

Clark, C.M. Five faces of research on teaching. Michigan State University, The Institute for Research on
Teaching, 1979.

De Corte, E. Het speurwerk over het plangedrag van leerkrachten onder de loep. In R. Halkes & W.J.
Nijhof (Eds.), Planning van onderwijzen. (Onderwijs Research Dagen 1982). Lisse: Swets & Zeit-
linger, 1982, p. 5-12.

Doyle, W. Paradigms for research on teacher effectiveness. In L.S. Shulman {Ed.), Review of Research
in Education 5. Itasca: Peacock, 1977, p. 163-198.

Ebel, R. The future of educational research. Educational Researcher, 1982, //(8), 18-19.

Floden, R.E. & Feiman,S. Should teachers be taught to be taliotxaV! Journal of Education for Teaching,
1981,7,274-283.

Fogarty, J.L., Wang, M.C. & Creek, R. A descriptive study of experienced and novice teachers'
interactive instructional decision processes. Paper presented at the annual meeting of the American
Educational Research Association, New York, 1982. (ERIC Document Reproduction Service No.
ED 216 007).

Fuller, F.F. & Bown, O.H. Becoming a teacher. In K. Ryan (Ed.), Teacher Education. Seventy-fourth
Yearbook of the National Society for the Study of Education. Chicago: University of Chicago Press,
1975, p. 25:52.

Gage, N.L. The scientific basis of the art of teaching. New York: Teachers College Press, 1978.

Glassberg, S. A developmental model for the beginning teacher. In K.R. Howey & R.H. Bents (Eds.),
Toward meeting the needs of the beginning teachers. Lansing, Mich.: Midwest Teacher Corps
Network, 1979, p. 111-138. (ERIC Document Reproduction Service No. ED 206 581).

Glassberg, S. A view of the beginning teacher from a developmental perspective. Paper presented at the
annual meeting of the American Educational Research Association, Boston, 1980.

Glassberg, S. & Sprinthall, N.A. Student teaching: A developmental approach. Journal of Teacher
Education, 1980, i/(2), 31-38.

Good, T.L. Teacher effectiveness in the elementary school. Journal of Teacher Education, 1979, iO(2),
52-64.

Goodlad, J.I. The school as workplace. In G.A. Griffin (Ed.), Staff Development. Eighty-second
Yearbook of the National Society for the Study of Education. Chicago: University of Chicago Press,
1983, p. 36-61.

Haertel, G.D., Walberg, H.J. & Weinstein, T. Psychological models of educational performance: A
theoretical synthesis of constructs. Review of Educational Research, 1983,53,75-91.

Halkes, R. Knelpunten in het onderzoek naar planningsgedrag van leerkrachten. In R. Halkes & W.J.
Nijhof (Eds.), Planning van onderwijzen. (Onderwijs Research Dagen 1982) Lisse: Swets & Zeit-
linger, 1982, p. 5-12.

Lundgren, U.P. & Petterson, S. (Eds.), Code, context and curriculum processes. Lund: Liber Larome-
del, 1979.

Mackenzie, D.E. Research for school improvement: An appraisal of some recent trends. Educational
Researcher, 1983, /2(4), 5-17.

Medley, D.B. Teacher effectiveness. In H.E. Mitzel (Ed.), Encyclopedia of Educational Research (5th
ed.). New York: The Free Press, 1982, p. 1894-1903.

Oja, S.N. Deriving teacher educational objectives from cognitive-developmental theories and applying
them to the practice of teacher education. Paper presented at the annual meeting of the American
Educational Research Association, Los Angeles, 1981.

Sprinthall, N.A. & Thies-Sprinthall, L. The teacher as an adult learner: A cognitive-developmental view.
In G.A. Griffin (Ed.), Staff Development. Eighty-second Yearbook of the National Society for the
Study of Education. Chicago: University of Chicago Press, 1983, p. 13-35.

Walberg, H.J. & Frederick, W.C. Instructional time and leaming. In H.E. Mitzel (Ed.), Encyclopedia of
Educational Research (5th ed.). New York: The Free Press, 1982, p. 917-924.

Woods, P. (Ed.), Teacher strategies: Explorations in the sociology of the school. London: Groom Helm,
1980.

Tegenwoordig kan men twee bijna lijnrecht tegenover elkaar staande opvattingen over het
onderzoek van het onderwijzen in de literatuur aantreffen.

In de ene groep waar zich o.a. Gage (1978), Brophy (1980), Good (1979) en Rosenshine (1982)
bevinden wordt beweerd dat men voldoende inzicht heeft in zowel datgene wat in de onder-
wijsleersituatie door variantie in het leerkrachtengedrag kan worden verklaard, als in de
variabelen die de verschillen in leeriingprestatie kunnen verklaren. Verder wordt gepleit
volgens de cyclus beschrijvend - correlationeel - experimenteel onderzoek voor het opzetten
van een aantal experimenten waarin de leerkrachtvariabelen, die in correlationeel onderzoek
samenhang met de leerresultaten vertoonden, worden geïntroduceerd (zie bijv. Gage en
Giacona, 1981). Van bijzonder belang wordt daarbij geacht de mogelijkheid via meta-analyse
de resultaten van diverse onderzoeken ten aanzien van bepaalde variabelen te combineren en
op grond daarvan tot duidelijker uitspraken te komen. Uit deze meta-analytische studies is
gebleken dat een aantal variabelen meer verklarende waarde had dan in afzonderlijke experi-
menten bleek met nogal eens resultaten van uiteenlopende aard. Een aantal auteurs binnen
deze groep, zoals Rosenshine en Brophy constateren dat er vanuit correlationeel onderzoek
voldoende bekend is omtrent de variabelen die in de onderwijsleersituatie van belang zijn en
pleiten ervoor deze te introduceren in de opleiding van leerkrachten. Overigens is ook dit een
mogelijkheid voor experimenteel onderzoek.

Aan de andere kant wordt beweerd, o.a. door Clark en Yinger (1979), dat vele jaren
onderzoek nauwelijks inzicht heeft gegeven in die variabelen die van belang zijn voor de
optimalisering van de onderwijsleersituatie en dat dat ook niet zou kunnen, omdat men zich te
zeer heeft gericht op de leerkracht als uitvoerder van voorgeschreven onderwijsleersituaties.
Zij vragen dan ook aandacht voor de voorbereiding van het onderwijs door de leerkracht en
voor de cognitieve processen die een rol spelen in de planning en de uitvoering van onderwijs in
schoolklassen. Daarbij wordt de nadmk gelegd op het feit dat de leerkracht degene is die het
onderwijs maakt, dat wil zeggen voorbereidt, uitvoert en erop reflecteert.
De Corte en Lowyck rekenen zich tot deze groep met de stelling dat vele jaren onderwijson-
derzoek nauwelijks inzicht heeft gegeven in die variabelen die wezenlijk van belang zijn in de
vormgeving van de onderwijsleersituatie. Dat lijkt, wanneer men ook de argumenten ziet die
door de twee andere discussianten, Knoers en Veenman, worden aangedragen, een weinig
onderbouwde stellingname. En dat is maar goed ook voor de door henzelf voorgestelde
oplossing, want men zou toch als lezer bijzonder wantrouwend moeten zijn, nadat van alle
voorafgaande ondernemingen geconstateerd is dat zij weinig opleveren. Men kan dan moeilijk
anders concluderen dat ook de voorgestelde oplossing wel niet tot resultaten zal leiden. Wel
degelijk is de afgelopen jaren vooruitgang geboekt op het terrein van het onderzoek van het
onderwijzen binnen de smalle marges van de variantie in leerprestaties welke door de leer-
kracht kan worden verklaard.

In het onderzoek van het onderwijzen wordt tegenwoordig ook aandacht besteed aan factoren
in de onderwijsleersituatie, de inrichting en organisatie van de schoolklas en is het manage-

mentgedrag van de leerkracht in beschouwing genomen. De efficiency en doelgerichtheid van
het onderwijs blijkt door een betere management en organisatie van het onderwijs verhoogd te
worden. De verbetering van het onderwijs op deze wijze wordt door de voorstanders van een
andere benadering van het onderzoek van het onderwijzen van de hand gewezen.
Het lijkt erop dat aan het pleidooi voor de ene of de andere stellingname ten aanzien van het
onderzoek van het onderwijzen, behalve een verschil in inschatting over de resultaten van het
afgesloten onderzoek ook een verschil in opvattingen omtrent datgene wat van belang is in het
onderwijs, ten grondslag ligt. Voor de ene groep zijn dat de cognitieve processen van de
leerkracht die het onderwijs 'maakt', en daarbij vooral de aandacht richt op de kwaliteit van
het leerproces van de leerlingen (zie bijv. het onderzoek van Clark e.a. (1982) naar het
schriftelijk stellen van de leeriingen). Voor de andere groep is dat het instructie- en manage-
mentgedrag van de leerkracht gericht op een vergroting van de leertijd en het bereiken van de
leerdoelen.

Ook al kan men zich aangetrokken voelen tot de opvattingen van Clark, Yinger e.a. in hun
pleidooi voor de kwaliteit van het onderwijs en de belangrijke aspecten die daarin aandacht
moeten krijgen, de empirie hebben zij tegen zich, in die zin dat een kennisbestand op basis van
traditionele kwantitatieve methoden 'indrukwekkend' is, zeker in vergelijking met de resul-
taten van het meer kwalitatief gerichte onderzoek dat tot op heden subjectieve, niet generali-
seerbare aanwijzingen heeft opgeleverd, die soms, en dat is dan nog een geluk, parallel lopen
aan de resultaten van kwantitatief onderzoek. De afzonderlijk geïsoleerde variabelen die in
het verleden in beschouwing moesten worden genomen, kunnen in experimenteel onderzoek
door de verdere ontwikkeling van geavanceerde analyse-technieken in meer complexe model-
len worden onderzocht. Voorbeelden hiervan zijn o.a. modellen van Cooley en Lohnes
(1976), Harnischfeger en Wiley (1976), Clauset en Gaynor (1982). Een voordeel van een
dergelijke modelontwikkeling en het daaraan gerelateerde onderzoek is het feit dat variabelen
toegevoegd kunnen worden die in voorafgaande studies van belang zijn gebleken voor de
verklaring van de verschillen in leerprestaties en dat daarbij de mogelijkheid wordt geboden in
verder onderzoek en theorievorming het model verder te elaboreren (zo is het model van
Clauset en Gaynor weer o.a. op dat van Harnischfeger en Wiley gebaseerd).
Het uiteindelijk gepresenteerde model van Dc Corte en Lowyck bevat een aantal elementen
die ook in deze studies en theorievorming naar voren zijn gekomen waaruit blijkt dat ook al
vertrekt men van een verkeerd uitgangspunt, men uiteindelijk toch wel redelijk goed terecht
kan komen.

Zoals getracht is aan te geven, is het uitgangspunt van De Corte en Lowyck dat er zo weinig
bevredigende onderzoeksresultaten zijn, niet houdbaar. Ook al bevat het model een aantal
elementen die ook in andere meer 'simpele' modellen voorkomen, het model is toch veel te
ingewikkeld, niet economisch en voldoet wat dat betreft niet aan de eisen die men ondanks de
vrijheid van ontwerpen aan theorievorming zou moeten stellen.' Er is weinig reden tot
presentatie van nieuwe modellen, laat staan voor een paradigmawisseling.
Een pleidooi voor een nieuw model of paradigma heeft meer weg van het verschaffen van een
alibi voor het inslaan van eigen wegen dan van het formuleren van vraagstellingen voor

1 De Groot wijst erop dat presentaties, waarin gesteld wordt dat men er niet komt als men niet probeert te
weten te komen 'wat cr eigenlijk gebeurt', met wantrouwen ontvangen moeten worden. Dergelijke
modellen bergen het gevaar in zich dat men in de data verdrinkt, en dat men er uiteindelijk weinig voor de
verbetering van het onderwijs aan overhoudt (persoonlijke mededeling).

onderzoek, niet alleen van anderen i.^aar vooral van de auteur zelf, waarmee de theorie
gevalideerd kan worden en dat toepasbaar is bij de verbetering van het onderwijs. Mocht het
niet lukken een dergelijke theorie te ontwerpen voor het onderwijzen, dan kunnen wij ons
wellicht beter wenden tot onderwerpen waarin wij wel vooruitgang kunnen boeken. Voors-
hands is dit ten aanzien van het onderzoek van het onderwijzen gelukkig nog niet het geval.

Brophy, J. Recent Research on Teaching (Occasional Paper no. 40). East Lasing, Michigan: Institute for

Research on Teaching, Michigan State University, 1980.
Clark, C.M. & Yinger, R.J. The hidden world of teaching: Implications for research on teacher planning
(Research Series no. 77). East Lansing, Michigan: Institute for Research on Teaching, Michigan State
University, 1980.

Clark, C.M. e.a. Understanding writing in school: A descriptive study of writing and its instruction in
two classrooms. (Research Series no. 104). East Lansing, Michigan: Institute for Research on
Teaching, Michigan State University, 1982.
Clauset, K.H. & Gaynor, A.K. A systems perspective on effective schools. Educational Leadership,
1982,40(3), 54-60.

Cooley, W.W. & Lohnes, P.R. Evaluation research in education. New York: Irvington Publishers, 1976.
Gage, N.L. The scientific basis of the art of teaching. New York: Teachers College Press, 1978.
Gage, N.L. & Giaconia, R. Teaching practices and student achievement: Causal connections. New York

University Education Quarterly, 1982, /2(3),2-9.
Good, T.L. Teacher effectiveness in the elementary school. Journal of Teacher Education, 1979,30 (2),
52-64.

Harnischfeger, A & Wiley, D.E. The teaching-learning process in elementary schools: a synoptic view.

Curriculum Inquiry, 1976,6,5-43.
Rosenshine, B. Master teacher and master developer. Paper presented at AERA Annual Meeting, New
York, 1982.

Ratings of grant request in educational research: a psychometric evaluation.
Ratings by 5 committee members of 54 grant requests for educational research were evaluated
through psychometric analysis. The average correlation between the independent judges was
found to be .14 for the final judgments, but ranged between .12 and .29 for separate judgment
categories. The hypothesis, however, that judges give different weights to these categories in
forming their final judgments, was not supported. Characteristics of grant requests, like academic
status and position of the senior investigator, number of pages, and number of references to the
literature, did not predict the fmal ratings and did not differentiate between judges.
Substitution of fmal rating by the sums of the ratings on the categories led to improved convergence
between judges (average r = .21) without introducing systematic discrepancies with the final
scores. Judgments on the separate categories, however, are not mere replications of each other but
show discriminant validity.

Several alternatives for the unsatisfactory rating procedure were discussed and were found un-
suitable, with the possible exception of substituting final and committee judgments by the grand
mean of the judgments on the separate categories.

Onderzoek naar de overeenstemming tussen beoordelaars van subsidie-aanvragen is op z'n
minst schaars. Een tamelijk intensieve literatuur-recherche leverde geen titels over dit onder-
werp op. Wel is er enig empirisch onderzoek over factoren die het oordeel beïnvloeden. Uit
een U.S. National Academy of Sciences onderzoek (zie Sanders, 1982) blijkt dat de National
Science Foundation geen voorkeur aan de dag legt voor aanvragen van oudere en meer
gevestigde onderzoekers. Toia (1974) vindt eveneens dat kenmerken van de aanvrager geen
invloed hebben op subsidietoewijzing, wel echter op succesvolle uitvoering van een program;
er was zelfs een negatief verband tussen beoordelingen vah kwaliteit van aanvrage en van
uitvoering. Spetz (1979) constateert dat de lengte van een aanvraag niet samenhangt met de
kans op honorering ervan. De vraag naar determinanten van oordelen over subsidie-aanvra-
gen zal hier ook aan de orde worden gesteld. Voorop staat echter de vraag naar convergentie
van zulke beoordelingen.

Er zijn minstens twee factoren aan te wijzen die de schaarste aan onderzoek kunnen verklaren.
In de eerste plaats is de gegevensvergaring niet eenvoudig. Laboratoriumonderzoek is bijna
ondoenlijk vanwege de arbeidsintensiteit en ook omdat twijfel zou rijzen aan de serieusheid
van de beoordelaars. Bestaande beoordelingsprocedures echter zullen zelden voldoen aan de
eis dat beoordelingen onafhankelijk worden gegeven en geregistreerd. In de tweede plaats
hebben beoordelingscommissies in het algemeen niet de neiging, gegevens met betrekking tot
het beoordelingsproces aan de grote klok te hangen. Daar moet meteen bij worden gezegd dat
terughoudendheid best op zakelijke grond kan worden verdedigd. Het is bijvoorbeeld de

Adres auteur: Vakgroep Persoonlijkheidspsychologie, Grote Markt 31/32,9712 HV Groningen.

vraag of het betrekkehjk open beleid van SVO wel zo doelmatig is als het meer autoritaire
beleid van ZWO. In de Discussie komen we op dergelijke vragen terug, overigens zonder te
pretenderen het mysterie van de beoordeling (cf. ook Hofstee, 1981, p. 41 ff.) te kunnen
ontrafelen.

Als lid van een beoordelingscommissie die onder voorzitterschap van Prof; dr. A.D. de Groot
en met drs. J. Scheerens als secretaris wèl volgens het boekje te werk ging, was schrijver dezes
in de gelegenheid onderzoek te doen naar de convergentie van onafhankelijk tot stand
gekomen beoordelingen. Het onderzoek werd verricht met medeweten van de commissie-
leden, die geen van allen gebruik maakten van de hun ex art. 2.2. van de van de N.I.P.-
beroepscode geboden gelegenheid, de van hen afkomstige gegevens uit het onderzoek te
verwijderen. Aanvragers en beoordelaars worden hier anoniem behandeld (wie de beoorde-
laars zou willen identificeren, heeft een kans van slagen van 1 op 120).

Het onderzoek werd uitgevoerd op archiefmateriaal, bestaande uit beoordelingen van subsi-
dieaanvragen op het gebied van onderzoek van onderwijs.

Beoordeelde aanvragen. In 1981 en 1982 te zamen werden ongeveer 60 subsidie-aanvragen
behandeld in het kader van de zgn. ANGO-(adviescommissie voor niet-gebonden onderwijs-
kundig onderzoek)procedure. Dit waren al die aanvragen voor onderwijsresearch die bij
ZWO of bij SVO werden ingediend en die niet in een bestaand kader (zoals een SVO-
onderzoeksthemagroep) werden behandeld. De verzameling aanvragen was betrekkelijk he-
terogeen van karakter. Het huidig onderzoek is gebaseerd op 54 subsidie-aanvragen.

Beoordelaars. De beoordelingscommissie bestond uit 5 personen, die in eerste instantie
onafhankelijk van elkaar ieder alle aanvragen beoordeelden. Wanneer een commissielid bij
een aanvraag betrokken was, beoordeelde hij die aanvraag niet. Het eindoordeel van de
commissie werd in onderling overleg vastgesteld (waarbij een lid dat bij een aanvraag betrok-
ken was buitenskamers verbleef).

Beoordelingsvorm. De aanvragen werden beoordeeld op 6 beoordelingscategorieën; voorts
gaf iedere beoordelaar een eindoordeel over de aanvraag. De instructie ten aanzien van de
beoordelingscategorieën luidde als volgt:

1. Volledigheid (VO): nagegaan moet worden of het voorstel alle voor een wetenschappelijk
oordeel nodige elementen bevat, waartoe te rekenen zijn:

- een aanduiding van reeds beschikbare kennis (stand van zaken op,het terrein in kwestie,
literatuur, eigen expertise);

- een aanduiding van de voor uitvoering van het onderzoek vereiste personele en materiële
middelen;

2. Adequaatheid (AD): nagegaan moet worden of deze elementen zodanig gekozen zijn dat
van een adequate opzet sprake is en of deze elementen op een zinvolle wijze in het voorstel
op elkaar zijn afgestemd; en, indien daartoe aanleiding is, dient te worden gespecificeerd
waar en in hoeverre dit niet het geval is.

3. Innoverend karakter (IN): aangegeven moet worden of het onderzoek wel of niet nieuwe
wegen inslaat, op theoretisch of methodologisch gebied, en indien niet, waar dergelijk
onderzoek eerder is gedaan.

4. Maatschappelijke relevantie (MR): aangegeven moet worden of het voorgestelde onder-
zoek maatschappelijke betekenis heeft en of de indiener zich daarover uitspreekt; zo ja,
waarin deze betekenis is gelegen.

5. Wetenschappelijke relevantie (WR): aangegeven moet worden wat het onderzoek in
wetenschappelijke zin waard is en of de onderzoeker zich hierover uitspreekt; hierbij dient
te worden aangegeven waarop dit oordeel berust.

6. Uitvoeringsgaranties (UG): tenslotte moet een oordeel worden gegeven over de vraag
welke garanties er aanwezig lijken te zijn voor een goede uitvoering van het plan (beoorde-
ling op uitvoeringsgaranties); waarbij zowel aan uitspraken omtrent de capaciteiten van de
uitvoerder als aan randvoorwaarden inzake de uitvoeringscontext van het onderzoek
gedacht kan worden.

De beoordelingen werden gegeven op een vijfpunts-schaal. De toelichtingen op de beoorde-
lingen zijn in dit onderzoek niet verwerkt.

Voor dc eindbeoordeling per commissielid, en tevens voor de in overleg vastgestelde commis-
siebeoordeling, werd een driepunts-schaal gebruikt, waarvan de punten als volgt waren
omschreven:

A. De adviescommissie adviseert tot inwilliging van het verzoek, en motiveert haar oordeel
over de kwaliteit van het onderzoek. Een A kan geconditioneerd worden, bijvoorbeeld:
A mits...... of A voor een deel van het project, etc.

B. De adviescommissie heeft twijfel. Zij meent dat de aanvraag in deze vorm of in dit stadium
niet moet worden ingewilligd. Er bestaat echter geen bezwaar tegen dat de onderzoeker:

- na voldaan te hebben aan bepaalde voorwaarden zijn aanvraag bij een volgende
subsidieronde wederom indient.

C. De adviescommissie adviseert de aanvraag af te wijzen. De commissie zou de aanvrager
niet willen laten aanmoedigen zijn aanvraag in een later stadium te herhalen.

Nadere nuanceringen, zoals die behalve bij de A ook wel werden gegeven bij de B en de C
(bijv. C-l- of B-), worden in dit onderzoek buiten beschouwing gelaten.

Kenmerken van aanvragen. De volgende objectief vast te stellen kenmerken van de aanvra-
gen worden in het onderzoek betrokken vanuit de overweging dat ze een (niet noodzakelijk
causaal) verband zouden kunnen vertonen met de beoordelingen:

4. de vraag of een aanvraag van een universitair instituut afkomstig was, waarbij de SVO-
instituten alle als buitenuniversitair werden gerekend.

Alle bewerkingen werden uitgevoerd op (delen van) een gegevensmatrix van 54 aanvragen bij
40 variabelen (6 beoordelingscategorieën plus een eindoordeel voor steeds 5 beoordelaars, een
commissie-oordeel, en 4 kenmerken). De matrix is niet volledig gevuld: beoordelaars die bij
een aanvraag waren betrokken onthielden zich; soms deed een beoordelaar op één of meer
beoordelingscategorieën geen uitspraak; doordat sommige aanvragen in een laat stadium
werden rondgestuurd, kwamen beoordelingen niet meer afzonderlijk in het archief terecht.
Voor geen variabele was echter het percentage ontbrekende gegevens groter dan 20%; het
over-all percentage is 10. Alle berekeningen werden uitgevoerd zonder interpolatie, dus
slechts over de aanwezige gegevens.

Schaalgedrag. Eerst werd nagegaan inhoeverre de beoordelaars de verschillende schalen
hneair interpreteren. Gewerkt werd op basis van de algemene principes van de canonical
scaling (zie bijv. Gifi, 1981) waarbij aan schaalpunten van twee variabelen een zodanig gewicht
wordt toegekend dat de correlatie tussen die twee variabelen wordt gemaximaliseerd. Van-
wege de beperktheid van het aantal observaties echter werd gekozen voor een variant waarbij
één van beide variabelen lineair wordt gescoord. Per beoordelaar en per beoordelingscatego-
rie werd dus de regressie van de (lineair gescoorde) eindoordelen op de beoordelingscatego-
rieën, èn de regressie van de (lineair gescoorde) beoordelingscategorieën op de eindoordelen
in kaart gebracht.

De resultaten van deze prealabele analyse zijn niet van dien aard, dat ze een lineaire interpre-
tatie van de schalen in de weg staan. Behoudens enkele uitzonderingen, die op rekening van
het toeval kunnen worden geschreven, waren de regressies monotoon. Weliswaar vielen er
systematische afwijkingen van lineariteit te bespeuren: bij de beoordelingscategorieën blijkt
dat de beoordelaars weinig consequenties (ten aanzien van hun eindoordeel) verbinden aan
het verschil tussen 'goed' en 'zeer goed'; bij het eindoordeel blijkt dat het verschil tussen C en B
kleiner is dan dat tussen B en A. De robuustheid van het lineair model staat er echter borg
voor dat verdere resultaten niet kunnen worden verklaard uit de schendingen van dat model -
gegeven de monotoniciteit van de regressies.

Convergentie. De correlaties tussen de eindscores van de vijf beoordelaars staan vermeld in
Tabel 1. Hoewel beoordelaars B en C, en beoordelaars A en E het onderling nog redelijk eens
zijn, is de gemiddelde correlatie van . 14 min of meer schokkend (deze voorspelling kan worden
getoetst door aan terzake geëngageerden die niet van deze resultaten op de hoogte zijn, te
vragen de gemiddelde correlatie te voorspellen, en ze vervolgens met dit resultaat te confron-
teren).

Als de waarde van .14 wordt gesubstitueerd in de Spearman-Brown-formule, en afgezien
wordt van verschillen tussen standaarddeviaties van de eindbeoordelingen (die standaard-
deviaties variëren tussen .73 en .88), dan kan de betrouwbaarheid van de gesommeerde
eindbeoordelingen worden geschat op .45. Daarbij moet wel worden bedacht dat deze som-
beoordeling niet hetzelfde is als het (in overleg tot stand gekomen) oordeel van de commissie
als geheel: sombeoordeling en commissie-oordeel correleren onderling .81. De waarde van .45
geeft echter een indicatie voor het antwoord op de vraag: 'stel dat de aanvragen ook nog door
een parallelle commissie waren beoordeeld; wat zou dan de correlatie tussen de beide commis-
sie-oordelen zijn?'

Nog de meest optimistische conclusie die men zou kunnen trekken, heeft betrekking op de
validiteit van het commissie-oordeel. Als men bij gebrek aan andere criteria bereid zou zijn,
het gemiddeld oordeel van alle denkbare deskundigen als criterium te accepteren, en bereid
zou zijn de onderhavige commissie te zien als een random sample uit de verzameling van die
deskundigen, zou de validiteit van het commissie-oordeel tegen dat criterium moeten worden
geschat op V-^S = .67.

Bezien we vervolgens de convergentie tussen beoordelaars op de afzonderlijke beoordelings-
categorieën, dan valt op dat die convergentie hoger is dan bij het eindoordeel.

Correlaties tussen de vijf beoordelaars van de scores op de zes beoordelingscategorieën.

Tabel 2 geeft de resultaten. Voor een toch schijnbaar moeilijk te beoordelen categorie als
INnoverend karakter is de gemiddelde correlatie tussen beoordelaars .29, en alleen bij
Uitvoerings-Garanties is de convergentie lager (.12) dan bij de eindbeoordelingen.

Tot stand komen van het eindoordeel. Gezien de grotere convergentie tussen beoordelings-
categorieën dan tussen eindoordelen ligt het vermoeden voor de hand dat de verschillende
beoordelaars aan de categorieën verschillende gewichten zouden hebben toegekend bij het
vormen van een eindoordeel. Tabel 3 echter geeft aan dat vermoeden weinig steun.

In Tabel 3 zijn de correlaties per beoordelaar tussen de scores op de beoordelingscategorieën
VO t/m UG en eigen eindoordeel geschreven als afwijking van rij- en kolomgemiddelde, zodat
een dubbel-gecentreerde matrix ontstaat. De correlatie bijvoorbeeld tussen WR en eindoor-
deel voor beoordelaar C is .54 (totaalgemiddelde) + .01 (kolomafwijking) -I- .03 (rijafwijking)
- .07 (celafwijking) = .51. De gemiddelde correlatie tussen beoordelingscategorie en eigen
eindbeoordeling is hoog (.54), en de afwijkingen t.o.v. die waarde zijn gering. Het is dus niet
zo dat het gebrek aan overeenstemming tussen de eindbeoordelingen te wijten zou zijn aan
systematische verschillen in beoordelingsstrategie. Te meer niet omdat binnen een beoor-
delaar de correlaties tussen de categorieën aanzienhjk waren (voor een samenvatting zie Tabel
6 verderop); waar dat het geval is, maakt het weinig verschil of een beoordelaar aan de ene of
de andere categorie meer gewicht toekent.

Een ander vermoeden dat kan rijzen, is dat de beoordelaars elk voor zich zouden worden
beïnvloed door bepaalde kenmerken van een aanvraag, zoals wetenschappelijke status van de
aanvrager, aantal bladzijden die de aanvraag telt, aantal literatuurverwijzingen, en de vraag of
een aanvraag van binnen of buiten een universiteit komt. Tabel 4 geeft de (lineaire) verban-
den. Hoewel sommige correlaties wel suggestief zijn, kan gezien het aantal observaties in de
buurt van 50 deze tabel het best als nul-matrix worden geïnterpreteerd. Het is wel verwonder-
lijk dat hoogleraren er niet in slagen, hun aanvragen hoger gewaardeerd te krijgen dan die van
doctorandussen. De Commissie kan in ieder geval geen discriminatie ten laste worden gelegd.

Substitutie van de eindscore. De grotere convergentie van de scores op de afzonderlijlte
beoordelingscategorieën kan leiden tot nog een andere gedachtengang. Stel dat het eindoor-
deel zou worden vervangen door de (ongewogen) som van de categorie-scores, dan zouden die
somscorcs wel eens een verbeterde versie van de eindscores kunnen zijn.
Tabel 5 geeft de correlaties tussen de somscores van de beoordelaars. De gemiddelde correla-
tie is nu .21 (versus .14); de betrouwbaarheid van de gesommeerde somoordelen zou .58
bedragen (versus .45), en de 'validiteit' .76 (versus .67). De somscores convergeren inderdaad
beter dan de eindscores.

Een voor de hand liggende tegenwerping is echter dat de somscores best iets systematisch
anders zouden kunnen meten dan de eindscores, zodat het niet verantwoord zou zijn, de
somscore voor de eindscore te substitueren. Deze tegenwerping kan op redelijk bevredigende
wijze worden weerlegd. De gemiddelde correlatie tussen de eindscores is .14, tussen de
somscores .21; onder de assumptie dat de somscores een betrouwbaarder substituut van de
eindscores zijn, zou men tussen de eindscore van de ene en de somscore van de andere
beoordelaar een correlatie verwachten gelijk aan het geometrisch gemiddelde van deze waar-
den, dus .17. Welnu, het gemiddelde van de 20 betreffende correlaties is exact .17. Er is dus
geen grond voor de vrees dat de somscores iets anders meten. Somscore en eindscore correle-
ren binnen een beoordelaar ook hoog: tussen .75 (beoordelaar D) en .87 (beoordelaar C).

Discriminante validiteit van beoordelingscategorieën. De uitkomsten tot hier toe doen
denken aan beschouwingen van Schmidt et al. (1981) over criteriumconstructie. Men moet niet
denken, aldus deze auteurs, dat verschillende categorieën van personeelsbeoordeling (pro-
duktiviteit, vakkennis, sociabiliteit, enz.) ook echt iets verschillends meten:

... the only function of multiple criterion scales is to increase the reliability of the composite (overall)
criterion measure. That is, replication of judgments on essentially the same dimension leads to increased
reliability in the same way that use of multiple judges or longer tests does (p. 175/6).

Overgebracht op het huidige onderzoek: de oordelen op de afzonderlijke categorieën zijn
weliswaar niet louter resultaat van halo, in de zin dat de eindbeoordeling de enige determinant
is van de scores die de beoordelaar toekent op de categorieën; immers, als dat zo was, zou dc
somscore geen meerwaarde hebben vertoond ten opzichte van de eindscore. Maar men zou
zich, in de geest van Schmidt et al., kunnen voorstellen dat iedere aparte beoordelingscatego-
rie de beoordelaar ertoe aanzet om de aanvraag in z'n geheel te beoordelen, zonder dat het wat
uitmaakt of dit gebeurt vanuit de ene of de andere optiek (beoordelingscategorie).
Deze veronderstelling, vertaald in klassieke terminologie, komt erop neer dat de beoorde-
lingscategorieën geen convergente en discriminante validiteit vertonen. Dat blijkt echter niet
geheel juist te zijn.

Tabel 6 vat de multitrait-multimethod-analyse samen, waarbij de beoordelingscategorieën de
traits vormen en de beoordelaars de methods. Op de diagonaal staat voor een bepaalde
beoordelaar het gemiddelde van de 15 correlaties tussen de 6 beoordelingscategorieën binnen
die beoordelaar (heterocategorie-monobeoordelaar-correlatie); boven de diagonaal staat
voor een bepaalde combinatie van beoordelaars het gemiddelde van de 30 correlaties tussen
oordelen van de ene beoordelaar op de ene categorie en de andere beoordelaar op een andere
categorie (heterocategorie-heterobeoordelaar-correlaties); en beneden de diagonaal staat
voor een bepaalde combinatie van beoordelaars het gemiddelde van de 6 correlaties tussen hun
oordelen op dezelfde categorie (monocategorie-heterobeoordelaar-correlatie). Weliswaar
zijn de diagonaalwaarden telkens het hoogst, met beoordelaar E als enige uitzondering, wat
wil zeggen dat de beoordelaar (method) de belangrijkste bron van oordeelsvariantie is. Alle
beneden-diagonaalwaarden zijn echter hoger dan de overeenkomstige boven-diagonaalwaar-
den, wat inhoudt dat de beoordelingscategorieën enige convergente en discriminante validiteit
vertonen. Ze zijn dus niet zo verwisselbaar als de beschouwing van Schmidt et al. zou doen
verwachten.

De indruk die rijst omtrent het beoordelingsproces is ongeveer de volgende: alvorens hun
oordelen op de afzonderlijke categorieën te geven, vormen de beoordelaars een globaal
oordeel over de aanvraag. Dit oordeel is voor het grootste deel idiosyncratisch en berust op
andere kenmerken van de aanvraag dan die welke hier werden geregistreerd (status van de
aanvrager, e.d.); voor een klein deel is het intersubjectief. Deze globale waardering bepaalt
grotendeels het oordeel op de afzonderlijke categorieën, maar niet helemaal: de categorieën
richten de aandacht op onderscheidbare aspecten van de aanvraag die met een wat hogere
graad van intersubjectiviteit kunnen worden beoordeeld. Deze aspecten zijn ook relevant voor
het eigen eindoordeel, maar de beoordelaar verdisconteert ze niet optimaal, zodat het eind-
oordeel een onbetrouwbare versie wordt van het somoordeel dat hij zou hebben kunnen
vormen door eenvoudig de scores op de categorieën te middelen.

De commissiescore. In zijn jaarlijkse vergaderingen stelde de Commissie een commissie-
advies vast. Deze commissie-score correleert weliswaar .81 met de ongewogen som van de
eindscores van de beoordelaars, maar kwam niet op die manier tot stand: er werd, in sommige
gevallen heftig, gediscussieerd. Tabel 7 geeft de correlaties tussen de individuele eindscore en
somscores enerzijds en de commissiescore anderzijds.

Voor de vergelijking zijn ook de correlaties van deze 'predictoren' met de som van de
eindscores en met de som van de somscores vermeld, twee variabelen die als subsituut voor de
commissiescore in aanmerking zouden komen.

De individuele somscores (S) blijken ongeveer even hoog met de commissiescore te correleren
als de individuele eindscores (E), ondanks het feit dat deze laatste als startpunt fungeerden bij
de totstandkoming van de commissiescore. Deze bevinding onderstreept de eerder geformu-
leerde stelling omtrent de vervangbaarheid van de eindscore. Bij de totstandkoming van de
commissiescore is de bijdrage van beoordelaars D en E blijkbaar gering geweest; dit ondanks
het feit dat hun eindscores wel behoorlijk met de Som van de eindscores correleren, hetgeen
inhoudt dat ze zich beter in het eindadvies zouden hebben herkend als er eenvoudig gemiddeld
in plaats van gediscussieerd was. Volgens de taxatie van schrijver dezes is er een positieve,
hoewel niet perfecte, samenhang tussen bijdrage tot het comissie-oordeel en status of gezag
van het commissielid.

Wie als beoordelaar in vergelijkbare situaties heeft verkeerd, zal geneigd zijn de lage conver-
gentie tussen beoordelaars zoals hier aangetroffen, aan bijzondere omstandigheden te wijten.
Immers, beoordelingscommissies plegen te bestaan uit heren (en bij hoge uitzondering een
enkele dame) die het snel eens worden. Als bijzondere omstandigheden zullen dan kunnen
worden genoemd: het feit dat de commissie niet monodisciplinair was samengesteld (een
socioloog, een didaxoloog, een taalkundige, en twee psychologen), en dat de onderzoeksaan-
vragen een al even breed terrein vertegenwoordigden, plus eventueel het feit dat door de grote
hoeveelheid aanvragen er wellicht minder tijd per aanvraag werd geïnvesteerd dan anders het
geval zou zijn.

Tegen zulke pogingen tot wegverklaren moet uitdrukkelijk worden gewaarschuwd. Tijdens de
marathonzittingen van de Commissie overheerste bij schrijver dezes, als participant, het zelfde
gevoel van collegialiteit en consensus dat de basis vormt voor het ongeloof in onderzoeksresul-
taten zoals hier gepresenteerd. Slechts in een klein aantal gevallen had een commissielid er
moeite mee als het commissie-advies radicaal tegengesteld aan zijn eindoordeel uitpakte.
Verreweg het voornaamste verschil tussen deze en andere commissies was dat het individueel
eindoordeel vooraf op schrift werd gesteld, zodat hier kon worden nagegaan hoe groot de

initiële meningsverschillen feitelijk waren. Indmkken, afkomstig uit beoordelingssituaties
waarin niet zowel onafhankelijk werd beoordeeld als ook uitdmkkelijk werd geregistreerd,
zijn misschien interessant als object van psychologisch onderzoek, maar volstrekt waardeloos
uit oogpunt van evaluatie.

Mijn voorspelhng luidt dan ook dat, ongeacht bijzondere omstandigheden, in alle commissies
die onderzoeksaanvragen beoordelen, de feitelijke (niet de subjectief ervaren) overeenstem-
ming laag zal zijn, d.i. in 9 van de 10 gevallen in de orde van .00 tot .30, fluctuaties als gevolg
van kleine steekproefgrootte daargelaten. De bayesiaans geschoolde lezer zal kunnen consta-
teren dat deze voorspelling mede gebaseerd is op apriori-verwachtingen.
Wat voor consequenties zou men uit deze voorspelling moeten trekken, als men hem onder-
schreef? In de eerste plaats zou men kunnen denken aan uitbreiding van het aantal beoorde-
laars, volgens beproefd psychometrisch recept. Die oplossing is natuurlijk niet gratis. Men zou
met enig recht kunnen zeggen dat naarmate er intensiever wordt beoordeeld, er minder geld
overblijft om aanvragen te honoreren. Uitbreiding van het aantal beoordelaars is voorts
onderhevig aan de wet van de verminderde meeropbrengst. En beslissingen over aanvragen
zijn weliswaar gewichtig, maar nu ook weer niet zó gewichtig. Misschien zou kosten-baten-
analyse wel uitwijzen dat er in de hier besproken situatie (waar sommige aanvragen eerst
'formatief, dan 'summatief worden beoordeeld door een onderzoeksassociatie, vervolgens
door de ANGO-commissie, en tot slot ook nog een keer door ZWO) al meer wordt beoordeeld
dan wenselijk zou zijn.

Een tweede mogelijkheid zou zijn, de rol van de menselijke beoordelaar te minimaliseren. Eén
variant zou zijn loting of een wachtlijst; dit is echter niet een situatie waarin die oplossing naar
verwachting zou stroken met het rechtsgevoel van de betrokkenen. Bovendien zou hij binnen
de kortste keer tot onzinnige consequenties leiden, nl. tot het indienen van onzinnige aan-
vragen. In het hier bestudeerde materiaal kwamen onzinnige aanvragen slechts sporadisch
voor (in de zin dat ze unaniem door de Commissie als zodanig werden bestempeld). Uit
preventief oogpunt zou er dus in ieder geval screening vooraf moeten plaatsvinden. Een
tweede variant, die meer aandacht verdient, zou zijn een beoordeling op objectief constateer-
bare kenmerken.

Ongetwijfejd zijn er voor alle aspecten waarop subsidieaanvragen kunnen worden beoordeeld,
operationalisaties in de vorm van objectieve indicatoren te vinden die zulke aspecten gedeelte-
lijk dekken. Een duidehjk voorbeeld is Uitvoeringsgaranties, waarover de beoordelaars in dit
onderzoek zo'n schrijnend gebrek aan overeenstemming vertoonden. Men zou daarvoor
allerlei indicatoren kunnen bedenken: hoe vaak heeft de aanvrager eerder subsidie gehad,
heeft dat in de daarvoor gestelde tijd publicaties opgeleverd waarnaar door anderen wordt
verwezen, zijn er in Nederland personen die op dit gebied een beter record hebben, is de
samenstelling van het team adequaat, wat zijn de qualificaties van de uitvoerend onderzoeker,
enz. enz. Zou het niet rechtvaardiger zijn, een aanvraag op zulke indicatoren te beoordelen?
Waarschijnlijk wel. Het probleem is echter dat er een spanning kan gaan ontstaan tussen
rechtvaardigheid en doelmatigheid. Wie eenmaal aan het bureaucratiseren slaat, zal daar tot in
het oneindige mee door moeten gaan. Operationaliseringen zijn nooh volledig dekkend en
adekwaat. Steeds weer zal met kracht van argumenten kunnen worden aangetoond dat de
verzameling indicatoren incompleet, verkeerd gewogen en derhalve onrechtvaardig is. Een
andere bedreiging voor de doelmatigheid is gelegen in het feit dat de rationele actor, in casu de
aanvrager, het eigen gedrag zal afstellen op het systeem, in plaats van de achteriiggende
bedoelingen. En aangezien het systeem nimmer in staat zal zijn, perfect uitdmkking te geven

aan de bedoelingen, zal het gedrag van de actor een zekere mate van ritualisering ondergaan.
Zolang daarentegen de actoren zouden leven in het geloof dat de deskundige beoordelaars in
hun wijsheid en onfeilbaarheid de beste aanvragen selecteren, zou de doelmatigheid het best
zijn gediend. Ook al zou in feite de beoordeling feilbaar zijn, de aanvragers zouden zich tot het
uiterste inspannen om zo goed mogelijke produkten te leveren. Deze agogische functie van de
beoordeling is ongetwijfeld veel belangrijker dan de selecterende.

Helaas heeft het hier gepubliceerde onderzoek voornamelijk als consequentie dat aan de
geloofwaardigheid van de illustere beoordelaars afbreuk wordt gedaan. Louter uit doelmatig-
heidsoverwegingen zou zulk onderzoek dan ook verboden moeten worden. Een wat serieuze-
re, en dus minder rechtlijnige aanbeveling is echter dat aanvragers tijdens het opstellen van de
aanvraag alle twijfel aan de beoordelaar opzij zetten (er is per slot reden om aan te nemen dat
betere aanvragen meer kans maken te worden gesubsidieerd), en zich pas wanneer die
aanvraag onverhoopt zou zijn afgewezen, herinneren hoe feilbaar de beoordeling is; dat de
beoordelaars, in het besef van hun feilbaarheid, hun best blijven doen om zo zuiver mogelijk te
oordelen; en dat een midden wordt gezocht tussen een al te subjectieve en globale, en een al te
bureaucratische en gefutiliseerde beoordelingsprocedure.

Wat het laatste betreft geeft dit onderzoek concrete aanwijzingen. Als aanvragen, zoals
gebruikelijk, op een stuk of zes aspecten worden beoordeeld, kan het globale eindoordeel
beter worden vervangen door de ongewogen som van de beoordelingen op die afzonderlijke
categorieën. Dit ondanks het feit dat er in commissies op zulke categorieën pleegt te worden
gescholden - ze zijn te vaag, of juist te concreet, ze dekken niet het begrip 'kwaliteit van de
aanvraag', enz. Het blijkt dat de beoordelaar handig genoeg is om het eindoordeel te laten
doorklinken in dc categoriebeoordelingen, zodat er niets verloren gaat; daarnaast hebben de
categorieën een klein stukje toegevoegde waarde boven het globale eindoordeel.
Er zijn wel radicalere oplossingen denkbaar. Men zou het beoordelen van een aanvraag
kunnen opvatten als het doen van een voorspelling omtrent de opbrengst van het onderzoek,
dus de nieuwswaarde ervan. In de huidige onderzoeksideologische verhoudingen zou die
opvatting een paradox creëren, aangezien onderzoekers geacht worden enig idee te hebben
wat ze zullen vinden (het ideaal van de geldgever zou zelfs zijn dat de resultaten al bekend
waren), en naarmate dat idee beter gefundeerd is, en de aanvraag subsidiabeler, is de
nieuwswaarde per defmitie geringer. Een elegante oplossing zou zijn, de nieuwswaarde te
definiëren aan de mate van verschil in verwachting omtrent de resultaten tussen terzake
betrokkenen, terzake deskundigen. Als eerste zouden voor subsidie in aanmerking komen die
aanvragen, die door twee of meer strijdende partijen, elk van voldoende reputatie, gezamen-
lijk zouden worden ingediend. Aanvragen die daaraan niet voldoen, zouden slechts in ogen-
schouw worden genomen als de indiener kan documenteren dat er een gevestigde verwachting
zou bestaan omtrent de resultaten, en tevens voorspelt dat de resultaten anders zullen zijn dan
die verwachting wil.

Het grootste bezwaar tegen deze oplossing is wellicht dat er geld zou overblijven.

Hofstee, W.K.B. Psychologische uitspraken over personen. Deventer: Van Loghum, 1981 (tweede
druk).

Sanders, H.J. Peer review: How well is it working? Chemical and Engineering News, 1982,60,32-43.

Schmidt, F.L., Hunter, J.E. & Pearlman, K. Task differences as moderators of aptitude test validity in
selection: A red herring. Journal of Applied Psychology, 1981,66,166-185.

Spetz, S.H. Quantity vs. quality in research proposals: An empirical justification for limiting the length of
USOE grant applications. Conserva, Inc., Raleigh, N.C. 1979.

Toia, P.L. A study of four factors related to grant development and program implementation: A
delinquency example. Dissertation Abstracts International, 1974.

Van wijsgerige naar theoretische pedagogiek. Over de taken van de theoretische pedagogiek bij onder-
zoek naar vroegkinderlijke opvoeding, door M.H. van IJzendoorn.
Geïntegreerd cijferen volgens progressieve schematisering, door A. Treffers.
Onderwijspsychologie en werkwoorddidactiek: effecten van een leergang (1), door E.M.H. Assink.
Kroniek: Het PME (Psychology of Mathematics Education) Congres Antwerpen 1982, door F.J. van den
Brink en L. Streefland.

Intrinsieke motivatie en studieprestatie: enkele verkennende onderzoekingen, door H.G. Schmidt.
Onderwijspsychologie en werkwoordsdidactiek: effecten van een leergang (II), door E.M.H. Assink.
Kronieken: Kinder- en jeugdliteratuur in Pedagogisch Perspectief, door R. Bauer-van Wechem.
De kwaliteit van het onderwijs, door P. Vedder.

Hans Knip heeft een inspirerend proefschrift geschreven. Hij laat op een realistische manier zijn licht
schijnen over de organisatorische realiteit van sociale akademies. Maar vooral maakt hij recente organisa-
tietheoretische noties toegankelijk. Het geïntegreerde en doelgerichte karakter van onderwijsinstellingen
wordt daarin niet zo vanzelfsprekend geaccepteerd.

De differentiatie-integratie theorie van Lawrence en Lorsch (verder L en L) vormt het startpunt voor de
studie. Deze theorie is gebaseerd op de gedachte dat de beste manier va n organiseren afhangt van de eisen
en omstandigheden in de omgeving waar de organisatie (of afdeling van een organisatie) mee te maken
heeft, de z.g. kontingentiebenadering. L en L zien een organisatie als een geheel, opgebouwd uit ee aantal
afdelingen (productie, verkoop, onderzoek, ontwikkeling) die elk gericht zijn op hun eigen omgeving-
sectoren buiten de organisatie. Daardoor gaan die afdelingen onderling verschillen vertonen (differen-
tiatie). Deze verschillen hebben konsekwenties voorde samenwerking binnen de organisatie (integratie).
Knip gebruikte deze theorie, ontwikkeld in het bedrijfsleven, in een onderzoek van sociale akademies
waarin twee thema's aan de orde zijn gesteld:

I. De relaties tussen studierichtingen in ee sociale akademie en de beroepspraktijken (als een verbizon-
dering van de relatie organisatie en omgeving).

Hij blijft evenwel met een aantal vragen zitten; de theorie van L cn L is niet toereikend om deze te
beantwoorden. Daarom introduceert Knip recentere theoretische noties en probeert aan de hand daarvan
de vragen te verhelderen. Zijn studie heeft daarmee 'een zowel theorie-evaluerend als theorievormend
karakter'.

Het boek bestaat uit drie delen. Deel I gaat over het eerste thema (opleidingsprakijk en beroepspraktijk)
met veel aandacht voor de kontingentietheorie. Deel II gaat over de integratie tussen de studierichtingen
vooral in verband met de systeembenadering die de achtergrond vormt van de theorie van L en L. In deel
III wordt de studie op een overzichtelijke manier samengevat.

Deel I bestaat uit drie hoofdstukken. In het eerste hoofdstuk doet hij verslag van de resultaten van
verschillende case-studies in sociale akademies, waarbij de theorie van L en L gebruikt is. In de sociale
akademies bestaan duidelijke verschillen tus.sen de studierichtingen, zoals kultureel werk cn perso-
neelswerk. De beroepspraktijken waarvoor de studierichtingen opleiden, de omgevingen dus, lopen
eveneens uiteen. Knip kan vervolgens konkluderen dat de beroepspraktijken en studierichtingen bij
elkaar passen, waarmee de z.g. kontingentiehypothese ondersteund wordt.

In het tweede hoofdstuk wordt een heldere uiteenzetting gegeven over de kontingentiebenadering en de
varianten daarin. Knip bespreekt de theorie van L en L als een van de uitwerkingen van de kontingentie-
benadering en laat tevens verschillende kritiekpunten de revue passeren. Hij noemt diverse organisatie-
theoretische perspectieven die meer oog hebben voor de vrijheidsmarges van organisaties ten aanzien van
hun omgeving.

In het derde hoofdstuk illustreert Knip deze opvatting met behulp van materiaal over dc relaties tussen
studierichtingen en hun relevante beroepspraktijken. Studierichtingen kunnen stelling nemen ten opzich-
te van hun omgeving en zijn niet voortdurend in de weer om zich bij hun omgeving aan te passen, zoals L
en L veronderstellen.

Deel II gaat over de betrekkingen tussen de studierichtingen onderling. De opzet is anders dan in het
eerste deel waar eerst analyses volgens de theorie van L en L zijn uitgevoerd en daama aangevuld en
genuanceerd. In deel II verdwijnt de theorie van L en L als zodanig naar de achtergrond en wordt de

centrale vraag in hoeverre de sociale akademie als een systeem te beschouwen is; hun theorie wordt als
een voorbeeld van een systeemtheorie behandeld. Met name de onderlinge afhankelijkheid van de
studierichtingen, en de rationaliteit in dc besluitvorming wordt bediscussieerd.

Hiertoe presenteert Knip in hoofdstuk 4 drie roerige episodes in een sociale akademie; de overleg- en
besluitvormingsaktiviteiten rondom drie besluiten en konflikten worden beschreven. Daarop grijpt hij
terug in de beide volgende hoofdstukken.

In hoofdstuk 5 laat Knip zien dat de organisatorische realiteit in een sociale akademie nauwelijks
overeenkomt met die in een vergaand geïntegreerd systeem. Hij doet dat door twee vragen aan de orde te
stellen: in hoeverre zijn studierichtingen van elkaar afhankelijk en ten tweede hoe er met die afhanke-
lijkheid wordt omgegaan. De studierichtingen blijken slechts in beperkte mate van elkaar afhankelijk. Zij
verzorgen ieder hun eigen onderwijs, maar bezitten wel een gemeenschappelijk basisjaar en maken
gebruik van dezelfde hulpbronnen. De relaties tussen de studierichtingen zijn voortdurend in beweging,
mede onder invloed van hun opstelling ten opzichte van de betreffende beroepspraktijk. Knip benadrukt
in navolging van Gouldner dat het autonomiestreven van dergelijke afdelingen ook positieve kanten
heeft. Van begrippen als 'mate van koppeling' en koppelingspatronen (gebaseerd op de losse koppeling
van Weick) verwacht hij veel als het gaat om de analyse van de betrekkingen tussen de studierichtingen.
De integratiepogingen van daartoe in het leven geroepen organen bleken niet erg succesvol. Daarbij
spelen de kenmerken van de integratiestructuur een rol, maar Knip vraagt tevens aandacht voor het feit
dat de integratie-opgave niet zo duidelijk is in dergelijke losgekoppelde systemen.
In hoofdstuk 6 worden de georganiseerde anarchie en het vuilnisbakmodel op een zeer bevattelijke wijze
geïntroduceerd. Hij stelt de vraag aan de orde in hoeverre de sociale akademie beter in dergelijke
benaderingen past dan in het rationele en geïntegreerde systeemmodel. In feite geeft hij aan in hoeverre
gegevens uit de drie episodes passen in het vuilnisbakmodel en gebruikt hij dit materiaal om een aantal
mogelijkheden en beperkingen van het vuilnisbakmodel te adstrueren. Zeer boeiend.

Knip omschrijft zijn studie als theorie-evaluerend en theorievormend. Hij is op een creatieve manier
omgegaan met het feit dat zijn oorspronkelijke referentiekader, waarin aanpassing en systeemintegratie
centrale elementen vormen, niet toereikend bleek. Het theorievormende element is ruim aanwezig. Het
is echter niet geheel duidelijk waaruit de evaluatie van de theorie bestaat. In deel 1 maakt hij plausibel dat
de kontingentietheorie die in de theorie van L en L besloten ligt, nuancering behoeft en hij draagt
daarvoor tevens de bouwstenen aan. Deel I vind ik ook het sterkste deel van het proefschrift.
Waar het gaat om de afhankelijkheid van de afdelingen wil ik twee kanttekeningen plaatsen. L en L
spreken van verschillende soorten afdelingen. Juist in deze differentiatie zou wel eens een bruikbaar
aanknopingspunt voor de analyse van onderwijsinstellingen kunnen liggen. Ook het afwezig zijn van
dergelijke afdelingen is informatief. Knip beperkt zich evenwel tot alleen productieafdelingen. Het is de
vraag of de bruikbaarheid van de theorie van L en L op deze manier goed beoordeeld kan worden. Ik denk
bijvoorbeeld dat in veel scholen de differentiatie tussen onderwijs en begeleiding goed te analyseren is.
Mijn tweede bpmerking betreft zijn kritiek op de systeembenadeing. Hij zet zich in zijn analyses terecht af
tegen de toepassing van systeemmodellen die de (in het ideaaltype geschetste) integratie als norm nemen
en introduceert 'losse koppeling' als een nieuwe mogelijkheid. Het is evenwel zeer de vraag of deze vage
norie wel zoveel analytisch vermogen in zich bergt. Het lijdt geen twijfel dat dit begrip de noodzaak voor
integratie terecht relativeert. Maar het laat onvoldoende zien hoe de integratie kan variëren.
Het is een goed geschreven en boeiend boek, dat ook door zijn beperkte omvang (125 blz.) uitnodigt tot
lezen. Toch is het geen gemakkelijke stof. De informatiedichtheid is hoog en het vraagt enige voorkennis
ofwel een minitieuze en actieve studie. Voor de lezers van dit tijdschrift - met veel artikelen over
onderwijslerprocessen op microniveau en psychometrische problemen - een mooie gelegenheid om
kennis te maken met een geheel andere benadering van onderwijsvraagstukken, zowel inhoudelijk als
onderzoekmatig. Inhoudelijk vind ik deze studie geslaagd. De onderzoekmatige aanpak blijkt vrucht-
baar, maar ik vind het jammer dat de systematiek van onderzoek en theoretiseren zo weinig aandacht
gekregen heeft.

1 Hierbij heb ik gebruik gemaakt van een notitie van dr. Willem Koot en mijzelf voor het Forum
organisatiesociologie

Alternerende opleiding, waarom, voor wie? Beroepsopleiding. Periodieke publikatie van het Europees
Centrum voor de ontwikkeling van de beroepsopleiding, nr. 12, september 1983.

Boomsma, Anne. On the robustness ofLISREL (maximum likelihood estimation) against small sample
size and non-normality. Proefschrift Rijksuniversiteit Groningen, 1983.

Cito. Jaarverslag 1982. Arnhem: Centraal Instituut voor Toetsontwikkeling, 1983.

Cito. Plannen voor het Cito voor 1984 tot en met 1988. Arnhem: Centraal Instituut voor Toetsontwikke-
ling, juni 1983.

Crum, B.J., Koolwijk, A.J.A. van, Mooren, J.E.M., & Westra, T. Terugkijken op de ALO: Over de
spanning tussen beroepsuitoefening en beroepsopleiding in de lichamelijke opvoeding. Amsterdam:
Vrije Universiteit, 1983.

Esch, W. van, Moeniralam, H., & Gademann, B. Allochtone leerlingen in het voortgezet onderwijs
(SVO-reeks no. 70). Hariingen: Flevodruk, 1983.

Fennis, J. De flater van de wijze koning en andere verhalen over het onderwijs. Nijmegen: Dekker & van
de Vegt, 1983.

Glopper, K. de. Opstelkenmërken en opstelbeoordelingen: Onderzoek naar de validiteit van globale
opstelbeoordeling. Amsterdam: Stichting Centrum voor Onderwijsonderzoek van de Universiteit van
Amsterdam, juli 1983.

Hupscher-Post, A.D. Leerlingbegeleiding in het voortgezet onderwijs. Rotterdam: Erasmusuniversiteit,
Vakgroep Onderwijssociologie en Onderwijsbeleid, juh 1983.

Hout Wolters, B. van, Jongepier, P., & Pilot, A. Studiemethoden (Onderwijskundige informatie voor
het Hoger Onderwijs) Utrecht/Antwerpen: Spectrum, 1983, (Aula 812).

Kerkhof, P.G. van, & Mutsaers, A.J. (Red.). Scholen voor voortgezet onderwijs in Noord-Brabant: Ook
toegankelijk voor leerlingen met een lichamelijke handikap? Tilburg: Provinciaal Overleg Gehandi-
kapten beleid Noord-Brabant, 1983.

Kugel, J., & Pijning, H.F. Motorische remedial teaching: Onderwijs- en opvoedingshulp voor kinderen
met stoornissen of achterstanden in de zintuiglijk-motorische ontwikkeling (Orthovisies nr. 19).
Groningen: Wolters-Noordhoff, 1983.

Leij, A. van der. Ernstige leesproblemen: Een onderzoek naar mogelijkheden tot dijferentiatie en
behandeling (Sociaal-Wetenschappelijke proefschriften relevant voor de hulpverlening, nr. 32).
Lisse: Swets & Zeitlinger, 1983.

Ministerie van Onderwijs en Wetenschappen. Onderwijsonderzoek 1982: Bouwstenen voor ondenvijs-
heleid (Samengesteld onder verantwoordelijkheid van de Coördinatiegroep Onderwijs Onderzoek).
's-Gravenhage: Staatsuitgeverij, 1983.

Nieuwe technologieën. Beroepsopleiding. Periodieke publikatie van het Europees Centrum voor de
Ontwikkeling van de Beroepsopleiding, nr. 11, juni 1983.

Ritzen, J. Wat is ondem'ijs ons waard? Een sociaal-economische benadering. Groningen: Wolters-
Noordhoff, 1983.

Rooy, Ch. van (Red.). Culturele minderheden binnen het h.b.o. Documentatieboekdeel2. Eindhoven:
School voor Hoger Economisch Administratief Onderwijs, afdehng Communicatie, april 1983.

Spearritt, D. (Ed.). The improvement of measurement in education and psychology. Contributions of
latent trait theories. Hawthorn, Victoria: Australian Council for Educational research, 1982.

Steinmetz archives. Catalogue & guide: Dutch social science data. Amsterdam: SWIDOC, 1983.

SVO. Jaarverslag 1982. 's-Gravenhage: Stichting voor Onderzoek van het Onderwijs, 1983.

Verstralen, H.H.F.M. Calibratie en normering van itembanken: Enkele toepassingen bij computer
ondersteunde toetsservice (Cito Bulletinreeks Nr. 20). Arnhem: Cito, juli 1983.

Verstralen, H.H.F.M. Probleem oplossen en informatieverwerking (Cito Bulletinreeks Nr. 22) Arnhem:
Centraal Instituut voor Toetsontwikkeling, juni 1983.

Weeren, J. van (Red.). Practice and problems in language testing 5: Non-classical test-theorylFinal
examinations in secondary schools (Cito Algemene Publikatie nr. 30). Arnhem: Centraal Instituut
voor Toetsontwikkeling, 1983.
Wesdorp, H. Schrijven in het voortgezet onderwijs: Een overzicht van het onderzoek naar de effecten
van diverse instructie-variabelen op de stelvaardigheid (SVO-reeks nr. 71). Harlingen: Flevodruk,
1983.

Zeeuw, J. de. Algemene Psychodiagnostiek III: Testpraxis. Lisse: Swets & Zeitlinger, 1983.
EUDISED online toegankeUjk

EUDISED (European Documentation and Information System for Education) is een bestand, dat door
de Raad van Europa is opgebouwd in samenwerking met onderwijsinstituten in de lidstaten van de
Europese Gemeenschap. Het bestand is de computerversie van het 'EUDISED R&D Bulletin' en bevat
beschrijvingen van onderzoeksprojecten en publikaties die daaruit voortkomen.

In het bestand komen de volgende verwijzingen van onderzoeksprojecten voor over:

In het bestand zijn de abstracts in het Engels, Frans en Duits. De titels van de projecten zijn in de originele
taal en daamaast vertaald in het Engels en Frans. Ieder project is beschreven door middel van sleutel-
woorden in het Engels, Frans, Duits, Nederlands en Spaans. Deze termen zijn ontleend aan de
EUDISED-thesaurus. De gegevens zijn vanaf 1975 tot heden via de computer toegankelijk en worden
regelmatig bijgewerkt. De kosten bedragen ƒ 60,- per uur; online afdrukken ƒ 0,50 per referentie.

Toegang tot het bestand kan worden verkregen door het aanvragen van een ESA-paswoord bij
COBIDOC. Ook verdere inlichtingen kunt u verkrijgen bij: COBIDOC, Postbus 16601, 1001 RC
AMSTERDAM. Tel. 020-223955.

De Faculteit der Sociale Wetenschappen van de Universiteit van Amsterdam geeft de volgende cursussen
op het gebied van de methodenleer voor sociaal- en gedragswetenschappelijk onderzoek:

prof. dr. G.J. Mellenbergh, dr. P. Vijn en prof. dr. J. van der Zouwen; maandag 2 t/m vrijdag 6 januari
1984; de nadruk ligt op quasi-experimenteel ondérzoek en verder niet kwantitatieve methoden ter
verzameling van waarnemingen; ƒ 250,-; inlichtingen en opgave: mevr. E. Bot en mevr. T. Seubring,
vakgroep Methodenleer, Psychologisch Laboratorium UvA, Weesperplein 8, 1018 XA Amsterdam,
tel.:020-5253791.

2. Analyse van veranderingsprocessen: dr. C. van der Eijk; maandag 7 t/m vrijdag 11 mei 1984;
tijdreeksanalyse, panelanalyse, cohortanalyse en longitudinaal enquête-onderzoek; ƒ 250,-; inlichtin-
gen en opgave: mevr. J. Zonneveld, vakgroep Methoden en Technieken Politicologisch Onderzoek
UvA, Grimburgwal 10, gebouw 5,1012 GA Amsterdam, tel. 020-5252089.

3. Lineaire structurele modellen II: prof. dr. W.E. Saris; donderdag 3 en vrijdag 4 mei, maandag 7 t/m
woensdag 9 mei 1984; een aantal problemen die via LISREL kunnen worden benaderd, zoals klassieke
testtheorie, factoranalyse, multitrait-multimethod matrix, generaliseerbaarheidstheorie, modellen
voor paneldata en causale modellen met latente variablen; ƒ 250,-; inlichtingen en opgave: mevr. J.
Zonneveld, vakgroep Methoden en Technieken Politicologisch Onderzoek, UvA, Grimburgwal 10,
gebouw 5,1012 GA Amsterdam, tel.: 020-5252089.

			febr.	april	mei	juni
klassikale oefeningen/	hoog	(N=49)	2.9	2.8	2.8	2.7
klassikale oefeningen/			(1.4)	(1.3)	(1.4)	(1.4)
klassikale	laag	(N=23)	2.3	2.6	2.9	2.3
	laag		(1.6)	(1.4)	(1.4)	(1.5)
beoordeling (I)	totale	(N=89)	2.8	2.7	2.9	2.6
	groep		(1.5)	(1.3)	(1.5)	(1.4)
klassikale oefeningen/	hoog	(N=30)	2.6	2.5	2.6	2.6
			(1.3)	(1.3)	(1.1)	(1.3)
geïndividualiseerde	laag	(N=19)	2.3	2.6	2.6	2.1
			(1.5)	(1.3)	(1.4)	(1.4)
beoordeling (II)	totale	(N=61)	2.5	2.6	2.6	2.4
	groep		(1.4)	(1.2)	(1.1)	(1.4)
aangepaste oefeningen/	hoog	(N=18)	2.9	2.1	2.7	2.6
			(1.2)	(1.5)	(1.1)	(1.3)
geïndividualiseerde	laag	(N=19)	1.7	1.7	2.2	2.4
			(1.2)	(1.4)	(1.3)	(1.4)
beoordeling (III)	totale	(N=47)	2.3	2.0	2.4	2.6
	groep		(1.3)	(1.4)	(1.3)	(1.4)

procedure	vragenlijst	interview- diskussie	PANEL
evaluatie start	- initiële kontakten	- initiële kontakten	- initiële kontakten
evaluatie start	- opstellen projekt- overeenkomst	- opstellen projekt- overeenkomst	- opstellen projekt- overeenkomst
	- installatie evaluatie- kommissie	- installatie evaluatie- kommissie	- installatie evaluatie- kommissie
evaluatie voorbereiding	- interview docent/ assistent met behulp van werkboek - interview student met behulp van werkboek - invulling werkboek docenten/assistenten en studenten afzon- derlijk - overleg over geselek- teerde/geformuleerde uitspraken afzonder- lijk	- interview docent/ assistent m.b.v. gesprekspuntenpaper - interview student met behulp van gespreks- puntenpaper - notulen van interviews maken en laten bekom- mentariëren afzon- deriijk	- toelichting op gebruik van gesprekspuntenpaper aan docenteri/assistenten en studenten afzonderiijk
	- vragenlijstkonstruktie - specifikatie grensper- centages docent	- opstellen checklist	- agenderen van aange- dragen diskussiepunten
	- afname vragenlijst - verwerking gegevens	- plenaire diskussie studenten aan de hand van de checklist	- panelbijeenkomst van docenten/assistenten en studenten
evaluatie "»voering	- interimverslagen/of stelllingen formuleren - plenaire diskussie docenten/assistenten en studenten	- diskussieverslag en aanbevelingen formu- leren - plenaire diskussie docenten/assistenten en studenten
	- diskussieverslag maken en bekommen- tariëren	- diskussieverslag maken en bekommen- tariëren	- diskussieverslag en aanbevelingen maken en bekommentariëren
	- eindverslagen aanbevelingen	- eindverslagen aanbevelingen	- eindverslagen aanbevelingen

nr.	(zie app.) herkomst	modifikatie	test reeks	inhoud	afkorting
1	Brus	gehalveerd		leestest	Lees
2	Lit	geen	B	aaneensluiten van balkpatronen	Balk
3	Raven	gekleurde	B	geometrische patronen	Raven
		vorm		invoegen
4	Mac Quarrie 1	aantal door-	A,B,C	doorgangspatroon tussen lijnen	MQl
		gangen af		tekenen
5	Mac Quarrie 2	geen	A,B,C	1 stip in rondje langs lijn plaatsen	MQ2
6	Mac Quarrie 3	geen	A,B,C	3 stippen in rondje plaatsen	MQ3
7	Max Quarrie 4	geen	B,C	hjnpatroon natekenen	MQ4
8	Mac Quarrie 5	geen	B,C	plaatsen in vierkant identificeren	MQ5
9	Mac Quarrie 6	geen	B,C	aantal raakvlakken van blokken	MQ6
10	Mac Quarrie 7	geen	B,C	doolhof-lijnen patroon	MQ7
11	ABT	vereenvoudigd	A	foute woorden in zinnen	Zinnen
12	Pinter-Durost	verlengd	A	rekenen met dobbelstenen of	Reeks
		verlengd		dominostenen reeksen
13	ABT	verkort ver-	A	verbale analogieën	Verb, an
		eenvoudigd
14	S.O.N.	klassikaal ver-	A	symmetrische patronen afmaken	Teken
		eenvoudigd
		uitgebreid		" -
15	ABT	geen	A	3 dimensionele figuren uit platte	3-dim
				vlak terugvouwen
16	ISI	verkort	A	door rotatie in vlak 2-dim.	2-dim
				figuur herkennen
17	WISC	klassikaal	A	2 tot 9 cijfers onthouden en	Cijfers
		voorwaarts		opschrijven
18	Wech. mem.	klassikaal	A	zinvolle en zinloze woordparen	Leer W.
	scale	vereenvoudigd		leren
19	VLOT	--	A	kodeertaak figuren—»cijfers	Kodeer
20	GIT	klassikaal	C	woordenlijst-verbale	Woord G
				analogieën
21	GIT	klassikaal	C	legkaarten 2-dim. ruimtelijke taak	Legk-G,
22	GIT	klassikaal	C	rekenen	Rek-G
23	GIT	klassikaal	C	verbale matrijzen	Verb-G
24	Haarlemse	vereenvoudigd		rekenen	Rek'-H
	rekentest
25	Bennet	verkort ver;	B,C	technisch inzicht	Tech. In.
		eenvoudigd
26	Bourdon	klassikaal	A	4 punten patroon selekteren	Bourd-af
		aantal af		uit 3.4.5. punten
27	Bourdon	klassikaal	A	4 punten patroon selekteren	Bourd-fout
		aantal fouten		uit 3.4.5. punten
		genorm. op 26
28	Mac Quarrie	aantal fouten	A	doorgangspatroon tussen lijnen	MQ 1-fout
		genorm.op 4	tekenen

12	13	14
-2.59	-2.59	-2.60
-1.69	-1.69	-1.71
-1.06	-1.06	-1.09
-0.52	-0.52	-0.55
-0.02	-0.02	-0.07
0.48	0.48	0.41
1.00	1.00	0.89
1.59	1.59	1.40
2.32	2.32	1.97
3.39	3.39	2.67
		3.68

12	13	14
-2.68	-2.68	-2.69
-1.75	-1.76	-1.78
-1.10	-1.12	-1.15
-0.58	-0.61	-0.65
-0.10	-0.15	-0.20
0.35	0.28	0.21
0.80	0.69	0.60
1.26	1.12	0.99
1.77	1.55	1.38
2.38	2.04	1.80
3.26	2.63	2.26
	3.49	2.83
		3.67

Feitelijke
personalisatie	.6	.44	- .03	1.0	.98	.00
participatie	11.2	.00	.15	4.6	.04	.15
onafhankelijkheid	131.9	.00	.50	33.7	.00	.42
onderzoek	66.3	.00	.36	14.7	.00	.28
differenriatie	313.4	.00	.78	74.1	.00	.62

noord zuid		west		r.k.	openb. prot.
4 8		8		9	8 3
ihno ito		lhno		vbo	ilo
6 6		2		4	2
Tabel 2b. Verdeling van steekproef van leerlingen
school van plaatsing:	ihno	ito	ilo	lhno	lto vbo
aantal leerlingen	75	78	30	42	48 71
school van herkomst:	glo-6	glo-5	blo	lom	rest
aantal leerlingen	173	45	104	11	11

Dimensie *	1	2	3	4	5	Totaal
B/T ratio	.69	.43	.34	.23	.12	.80
significantie p	<.01	<.01	<.01	.01	.02
cumulatief % variantie tussen groepen	56%	76%	89%	96%	100%	100%

Tabel 3.
Resultaten van de toets van Andersen voor vier splitter-items, gekozen uit de acht resterende
geometrische items van Tabel 2.
splitteritem	1	47	7	32
populariteit	.68	.66	.50	.44
	14.5	7.8	6.3	8.8
df	6	6	6	6
P	.02	.26	.39	.19

Tabel 5.
Resultaten van de toets van Andersen voor splitteritems van ieder item-type.
splitteritem	14	48 12	25
populariteit	.66	.59 .39	.46
	63.0	124.2 45.1	76.2
df	24	24 24	24
P	.00	.00 .01	.00

	■> X"	df	P
vereenvoudigen	6.5	3	.09
gelijknamig maken	3.9	4	.42
fracties	20.8	8	.01
verhoudingen	12.8	7	.08

w	.497	.132	1.000	.961	.856	.893	.882	.865
s	.681	.116	.961	1.000	.952	.973	.974	.959
r	.785	.107	.856	.952	1.000	.963	.979	.995
1	-.576	.225	.893	.973	.963	1.000	.987	.963
k	.673	.131	.882	.874	.979	.987	1.000	.984
z	1.358	.315	.865	.959	.995	9.63	.984	l.tXX)

B	.59				B	.17
C	.21	.17		VO	C	.01	.41		AD
D	.19	.21	.00		D	.24	.40	.30
E	.22	.21	.26	.14	E	.32	.25	.21	-.02
	A	B	C	D		A	B	C	D
B	.35				B	.09
C	.26	.49		IN	C	.01	.31		MR
D	.23	.02	.20		D	.12	.38	.22
E	.39	.25	.37	.31	E	.08	.23	.03	.28
	A	B	C	D		A	B	C	D
B	.35				B	.41
C	.16	-.06		W/ï	C	-.05	.22		UG
D	-.02	.26	.07		D	.10	.21	-.24
E	.30	.28	.13	.04	E	.20	.24	.02	.06