Een twee-maandelijks tijdschrift voor onderzoekers van onder-
w/ijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.

Tijdschrift voor Onderwijs-
research is een uitgave van
de Stichting Onderwijsrese-
arch. De uitgave wordt me-
de mogelijk gemaakt door
een subsidie, verleend door
de Stichting voor Onder-
zoek van het Onderwijs te
's-Gravenhage.

Naerssen, Robert F. van. Computersimulatie bij het onderzoek van tentamen-
regelingen 112
Naerssen, Robert F. van. Het derde tentamenmodel met een toepassing 161
Naerssen, Robert F. van. Discriminerend vermogen van toetsen met twee- en

'Kansen op onderwijs' 273
Groen, H.K. Leerlingen uit verschillende sociale milieus hebben geen gelijke

kansen 40
Groot, A.D. de, en Peet, A.A.J. van. Enkele kanttekeningen bij het proef-
schrift van J.L. Peschar; Milieu, School en Beroep 36
Groot, A.D. de, en Peet, A.A.J. van. Nogmaals: De invloed van regressie-
effecten 137
Groot, A.D. de, en Sandbergen, S. Onderwijs-onderzoek verkend: Bespreking

van het rapport van de Verkenningscommissie Onderwijsresearch 227
Haantjes, J. Structurering van het onderzoek in het kader van landelijke

Soutendijk, S. en Wit, O. de. Leesonderzoek heeft heel wat voeten in de aarde 84
Ven, Ad. H.G.S. van der. Essay review of P.J. Runkei and J.E. McGrath,

Kamp, M. van der. Bespreking van Inventariseren van actueel geldende leer-
doelen, ontwikkeling van een empirische methode door E. de Corte 141
Kropman, J.A. Zie Collaris, J.W.M. 45
Roe, R.A. Bespreking van Inleiding in de Testtheorie door Pieter J.D. Drenth 238
Smets, P. Bespreking van De organisatie van scholengemeenschappen in

Visser, R.A. Bespreking van Statistical Methods in Educational and Psycho-
logical Research door Mclvin R. Novick and Paul H. Jackson. 281

Het TIJDSCHRIFT VOOR ONDERWIJSRESEARCH, waarvan dit de eerste aHevering is,
is voortgekomen uit een tweetal bestaande uitgaven: DIDAKOMETRISCH EN PSYCHO-
METRISCH ONDERZOEK (DPO), een reelcs speciale afleveringen van het NEDER-
LANDS TIJDSCHRIFT VOOR DE PSYCHOLOGIE en de MEMOREEKS ONDERWIJS-
RESEARCH. Beide oorspronkelijke uitgaven waren op de een of andere wijze verbonden
met professionele groeperingen: DPO met de Werkgroep Meetmethoden, de MEMO-
REEKS ONDERWIJSRESEARCH met de Stichting Werkgroep Onderwijsresearch. Het
nieuwe tijdschrift wordt uitgegeven door de Stichting Werkgroep Onderwijsresearch. De
verantwoordelijkheid voor inhoud berust bij de redactie, gevormd uit de redacties van
beide oorspronkelijke tijdschriften, en waarin tevens de Werkgroep Meetmethoden en de
Werkgroep Onderwijsresearch door middel van ieder één kwaliteitszetel vertegenwoordigd
zijn. De Stichting voor Onderzoek van het Onderwijs (S.V.O.), die heeft toegezegd
gedurende de eerste drie jaren het tijdschrift te subsidiëren, is in de redactie vertegen-
woordigd door een waarnemer. Tenslotte is het de bedoeUng dat steeds tenminste één
Belgische onderzoeker deel uitmaakt van de redactie.

Doel van het TIJDSCHRIFT VOOR ONDERWIJSRESEARCH is het scheppen van een
professioneel wetenschappelijk forum op het gebied van het onderzoek van het onderwijs
in het Nederlandse taalgebied. De redactie wil de volgende soorten artikelen plaatsen:
~ methodologische studies van belang voor empirisch onderwijskundig onderzoek;

- empirische studies over onderwijs, die van belang of instructief kunnen zijn voor
onderzoekers van onderwijs;

- artikelen betreffende onderzoeksaanpak: voorbereiding en beheer van onderzoekspro-
jecten, onderzoeksbeleid, e.d.;

-- artikelen betreffende theorieën en modellen die van belang zijn voor onderzoek van
onderwijs;

- artikelen waarin mathematische, statistische of psychometrische methoden 'vertaald'
worden voor onderzoekers van onderwijs;

- overzichtsartikelen, waarin reeksen samenhangende onderzoeken in een theoretisch of
methodologisch perspectief worden geplaatst, dan wel literatuurstudies die een nieuw
licht werpen op bepaalde terreinen van onderwijskundig onderzoek.

Puur beschouwelijke of opiniërende artikelen komen in principe niet in aanmerking voor
plaatsing, maar de redactie realiseert zich dat het moeilijk zal zijn hier een scherpe grens
te trekken.

- documentatie: titels en/of korte samenvattingen van memoranda, technische rapporten
en scripties;

Artikelen zullen als volgt beoordeeld worden: de redactie-secretarissen leggen ieder artikel
voor aan tenminste twee beoordelaars, die deskundig geacht worden op het betreffende
gebied. Daartoe is een kring van 'recensenten' gevormd. Rekening houdend met de
verkregen beoordeling en na eventuele aanpassing van de oorspronkelijke tekst, beslist de
redactie over plaatsing.

N. & C.'s worden beoordeeld door de redactie-secretarissen. Ook zij kunnen de auteur(s)
om aanpassingen vragen. De redactie-secretarissen kunnen auteurs verzoeken een als N. &
C. aangeboden bijdrage om te werken tot artikel of omgekeerd. Voor computerprogram-
ma's is een speciale deskundige beoordelaar beschikbaar.

Als gevolg van verschillen in de beoordelingsprocedure zullen N. & C.'s, die qua lengte
niet veel meer dan 1500 woorden mogen bevatten, sneller geplaatst kunnen worden dan
artikelen.

Het TIJDSCHRIFT VOOR ONDERWIJSRESEARCH zal in zes afleveringen van ieder 48
bladzijden per kalenderjaar verschijnen. Voor de eerste jaargang zal van deze regel worden
afgeweken: het eerste nummer verschijnt in 1975, de volgende vijf nummers verschijnen
in de loop van 1976. Tussen het verschijnen van het eerste en het tweede nummer
ontstaat daardoor een extra grote tijdsperiode, welke nodig is voor de abonnementenwer-
ving.

Alle kopij, alsook boeken ter recensie en teksten voor de mededelingenrubriek, dient
aangeboden te worden aan het redactiesecretariaat. Kopij dient gesteld te zijn in het
Nederlands of het Engels. Bij alle artikelen dient een samenvatting in het Engels gevoegd
te worden. Engelstalige teksten zal de redactie aan een taalkundig adviseur voorleggen.
Voor het overige dient kopij voorbereid te worden overeenkomstig de richtlijnen voor
auteurs elders in dit blad afgedrukt. Afwijkingen van die richtlijnen kunnen weigering van
de kopij tot gevolg hebben.

De redactie vertrouvrt erop, dat enerzijds voldoende kopij van goede kwaliteit ter
publikatie in het TIJDSCHRIFT VOOR ONDERWIJSRESEARCH zal worden aangebo-
den, en dat anderzijds dit tijdschrift zich een ruime lezerskring zal weten te verwerven.

Hans F. Crombag, Jerry G. Gaff, & Ten M. Chang
Educational Research Center, University of Leyden^

In this study the working behavior of university students of four departments (Law, Psycholo-
Medicine, and Chemistry) is investigated. On the basis of the responses of the Ss to a 173
item Study Habits Questionnaire 15 scales were identified describing a wide range of study
habits. There appeared to be little differences in working methods between departments. The
ways in which students study seem characteristic of a classroom oriented, teacher organized,
examination controlled style of education in which students play a passive role.
Scores on the study behavior scales were related to performance after one and after four years
of study. Few, scattered significant relations were found. Only one scale, 'Reformulation of
Subject Matter', showed a consistently negative relation with performance in all departments,
indicating that putting the subject matter into ones own words is a dangerous habit.
Other data in the study indicated that also mental abilities and achievement motivation are
poor predictors of academic performance. It is concluded that, since this seems to be a typical
finding (Lavin, 1965), it is time to question the rationality of the educational enterprise, and
that maybe we should start looking for ways to produce meaningful correlations where they
now often fail to appear.

It would seem to be a truism that the study behavior of students affects their academic
performance. Yet the evidence in support of this statement is scarce (Lanvin, 1965).
Many years ago Wrenn (1941) developed his Study Habits Inventory, and reported
significant differences between good and poor students on the four scales contained in
the instrument.

Using the same instrument, Savage (1972) also reported significant differences: "The
poor' students had greater difficuhy with reading and note-taking, poorer concentration,
3 more inefficient balance between the allocation of study and social time as well as
generally poorer habits or attitudes to study".

Another well-known instrument for measuring habits was developed by Holtzman,
^rown, and Farquhar (1954): The Survey of Study Habits and Attitudes. They
^emselves (Brown and Holtzman, 1955) as well as others (Ahmann et al. 1958),
however, have reported results indicating that study habits are poor predictors of
performance.

Geensen and Meuwese (1968) developed a Study Habits Questionnaire containing five
scales, which they labelled (1) spontaneous dedication to study, (2) degree of formaliza-
tion of working behavior, (3) concentration on requirements for passing examinations,
(4) tendency to co-operate with peers, and (5) satisfaction with own performances. They
"■eported low but significant positive correlations with performance for scale 1, strong

At the time of the study Dr. Gaff was a visiting professor from the Center for Research and
Development in Higher Education of the University of California at Berkeley.

positive correlations for scale 5, and weak, barely significant negative correlations for
scale 4. Klip (1970), however, using tiie same instrument reported no significant correla-
tions between these scales and study success.

Some of the scales developed by Geensen and Meuwese appear to measure attitudes more
than behavior. This especially seems to be the case with scale 1 and scale 5, the only ones,
which in the original study were positively related to performance. This interpretation
would make the findings of Geensen and Meuwese consistent with the results of Brown
and Holtzman (1955), who reported that 'study attitudes more efficiently differentiated
between over- and underachievers than study mechanics'.

In this study we attempted to examine closely the role of actual study behaviors in
academic achievement. This was done by developing a questionnaire which contained
only specific behavioral items; general items which might elicit attitudinal responses were
eliminated in so far as possible.

Building on the Geensen and Meuwese questionnaire a new questionnaire was developed
containing 173 descriptions of behaviors in which students may engage while studying. Ss
were asked to indicate on a seven point scale how descriptive each item was of their own
study activity.

The questionnaire was send through the mail in May, 1970 to all first year students in
four departments of Leyden University; Law, Psychology, Chemistry and Medicine. At
that time the Ss were near the end of their first year of study. Ss who had not returned
completed questionnaires within a few weeks time were send a follow-up letter.
This procedure resulted in 458 usable questionnaires being returned, 103 in chemistry,
163 in law, 119 in medicine, and 72 in psychology. In the tables these numbers will vary
occasionaly, because some data are missing for some Ss.

It is unknown how many students were actually enrolled in the four departments at the
moment the questionnaire was send out. Many students who were send a questionnaire
had already left the university or at least the department in which they were listed at the
time. Moreover quite a number of students enrolled later during the academic year, and
were therefore not listed. In June 1142 students were enrolled in the first year of the four
departments investigated. As compared to this number the overall response rate was 40
per cent, which is very probably an underestimation of the real response rate. The
response rates thus estimated varied among departments; 68% in chemistry, 31% in law,
40% in medicine, and 41% in psychology.

At the end of their first year of study all students take an examination, which consists of
tests in a number of courses. The number of tests to be taken differs among departments;
three in psychology, four in law, eight in chemistry, and ten in medicine. To pass the first

year examination students must pass the tests in all courses. One of the criteria for
academic performance to be used in this paper is simply whether a student has passed the
first year examination by October in his second year of study or not. The fact that these
data were gathered in October of the second year means that those students who may
have failed the first test but passed on their second attempt after the summer holidays
were included in the pass group.

A second criterion of performance used in this study is whether a student was still in the
University actively working towards a degree four years later or has dropped out.

Shortly after students entered the university in the fall of 1969, a test battery measuring
five cognitive skills was administrered to the Ss. Two tests were meant to measure verbal
ability, two to measure spatial ability, and one to measure numerical ability. All tests
were especially designed to discriminate among high ability Ss. The tests for verbal and
spatial ability are parts of a battery developed by De Zeeuw (1971), the test for
numerical ability is one of a battery developed by Van Dam and Hoolwerf (1970). Since
in this paper we are only reporting on part of the data of a larger study (Gaff et al. 1973),
and the mental ability data will only play a minor role in it, we will refrain from a more
elaborate description of the tests used.

After a few months of study Ss were asked to fill out a questionnaire for achievement
motivation. A revised edition of a questionnaire originally devised by Crombag (1968)
Was used. It contains 45 items concerning how hard and persistently students work. It has
proven to yield useful results in several eariier studies (Crombag, & Meuwese, 1968;
Meuwese, & Van Rooijen, 1966; and Klip, 1969).

On the basis of the responses of all Ss, a data reduction procedure was used to construct
study behavior scales. The method used was a cluster analysis procedure proposed by
Wherry and Gaylord (1943), and refined by Boon van Ostade (1969).
The following 15 scales were identified, the first four describe the ways students study
the course content.

t Organization of subject matter. The extent to which students attempt to organize the material they
study into some format which will assist their retaining the material for answering examination
questions. A sample item indicative of this characteristic is: 'When studying the subject matter, I
summarize it in outlines and list*.

2 Reviewing of subject matter refers to the practice of going back over previously learned material to
make sure that it is still remembered. This kind of selfassessment technique is measured by items
such as: 'When studying I regularly check to see whether I still know what I had learned earlier'.

3 Reformulation of subject matter concerns the extent to which students interpret and rephrase the
subject matter in their own words to assist their understanding and assimilation of the material. A
typical item indicating this practice is: 'I try to rephrase in my own words everything I study'.
Concentration on required subject matter indicates the extent to which students study only
required materials and exclude other related content from their attention. 'I only study the books
and notes which are required' is an example of an item measuring this kind of study behavior.

Another set of dimensions has to do with the ways in which students use their time when
studying.

5 Organization of time refers to the extent to which students make work plans and time schedules
for preparing examinations as well as the extent to which they stick to the plans once made. A
sample item is: 'Long before an examination 1 make a schedule for using my time'.

6 Continuity of study refers to the practicc by a student of keeping up with his studies throughout
the year rather tlian cramming for an examination at the last minute. '1 keep up with the subject
matter during the year' is an example of this kind of behavior.

7 Intensive study before examinations is another aspect of study behavior. Regardless of whether or
not students study continuously throughout the year, they may or may not make an 'all-out' effort
to prepare for an examination. An illustrative item concerning this phenomenon is: 'As an
examination approaches, I go all out to prepare for it by cutting down sharply on my leisure time'.

8 Concentration in study indicates the tendency to work even when not in the mood, to be able to
concentrate for extended periods of time, and to avoid being distracted from studying. Items such
as, 'I only work when I am in the mood', are included on this scale.

9 Regular class attendance reflects the extent to which students regularly attend classes. A sample
item is: 'If possible, I do not miss class'.

10 Attention to class notes is measured by items such as: 'Before going to class I review my notes of
the previous class'.

11 Note-taking on study material is another kind of learning device, which some students use more
thans others. Those scoring Iiigh on this dimension tended to affirm: 'As I study, 1 make notes for
myself: I study by writting'.

12 Participation in laboratory courses indicates the extent to which a student actively participates in
laboratory or similar courses.

13 Participation in discussion courses indicates the degree to which students prepare for and take part
in seminars or similar courses.

14 Another kind of study activity is the amount of organization in report writing. For example:
'When writing a report, I first make an outline or summary'.

15 A fmal dimension of study behavior to emerge from the cluster analysis of the questionnaire is
consultation with peers in preparing for examinations. A sample item of tliis habit is: '1 check
whether I am prepared for an examination by having fellow students ask me questions'.

These study behavior clusters do not constitute independent dimensions, there are
relationships between the scales, indicating that there are, to a certain extent, more
general categories of study behavior. The correlations between the scales, as shown in
Table 1, indicate that students who do a great deal to organize and summarize the subject
matter (scale 1) tend to review the subject matter they have already learned and to
reformulate the subject matter into their own words. Moreover, students who engage in
continuous study throughout the year (scale 6) also report that they organize and
schedule their time, that they concentrate on their study for substantial periods of time,
that they attend class regularly, and that they take, elaborate, and review notes from their
classes.

Table 2 contains the mean scores on the study behavior scales in the four departments
studied. There appears to be few large differences between departments in the extent to
which students engage in most of the study methods. The majority of students in most

'departments say they attend class regularly (scale 9), but give little attention to taking,
elaborating, and reviewing class notes (scale 10). They study the materials as presented,
^ithout organizing the subject matter (scale 1). They study intensively before examina-
tions (scale 7), and concentrate their attention on the required subject matter (scale 4).
These basic similarities in the ways students study in all departments seem characteristic
a classroom oriented, teacher organized, examination controlled style of education in
^hich students play a passive role.

There are a few notable differences in the average study behaviors between departments.
Chemistry and medicine curricula include laboratory experiences in which the students in
these departments quite regularly participate (scale 12). On the other hand law and
psychology students report greater participation in discussion courses, which are more
common in those fields (scale 3). Still it is remarkable that environmental differences
between departments, depicted in detail elsewhere (Gaff, et al., 1975), are so little
reflected in the working beiiavior of students.

After one year of study the Ss of each department were divided into two groups; those
who had passed the first year examination, and those who had not. Mean scores on the 15
study behavior scales were calculated for the pass and fail groups in each department.

The differences between the pass and fail groups were tested for significance. The results
are shown in Table 3.

The general hypothesis that study methods are important determinants of achievement is
not convincingly confirmed by the data in Table 3. Only 14 out of the 60 comparisons
(23 percent) between passing and failing groups reached statistical significance. Most of
these differences were small, and there was little consistency across departments. Only
one variable. Reformulation of Subject Matter, Scale 3, reached statistical significance in
all departments when comparisons were made between the pass and fail groups. Scale 3
contains items such as 'While studying, 1 try to think of examples of my own to make
sure that I understand the material correctly' and '1 formulate the study material in my
own words when taking notes'. These seem to be dangerous study habits in all of the
departments. Apparently verbatim reproduction of the subject matter is required on most
first year examinations. While this conclusion may be considered a sad commentary on
university education, it is at least a clear and consistent indication of one type of study
behavior that is associated with success.

There are a few other variables that differentiate the pass and fail groups in some fields
but not in others. In Medicine, organization of time (Scale 5) seems to help. Scale 5
consists of items like 'Long before the data of an examination I make a schedule for using
my time'. On the other hand, continuity of study (Scale 6), /.e, spreading the work over
the year instead of cramming shortly before examinations, seems to hinder. A possible
explanation of this apparent anomaly may be that medical students are expected to
memorize much factual knowledge, and if they spread the memorization over long
periods of time they may forget parts of it. Concentrated study prior to an examination,
on the other hand, may aid the memorization and improve chances of passing the test.
In Psychology reviewing the subject matter (Scale 2) enhances success, while attending to
class notes (Scale 10) hinders it. This latter practice also appears to be a bad habit for
chemistry students. Apparently class notes are unimportant for the examinations, and
students who spend time on elaborating them take time that could be used more
profitably on other matters. In Chemistry spending too much time on practical and
discussion courses (Scales 12 and 13) seems to be a poor stategy. Again this may be due
to the fact that in examinations the main emphasis is on factual knowledge, which can
best be learned by memorizing books and syllabi. In Law organization of time (Scale 5)

S
«

•a
bri

0)
cx

fe
w
u

ii C
jD «

eSS

•d

2. V

IX o.

A :

na ^

-I

I I

li
.2 V

^ o.

-N *

and participation in discussion courses (Scale 13) are positively associated with success.
Concentration in study, however, is a negative factor, suggesting that it is of no use for
students of that field to force themselves to study if they do not feel like it.

In designing this study it was anticipated that effective study behavior would vary among
the different departments. Indeed, the major hypothesis of the entire study was that
different kinds of study methods would be associated with success in departments
characterized by different learning enviromnents. The full report of this research contains
evidence that there are important differences in the learning environments of the four
departments and that while there are commonalities in the study methods used by
students in all departments, there was a tendency for the study methods of students to
reflect the environmental conditions of each department. What is difficult to account for
are the findings presented here that successful ways of studying do not differ from
unsuccessful study methods in large, consistent, or even meaningfully differential ways.
The general conclusion that must be drawn from these results is that if one takes passing
of the first year examinations as the criterion, the ways in which students go about their
studying do not seem to make much of a difference in regard to academic success. One
might object to this conclusion on a number of grounds. It might be argued that study
methods other than those measured by this questionnaire, might prove to make a greater
difference if they had been included. Although this explanation cannot be refuted with
certainty, it seems highly improbable. The questionnaire was constructed to cover the
entire range of study methods, including behavior inside as well as outside the classroom,
ways of dealing with the subject matter, use of time, note-taking practices, involvement in
various types of courses, and specific strategies of preparing for examinations. It was
based on an older questionnaire (Geensen & Meuwese, 1968) that was itself quite
extensive.

In constructing the instrument a number of other questionnaires that had been used by
other investigators were examined to assure coverage of potentially relevant dimensions.
The final questionnaire contained 173 items, more than any other with the same purpose
known to the authors. It is unlikely that important study behaviors were omitted from
the questionnaire.

Perhaps the study behavior scales were unreliable. In order to examine this possibility
K.R.-20 rehability coefficients (the cluster analysis was applied to item scores dichoto-
mized at the median) were computed. The reliabilities range from a low of .53 to a high
of .85, with the majority in the .70's. Now the scales were constructed to maximize
reliability. If crossvalidated they might show some shrinkage. Still in our opinion they are
high enough to yield meaningful relationships with criterion variables if they are at all
robust.

Possibly success or failure at the end of only one,year of study is an unreliable criterion
or an inadequate criterion of university success. After all, some of the Ss who were
included in the pass group had failed the examination initially and passed on a second
attempt. This possibility led the investigators to obtain follow-up data on the same
students using a more definitive criterion.

The stronger criterion that was decided upon was whether students had passed the final
examination or were still actively studying for it or whether they had dropped out of the
university.

In july, 1974, four years after they had entered the university, records were obtained

x)
«

•o
c

c
u

V3
£
o,

-s

ra
3

= i

S I,

a S

'XV

1:.
«

1 i

indicating who of the original Ss were in these two groups. For these two groups of Ss
average scores on all 15 study behavior scales were computed and tested for statistical
significance. This time z's were computed; the calculations were done by hand, and z is
more easily computed than t. Table 4 summarizes the results.

The presumably stronger criterion does not result in more significant differences between
the successful and unsuccessful Ss. On the contrary, in medicine and psychology none of
the scales for study behavior is able to discriminate between the two groups.
The results again confirm that in chemistry and law it is hazardous to rephrase the subject
matter while studying (Scale 3). The results in Table 4 for Ss in chemistry and law are
much the same as those in Table 3, with one exception. New is the finding that
consultation with fellow students in preparing for examinations (Scale 15) is negatively
associated with success in chemistry and positively associated with success in law. In any
event this particular practice is relatively infrequent. Of course, study behavior may
change after the first year when it was measured, but the fact remains that first year
study habits are not powerfully associated with success on the first year examination or
with either passing the final examination or remaining an active student four years later.
It does not seem to make much of a difference how students work. What then does make
a difference?

Since for most of the Ss scores on five tests of mental abilities were available in the study,
biserial correlation coefficients between the scores on these tests and performance on the
first year examination were computed. Table 5 summarizes the resuhs.

Por medical students none of the tests correlates with success. In psychology only the
hidden figures test shows a significant but weak correlation with performance. In
chemistry all tests correlate weakly with performance, and in law only verbal ability
seems to make a little difference.

There was little reason to expect strong positive relationships between ability and
performance, since the Ss are highly selected in secondary school. There is a severe
restriction of range in the mental ability scores of the Ss which affects the correlations.
StUl, the correlations are disappointingly low. Whatever there is left of differences in
mental abilities among these university students does not seem to make much of a
difference in their success.

Scores on an achievement motivation questionnaire were also correlated with per-
formance on the first year examination. The questionnaire consisted of 45 items concern-
ing how hard and persistently students work. Typical items are: 'I work hard', 'I work
harder than most of my fellow students', and 'If I would fail an examination, I would
Work twice as hard to do better the next time'. Ss responded by checking a number on a
seven point scale ranging from (1) 'not applicable' to (7) 'very much applicable'. The
correlations are shown in Table 6.

not significantly differ from zero.
The general pattern of these results seems to
he that for chemistry and law performance is
somewhat more predictable than for me-
dicine and psychology. Yet the strongest
Conclusion that can be drawn from the data
i? that in all departments academic per-
formance is hardly predictable; it does not
"latter how much a student studies, whether >

Study methods, as well as mental abilities and achievement motivation, do not appear to
predictive of performance in the departments we studied. This is not a new findmg.
^vin, who in 1965 summarized the literature on correlates of academic performance, did
"ot find much to show for his efforts. Of course, occasional scattered significant relations
^ave been found. The same is true for this study. But in general the positive findings are
meagre.

"ne could argue, as was frequently done in similar studies, that the variables, predictor
variables as well as criteria, are poorly measured, that the instruments used are unreliable
not valid. For some of the many studies conducted this criticism may be accurate.
However, these factors do not adequately explain the consistent lack of predictability.

	n	r
Medicine	120	.10
Psychology	75	-.04
Chemistry	85	.31*
Law	152	.17*

The study behavior scales used in this study are reasonably reliable, and they do have
some content validity. What other study methods could there be, that do predict
performance and that are persistently overlooked by researchers?
Maybe performance on examinations or dropout rates are poor estimates for true student
performance, but in practice these data are decisive. Failing an examination or dropping
out altogether are valid criteria by definition.

One could also argue that performance is dependent on other factors than the ones
usually measured. But what other factors? And if so, why is academic performance not
dependent on how students work, on their ability and motivation, as so many teachers,
students, and parents naively assume? Maybe it is time we face the facts: academic
success is to a large extent a matter of chance, or largely dependent on irrelevant factors,
or both. If sensible relations do not show up spontaneously, maybe we should find ways
for producing correlations where they should be if education is to be a rational enterprise.

Ahman, I.S., W.L. Smith, & M.D. Clock. Predicting academie success in college by means of a Study
Habits and Attitude Inventory. Educational and psychological Measurement, 1958,18, 853-857.

Boon van Ostade, A.H. De iteratieve clusteranalyse: een klassifikatiemethode voor psychologische
data. Nijmegen: Katholieke Universiteit, 1969.

Brown, W.F. & W.H. Holtzman. A study-attitudes questionnaire for predicting academic success.
Journal of educational Psychology, 1955,46, 75-84.

Crombag, H.F. Studiemotivatie en studieattitude. Groningen: Wolters-Noordhoff, 1968.

Crombag, H.F., J.G. Gaff, & T.M. Chang. Student characteristics and academic performance in a
medical school: differences that do not make a difference. British Journal of medical Education,
1973, 7, 146-151.

Crombag, H.F., & W.A.T. Meuwese. Student life and academic performance. In: Proceedings of the
XVIth International Congress of Applied Psychology. Amsterdam: Swets & Zeitlinger, 1969,
352-357.

Van Dam, A.G., & G. Hoolwerf. Figuren, cijfers, syllogismen. Amsterdam: Laboratorium voor
Psychodiagnistische en Bedrijfspsychologie, 1970.

Gaff, J.G., H.F. Crombag, & T.M. Chang. The university as a learning environment: an empirical
analysis. Leyden: Educational Research Center University of Leyden, report no. 13, 1973.

Gaff, J.G., H.F. Crombag, & T.M. Chang. F.nvironments for learning in a Dutch university Higher
Education, 1975, in press.

Geensen, M., & W. Meuwese. Studeergedrag en studiesucces. Eindhoven: Groep Onderwijsresearch
T.H. Eindhoven, rapport nr. 15, 1968.

Holtzman, W.H., W.F. Brown, & W.W. Farquhar. The Survey of Study Habits and Attitudes: A new
instrument for the prediction of academic success. Educational and psychological Measurement,
1954,14, iie-in.

Klip, E.C. Studiebegeleiding aan eerstejaarsstudenten. Groningen: Wolters-Noordhoff, 1970.

Lavin, D.E. The prediction of academic performance. New York: Russcll Sage Foundation, 1965.

Meuwese, W., & L. van Rooijen, Effecten van de begeleiding van eerstejaarsstudenten door tutoren.
Eindhoven: Groep Onderwijsresearch T.H. Eindhoven, rapport nr. 11,1966.

Savage, R.D. An exploratory study of individual characteristics associated with attainment in medical
school. British Journal of medical Education, 1972, 6, 68-77.

Wherry, R.J., & R.H. Gaylord. The concept of test and item reliability in relation to factor patterns.
Psychometrika, 1943,8, 247-264.

De Zeeuw, J. Algemene psychodiagnostiek I, Testmethoden. Amsterdam: Swets & Zeitlinger, 1971.

University of Amsterdam - Department of Experimental Psychology
University of Utrecht - Department of Methodology and Statistics

From the results of several studies, it is concluded that it is certainly not true that targeted
rotation can not discriminate between ,«ensb and nonsense. Horn and Knapp (1973) incorrectly
disregard the 'extra's' (i.e., significant loadings in places where no significant loadings were
hypothesized) obtained from their random hypotheses. Moreover, hypotheses which constitute
a conceptual whole, as do Structure of Intellect (SI) hypotheses, must be evaluated as a whole;
it is not sufficient to count the individual hits only. The subjectivity inherent in SI research is
not the kind of subjectivity for which a bias in favor of the original hypotheses has to be feared.
The impression that in SI research the subjectivity par excellence is tolerated (which subjectivi-
ty should consist of placing hors concours one's own conceptions) is incorrect.

As is rather well known, Guilford and his co-workers in the Aptitude Research Project
(ARP) use targeted rotation as a means of demonstrating the existence of the factors
hypothesized by the Structure of Intellect (SI) model (Guilford, 1967; Guilford &
Hoepfner, 1971).

According to Horn and Knapp (1973, p. 33), 'the SI model occupies a prominent place
among current theories about human abilities'. Therefore, one should consider the
following statement very carefully:

Perhaps the most telling arguments against the Guilford- Hoepfner position derive from empirical
studies demonstrating that investigators may use Procrustes procedures to provide what appears to be
support for arbitrary, nonsensical theories. Horn (1967), for example, generated random variables by a
computer procedure, arbitrarily labeled these variables, and used Procrustes rotation to force them
"'O a factor solution which, in accordance with widely accepted criteria for evaluating factor-analytic
®sults, could be interpreted as indicating support for a substantial theory stated prior to the analyses,
esults which replicate Horn's findings have been obtained by Armstrong and Soelberg (1968) and
Humphreys, Ilgen, McGrath and Montanelli (1969). (Horn & Knapp, 1973, p. 35)

This quotation suggests more than, in fact, is warranted. It suggests, for instance, that the
results of Horn's (1967) study are 'telling arguments against the Guilford-Hoepfner
position'. Indeed, many critics of SI theory refer to Horn (1967) in criticizing the SI
niodel (e.g., Carroll, 1972; Eysenck, 1973; Hakstian, 1972; Horn, 1970; Horn & Knapp,
^^■73;Nijsse, 1973).

There was thus indication tliat if an investigator were willing to interpret relatively low loadings if
these seemed to 'make sense' he needn't botlier to gather actual data: random variables may be labeled
arbitrarily and pushed into solutions that make quite 'good sense'. (Horn, 1967, p. 820) (italics are
ours)

This suggests that, in order to support a theory, a Procrustean rotation of factors is not
sufficient as a condition for arriving at an interpretable solution. What apparently is
needed in the first place is a willingness to interpret relatively low loadings (i.e. .20 or
.25), but not all such loadings, - only "if these seemed to 'make sense' ". We are not
convinced that these are 'widely accepted criteria for evaluating factor-analytic results'.
What has been demonstrated by Horn (1967) is not, in the first place (if at all), that
through the subjectivity of Procrustean rotation one can support any, even a nonsensical
theory; in the first place he has demonstrated that what is needed to arrive at this support
is subjectivity in the interpretation of factors. On the basis of Horn's (1967) study, one
certainly can not criticize the ARP workers because of their use of targeted rotation of
factors.

The intercorrelations among factors determined in this way tended to be large, however, thus
suggesting that this kind of information can be used to indicate the invalidity of a factorial solution
arrived at by subjective rotation.
(Horn, 1967, p. 820)

This Statement implies that Horn did not intend his conclusions to pertain to the
orthogonal case. Because the ARP workers use targeted orthogonal rotation, the con-
clusion once again must be that Horn's (1967) demonstration can not be used as an
argument against their rotational methods.

Furthermore, it may be noted that in his demonstration, Horn (1967) made use of
random data, whereas the ARP workers use real data in their research.
In summarizing, one can quote Guilford and Hoepfner who state in a footnote:
The caricatured example of a 'procrustean' rotation of random data recently reported by Horn (1967)
has little or no bearing on the methods used in this study, for his oblique rotations would permit much
more the capitalization on chance errors, and even so, very rarely did he obtain loadings of .30 or
greater more than once for each factor. This is in decided contrast to what we find with Cliffs
orthogonal-rotational method with real data. (Guilford & Hoepfner, 1969, p. 4)

Not one of the aforementioned critics of SI theory however, seems to have noticed this
reaction of Guilford and Hoepfner.

Another suggestion gathered from the quotation of Horn and Knapp (1973) is that the
studies of Armstrong and Soelberg (1968) and Humphreys et al. (1969) might be
considered to be replications of Horn's (1967) study. This, however, is not the case.
These studies are quite differently designed and have no direct connection with Horn's
study. But even if they were replications of Horn's (1967) study, it should be clear that,
in view of the aforesaid, these studies likewise cannot be considered to be 'telling
arguments against the Guilford-Hoepfner position'.
So, the following statement is, to say the least, rather premature:

The results from several studies thus indicate that subjective rotational procedures can be used to force
random variables into factors that provide what can be interpreted as support for virtually any theory.
(Horn & Knapp, 1973, p. 35)

In view of the aforesaid, a reply to Horn and Knapp (1973) is not only justifiable, but
seems even necessary.

In accordance with a well known rule of thumb, we will define a significant factor
loading as a loading with an absolute value > .30. Furthermore a 'hit' will be defined as a
significant loading of a variable on a factor on which a significant loading of the same sign
for this variable is hypothesized. 'Misses' will be defined as insignificant loadings in places
where significant loadings were hypothesized.' 'Extra's' will be defined as significant
loadings in places where insignificant loadings were hypothesized. A (common) factor,
finally, will be defined as a factor with at least two hits.

Horn (1967) computed the intcrcorrelations between 74 random normal deviates (N =
300) from which 21 factors were extracted (method of principal axes with iterative
communality estimates). To arrive at an hypothetical factor structure, the 74 random
variables were given the names of 'real' variables from previous investigations. Sub-
sequently, an hypothesis target matrix was constructed in which 54 of the random
variables were hypothesized as marker variables for 21 factors. The hypothesized loadings
of these random variables were in accordance with the loadings expected from their
realistic namesakes. For four of these variables, two significant loadings were hypothesiz-
ed. Twenty variables had no hypothesized loadings different from zero. The 21 principal
factors were rotated obliquely to the target matrix which, one shall readily agree, can be
considered to be a random hypothesis.

In the 58 places where significant loadings were hypothesized, the rotation resulted in 26
signfficant loadings. All other loadings were insignificant. Of the 21 factors, six had two
and one factor had three significant loadings. Eleven 'factors' had one significant loading.
The less the number of hypothesized significant loadings on a factor (i.e. the lower the
demands made upon the rotation) the better the chances of a hit.

Because of the points brought up in the first section and because of the expectation that
an oblique rotation offers more opportunities to capitalize on chance errors, Horn's
(1967) study was replicated, with the exception that the rotation was orthogonal (N.A.
Van Hemert et al. 1974).

This time 20 hits were counted. Furthermore, five extra's were counted. Only two of the
21 hypothesized factors scored two hits. Sixteen 'factors' scored one hit. The hit rate per
factor decreased again with an increase in the number of hypothesized significant
loadings.

As was to be expected even in a factor analysis based upon an N of 300, one has to cope
with the possibility of Type I errors.

In an ANOVA design, Humphreys et al. (1969) investigated the relation between, on the
one hand, the number of observations, the number of variables, the number of marker
variables per factor, and the method of rotation (oblique versus orthogonal) and, on the
other hand, the mean magnitude of the loadings which resulted from targeted rotation of
random data in those places where significant loadings were hypothesized in the target
"matrix. Of course, the chance of a hit depends directly on these relations.

More than anything else, the number of marker variables per factor appeared too be of
influence: reducing the number of marker variables from four to two per factor means
nearly a doubling of the mean loading in the case of random data. The number of
observations ranks a poor second in importance. The total number of variables is of
relative unimportance (however: the less, the better) and, rather remarkably, it does not
seem to matter much whether the rotation is oblique or orthogonal. This raises the
question about the mean loading of the marker variables being the best dependent
variable (i.e. the one that gives the most information or 'insight') in this kind of research.
That is, in terms of hits, misses, etc., there are indeed noticeable differences between
Horn's (1967) results with oblique rotation and the results obtained from the orthogonal
'replication', although they are not very spectacular and pertain mainly to those variables
which had no hypothesized loading different from zero. For those variables Horn (1967)
reports far fewer loadings within the +.20 - +.30 and the -.20 - -.30 intervals than do
N.A. Van Hemert et al. (1974) (7 versus 39). The orthogonal rotation also results in a
higher number of negative loadings < -.20 (42 versus 17 in Horn's study). The orthogonal
rotation also results in more loadings within the +.20 to +.30 interval (52 versus 36). The
overall result is that the orthogonal rotation still shows the random character of the data
more clearly than does the oblique rotation. According to the criteria of ARP research of
the 21 factors in Horn's study, only seven factors can be considered to be 'factors as
intended'; the orthogonal rotation results in only two such factors, one of which is even a
borderline case. In the orthogonal case there are also less hits (20 versus 26).
Because of the difference in rotational method the study of N.A. Van Hemert et al.
(1974) can not be considered to be an exact replication of Horn's (1967) study. This is
regrettable, because now the interesting question in what way replication is a defense
against Type I error in factor analytic research can only be tentatively and incompletely
answered.

In the orthogonal study, 13 of the 26 hits from Horn's study are replicated. So after
replication, 45 of the original 58 hypotheses in the target matrix must be rejected. Again
the number of marker variables per factor appears to be important: the chances of a
replicated hit strongly increase if the number of marker variables becomes less than three.
Conceming the replicability at the factorial level, the results are even worse. That is, the
orthogonal rotation results in only two interpretable factors, whereas in Horn's solution
both factors are uninterpretable. Therefore, no factors have been replicated.

(1) The notion that, because of the optimalization which is inherent in targeted rotation,
this kind of rotation can not discriminate between sense and nonsense certainly is not
true. Chance, as in all research, also plays a role in factor analysis. To what extent the
researcher will be a victim of this chance depends largely on the criteria which he requires
his results to meet.

(2) In the usual configurations of number of Ss, number of marker variables per factor,
number of variables, and orthogonal rotation, the rule of thumb for considering a loading
with an absolute value > .30 to be significant is reasonably conservative. Even in the
caricature presented by Horn it works very well. The effects of the three most important
variables are mainly linearly additive (Humpreys et al., 1969). Because of thus, for
configurations that are weaker or stronger than usual, it is possible to determine

eventually different criteria from the results of Humphreys et al. (1969). If one ap-
preciates reasonably accurate results and is not only interested in rejecting the hypothesis
that a loading is equal to zero, probably the best thing to do however is to avoid
configurations in which the criterion for the absolute value of a significant loading rises
above .30.

(3) Replication is useful (like an increase in number of Ss is most of the time) provided,
however, that within each of the studies to be compared the correct criteria are applied.
If in a study with 48 Ss, 48 variables, and 24 factors, a researcher considers a loading with
an absolute value > .30 to be significant, he will reach a hit rate of 100% and he will also
be able to replicate this result infinitely.

(4) Hypotheses which constitute a conceptual whole (e.g. all hypotheses stem from one
conception of a certain factor or a pattern of factors) have to be evaluated as a whole. It
is not sufficient to count only the individual hits. Conceptual consistency must be
required above and beyond the demand of statistical significance. This requirement can
he operationalized in terms of an identification criterion for factors: the number of hits
on a certain factor must clearly outnumber the misses plus the extra's. If there is a clear
majority of hits one can conclude without too much risk that the particular factor is the
hypothesized one. In drawing this conclusion, however, it is up to the researcher to make
clear that the misses as well as the extra's can be explained without changing the original
conception of the factor. In case the factors are not well established (only hypothetical),
again at least four marker variables per factor should be used in order to make the
application of this identification criterion possible.

From the research with random data we have drawn the conclusion that in the case of
targeted rotation, provided the right criteria are applied, the chances of Type I error
remain wholly within the bounds of acceptability.

An hypothetical researcher, who is presented with a result like the one obtained from the
replication of Horn's study, wUl certainly conclude that either his hypotheses were
dreadfuUy wrong, or more probably, that his assistants had made a mistake in preparing
the scores for the computer input.

In factor analytic research, however, the more general null hypothesis is not that the
correlation matrix in the population merely contains zero's, but that the fit between the
hypothetical factor matrix and the factor matrix in the population equals zero. This can
be interpreted as: the fit is not better than the average fit obtained from completely
randomly formulated hypotheses which have the same external features (i.e. number of
factors and number of marker variables per factor).

With regard to the detection of differences in fit, very probably factors like number of
observations, number of variables, number of marker variables per factor, and rotational
method will play a similar role as in the case of the detection of the random character of
the data.

Analytic research with real data in which these factors are varied systematically is not yet
available, neither is there unanimity concerning the correct measure of the fit. An
impression of what can be expected, however, can be presented on the grounds of two
recent studies: one of Horn and Knapp (1973) and one from M. Van Hemert et al.
(1974). This time the studies were completely independent.

The aim of the study by Horn and Knapp (1973) is not to evaluate the methods of
targeted rotation - these are rejected because of the results from the studies with random
data —, but to give a demonstration of the weakness of Guilford's work, conceming its
methodology as well as its content. The study aims at supporting the proposition that the
fit between the SI model and reality is so weak that it hovers near the fit obtained from
arbitrarily formulated hypotheses. That this has not been noticed before, Horn and
Knapp (1973) attribute to the power of targeted rotation in arriving at a result which
satisfies all conventional criteria of success with nearly any random combination of data
and hypotheses. Their demonstration, among others, consists of a comparison of, on the
one hand, the results from three ARP analyses in which the rotation was to hypotheses
derived from the SI model with, on the other hand, the results from a rerotation of these
data to completely randomly formulated hypotheses. The number of factors and the
number of variables per factor in the random hypotheses were equal to those in the
original hypotheses. Horn and Knapp (1973) compare the studies in terms of hits, misses,
and extra's as defined above. The results are summarized in Table 1.

Horn and Knapp (1973) attach little importance to the extra's because continuing
rotations, in which every time the hypotheses would be adjusted somewhat, might
drastically reduce the number of extra's. This, of course, is a priori true, because the data
are the same as the ones for which only 85 extra's were scored before by Guilford c.s.
Perhaps, by continuingly adjusting their random hypotheses, Horn and Knapp might have
rediscovered the SI model!

They conclude that if one uses subjective rotational methods, it does not make much
difference whether one takes the SI model or a nonsensical model as a starting point. The
rotational method enables everyone to think his own geese are swans.

(1) The three random solutions do not satisfy the requirement mentioned before, that the
number of hits must clearly outnumber the number of misses plus the number of extra's,
whereas the solutions obtained from the SI hypotheses, indeed, satisfy this requirement.
Expressed as a percentage of positive indices (hits/(hits + misses + extra's)) the result is 54
for the SI hypotheses and only 41 for the random hypotheses. The conclusion that the
optimalization which is inherent in targeted rotation makes it impossible to choose
between a theoretical hypothesis and a completely random hypothesis does not appear to
be justifiable.

(2) How large the lead of the SI hypothesis is, however, can only be guessed. In order to
be able to evaluate the gap more carefully, one ought to have at one s disposal the data

concerning the distribution of the relevant indices with a larger number of random
hypotheses. How large, for instance, is the chance of an arbitrary hypothesis with a hit
rate of 87%

(3) There is an urgent need for analytic research in the criteria of significance of the
various indices in various configurations of number of Ss, number of variables, and
number of marker variables per factor. It seems improbable that a hit rate above 80%
could be the rule with random hypotheses.

The study of M. Van Hemert et al. (1974) aimed at getting a first impression concerning
the chances of obtaining a result from arbitrarily formulated hypotheses which would be
considered acceptable by current standards. The hypotheses were generated by a com-
puter. In doing so, care was taken in observing that the constructed target matrices had as
large a number of factors and (almost) as large a number of marker variables per factor as
the theoretical hypothesis.

The coefficient of factorial similarity (abbreviated to CFS) was chosen as the dependent
variable. It was computed on the basis of all elements in the factor matrix according to
the formula:

All procedures for targeted rotation minimize the sum of squared deviations between
predicted loadings and the actually obtained loadings. This sum, of course, varies with the
number of variables in the analysis which makes the comparison more difficult. However,
the impression is that there exists a practically perfect negative linear relation between
the CFS and the mean sum of the squared deviations per variable. Consequently, the CFS
should lend itself better to comparisons; for example: a CFS of .85 corresponds with a
mean error sum of about .027; a CFS of .67 with a sum of about .360; a CFS of .50 with
a mean sum of about .540.

Three configurations were compared in order to arrive at an impression of the influence
on the rotational result of the number of target loadings per factor.
A study by Merrifield et al. (1963) served as a research study exemplifying a very weak
configuration. The original study had 33 variables and 13 factors. Because some parallel
tests were included, the researchers afterwards reduced the number of variables to 21; the
number of factors remained 13 (Guilford & Hoepfner, 1971). The variable/factor ratio in
this study thus is a very meager one and equals only 1.62 (N = 403).
The computer generated 120 arbitrary target matrices. Rotation to these hypotheses and
computation of the CFS's resulted in an almost symmetrical bellshaped distribution with
a range from .60 to .69. For the hypothesis based on the SI model, the CFS equalled .73,
a value which, although it points to only a moderately good fit, lies far outside the above
mentioned range.

The second study concerns a study of Hoepfner et al. (1968) with 47 variables and 17
factors, which yields a variable/factor ratio of 2.76 (N = 187).

In this case, the number of random hypothesis target matrices was limited to nine. This
somewhat more favourable configuration is perhaps expressed in the lower mean value of
the obtained CFS's. Here, the range of CFS's was from .51 to .56. The SI hypothesis
scored a CFS of .63. This is again a low value which, however, again lies far outside the
range obtained by chance.

Finally, an even better configuration was chosen: the well known example of 24
psychological tests in Harman (1970). The 'theoretical' matrix in this case was con-
structed on the basis of the test descriptions and Harman's bi-factor solution. The most
important difference between the two is that in the former a general factor is lacking and
a 'reasoning' factor is introduced. Six factors were hypothesized and the number of target
loadings of the 24 variables was equal to 31 (seven variables had two target loadings). So,
the variable/factor ratio was equal to 4.00 and, taking into account that seven variables
had two hypothesized loadings, this ratio even raises to 5.17 (N = 145).
The computer generated 250 random target matrices. The resulting CFS's were again
distributed almost symmetrically and ranged from .50 to .67. The CFS for the theoretical
hypothesis was equal to .85. In view of the way the theoretical target matrix was
constructed, such a good fit is not very surprising.

Surprising is that the range of the chance CFS's in this supposedly stronger configuration
is broader than for both the other studies and that their mean value (about .59) is higher
than in the preceding study (about .53). The number of observations might be playing a
more important role than was expected.

(1) It is altogether out of the question that targeted rotation has the power to produce
such clean results for any hypothesis that it becomes impossible to know chalk from
cheese. First of all, the results are not presented in an exaggeratedly nice way. In the
second place, the discrimination can always be made without difficulty.

(2) Only analytic research of the factors which determine the extent of the fit for the
random hypotheses can result in an answer to the question about which value the CFS
has to reach to be able to reject the null hypothesis in each particular study. If a
researcher is in doubt (for instance, concerning values between .55 and .70) he might
obtain an answer by computing the CFS's for a sufficiently large number of random
hypotheses. Even a modest value of .63 can then appear to lie far outside the range
expected from chance.

Essentially, the bias of targeted rotation is the same kind of bias which plays a role in
every descriptive technique, like regression analysis, analysis of variance, etc. The same
factors (i.e. number of observations, number of variables) play a role in all such
techniques. And as for these techniques for targeted factor analysis it is also true that
harm will be caused only if one accepts the results because of an apparent attractiveness
and if one forgets that, depending on the configuration of the research study, variable
criteria should be applied.

As Horn and Knapp (1973) rightly stress, the hypothesis-testing factor analysis generally
does not stop after the first rotation. Inasmuch as the result of the first rotation usually
clearly shows that the hypothesis is wrong, it does not show where it is wrong. If in this
discussion we confine ourselves to the intellectual domain, it is not very surprising that
the hypothesis does not fit. Very often only one target loading is assigned to each
variable, whereas all other loadings of the variables are fixed at zero. Fluctuations in the
sample can not be taken into account, yet they do occur. Factor-pure tests are very rare.
Moreover, the actual factor pattern depends strongly on the subjects; an inspection of
only the tasks is not sufficient to predict the outcome. So, even a strong hypothesis will
result in a number of misses and also in a number of extra's. Also, the insignificant
loadings will be spread around zero in a broader than desirable way. The result is
disorderly and because of this, what is really wrong will be more or less masked. One has
to consider that, if according to an hypothesis, three variables have a loading of .70 on a
particular factor and if one of these variables has no affinity to this factor, then the result
will not be two loadings of .70 and one loading of zero on this factor. On the contrary,
the obstinate computer produces a kind of compromise. The wrong hypotheses spoil the
solution for the right ones.

The consequence is that, in order to be able to determine how far his suppositions are
affirmed by the data, the researcher shall have to let these suppositions play a role in the
rotations. His primary objective must be to describe his data well. In practice this means
that after the first rotation to the theoretical ideal, he must try by means of adjustments
of the original hypothesis to arrive at a result which is formally acceptable (i.e. all
loadings positive and either high or practically zero). This requires an iterative procedure
in which parts of the original theoretical hypothesis are replaced by descriptive elements
which are based on the data themselves. Changes which can be interpreted (Guilford uses
the term rationalized), of course, are to be preferred. In the procedures of the ARP, the
tenability of the original hypothesis is judged only after this process of adjustment has
taken place.

A formal explanation to the problem of how to arrive at a formally acceptable final
solution with as few changes in the original target matrix as possible does not exist. This
means that the process of adjustment leaves a certain margin. There is, of course,
proportionally less room left for subjective decisions as the original hypothesis gives a
better description of the correlational structure of the data. If this margin becomes too
large, then rather than hypothesis testing, the research is better considered as being
exploratory. In practice of SI research, the room left for different presentations of the
data usually is relatively small. Very many things are fixed and because of the long
previous history of the variables, the possibilities for an explanation post hoc are limited.
Still there is room and hence, subjectivity, - but not the kind of subjectivity from which
a bias in favor of the original hypothesis must be feared. This biased subjectivity is not
possible because this room originates when certain parts of the original hypothesis are
given up. The post hoc element in the final result, which is attained after more or less
important adjustments, implies the necessity of reporting the complete rotated solution
and not, as sometimes happens, only the significant loadings.

Parameters which might be of use in evaluating the results are (1) the congruency
between the original hypothesis and the final solution, and (2) the congruency between
the complete final solution and the idealized form of this solution in which all in-

significant loadings are replaced by zero's. Most of the time, the theoretical discussion is
concerned with this idealized version. Therefore the idealized solution is required to
represent the data in a correct manner.

It is remarkable that those who criticize the work of the ARP group because of their use
of targeted rotation never raise their voices against a subjecfive element in the ARP work
which, according to us, is much more important, and which should also be of more
importance to the feeling of discomfort the critics have. We mean this: it is true that
without fail larger or smaller parts of the research hypothesis are rejected, but even
though the data force these rejections, the conclusion is never drawn that the SI model
itself does not fit. The defect is consistently sought at the operational level. The famous
cube seems invulnerable, at least it is treated that way. In fact this means that one admits
to its untestability. But why, then, stress the hypothesis testing character of the research
and the targeted rotation? In order to be able to be shaken by empirical results, a theory
needs to have a logically tight connection with the operational base. This connection can
be provided by a theory of intermediate level, which is more concrete, more detailed, and
better specified than the model itself. Most of what is known about the structure of
intellect from the work of the ARP group is not localized in the cube, which in fact only
functions as a search-model, but in the lower connective and operational parts of what we
have already called the theory about the structure of intellect. When is information a unit
and when is it a system? Why are behavioral tests so unreliable? What, in practice, do we
understand by the concept of evaluation, e.g. do esthetical judgments belong to the
evaluation category? Does a difference exist between long and short term memory
performances? At this level, suppositions are continuously put forward, rejected, revised,
and put to the test in new hypothesis testing research. Therefore, the impression that, in
51 research, the subjectivity par excellence is tolerated (which subjectivity consists of
placing hors concours one's own conceptions) is not correct.

Armstrong, J.S., & Soelberg, P. On the interpretation of (actoi analysis. Psvchological Bulletin, 1968,
70, 361-364.

Carroll, J.B. Stalking the wayward factors. Contemporary Psychology, 1972,17, 321-324.

Eysenck, H.J. The measurement of intelligence. Lancaster, England: Medical and Technical Publishing
Co. Ltd., 1973.

Guilford, J.P., & Hoepfner, R. Comparisons of Varimax rotations with rotations to theoretical targets.
Educational and Psychological Measurement, 1969,29, 3-23.

Guilford, J.P., & Hoepfner, R. The analysis of intelligence. NeW York: McGaw-Hill, 1971.

Hakstian, A.R. Review of J.P. Guilford & R. Hoepfner's The analysis of intelligence. £yuci7/(0«<j/
Psychological Measurement, 1912,32, 211-215.

Harman, U.U. Modern factor analysis. Chicago: University of Chicago Press, 1970.

Hoepfner, R., Guilford, J.P., & Bradley, P.A. Identification of transformation abUities in the Structure
of Intellect modeL University of Southern California: Reports from the Psychological Laboratory,
1968, 41.

Horn, J.L. On subjectivity in factor analysis. Educational and Psychological Measurement, 1967, 27,
811-820.

Horn, J.L. Review of J.P. Guilford's The nature of human intelligence. Psychometrika, 1970, 35,
273-277.

Horn, J.L., & Knapp, J.R. On the subjective character of the empirical base of Guilford's Structure-of-
Intellect model. Psychological Bulletin, 1973, 80, 33-43.

Humphreys, L.G., Ilgen, D., McGrath, D., & MontaneUi, R. Capitalization on chance in rotation of
factors. Educational and Psychological Measurement, 1969,29, 259-211.

Merrifield, P.R., Guilford, J.P., & Gershon, A. The differentiation of divergent-production abilities at
the sixth grade level. University of Southern California: Reports from the Psychological Laborato-
ry, 1963,27.

Nijsse, M. Creativiteit en de meting er van bij kinderen: een literatuur overzicht. Nederlands Tijdschrift
voor Psychologie, \91Z, 28,^11-502.

Van Hemert, M., Van Hemert, N.A., & Elshout, J.J. Some simulations of targeted orthogonal rotation
of factors: 2. Real factors and random hypotheses. In: G. Bruckmann, F. Ferschl, & L. Schmet-
tcrer, (editors), COMPSTAT 1974: Proceedings in Computational Statistics. Wien: Physica Verlag,
1974.

Van Hemert, N.A., Van Hemert, M., &. Elshout, J.J. Some simulations of targeted orthogonal rotation
of factors: 1. Random factors and real hypotheses. In: G. Bruckmann, F. Ferschl, & L. Schmet-
terer, (editors), COMPSTAT 1974: Proceedings in Computational Statistics. Wien: Physica Verlag,
1974.

Satisfactory and unsatisfactory results on objective achievement tests, educational aptitude and
preparation in the first year of university.

Education and also the borderline between satisfactory and unsatisfactory results should be
adapted to what can be attained in a given educational situation by those students for whom
the education is intended in the first place; they should be aligned on those students who
prepare themselves sufficiently and who also have a certain minimal capability for studying.
Wijnen (1971) presumes that every pupil who qualified to attend university education is also
apt to it and he also supposes that every student prepares himself sufficiently. After the
description of five arguments (two of which are of a general kind) against the procedure to
determine the borderline as proposed by Wijnen, an investigation is presented here which
purports to demonstrate the relation between educational aptitude and preparation time at one
side and test achievement in the first year at the other side. In this investigation it has appeared
that time of preparation does correlate negatively with achievement on the test. This is
explained by the fact that the test consisted mainly of questions of insight. Educational
aptitude correlated significantly (.54) with achievement score.

A new procedure is proposed to determine the borderline in such a way that this borderline is
dependent on a certain minimum-level of educational aptitude (and possibly on preparation-
time too if meaningful). This procedure could entail a more equal chance of passing tests on
different subjects. It may also improve guidance about the difficulty-level of study at universi-
ty.

Het onderzoek waarvan in dit artikel verslag wordt gedaan vindt zijn startpunt in de
overtuiging dat de cesuur voldoende/onvoldoende bij tentamens afgestemd moet zijn op
de mogelijkheden, in de gegeven onderwijssituatie, van die groep studenten waarvoor het
onderwijs in eerste instantie is bedoeld. Deze overtuiging sluit aan bij die van Wijnen
(1971: 51) maar is minder ruim. Wijnen stelt dat onderwijs en ook de cesuur-bepaling
behoort te worden aangepast aan al degenen die tot het volgen van dat onderwijs zijn
gekwalificeerd. Hoewel met de kern van Wijnen's gedachte, afstemming op aanwezige
mogelijkheden, wordt ingestemd, werd het noodzakelijk geacht hierin een nuancering aan
te brengen. De nuancering heeft de volgende vorm gekregen: iedere student moet voor

♦Voor de nauwkeurige uitvoering van de statistische bewerkingen ben ik veel dank verschuldigd aan
Peter ToU, die ook verder het gehele onderzoek kritisch volgde. Voor verbeteringen in de tekst dank ik
Prof.Dr. G. Brenninkmeijer, Dr. H.J.M. Hermans en Dr. A.H. Boon van Ostade. De laatste dank ik ook
voor enkele methodologische adviezen.

een eerstejaarstentamen kunnen slagen, mits hij redelijke studiecapaciteiten bezit en zich
verder voldoende prepareert. Wat redelijke studiecapaciteiten en voldoende voorbereiden
concreet moeten inhouden is uiteraard arbitrair en staat voor discussie en nadere afspraak
open. Door middel van onderzoek is getracht de keuzemogelijkheden die hier liggen, aan
te geven. De gevolgde werkwijze zou in principe model kunnen staan voor een nieuwe
procedure voor de cesuur voldoende/onvoldoende bij eerstejaarstentamens,
'n het nu volgende zijn drie delen te onderscheiden. Het eerste deel heeft betrekking op
een nadere beschouwing van Wijnen's uitgangspunt en vooral op de opsomming van een
aantal bezwaren tegen de uitwerking ervan. Het tweede deel geeft verslag van een
onderzoek dat tracht aan te sluiten bij het enigszins gewijzigde uitgangspunt. Het derde
deel bevat een discussie naar aanleiding van het onderzoek en gaat in op de mogelijkheid
tentamens en propedeuses qua moeilijkheidsgraad beter op elkaar af te stemmen.

Wijnen's uitgangspunt en enkele bezwaren tegen de bruikbaarheid van de door hem
voorgestelde beslissingsregel.

Het uitgangspunt van Wijnen is dat ieder met de vereiste vooropleiding universitair
onderwijs moet kunnen volgen (1971: 51). Hij veronderstelt verder, tot het tegendeel is
aangetoond, dat iedere student zich voldoende voorbereidt (1971: 56,69).
Rekening houdend met het feit dat ook het onderwijs de prestaties beïnvloedt komt
Wijnen op basis van bovengenoemd uitgangspunt en de daarbij gemaakte veronderstelling
tot de opvatting dat het groepsgemiddelde de beste schatting is van het in de gegeven
omstandigheden bereikbare resultaat. Door het groepsgemiddelde als referentiepunt te
nemen komt hij tot de formulering van de volgende beslissingsregel voor de cesuur
voldoende/onvoldoende: iemand wordt afgewezen wanneer met een waarschijnlijkheid
van 95% kan worden gezegd, dat zijn prestatie niet kan worden gezien als een toevalsaf-
wijking van de prestatie van een voor deze onderwijssituatie typische kandidaat (d.i. van
de gemiddelde prestatie).

Eerder werd reeds op twee punten een nuancering aangebracht in het uitgangspunt van
Wijnen. Het is namelijk de vraag of het onderwijs en dus de cesuurbepaHng óók moet
worden aangepast aan een vooropleiding en een daarop geleverde prestatie, die een zeer
slechte prognose geeft voor een bepaald vak. Ook dient de veronderstelling dat iedere
student zich voldoende voorbereidt, nader te worden bekeken. Kan immers worden
aangetoond dat dit niet het geval is dan mag de gemiddelde prestatie niet worden gebruikt
als referentiepunt voor de cesuurbepaling. In een drietal punten wordt getracht dit voor
een bepaald tentamen aan te tonen (zie punt 1, 2 en 3). De gemiddelde prestatie is ook
niet representatief bij een herhaaltoets (zie punt 4). Tenslotte (5) is het de vraag of de
door Wijnen aangegeven manier om na te gaan of het gemiddelde representatief is voor de
gegeven onderwijssituatie, wel uitvoerbaar is.

t Bij een tentamen Practicum Experimentele Methodiek, onderdeel van de propedeutische toets in de
psychologie in Nijmegen, bleek uit onderzoek dat die studenten die de practicum-bijeenkomsten
minder vaak volgden ook slechtere tentamenresultaten behaalden. Zo werden na het tentamen uit
een groep HBS-A studenten met gelijke eindexamencijfers twee groepen van 11 studenten gevormd.
In de ene groep zaten de studenten die bijna altijd waren gekomen, de andere groep was
samengesteld uit de studenten die ongeveer de helft of nog meer bijeenkomsten hadden gemist.
Van de groep die bijna altijd kwam, slaagden er 10 van de 11, in de andere groep zakten er 9 van de

Tegen dit onderzoekje kan worden ingebraclit dat ijverige studenten wellicht intensiever het
practicum zullen volgen, terwijl ze ook zonder dat te doen vanwege hun ijver zullen slagen. Hoewel
dus de intensiteit waarmee het practicum wordt gevolgd niet direkt een oorzaak behoeft te zijn
voor het al dan niet slagen, kan deze factor zeer waarschijnlijk wel als een oorzaak worden
aangemerkt. Indien deze factor oorzakelijk van aard is, en er zijn studenten onder de kandidaten
die het practicum weinig bezochten, dan is dat ook voor Wijnen voldoende reden om af te wijken
van de door hem voorgestelde beslissingsregel (1971: 69). Soms konden factoren worden achter-
haald die samenhingen met het slecht volgen van het practicum en/of het worden afgewezen op het
genoemde tentamen. Zo bleken er in 1972 van de werkstudenten, dat waren studenten die opgaven
8 of meer uren per week te moeten werken, 5 van de 11 na drie tentamengelegenheden nog niet
geslaagd tegenover 4 op een steekproef van 36 'niet-werkstudenten' (Van Vliet 1972b). Een ander
voorbeeld van onvoldoende voorbereiding bleek uit een onderzoekje in september 1972 (Van Vliet
1972a). Toen gaven 7 van 18 studenten die voor bovengenoemd tentamen twee keer waren gezakt
o.a. als reden daarvoor op: 'Ik ben te laat op het practicum gaan werken'. In al deze gevallen zal de
gemiddelde prestatie worden gedrukt en dus niet goed bruikbaar zijn als referentiepunt.

2 Indien 50% van de studenten de studie twee maanden na het begin niet (voldoende) vindt
aansluiten bij hun motivatie en interesse (WEB, 1973, 1974) dan kan men zich afvragen of het juist
is de gemiddelde prestatie bij een propedeutisch tentamen te beschouwen als typisch voor de
betreffende onderwijssituatie. Is de daar geleverde prestatie niet eerder typisch voor een slechte
voorlichting?

Zie voor het enquête-resultaat op de vraag 'wat was de directe aanleiding om psychologie te gaan
doen' tabel 1.

Indien de groep kandidaten een aantal niet-geïnformeerde of slecht voorbereide deelnemers bevat
zal dit volgens Wijnen o.a. leiden tot een aantal scores om en nabij de toevalsscore (1971: 69). Deze
scores kwamen inderdaad voor bij eerder genoemd tentamen in 1972: 5 studenten scoorden gelijk
aan of beneden de toevalsscore op een totaal van 298 studenten. In 1973 waren het er 10 op de
268 en in 1974 drie op een totaal van 251 studenten. Het spreekt van zelf, aldus Wijnen, dat de
beslissingsregel in zo'n situatie moet worden aangepast.

Als er sprake is van een herhaaltoets is het volgens Wijnen waarschijnlijk onjuist de beslissingsregel
toe te passen: de gemiddelde prestatie op een herhaaltoets is immers niet typisch voor de
betreffende onderwijssituatie (1971: 121). Maar is het niet zo dat bij alle tentamens die langer dan
een jaar bestaan, aan de eerste gelegenheid voor dat tentamen kandidaten deelnemen die dat
tentamen in het vorig cursusjaar reeds één of meer keren zonder succes hebben afgelegd?

M.a.w. bestaan er wel tentamens waar uitsluitend kandidaten aan deelnemen die dat tentamen voor
de eerste keer doen? Voor propedeutische tentamens in de psychologie in Nijmegen is dit zeker
niet het geval: circa 30 a 40 studenten op ongeveer 280 studenten nemen voor een tweedejaar deel
aan de tentamens. Propedeutische tentamens waar men langer dan één jaar aan mag deelnemen zijn
dus voor een deel der studenten herhaaltoetsen.

Het kan volgens Wijnen een kritisch docent nauwelijks ontgaan als de groep kandidaten een aantal
niet geïnformeerde of slecht-voorbereide deelnemers bevat. Dit zal leiden tot een vergroting van de
standaarddeviatie, een verhoging van de correlaties tussen vragen en een verhoging van de betrouw-
baarheid van de meting. Wijnen veronderstelt hierbij stilzwijgend dat genoemde indices kunnen
worden vergeleken met standaardindices afgeleid uit een situatie waarin alle deelnemers zich wel
voldoende hebben voorbereid. Deze situatie komt evenwel in de praktijk waarschijnlijk nooit voor.

a de gemiddelde prestatie op een tentamen veelal niet representatief zal zijn door een
aantal prestatie-verlagende factoren (o.a. ziekte, werkstudent zijn, geringe interesse),

b vrijwel alle toetsen voor een deel der studenten herhaaltoetsen zullen zijn en dus niet
typisch voor de betreffende onderwijssituatie,

c een drietal door Wijnen genoemde indices om slechte voorbereiding te constateren
ongeschikt zijn omdat ze in de praktijk niet kunnen worden vergeleken met een
situatie waarin wèl sprake is van voldoende voorbereiding.

Tot slot een tweetal kanttekeningen bij Wijnen's opvatting dat het groepsgemiddelde
typerend is voor de onderwijssituatie.

Deze opvatting is alleen verantwoord indien wordt verondersteld dat alle studenten zich
serieus hebben voorbereid. Deze veronderstelling dient volgens Wijnen als juist te worden
geaccepteerd tenzij haar onjuistheid kan worden aangetoond. Betekent dit nu dat nie-
mand zal (mogen) zakken omdat (volgens Wijnen (1971: 51)) 'het onderwijs afgestemd
behoort te zijn op de mogelijkheden van degenen die tot het volgen van dat onderwijs
gekwalificeerd zijn' en de studenten, eveneens volgens Wijnen, zich allen hebben voorbe-
reid (althans tot het tegendeel is aangetoond)?

De tweede kanttekening betreft het feit dat Wijnen van de tegenstanders van zijn
beslissingsregel vergt dat zij hun bezwaren door onderzoek waarmaken (1971: 122),
terwijl hij dit zelf niet doet t.a.v. de kern van zijn methode: waarmaken dat de
gemiddelde prestatie tot stand is gekomen door een adequate voorbereiding door alle
studenten.

In de inleiding werd als uitgangspunt voor dit onderzoek naar voren gebracht: iedere
student moet voor een eerstejaarstentamen kunnen slagen mits hij redelijke studiecapaci-
teiten bezit en zich verder voldoende prepareert. Voor onderzoek zullen dus nader
moeten worden gespecificeerd de factoren studiecapaciteit, voorbereidingstijd en een
eerstejaarstentamen. Vervolgens zal moeten worden nagegaan of de eerste twee factoren
positief correleren met de gekozen tentamenprestatie. Op de correlerende variabelen
kunnen dan minima worden gekozen, waarna kan worden nagegaan tot welke voorspelde
tentamenscore dit leidt. Deze score zou men tenslotte als aftestgrens kunnen hanteren.

Het onderzoek werd verricht op het propedeutisch tentamen Practicum Experimentele
Methodiek dat op 10 mei 1972 werd afgenomen aan de Subfaculteit Psychologie in
Nijmegen. Aan 298 deelnemers aan dit tentamen werd een enquête gepresenteerd welke
was vastgehecht aan het tentamenboekje. In de inleiding op de enquête stond dat het om
een onderwijsonderzoek ging dat betrekking had op het gedrag van groepen studenten.
Indien men twijfelde aan het verantwoord gebruik van de gegevens kon men bepaalde
vragen uiteraard overslaan. Gevraagd werd naar vooropleiding (de grote invloed hiervan
was reeds bekend, zie ook verder), aantal doublures (aantal jaren middelbare school boven
het officiële aantal van de opgegeven opleiding), leeftijd, gemiddeld punt voor de
eindexamenvakken, cijfer voor Nederlands, Engels en (evt.) algebra (deze indices werden
gekozen als vermoedelijke beste voorspellers van de tentamenprestatie en zijn dus de
voorlopige specificatie van de factor studiecapaciteit), aantal uren voorbereiding direct
gericht op het tentamen en de aantallen uren besteed aan de werkstukken. De resultaten
van de enquête waren als volgt. Van de 298 studenten vulden er 51 niets in. Van de
overige 247 studenten hadden 9 studenten als vooropleiding Pedagogische Academie en
10 een andere dan HBS-A, HBS-B, Gym. alpha. Gym. bèta. Vanwege de geringe aantallen
(9 en 10) werden deze in het verder onderzoek niet bekeken, zodat er 228 ppn.
overbleven. Deze 228 waren in vier vooropleidingen te onderscheiden. Om de vooroplei-
ding te kunnen correleren met de tentamenprestatie werd nagegaan wat de gemiddelde
prestatie per vooropleiding was (zie tabel 2).

Op grond van deze uitkomsten kreeg de vooropleiding met de hoogste tentamenscore het
cijfer 1 toegekend (bèta's), die met de middelste score het cijfer 2 (alpha's en B's) en de
vooropleiding met de laagste score het cijfer 3 (A's). Deze wijze van cijfers toekennen
leidt tot een negatieve correlatie met de vooropleiding. De correlaties, gebruikt werd de
Pearson correlatiecoëfficiënt, van alle variabelen met de tentamenscore waren als weerge-
geven in tabel 3.

In deze tabel is de N bij algebra lager dan bij de andere coëfficiënten omdat HBS-A geen
algebra heeft op het eindexamen. Ook bij de andere coëfficiënten wisselt de N enigszins
omdat niet ieder alle vragen beantwoordde. Bij deze voorlopige ordening was teleurstel-
lend dat voorbereidingstijd negatief correleerde met de tentamenprestatie. In de discussie
wordt hierop nader ingegaan.

Om te komen tot betrouwbare predictoren (Boon van Ostade, Hermans, 1967) werd een
clusteranalyse uitgevoerd. Er waren voor de uitgangscorrelatiematrix twee mogelijkheden:
één waarbij de onbekende scores niet meetelden en één waarbij voor een onbekende score

het gemiddelde op die variabele werd aangenomen. Beide methoden leverden nagenoeg
dezelfde correlatiematrix op voor clusteranalyse. Gekozen werd voor de correlatiematrix
met onbekende scores. Als criteriumwaarde (d.i. de correlatie die enige variabele minimaal
met het cluster moet hebben om erin te worden opgenomen) werd .30 gekozen. Analyse
leverde de volgende clusters op.

~ Een eerste cluster met de variabelen voorbereidingstijd, nl. 8, 9, 10, 11 en 12. De

betrouwbaarheid volgens de alpha-coëfficiënt (Cronbach, 1951) was .80.
- Een tweede cluster met variabelen die betrekking hebben op de schoolprestatie

(gemiddeld punt, cijfer voor Nederlands en Engels) nl. 4, 5 en 7 (alpha = .63).
~ Een derde cluster bestond uit de variabelen aantal doublures en leeftijd nl. 2 en 3
(alpha = .48).

overige variabelen werden niet in een cluster opgenomen. De correlatie van deze drie
clusters met de tentamenscore was als volgt:

Als meest betrouwbare predictoren werden gekozen cluster 2 (variabelen 4, 5 en 7) en de
afzonderlijke variabelen 2 (aantal doublures) en 1 (vooropleiding). Variabele 9 (voorberei-
dingstijd) kwam niet in aanmerking omdat deze niet het verwachte verband liet zien met
de tentamenscore.

Om de gezamenlijke voorspellingskracht van deze drie predictoren te bepalen werd de
multipele correlatie berekend. Dit leverde de volgende vergelijking op:

45.79 — 4.48 x variabele b — 1.54 x variabele c + 0.67 x variabele d
= voorspelling van variabele a.

De multipele correlatie bedroeg .54 bij een N van 215. De standaardmeetfout van de
voorspelde tentamenscore was 6.51. Hierin stelt variabele a de tentamenscore voor (het
criterium). De predictoren zijn de variabelen b (opleiding), c (aantal doublures) en d (de
som van: het gemiddelde eindexamencijfer + het cijfer voor Nederlands + het cijfer voor
Engels).

Om de betrouwbaarheid en effectiviteit van bovenstaande formule te toetsen werd een
kruisvalidering uitgevoerd. De 215 ppn. werden at random verdeeld over twee groepen:
groep A bevatte 107 ppn, groep B 108 ppn. Voor beide groepen werd de multipele
correlatiecoëfficiënt berekend. Dit gaf voor groep A als resultaat een multipele correlatie-
coëfficiënt van .54 en een standaardmeetfout van de voorspelde tentamenscore van 5.74.
Voor groep B was dit respectievelijk .56 en 7.15.

Ter voltooiing van de kruisvalidering werden de data van groep A getoetst aan de
vergelijking opgesteld op basis van de data van groep B en werden de data van groep B
getoetst aan de vergelijking van groep A.
Dit leverde de volgende correlaties op:

We kunnen vaststellen dat de oorspronkelijke vergelijking weinig 'krimp' vertoonde en vrij
betrouwbaar is. De predictieve validiteit zd minstens .52 bedragen.

Om een inzicht te krijgen in te kiezen minima op de predictoren en de daarmee
corresponderende voorspelde tentamenscore, tevens eventuele cesuur, is een schema
opgesteld zoals in tabel 4 weergegeven. In die tabel kan men, uitgaande van de eerst
gevonden vergelijking, de voorspelde tentamenscore vinden van bijvoorbeeld een HBS-
A'er, die geen enkele keer gedoubleerd heeft, als gemiddeld eindexamencijfer 6M heeft

behaald en als cijfer voor Nederlands en Engels respectievelijk 6 en 7 heeft. De hierbij
gebruikte codering was als volgt: variabele a = tentamenscore: niet omgecodeerd; variabe-
le b = opleiding: bêta=l, alpha en B=2, A=3; variabele c = aantal doublures: niet
onigecodeerd; variabele d = som van de coderingen voor gemiddeld eindexamencijfer,
cijfer Nederiands en cijfer Engels. De codering voor gemiddeld eindexamencijfer was:
6=1; en 6i4 = 2; 7~ en 7 = 3, enz. Voor Nederlands en Engels was de codering: 4=1;
t/m 5 = 2, enz. Uit de vergelijking volgt voor bovengenoemde HBS-A'er een voorspelde
score van 38.3. Bij dit tentamen was 60 de hoogst mogelijke score (60 vragen). In de tabel
is ook voor andere capaciteitenniveau's de voorspelde tentamenscore weergegeven. Voor
een alpha- en een B-student dient bij de voorspelde score (aantal vragen goed) 4.5 te
Worden opgeteld en voor een bêta-student 9.

Om de belangrijke rol van de vooropleiding te laten zien is een vergelijking gemaakt tussen
HBS-A en gymnasium bèta. Wil een HBS-A'er of een gymnasiast bèta een goede kans
maken om een in eerdere jaren gestelde norm van 41 vragen goed te halen, dan zal hij qua
studiecapaciteiten aan de volgende vereisten moeten voldoen:

Het onderzoek beoogde een methode voor cesuurbepaling te vinden die rekening houdt
met de studiecapaciteit en de voorbereiding. Een tweetal factoren waarvan Wijnen
aanneemt dat zij in voldoende mate aanwezig zullen zijn. Wat is er nu t.a.v. deze twee
factoren uit het onderzoek gekomen?

Wat betreft voorbereidingstijd kon geen positieve relatie worden gevonden met de
tentamenprestatie, maar werd zelfs een significant negatieve gevonden. Een gegeven dat
Wel eens meer wordt aangetroffen en dat men verklaart door erop te wijzen dat studenten
met geringe studiecapaciteiten door extra lang studeren trachten toch een voldoende te
behalen, terwijl ze in die tijd, gezien hun tentamenscore, nog onvoldoende inzicht hebben
opgedaan. Dat zo'n proces ook bij dit tentamen de verklaring vormt lijkt aannemelijk
omdat het betrokken tentamen zowel door de studenten als door de docent wordt gezien
zeer sterk op inzicht georiënteerd. Als een maat voor voorbereiding (en/of van
motivatie en interesse) kan bij volgend onderzoek wellicht beter de frequentie van
Practicumbezoek gebruikt worden gezien het in de inleiding vermelde waarschijnlijke
effect hiervan bij een aantal HBS-A studenten.

De factor studiecapaciteit bleek wel voorspellend te zijn voor de tentamenprestatie.
Hoewel de hoogte van de correlatie (.54) betekent dat de foutenmarge bij voorspeüingen
vrij groot is, is de voorspelde score wel de meest waarschijnlijke. Met andere woorden bij
gebrek aan een beter idee van wat een bepaald minimum aan studiecapaciteiten in de
gegeven onderwijssituatie kan presteren, kan de daarbij voorspelde score dienen als cesuur
of als een uitgangspunt ervoor. Het bepaalde minimum aan studiecapaciteiten kan men
zich zo laag of hoog indenken als men wenselijk acht. Zo blijft de methode ook bruikbaar
indien men van mening is dat ieder met een VWO-diploma moet kunnen studeren.
In dat geval zou men bij de normbepaling kunnen refereren aan de voorspelde score voor
die studenten met de slechtste prognose voor het tentamen gezien hun vooropleiding,
aantal doublures en eindexamencijfers. Indien men van een dergelijk standpunt uitgaat,
zal dit wel leiden tot een groep tweedejaars studenten met een zeer uiteenlopend niveau
aan studiecapaciteiten, hetgeen de onderwijsorganisatie de nodige problemen zal geven.

Als men de mening toegedaan is dat normen reeds voor het tentamen moeten vaststaan
(absoluut referentiepunt), dan lijkt het zinvol achteraf eens na te gaan wat de toegepaste
cesuur ongeveer betekent t.a.v. gevergde studiecapaciteiten. Op grond van een dergelijk
onderzoek zou men kunnen komen tot een bijstelling van de norm in volgende jaren.

In principe is door het voorgaande onderzoek aangetoond dat het mogelijk is een norm
voor een tentamen af te stemmen op een gekozen minimum aan capaciteiten en eventueel
eveneens op een minimumniveau van voorbereiding en interesse. Deze mogelijkheid zou
landelijk benut kunnen worden door voor dezelfde of gelijkende tentamens uit te gaan
van een gelijk niveau. Ook lijkt het doenlijk uit te zoeken welke variabelen de prestaties
op tentamens van de propedeuse bepalen om vervolgens te komen tot de keuze van een
minimum-niveau op die variabelen.

Indien dat realiseerbaar is, zou kunnen worden voorkomen dat één of meer vakken in de
propedeuse te hoge of te lage normen hanteren, waardoor bepaalde tentamens als
makkelijk of moeilijk te boek staan. Wellicht zou op deze wijze de propedeuse landelijk
eenzelfde moeilijkheidsgraad kunnen krijgen: één of andere instantie formuleert het
minimum aan capaciteiten en eventueel, eveneens waar zinvol, inzet en de hiermee
corresponderende tentamenscore is juist voldoende. Verschillen in onderwijs of moeilijk-
heidsgraad van de tentamens hebben dan geen invloed op de kans van de student om door
de propedeuse te komen.

De tijd die het vinden van de norm vergt is voor de individuele docent betrekkelijk kort.
De meeste predicerende factoren kunnen uit de studentenadministratie gehaald worden.
Met name de vooropleiding, aantal doublures en de cijfers. Deze kunnen reeds van te
voren op ponskaarten worden gezet, al of niet met toevoeging van scores voor de
frequentie van practicum- of collegebezoek, studie-interesse en eventuele andere factoren.
Computerprogramma's kunnen van tevoren worden geprobeerd eventueel met gefingeer-
de, of beter, met de relevante gegevens van vorig jaar, zodat zodra het tentamen is
afgenomen binnen één è twee weken de uitslag van het tentamen bekend kan worden
gemaakt." De aldus gevonden norm kan met een methode voor normconstantie worden
overgebracht op de herhalingen van dat tentamen. Het handhaven van een norm voor één
of meer jaren is echter alleen verantwoord indien de onderwijssituatie niet verandert,
anders moet men de norm opnieuw bepalen.

Ten aanzien van de populatie waarop de norm wordt bepaald, moet nog worden
opgemerkt dat het juister is eventuele studenten die het vak voor een tweede keer doen,
niet op te nemen bij de bepaling van de correlatie. In het eerder beschreven onderzoek is
dit wel gebeurd.

Ook zouden studenten die erbij moeten werken of op een andere manier niet normaal
kunnen studeren (ziekte etc.) niet in de correlatieberekening moeten worden opgenomen.
Ditzelfde zou misschien moeten gelden voor studenten die eerst iets anders hebben
gestudeerd, danwel om andere redenen niet onmiddellijk met de betreffende studie zijn
begonnen. Men zou kunnen zeggen dat deze studenten niet typisch zijn voor de gegeven
onderwijssituatie. Hier wordt dus gekozen voor een norm die is afgestemd op die
studenten waar ook het onderwijs zich in eerste instantie op richt. Tenslotte is het bij
verder onderzoek aan te bevelen gebruik te maken van de cijfers (evt. scores) zoals
behaald op de schriftelijke toetsen van het CITO.

De hier beschreven werkwijze voor het vaststellen van een tentamennorm is alleen
bedoeld voor de propedeutische fase. Na de propedeuse zou alleen de factor voorberei-
ding een rol mogen spelen. Het onderwijs zou dan, zoals velen bepleiten, selectie-vrij
moeten zijn. Een manier om de factor voorbereiding aan een norm te koppelen zal
binnenkort in een andere studie worden beschreven.

Een belangrijk voordeel van de voorgestelde cesuurprocedure is het feit dat de middelbare
scholier van tevoren kan weten wat de studie aan capaciteiten ongeveer vergt en wat dan
zijn kansen zijn. Dit zal een meer verantwoorde studiekeuze ten gevolge hebben, zodat de
uitval in een propedeuse minder groot zal zijn.

Wat is tenslotte de plaats van de voorgestelde procedure in de discussie tussen voorstan-
ders van een absoluut referentiepunt en degenen die een relatief referentiepunt prefere-
ren? De laatsten zijn van mening dat men bij de beoordeling van een prestatie moet
kijken naar wat er in feite is gepresteerd, de eersten daarentegen gaan uit van wat er
gepresteerd moet worden. De hierboven beschreven procedure is absoluut in zoverre ze
van tevoren een bepaald minimumniveau op een aantal variabelen 'vereist', maar relatief
in zoverre ze de cesuur verder laat afhangen van de gegeven onderwijssituatie.

Boon van Ostade, A.H., en H.J.M. Hermans. Een methode ter verkrijging van de stabiliteit van

multipele regressieformules. Nederlands Tijdschrift voor de Psychologie, 1967,22, 696-715.
Vliet, G. van. Verslag van een enquête onder eerstejaars psychologiestudenten twee dagen voor hun
tweede herhaling van het tentamen Practicum Experimentele Methodiek op 30 augustus 1972.
Nijmegen, Psychologisch Laboratorium, Katliolieke Universiteit, 1972a (rapport).
Vliet, G. van. De relatie tussen werk en al of niet slagen voor de propedeuse in de psychologie in 1972.

Nijmegen, Psychologisch Laboratorium, Katholieke Universiteit, 1972b (rapport).
Werkgroep Eerstejaars Belangen. Verslag W.E.B.-enquête. Nijmegen, Psychologisch Laboratorium,

KathoUeke Universiteit, 1973 (stencil).
Werkgroep Eerstejaars Belangen. Mededeling aan abituriënten. Nijmegen, Psychologisch Laboratorium,

Katholieke Universiteit, 1974 (stencil).
Wijnen, W.H.F.W. Onder of boven de maat, een methode voor het bepalen van de grens voldoende/
onvoldoende bij studietoetsen. Amsterdam: Swetsen Zeitlinger, 1971.

Enkele Kanttekeningen bij het Proefschrift van J.L.Peschar:Milieu, Schooien
Beroep

'It is not the purpose of this paper to present any scintillating new statistical ideas. What is said
here should be in the nature of a remainder of old truths, rather than a message of startling
novelty. The aim is to restate and clarify for researchworkers in education and psychology some
of the errors into which they may lapse when they use the experimental pattern of matched
groups. The matched group experiment is sufficiently prevalent in education and psychology
and the use of it sufficiently uncritical, to make it worth our while to enquire into certain
sources of error.' (Thorndike, 1942, biz. 85)

Bovenstaand citaat is afkomstig uit een artikel dat 33 jaar geleden geschreven werd door
R.L. Thomdike. Aangezien het nu volgende over het proefschrift van Peschar precies
hetzelfde probleem behandelt, geldt a fortiori dat het 'niets nieuws' brengt. Helaas spelen
de door Thorndike gesignaleerde 'errors' blijkbaar nog steeds hun verwarrende rol.
Ernstiger is dat de ongecorrigeerde uitkomsten in de publiciteit komen als onaanvechtbare
uitkomsten van 'de wetenschap'.
Wat is het probleem?

Het jaarlijks schoolonderzoek in Groningen bestaat uit het afnemen van de GALO-intelli-
gentietest en uit het verzamelen van een aantal gegevens over het kind betreffende milieu,
gezin, houding op school enz. Uit dit schoolonderzoek volgt een advies betreffende de
schoolkeuze. Als basis voor zijn onderzoek heeft Peschar de gegevens uit 1958/59 en
1959/60 genomen. In zijn proefschrift heeft Peschar nagegaan van een aantal kinderen uit
Hoog Sociaal Milieu (= middelbare employés plus hogere beroepen) en uit Laag Sociaal
Milieu (= geschoolde plus ongeschoolde arbeid) wat in 1973 hun school- en beroepsloop-
baan was geworden. Daartoe ging Peschar uit van een gematchte groep van 112 paren:
112 kinderen uit Hoog Sociaal Milieu en 112 kinderen uit Laag Sociaal Milieu. De paren
zijn gematcht op Intelligentie, Leeftijd en Sexe. Nu schrijft Peschar op blz. 50 van zijn
proefschrift: 'Bij semi-experimenteel onderzoek kan de 'regression to the mean' van
invloed zijn op de resultaten' en (...) 'deze regressie-effecten kunnen vooral gezien worden
als effecten van meetfouten. Wanneer deze meetfouten toevallig en normaal verdeeld zijn,
dan lijkt er geen belangrijke invloed van uit te gaan op de resultaten.' Peschar besteedt
verder geen aandacht aan het regressieprobleem; ten onrechte.

De bedoeling van het nu volgende is om aan te tonen dat de resultaten van Peschar - b.v.
verschil in schoolkeuze of verschil in bereikt opleidingsniveau - voor een belangrijk deel,
zo niet geheel, verklaard kunnen worden uit regressie-effecten voortvloeiende uit de niet
perfecte betrouwbaarheid en validiteit van de GALO-scores. Voorzovet dat zo is, hebben
die verschillen geen reële betekenis.

Onder regressie naar het gemiddelde door meet-onbetrouwbaarheid wordt verstaan het
verschijnsel dat bij afwijkingsscores van niet perfect betrouwbare variabelen de beste
voorspelling voor een bij hertest te vinden score en evenzo de beste schatting van de
bijbehorende ware score niet gelijk is aan de gevonden afwijkingsscore, maar kleiner - en
wel des te dichter bij het gemiddelde naarmate de betrouwbaarheid lager is. In het
klassieke model (Gulliksen, 1950) wordt aangenomen dat het gemiddelde van de ware-
scoreverdeling gelijk is aan het gemiddelde van de gevonden scoreverdeling. Wanneer nu
de test- hertestbetrouwbaarheid gelijk is aan r^x, dan kan men de ware score schatten met
behulp van'

Y = X + Txx (X - X) waarbij X de gevonden score en Y de geschatte ware score is.

Nu werkt Peschar met contrasterende groepen en aangezien 'the individuals in each group
will regress toward their own population mean, the regression in the two groups will be
different'. (Thomdike, 1942, biz. 91).

Dit betekent dat de regressie-schattingen dus gerelateerd moeten worden aan de respectie-
velijke populatie-gemiddelden:

Xh (= het gevonden gemiddelde GALO-IQ van de populatie Hoog Sociaal Milieu =
109,9)

Xl (= het gevonden gemiddelde GALO-IQ van de populatie Laag Sociaal Milieu = 97)
(Peschar, 1975, blz. 66)

Wanneer wij aannemen dat de betrouwbaarheid van de GALO zowel voor de populatie
Hoog Sociaal Milieu als voor de populatie Laag Sociaal Milieu gelijk is aan rxx, dan is het
door meet-onbetrouwbaarheid ontstane verschil gelijk aan

Bij gelijke gematchte X, ongeacht hoe groot die X is, is het systematische effect van
regressie gelijk aan

Als men voor rxx een aantal waarden invult dan is bij hertesten het verwachte IQ-verschil
tussen de kinderen uit het Hoog Sociaal Milieu en uit het Laag Sociaal Milieu in de
gematchte groep gelijk aan

1-3 IQ punten voor rxx = 0.90
2.6 IQ punten voor r = 0.80
3.9 IQ punten voor r** = 0.70

Door meet-onbetrouwbaarheid is er dus een systematisch verschil in IQ tussen de
kinderen uit het Hoog en Laag Sociaal Milieu in de gematchte groep. Dit systematische
verschil kan een deel van de door Peschar gevonden verschillen in schoolkeuze, school-
loopbaan en carrière verklaren. Belangrijker is echter het volgende punt: Verschillen die in
de gematchte groep ontstaan door onvolledige begripsvaliditeit.

Waarom is er door Peschar gematcht op intelligentie? Het antwoord is duidelijk; om bij
interpretatie de mogelijkheid uit te schakelen dat schoolkeuze, schoolloopbaan of car-
rièreverschillen toch toegeschreven zouden kunnen worden aan verschillen in intellectuele
capaciteiten. Om welke variabele gaat het dus in het geval van de intelligentie-matching?
Wat is het begrip-zoals-bedoeld? Het gaat hier om een poging tot gelijkschakeling van de
capaciteiten in verband met schools leren ('opleiding').

Hoe goed is nu de GALO-intelligentietest als representant van dit begrip-zoals-bedoeldl
Hoe hoog moet men de begripsvaliditeit van dit begrip-zoals-bepaald aanslaani De GALO
is een goede test^, d.w.z. een test waaraan een vrij hoge begripsvaliditeit voor het begrip
'intellectuele capaciteiten' mag worden toegeschreven. Wat is echter 'vrij hoog' voor een
dergelijke begripsvaliditeit uitgedrukt als correlatie tussen het begrip-zoals-gemeten en het
hypothetische begrip-zoals-bedoeld? Die correlatie is onbekend. Het lijkt echter niet
onredelijk de grootte-orde ruwweg te schatten op grond van, althans te vergelijken met
correlaties van het GALO-IQ met meer 'schoolse vaardigheden'. Daar zijn empirische
gegevens over. Sandbergen e.a. (1972) vonden bijvoorbeeld correlaties met Schooltoets-
scores (Rekenen, Taal, Taal + Rekenen, Algemene Kennis) tussen 0.47 en 0.72. Men moet
dan wel corrigeren voor attenuatie, althans voor de onbetrouwbaarheid van de school-
toetsscores in kwestie; de variabele-zoals-bedoeld is uiteraard een ware score. Dit betekent
dat men de gezochte r^y waarschijnlijk niet lager dan 0.60 moet schatten; maar ook niet
hoger dan 0.80 ä 0.85. Een dergelijk interval lijkt niet onredelijk, als we in aanmerking
nemen dat r = 0.70 al zou betekenen dat de GALO de helft van alle ware, (begrip-zoals-)
bedoelde leer-capaciteiten-variantie zou moeten meten; dat is niet weinig.
Stel nü:

Nu kan men Y schatten o.g.v. X met behulp van de regressievergelijking
Y'=-^.rxY.(X-X) + Y

Voor beide populaties Hoog en Laag Sociaal Milieu kan men nu schrijven^
Yh = '^Yh/Ö'Xl ■ tXhYh • (X - ^h)
Y'l = oyjcx^ ■ ÏXlYL • - ^L) + YL

2. Mocht men het daarmee niet eens zijn, dan komt men tot lagere r-waarden en dat zou de volgende
argumentatie nog meer versterken.

4. Deze aannamen zijn aanvechtbaar; andere schattingen van de 'ware-score' verdelingen zijn wellicht
te verdedigen, zij het nauwelijks op empirische gronden.

Als rxY = 0.60 dan is het verschil 5.2 IQ-punten
Als rxY = 0.65 dan is het verschil 4.5 IQ-punten
Als rxv = 0.70 dan is het verschil 3.9 IQ-punten
Als rxY = 0.75 dan is het verschil 3.2 IQ-punten
Als rxY = 0.80 dan is het verschil 2.6 IQ-punten
Als rxY = 0.85 dan is het verschil 1.9 IQ-punten

Men denkt te matchen maar (er) wordt 'gematst'. Het systematisch verschil in de
gematchte groep tussen de kinderen uit het Hoog en uit het Laag Sociaal Milieu dat
veroorzaakt wordt door regressie (meet-onbetrouwbaarheid en/of imperfecte begripsvali-
diteit) kan een belangrijk deel van de gevonden verschillen in b.v. schoolkeuze en/of
schoolloopbaan verklaren. Vooral ook omdat — zoals door Peschar zelf wordt gesteld op
lïlz. 36 van zijn proefschrift - binnen een variatie van 5 IQ-punten vaak de schoolkeuze-
beslissingen' worden genomen.

Het lijkt ons dat de conclusie van.Peschar op blz. 88: 'We kunnen nu reeds constateren
dat er geen sprake is van gelijke kansen in school en beroep voor kinderen uit verschillen-
de sociale milieus' - zacht gezegd - enige kwalificatie behoeft. Peschar zou er ons inziens
goed aan doen er zelf op terug te komen.

Hiermee is natuurlijk niet gezegd dat Sociaal Milieu géén invloed uitoefent op schoolkeu-
ze en carrière, maar wel dat die invloed niet uit de gegevens van Peschar geconcludeerd
kan worden.

Men kan hoogstens verder discussiëren over de vraag: In hoeverre waren de gemiddelde
testresultaten, en zijn in het algemeen de GALO (of welke test dan ook) resultaten een
gevolg van sociaal-milieufactoren los van 'capaciteiten'? Déze vraag is echter in het
proefschrift van Peschar niet aan de orde gesteld. Hij is uitgegaan van hoe men op circa
twaalfjarige leeftijd die capaciteiten met de GALO lün schatten, maar heeft daarbij het
systematisch effect van de regressie gewoon over het hoofd gezien.

Groot, A.D. de: Methodologie, Den Haag; Mouton, (1961) 1971.
puUiksen, H.: TTieory of Mental Tests, New York; WUey & Sons, (1950) 1961.
Nunnally, J.C.: Psychometric Theory, New York; Mc Graw-HiU, 1967.
Peschar, J.L.: Milieu, School en Beroep, Groningen; Tjeenk Wilhnk, 1975.

Sandbergen, S., Elshout, J. Akkerman, T. en van Peet A: Enkele relaties tussen een intelligentietest en

studietoets, iVed. Tijds. v.d. Psychologie, september, 1972.
Thomdike, R.L.: Regression fallacies in the matched groups experiment, Psychometrika 1,1942.

a- Het verschil in schoolkeuze is op een schaal die loopt van 2 = VGLO tot 7 = HBS/GYM/LYC
gelijk aan 1.2.

Het verschil in bereikt opleidingsniveau is op een schaal die loopt van 1 = LO of VGLO tot 9 =
Dipl. Universiteit gelijk aan 2.6.

Vakgroep Onderwijskunde, T.H. Twente en Subfaculteit Psychologie, R.U. Groningen

In zijn dissertatie Milieu, school en beroep stelt Peschar dat het regressie-effect, veroor-
zaakt door matching van leerlingen uit verschillende subpopulaties geen belangrijke
invloed lijkt uit te oefenen op de resultaten, met name de verschillen in school- en
beroepskeuze (Peschar, 1975, blz. 50). De Groot en Van Peet menen dat deze opvatting
op zijn minst enige nuancering behoeft. In hun reactie proberen ze aan te tonen dat de
resultaten van Peschar voor een belangrijk deel — zo niet geheel — verklaard kunnen
worden door regressie-effecten, voortvloeiende uit de niet perfecte betrouwbaarheid en
validiteit van de GALO scores (De Groot en Van Peet, 1975).

Er doet zich hier een uit wetenschappelijk oogpunt interessant verschijnsel voor: uitkom-
sten van onderzoek van onderwijs met onmiskenbare onderwijspolitieke aspecten worden
aangevochten met een rivaliserende hypothese.

De Groot en Van Peet benadrukken vooral de plausibiliteit van hun rivaliserende hypothe-
se. Plausibiliteit van een rivaliserende hypothese, is weliswaar een noodzakelijke, maar nog
geen voldoende voorwaarde om conclusies gebaseerd op de uitkomsten van het onderzoek
te herzien. De Groot en Van Peet concluderen namelijk dat de invloed van sociaal milieu
op school- en beroepskeuze niet uit de gegevens van Peschar geconcludeerd kan worden.

Hieronder zal getracht worden de invloed van het regressie-effect vanwege de niet-perfecte
betrouwbaarheid van de GALO op de afhankelijke variabelen met name de school- en
beroepskeuze te kwantificeren. Een systematisch verschil vanwege de imperfecte begrips-
validiteit wordt hier buiten beschouwing gelaten.'

Volgen we De Groot en Van Peet, dan is de invloed van het regressie-effect vanwege het
feit dat twee leerlingen gematcht worden uit twee verschillende subpopulaties (respectie-
velijk hoog en laag sociaal milieu):

(1 - Txx) (Xh - Xl) = 2.6 GALO-IQ punten onder de veronderstelling dat de
betrouwbaarheid van de GALO op .80 geschat kan \Vorden.

1. Perfecte begripsvaliditeit is eerder een wetenschappelijk ideaal dan een conditio sine qua non, zoals
bijv. interne validiteit. Bovendien is het moeilijk betrouwbaarheid van begripsvaliditeit te onderschei-
den, althans bij de wijze waarop deze begrippen bij De Groot en Van Peet worden uitgewerkt. Zo lijkt
bijvoorbeeld 'de ware score' in het domain sampling model veel op de 'score zoals bedoeld' op grond
waarvan De Groot en Van Peet willen corrigeren. De afgeleide formules voor het verwachte effect zijn
nagenoeg identiek. De correctie voor imperfecte begripsvaliditeit zou dan een doublure zijn voor de
correctie voor imperfecte betrouwbaarheid.

Wat is nu de invloed van een systematisch verschil van 3 GALO-IQ punten op bijvoor-
beeld de school- en beroepskeuze?

Alleen een antwoord op deze vraag stelt ons in staat te beoordelen in hoeverre de
conclusies van Peschar 'herzien' zouden moeten worden.

Als we aannemen dat de schaaltjes voor school- en beroepskeuze van eenzelfde meetni-
veau zijn als de GALO-IQ dan is het mogelijk de product-moment correlatie tussen
GALO en school- en beroepskeuze te schatten.^

In het betoog van De Groot en Van Peet wordt eveneens een positief verband gesugge-
reerd tussen GALO en school en beroepskeuze. Immers juist doordat er 'gematst' i.p.v.
gematcht werd, kan een deel - zo niet het geheel - van de gevonden verschillen in school
en beroepskeuze verdisconteerd worden door het systematische verschil in GALO-IQ van
'Je gematchte paren. Hier schatten we de correlatie tussen GALO en school- en beroeps-
keuze in de orde van grootte van .60. Een correlatie van .60 lijkt een overschatting, maar
is toch conservatief; bij een. lagere correlatie tussen GALO en school- en beroepskeuze zou
het verschil veroorzaakt door regressie een kleiner verschil op de afhankelijke variabelen
teweeg brengen.

Het verband tussen GALO en school- en beroepskeuze is nu met de volgende regressie
vergelijking gegeven:

Voor de schoolkeuze is een gemiddelde van 4.8 en een standaarddeviatie van 1.05
gevonden; het gemiddelde en de standaarddeviatie van de GALO zijn respectievelijk 101.4
en 14.6 (Peschar, 1975, blz. 46).

Wat betekent nu een verschil van 3 GALO IQ punten op de schoolkeuze? We nemen twee
Waarden, achtereenvolgens 1.5 punt boven en 1.5 punt beneden het GALO gemiddelde:

Op de schoolkeuzeschaal lopend van 2 (VGLO) tot 6 (HBS, gymnasium, of lyceum) vond
Peschar een verschil van 2.1 punt. Het systematische verschil door het optreden van
regressie verklaart 6% van het gevonden verschil tussen de gematchte paren op de
schoolkeuze.

Op dezelfde wijze is de invloed van het regressie-effect berekend op het bereikte
opleidingsniveau, het beroepsniveau en de opleidingseis laatste beroep.

Na al dit cijferwerk terug naar de rivaliserende hypothese van De Groot en Van Peet. De

van de invloed van het regressie-effect op de afhankelijke variabelen tonen aan
<lat regressie weliswaar een rol kan spelen, maar zeker niet een belangrijk deel van de
gevonden verschillen in school- en beroepskeuze tussen de gematchte groepen kan

}■ De schaaltjes vooi school- en beroepskeuze zijn op a priori basis geconstrueerd. Een ordinaal niveau
IS zeker te verdedigen. De product-moment correlatie blijkt vrij robuust te zijn in geval van afwijkingen
^an interval niveau.

Invloed regressie-effect uitgedrukt in percentage van het gevonden verschil bij vier afhanke-
lijke variabelen.

verklaren. Deze schattingen stellen Peschar in het gelijk wat betreft zijn opvatting dat het
regressie-effect geen belangrijke invloed uitoefent. Zijn slotconclusie: 'We kunnen nu
reeds constateren dat er geen sprake is van gelijke kansen in school en beroepskeuze voor
kinderen uit verschillende sociale milieus' hoeft zeker niet herzien te worden.

In vervolgonderzoek zou rekening gehouden kunnen worden met regressie-effecten. Men
zou in plaats van te matchen op geobserveerde scores kunnen matchen op gecorrigeerde
scores.

De werkwijze met gematchte steekproeven zou een belangrijk evaluatie-instrument kun-
nen zijn, bijvoorbeeld bij middenschool experimenten.

In verband met school- en beroepskeuze kan opgemerkt worden, dat bij de toekomstige
middenschool het tijdstip van studie en beroepskeuze zal worden uitgesteld tot het
zestiende jaar om bijvoorbeeld achterstanden, veroorzaakt door milieu-gebondenheid te
kunnen verminderen. De resultaten van een gematchte steekproef bijvoorbeeld vijf jaar na
invoering van dit schooltype zou in vergelijking met Peschar's resultaten een belangrijk
evaluatiegegeven kunnen zijn.

Groot, A.D. de; Peet, A.A.J. van: Enkele kanttekeningen bij het proefschrift van J.L. Peschar: Milieu,

school en beroep. Tii'dschrift voor Onderwijsresearch, 1975, 1.
Peschar, J.L.: Milieu, school en beroep, Groningen: Tjeenk Willink, 1975.

Wanneer een leerproces zolang wordt doorgezet tot iedereen alle toetsitems goed beant-
woordt, of hoogstens toevalsafwijkingen van de perfecte score worden getolereerd, is de
scorevariantie (praktisch) nul en is dus de toetsbetrouwbaarheid ofwel ongedefinieerd
ofwel nul.

De vraag is dan hoe er toch een indicatie over de betrouwbaarheid van de toets kan
Worden verkregen. Daarvoor zijn deels onuitgewerkte, deels minder bevredigende voorstel-
len gedaan (voor een overzicht zie Terwei, 1973, p. 41 f.). Ook wordt wel de mening
verkondigd dat voor toetsen een geheel nieuwe, alternatieve psychometrie moet worden
uitgevonden. Een argument dat doet denken aan dat andere: als we het rijk der schaarste
achter ons hebben gelaten, is een nieuwe wiskunde nodig.

In afwachting van zulke revolutionaire ontwikkelingen kan worden geprobeerd een
oplossing langs meer orthodoxe lijnen te vinden. Het onderstaande is zo'n poging m.b.t.
toetsbetrouwbaarheid bij mastery learning. Afhankelijk van de mate waarin een dergelijke
poging slaagt kan de behoefte aan een alternatieve psychometrie zich sterker of minder
sterk doen gevoelen.

Bekijken we de toets eerst op item-niveau. Een goed item in een mastery toets is een item
met een hoge 'd-waarde', met d = pg - Po, waarbij:

Po = de p-waarde in een pretest-conditie
Pe = de p-waarde in de posttest-conditie.

Aldus de heersende gedachten hierover (Terwei, ibid., p. 38 ff,; Carver, 1974). Die
Voorwaarde is echter niet voldoende. De beheersing van Engels wetenschappelijk vocabu-
laire bijv. stijgt zeer sterk als gevolg van het studeren op een Amerikaanse inleiding in de
psychologie. Toch zal men geen vocabulaire-items in de toets willen opnemen.
Het antwoord op deze tegenwerping zou kunnen zijn: zorg dat de items tevens inhouds-
validiteit bezitten. Voorzover daarmee echter louter bedoeld wordt dat drs. Piet of zelfs
prof. Klaas het item belangrijk vinden, is ook die voorwaarde onvoldoende. Ze kunnen
^ich nl. in een concreet geval vergissen.

In de klassieke situatie, dus bij toetsen met variabele eindscore, wordt dat laatste bezwaar
pndervangen door het berekenen van bijv. de item-rest-correlatie. Redenering: ook al zit
'n ieder item een stuk onbedoelde variantie, het zou wel erg toevallig zijn als die
Onbedoelde component zo vaak terugkwam dat de totaalscore er noemenswaard door
oeïnvloed werd. Door de wet van de grote aantallen (items) is dus de totaalscore het beste
criterium voor een empirisch gefundeerd antwoord op de vraag of het item goed is -
ondanks het feit dat de totaalscore uit diezelfde feilbare items is samengesteld,
ßij mastery learning echter geeft de eindscore geen informatie meer. Het zoeken is nu
"aar een vergelijkbare index als de item-restcorrelatie:

Het is niet moeilijk de analogie te voltrekken. In de plaats van een statische p-waarde
kwam een dynamische d-waarde; evenzo zou men de item-restcorrelatie vervangen door
een index van samenhang tussen de winst score op het item en de winstscore op de toets
als geheel.

De vraag waarop die index een antwoord geeft is de volgende. Stel dat de itemverzameling
zo goed mogelijk de bedoeling weergeeft, nl. te meten wat er geleerd is. Hangt dan de
leerprestatie, die tot uitdrukking komt in de winstscore op een bepaald item, in voldoen-
de mate samen met die bedoelde leerprestatie? Of is juist leren zoals dat in dat item zijn
weerslag vindt ongecorreleerd met het leren dat blijkens de overige items plaatsvindt?

De lezer die met deze, naar het mij voorkomt moeilijk aanvechtbare, analogieredenering
meegaat wacht een onaangename verrassing. In geval van perfecte mastery zijn nl. de
winstscores op item en toets lineaire transformaties van de i>egi«scores (de eindscore is
immers een constante). Dus de gezochte index is eenvoudig de item-restcorrelatie bere-
kend over louter de pretest-scores. Evenzo is de betrouwbaarheidscoëfficiënt van de
winstscores de interne consistentie van de pretest-scores.

Worden op de eindtoets kleine afwijkingen van de perfecte score getolereerd, dan kan
men die als toevalsafwijkingen interpreteren. De toetsbetrouwbaarheid is dan gemakkelijk
af te leiden als:

De item-restcorrelaties gaan op vergelijkbare manier omlaag; aangezien die daling echter
voor alle items praktisch hetzelfde is hoeft er geen rekening mee gehouden te worden.

De vraag is nu of de bovengegeven redenering tot een aanvaardbaar resultaat heeft geleid
— nl. dat de kwaliteit van het instrument vrijwel geheel wordt afgelezen aan de
pretest-scores. Om het beeld volledig te krijgen merken we nl. op dat bij perfecte mastery
Pe = 1 zodat d = 1 - Po (zie boven), waarmee ook de item-d-waarde alleen van de
pretest-scores afhangt.

Op zichzelf genomen imponeert het resultaat niet als voetstoots aanvaardbaar. Meestal zal
nl. tussen leerlingen wel betrouwbare pretest-variantie geobserveerd worden, maar zal die
variantie sterk geladen kunnen zijn met bijv. algemene intelligentie en testslimheid. De
itemanalyse zou ertoe kunnen leiden dat items worden verwijderd die die lading niet
vertonen.

Anderzijds is het juist bij mastery learning van groot belang, te beschikken over een goede
empirische maatstaf voor de kwaliteit van items. Mastery learning is zelf al een hachelijke
onderwijsfilosofie, omdat wordt voorbijgezien aan de grondwet vanjde leertheorie: de wet
van de verminderende meeropbrengst. Als bovendien veel energie van student en docent
wordt besteed aan het perfectioneren van de prestatie op irrelevante items, is de verspil-

'ing helemaal ontoelaatbaar. Maximale zorgvuldigheid bij de testconstructie is dus vereist.
Misschien kan een uitweg worden gevonden als we ons realiseren dat het begrip 'pretest'
in de eerder gebruikte redenering rekbaar is: laten we er eens van uitgaan dat de pretest
wordt afgenomen op dat punt in de onderwijscyclus waarop in het 'klassieke' geval het
bindpunt zou zijn bereikt en mensen slagen of zakken. Wat zijn dan de implicaties?

(a) Items met een lage item-restcorrelatie zijn dan items waarop verdere leerwinst
evenmin zal samenhangen met leerwinst op de rest van de items (zie boven). Ze zijn
dus in het algemeen irrelevant en kunnen worden verwijderd.

(b) Items met een hoge p-waarde vragen naar iets dat iedereen ofwel al wist ofwel
zonder extra aandacht in het onderwijs opsteekt. Ze kunnen dus voor dit doel worden
gemist.

Blijven over: items met een hoge item-restcorrelatie en een betrekkelijk lage p-waarde.
Dus de itemanalyse geeft hetzelfde resultaat als in de klassieke situatie.
De ironie van deze conclusie zal sommige voorstanders van mastery learning zwaar op de
niaag liggen. Zij zouden de gigantische individuele verschillen in leertempo (zie daarvoor
bijv. Bloom, 1974) die deze itemanalyse mogelijk maken liever negeren dan er gebruik van
maken. Zolang er echter geen betere manieren zijn om de deugdelijkheid van toetsen te
controleren is dat standpunt irrationeel.

'-^er, R.P. Two dimensions of tests: psychometric and edumetiic. Ammcan Psychologist, 1974,29,
512-518.

Terwel, J. Absoluut meten en relatief meten. Info (informatiebladen van het Instituut voor Onderwijs-
kunde te Groningen), 1973,5, 32-54.

Binnen de sociale wetenschappen wordt in toenemende mate aandacht besteed aan de school- en
t^roepskeuze. Deze belangstelling was tot voor een aantal jaren in ons land vooral afkomstig van
Psychologische zijde. In het laatste decennium echter is ook van sociologische zijde de aandacht voor
de school- en beroepskeuze toegenomen. Hierbij ging het dan vooral om de betekenis van de diverse
sociaal-structurele factoren voor het schoolkeuzeproces resp. beroepskeuzeproces. Mede door toedoen
Van deze sociologische studies is het inzicht ontstaan dat een verschillende schoolkeuze niet alleen een
gevolg is van ongelijke intellectuele capaciteiten, doch voor een aanzienlijk deel ook een gevolg is van
de maatschappelijke laag waartoe men behoort.

^et zijn recentelijk verschenen publicatie, tevens dissertatie 'Milieu, School en Beroep' heeft Peschar
Zich geschaard bij de sociologen die de invloed van het sociaal milieu op de ontplooiing en verdeling
Van talent nader onderzocht hebben. Alvorens nader in te gaan op de maatschappelijke, methodische
®n theoretische relevantie van zijn publicatie, willen we hier eerst kort weergeven de centrale vragen
die Peschar stelt, alsmede de belangrijkste bevindingen dienaangaande,
centrale vragen die Peschar stelt, zijn de volgende:

Hebben kinderen uit een hoog en een laag sociaal milieu gelijke kansen om een bepaalde
maatschappelijke positie te bereiken, wanneer gecontroleerd wordt op de ongelijke verdeling van
intellectuele capaciteiten?

- Zijn er tussen de twee sociale milieugroepen verschillen in houdingen en oordelen over de bereikte
positie aan te wijzen en waardoor worden deze beïnvloed?

- Is er sprake van bijzondere invloeden bij het tot stand komen van de school- en beroepsloopbaan
van personen, die extreme kenmerken bezitten binnen de beide milieugroepen?

Teneinde deze vragen te kunnen beantwoorden werd een achteraf-experiment opgezet. Hierbij werden
twee verschillende sociale milieugroepen zodanig samengesteld dat zij, zoals Peschar stelt, 'geacht
konden worden bij het beginpunt van het onderzoek in een gelijke uitgangssituatie te verkeren'. 'Deze
gelijkschakeling geschiedde aan de hand van de volgende drie kenmerken: intellectuele capaciteiten,
sexe en leeftijd.

Uit het onderzoek blijkt dat kinderen uit het hogere milieu bij gelijkschakeling op sexe, leeftijd en IQ
een significant hoger opleidings- en beroepsniveau bereiken dan kinderen uit het lager milieu, m.a.w. er
is geen sprake van gelijke kansen in school en beroep voor kinderen uit de verschillende sociale milieus.
De toetsing van de hypothesen voor school- en beroepsloopbaan vormde het centrale thema van dat
onderzoek.

De veronderstelde verschillen in houdingen tussen de milieugroepen waren minder groot. Verschillen
werden aangetoond in de mate van sociaal-economische progressiviteit, geïndiceerd door politieke
partij-voorkeur en een schaal, waarin het gelijkheidsideaal tot uiting komt, in de mate van tevredenheid
met de bereikte positie en in de mate van anomie (d.w.z. de mate van gedesoriënteerdheid van een
persoon in de samenleving), in die zin dat de lagere milieugroepen sociaal-economisch progressiever,
ontevredener en anomischer zijn met betrekking tot de bereikte situatie. Een verschil in neuroticisme,
waaronder verstaan wordt de wijze waarop individuen eventuele aanpassingsproblemen verwerkt
hebben, tussen de milieugroepen wordt niet aangetroffen.

Voor wat betreft de derde vraag kan gezegd worden dat bij vergelijking van de loopbanen van
personen, die op grond van extreme kenmerken werden gekozen: b.v. personen uit een hoog milieu
met een laag IQ die het ver hebben gebracht, met die van hun 'gematchte' dubbelgangers ook de eerder
geconstateerde verschillen ten gunste van de hogere milieugroepen naar voren komen. Hierbij bleek de
invloed van de ouders vooral bij de schoolkeuze in het lager onderwijs vrij sterk.
Tot slot is nagegaan of de invoering van de mammoetwet in het onderwijs een wezenlijk andere situatie
heeft doen ontstaan. Dit door middel van een vervolgonderzoek over de periode 1970-1973. Uit de
resultaten bleek een lichte verbetering van mogelijkheden in het voortgezet onderwijs voor kinderen
uit de lagere sociale milieus, in die zin dat van een relatieve stijging van kansen voor kinderen uit lage
sociale milieus op het havo gesproken kan worden, terwijl de kansen voor kinderen uit de lage
milieugroep op het v.w.o. ten opzichte van de vroegere mms/hbs/gymnasium nagenoeg gelijk gebleven
zijn. Voorts stelt Peschar voor de groep personen die van 1970-1973 gevolgd is een prognose op m.b.t.
opleidingsniveau voor 1985. Uiteindelijk blijkt dat de schatting van de verschillen in het opleidings-
niveau voor 1985 niet afwijken van de geconstateerde verschillen voor de gevolgde generatie uit
1950-1960.

De vraag of het onderzoek milieu-school-beroep maatschappelijk relevant geacht kan worden moet
naar onze mening duidelijk bevestigend beantwoord worden. Immers, het is enerzijds voor het individu
van belang dat het onderwijs hem de mogelijkheid biedt de aangeboren en aangeleerde capaciteiten te
ontplooien, om een als zodanig door het individu ervaren optimaal functioneren binnen een samenle-
ving te bevorderen, anderzijds is ook de samenleving erbij gebaat dat de bezetting van de diverse
maatschappelijke posities zo optimaal mogelijk geschiedt. Het is derhalve van groot maatschappelijk
belang dat eventuele belemmeringen met betrekking tot de ontwikkeling van het beschikbare talent
blootgelegd worden.

Meer concreet t.a.v. het onderhavige onderzoek: Peschar toont aan dat de schoolkeuze alsmede het
bereikt eindniveau sterk beïnvloed worden door het sociaal milieu. Een en ander bevestigt voor wat
betreft de keuze na het lager onderwijs de bevindingen van ander recent sociaal-wetenschappelijk
onderzoek (1) en laat voorts zien dat ook het verdere onderwijs dienaangaande weinig of niet
corrigerend optreedt. Bijzonder van belang is in dit verband dat Peschar Iaat zien dat de invoering van
het mammoetsysteem niet tot wezenlijke veranderingen heeft geleid voor wat betreft de keuze na het
lager onderwijs. Bij zijn opvatting dat er in de komende jaren even grote verschillen in opleidingsni-
veau's tussen kinderen uit de hoge en lage sociale milieus zullen blijven bestaan, willen wij een
kanttekening plaatsen.

Bij het opstellen van de pro^ose van het opleidingsniveau van de groep onderzoekspersonen, die van
1970 tot 1973 gevolgd is, is uitgegaan van dezelfde gegevens als waarmee het eindniveau van de
generatie 1958-1960 voorspeld is. Het blijkt dat de schatting van de verschillen in opleidingsniveau dat
<ie eerstgenoemde groep in 1985 bereikt zal hebben niet afwijkt van de geconstateerde verschillen voor
de generatie uit 1958/60. De variabele schoolsysteem is in deze prognose betrokken voor zover het de
schoolkeuze na het lager onderwijs betreft. Echter met de eventuele verdere 'werking' van deze
Variabele is geen rekening gehouden. Echter, een van de redenen voor de invoering van het mammoet-
systeem was een betere doorstroming te bewerkstelligen tussen de diverse typen van secundair
Onderwijs. Of en zo ja in hoeverre minder 'juiste' keuzen (b.v. een keuze die minder op grond van
'ntellectuele capaciteiten tot stand komt en meer op grond van het feit dat men afkomstig is uit een
hepaald milieu) door het vigerende school- of onderwijssysteem gecorrigeerd worden is een vraag die
log niet door empirisch onderzoek beantwoord is. Het antwoord hierop is echter wel van belang voor
juistheid van de prognose van het eindniveau dat bereikt zal worden door de leerlingen, die van
1970 tot 1973 gevolgd zijn.

onderhavige studie kan gezien worden als een onderzoek naar de factoren die in verband staan met
de belemmeringen een optimale benutting van talent te bereiken. Het valt te betreuren dat niet
getracht is de verkregen inzichten te plaatsen in een wat ruimer theoretisch kader, de school- en
beroepskeuze betreffende.

Het bijzondere van dit onderzoek is de gevolgde metliodiek, die in het huidige sociologische onderzoek
w ons land niet of nauwelijks wordt gebezigd, te weten een prospectief achteraf onderzoek, waarbij de
experimentele groep en de controle groep gelijkgeschakeld worden door middel van matching. De
eenheid waarop in dit onderzoek gelijkgeschakeld wordt is het individu. Ook aan de problematiek die
zich bij matching voordoet wordt terecht aandacht geschonken. Allereerst gaat Peschar in op het feit
dat er veelal sprake is van een grote reductie van het uitgangsmateriaal naar de gematchte groepen, een
Uitval die groter wordt naarmate het aantal controle-variabelen toeneemt. Enige oplossingen waardoor
de uitval geringer wordt worden besproken. Voorts wijst Pechar op de mogelijkheid dat bij matching-
onderzoek sprake kan zijn van verschillende vormen van selectie.

Tenslotte besteed de auteur aandacht aan het verschijnsel 'regression to the mean' dat bij semi-experi-
"lenteel onderzoek van invloed kan zijn op de resultaten. Hij gaat echter onvoldoende in op de
betekenis van dit verschijnsel voor zijn eigen onderzoeksresultaten. Aangezien over dit thema elders in
dit tijdschrift een discussie wordt gevoerd, gaan we er hier niet verder op in.

(1) -Boon van Ostade, A.H., Beslissingsproject. Eerste Rapportering, Nijmegen, 1970.

-^Kropman, J.A., CoUaris, J.W.M., Van Jaar Tot Jaar, Onderzoek naar de School- en Beroepscar-
rière van jongens en meisjes die in 1965 het lager onderwijs verlieten. Eerste fase: de situatie in
1970, de eerste keuze na het lager onderwijs, werken voor 16 jaar, ITS, Nijmegen, 1974.

onlangs opgerichte Vereniging voor Onderwijsresearch heeft inmiddels koninklijke goedkeuring
^'erkregen.

Oe eerste ledenvergadering werd 5 september 1975 te Utrecht gehouden met lezingen door Prof.Dr.
a d. de Groot en Drs. C.J.M.H. Souren.
M hebben zich 220 leden aangemeld.

De volgende ledenvergadering is op zaterdag 24 januari 1976 te Utrecht (Jaarbeursgebouw, aanvang
10.30 uur).

Secretariaat VOR: Mw.Drs. G.A. Poortvhet, p/a Afd. Onderwijsresearch, De Boelelaan 1105, Amster-
dam.

Als vervolg op de Onderwijsresearchdagen in Amsterdam (1974) en Enschede (1975) organiseert de
Werkgroep Onderwijsresearch voor 1976 twee Onderwijsresearchdagen in Groningen.
Plaats: Akademiegebouw, R.U. Groningen
Data: Woensdag 14 en donderdag 15 april 1976

Onderzoekers worden opgeroepen aan de ORD '76 een bijdrage te leveren door bijvoorbeeld:

a. een paper in te brengen over eigen onderzoek en/of reflecties over dat onderzoek

c. opgave te doen aan het secretariaat (vóór 15 dec. a.s.) dat men materialen wil presenteren in de te
vormen stands op de ORD '76.

Inlichtingen: Secretariaat ORD'76, RION, Westersingel 19, Groningen. Tel. 050-114909.

De Vereniging voor Onderwijsresearch (VOR) heeft met de American Educational Research
Association afgesproken dat:

1 AERA de VOR steeds op de hoogte zal houden van lopende zaken die voor Nederlandse
onderzoekers van het onderwijs interessant (kunnen) zijn. De VOR zal de informatie in Nederland
verspreiden (o.a. via de mededelingen-rubriek van dit Tijdschrift).

2 AERA nader zal bekijken of zij in Europa z.g. Research Training Courses kan (helpen) organiseren.
Suggesties hieromtrent kunt U aan het VOR-bestuur kwijt.

3 AERA zal bekijken of voor Europese Annual Meeting-gangers speciale reisfaciliteiten kunnen
worden georganiseerd (1976: San Frandsco, 19-23 april).

De Educational Statisticians-Special Interest Group van de American Educational Research Associa-
tion kondigt een nieuw tijdschrift aan:

THE JOURNAL OF EDUCATIONAL STATISTICS.
De functie van dit tijdschrift wordt als volgt omschreven:

'to provide an outlet for papers demonstrating, preferably through concrete example, how the
educational statistician can contribute to sound, productive and creative educational decision making
and practice. The goal of authors seeking to publish in JES should be to communicate why, when and
how a statistical method should be used'.

Het tijdschrift verschijnt in vier afleveringen per jaar, te beginnen maart 1976.

Boomsma, G. Rekenen in het basisonderwijs 1963-1974. Eindrapport. Amsterdam: Kohnstamm

Instituut voor Onderwijsresearch, 1975.
Giesbers, J.H.G.I., Goettsch, R.J.S. en Struyk, J.L. Doelmatige schoolorganisatie. Groningen: Tjeenk
WilUnk 1975.

Kropman, J.A. en Collaris, J.W.M. Van jaar tot jaar: Onderzoek naar de school- en beroepscarrière van
jongens en meisjes die in 1965 het lager onderwijs verlieten. Nijmegen: I;istituut voor Toegepaste
Sociologie, 1974. Stichting Werkgroep Onderwijsresearch, Onderwijsresearchdag 1974. Groningen:
Tjeenk WUlink, 1975.

Recession effects in matched samples: A reply to De Groot and Van Peet.
In this article the influence of rcgrcssion-to-the-mean in matched samples is discussed. In a
recent investigation (Peschar 1975) two social class groups (high and low) were matched on sex,
intelligence and age on the basis of available data from 1958. Fifteen years later, in 1973, the
matchcd groups were questioned again on their educational and occupational progress.
The higher class children attained a significantly higher educational and occupational level than
the lower class children, although their original positions were kept equal by matching.
De Groot & Van Peet (1975) suggest that these results could be explained by the rcgrcssion-to-
the-mean effect, especially caused by problems of test-unreliability and incomplete construct
validity of the intelligence test.

In this article it is argued that the influence of test-unreliability is only small. The influence of
incomplete construct validity is more complex and works for all variables in the research design
but it is also only small.

On the basis of De Groot and Van Peet's criticism the data were reanalyscd with matching on
estimated true scores, but the obtained results differ only slightly from the original published
ones. An independent check on the basis of Swedish data supports these results. In this case
there is also only a very small regression-to-the-mean effect. The differences between the
matched social class groups remain however very significant (p <.001). It is concluded once
again that social background continues to be a dominant influence on educational and
occupational attainment.

...hicr wordt aanbevolen om met eenvoudige middelen in een
doorzichtige experimentele opzet 'essentiële' problemen te
onderzoeken...'

'Zinvol is research, die met eenvoudige middelen objectieve
resultaten produceert waaruit de noodzaak tot handelen
blijkt.'

C'e beide citaten boven dit artikel zijn afkomstig uit een publicatie over problemen bij het
Onderzoeken van ons Nederlandse onderwijssysteem, maar zouden evengoed kunnen
gelden voor sociaal-wetenschappelijk onderzoek in ruimere zin. Ook bij eenvoudige
experimentele onderzoeken blijken echter ingewikkelde statistische problemen mee te
spelen. Met name wanneer er semi-experimenteel onderzoek wordt opgezet met gebruik-

Dankzij financiële bijdragen van de Nederlandse Organisatie voor Zuiver Wetenschappelijk Onder-
^oek (ZWO), de Rijksuniversiteit te Groningen en het Groninger Universiteitsfonds kon het empirisch
^ateriaal worden bewerkt gedurende een studieverblijf aan het Institute for the Study of International
foblems in Education in Stockholm. De berekeningen zijn uitgevoerd op QZ Stockholms Datamas-
incentral en de HP-45 van het Sociologisch Instituut te Groningen.

making van gematchte steekproeven, lijken de resultaten en interpretaties aanvechtbaar
wanneer geen rekening wordt gehouden met de zogenaamde regressie-effecten.
In een recent onderzoek naar de invloed van het sociaal milieu op school- en beroepsloop-
baan werden sociale milieugroepen samengesteld die gematcht waren op sexe, leeftijd en
IQ (Peschar, 1975a). De Groot en Van Peet (1975) spreken hun twijfels uit over dc
juistheid van de conclusies van dit onderzoek: dat er sprake is van grote verschillen in
opleidings- en beroepsniveau tussen kinderen uit verschillende sociale milieus, ook als
deze zijn gelijkgeschakeld op IQ. Zij voeren hiervoor twee argumenten aan die beide
betrekking hebben op de invloed van de regressie-effecten bij het gelijkschakelen der
paren op de variabele IQ.

Omdat er contrast-groepen werden gebruikt, zouden de IQ-scores van de twee milieugroe-
pen — als gevolg van zowel meetonbetrouwbaarheid als van onvolledige begripsvaliditeit —
in een verschillende richting regressie vertonen: nl. naar het gemiddelde van hun eigen
populatie, hoog en laag sociaal milieu. Hierdoor zouden de paren niet zijn gelijkgescha-
keld, maar juist systematisch gaan verschillen in IQ, ten voordele van de kinderen uit het
hoge sociaal milieu. Vanzelfsprekend zullen deze daardoor een hoger opleidingsniveau
kunnen behalen.

Op grond van het bovenstaande menen De Groot en Van Peet dat de verschillen in
opleidingskenmerken tussen de twee gematchte groepen voor een deel — zo niet geheel —
aan het regressie-verschijnsel'zouden kunnen worden toegeschreven. Wij menen dat deze
vrees niet is gerechtvaardigd.

Achtereenvolgens willen we kort ingaan op de twee door hen genoemde argumenten; de
invloed van meetonbetrouwbaarheid en onvolledige begripsvaliditeit. Daarna zal worden
geprobeerd empirisch aan te tonen hoe groot de invloed is van regressie-effecten in het
Milieu-School-Beroep-onderzoek, wanneer men al van mening zou zijn dat hierop zou
moeten worden gecorrigeerd.

De Groot en Van Peet behandelen onder deze noemer de invloed van de betrouwbaarheid
van de GALQ-test op het gelijkschakelen van de paren naar IQ. Geheel in de lijn van
psychometrici als Thorndike (1942, p.92-93) en Lord & Novick (1968, p.152, 153,
513-515) wordt beredeneerd dat er — afhankelijk van de mate van betrouwbaarheid —
verschillen in IQ per paar ontstaan.

De door De Groot en Van Peet gehanteerde schattingen suggereren echter meer aan
invloed dan in feite het geval is. Een schatting van de test-betrouwbaarheid (r^x) van .90
is alleszins redelijk en in overeenstemming met de eisen die onder andere door Nunnally
(1967) aan een test worden gesteld die gebruikt wordt voor advies of predictie. Een rxx
van .70 - zoals door De Groot en Van Peet als laagste waarde wordt gehanteerd - is
echter dermate onreahstisch dat men nauwelijks meer kan spreken van een goede
GALO-test.

Er zijn geen exacte cijfers beschikbaar over de betrouwbaarheid van de GALO. Wèl zijn er
bewerkingen uitgevoerd op grond waarvan de betrouwbaarheid van de GALO tussen de
.90 en .95 mag worden gesteld. Dit gegeven is in overeenstemming met gerapporteerde
hoge correlaties tussen de GALO en de ISI-intelligentieindex (zie Nijsse, 1975, p.24).

^e kunnen stellen dat er, mogelijk als gevolg van de meetonbetrouwbaarheid van de
GALO-test, een systematisch verschil in IQ per paar ten voordele van de hoge sociaal
milieugroep is ingeslopen. Bij een betrouwbaarheidscoëfficiënt van .90 zal dit verschil niet
meer dan 1.3 punt IQ bedragen.^ Het is echter onwaarschijnlijk dat een dergelijk klein
verschil in IQ per paar de zeer grote en systematische verschillen in opleidingsniveau
tussen de twee milieugroepen belangrijk zal kunnen beïnvloeden. In paragraaf 4 zal dit
empirisch worden onderzocht.

Geheel in de lijn van het voorgaande argument wordt door De Groot en Van Peet gesteld
dat ook door onvolledige begripsvaliditeit van de GALO - en de daaruit voortvloeiende
regressie-effecten - de paren niet gelijkgeschakeld kunnen zijn op intellectuele capacitei-
ten.^ Een merkwaardige redenering wordt echter opgezet om dit aan te tonen. Wie het
argument goed naleest, zal ontdekken dat er eigenlijk staat: er wordt gelijkgeschakeld op
intellectuele capaciteiten; de beste wijze om deze vast te stellen is d.m.v. een schoolvorde-
ringentoets. De GALO correleert daar niet zo hoog mee, dus moet er sprake zijn van
onvolledige begripsvaliditeit (r^y geschat = .70) en de daaruit voortvloeiende invloed van
regressie-effecten op de gelijkschakeling naar IQ.
Toch is dat maar dc vraag.

De Groot en Van Peet nemen zelf aan dat de matching op IQ bedoeld zou zijn om de
<^apaciteiten in verband met schools leren ('opleiding') te schakelen. In dat verband
Zou een schoolvorderingentoets een zinvolle maatstaf zijn geweest,
^"j wilden echter gelijkschakelen op een algemeen intelligentieniveau dat ruimer is
gedefinieerd en zoals dat in vele argumenten en onderzoeken steeds wordt gebruikt.
Hoewel de predictieve validiteit van een schoolvorderingentoets (voor schools leren)
groter is dan die van de intelligentietest, staat daarmee niet tegelijkertijd vast dat deze een
grotere begripsvaliditeit voor het algemeen intelligentieniveau heeft.

l^en moet bedenken dat het voorgaande van toepassing is op zowel de psychologische als
'ie sociologische variabelen in een onderzoek, waarmee de problematiek van regressie-
naar-het-gemiddelde een algemener karakter krijgt.'

^at betreft de invloed van meetonbetrouwbaarheid van de variabelen in ons onderzoek:
'leze kan zeer gering worden geacht doordat alles werd gecheckcodeerd en vele controle-
vragen werden gesteld. Op dit punt lijkt een correctie voor attenuatie overbodig.

Ovciigens is do toepassing van deze redenering op onvolledige begripsvaliditeit met van Thorndike ot
Lord & Novick Deze spreken slechts over de invloed van meetonbetrouwbaarheid, terwijl ook andere
publicaties zich' slechts bezighouden met de effecten van meetfouten op regressie-naar-het-gemiddelde
(bijvoorbeeld Althauser & Rubin, 1971 en Harnqvist, 1968)

Het probleem is in feite nog gecompüceerder doordat iemand als lid van meerdere subgroepen kan
gorden beschouwd, waardoor de regressie naar een aantal verschillende gemiddelden kan plaatsvinden,
vtaag is dan welke 'truc-score' de meest reële schatting is.

Wanneer men al van mening zou zijn dat de bcgripsvaliditeit voor alle variabelen in het
regressiemodel moet worden ondergebracht, dan kan men vooral bij de variabele sociaal
milieu grote vraagtekens plaatsen. Wat is het begrip-zoals-bedoeld en hoe goed is de
operationalisering ervan wanneer het beroepsniveau van de vader wordt gebruikt?
Als er dus al sprake zou zijn van regressie naar het gemiddelde op grond van onvolledige
bcgripsvaliditeit, dan is het zeker bij de variabele sociaal milieu. Aangezien alleen extreme
milieugroepen in ons onderzoek werden geselecteerd (en minder extreem blijken), zal het
duidelijk zijn dat de invloed van regressie-effecten hier tegengesteld werkt: de bevindingen
worden slechts versterkt.

Een punt dat tot nu toe niet aan de orde kwam, is het feit dat het GALO-IQ een centrale
rol in de advisering voor de voortgezette schoolkeuze speelde. Aan de hand van het
GALO-IQ werd volgens een strikte schaal een voorlopig schooladvies opgesteld (Kema&
Kouwer, 1959). Het is aan de hand van het ongecorrigeerde IQ dat er beslissingen zijn
genomen, waardoor allerlei vervolgeffecten zijn ontstaan. Dit zou ook het geval zijn als
het IQ volkomen onbetrouwbaar en invalide zou zijn vastgesteld. Men kan zeker stellen
dat het vastgestelde IQ op eei^ dergelijke wijze als een label (etiket) werkt; het is dan voor
analytische doeleinden in feite onmogelijk geworden om er wat voor correctie dan ook op
toe te passen.

Samenvattend kan men stellen dat de door De Groot en Van Peet veronderstelde invloed
van regressie-effecten gering kan worden geacht, met name voor zover dat aan de
meetbetrouwbaarheid van de GALO ligt. De invloed van de onvolledige begripsvaliditeit is
complexer, als men al van mening is dat de hele redenering vaÜde is. In dat geval zou de
invloed zich voor alle variabelen in een onderzoek doen gelden, waarbij de werking van
het sociaal miHeu slechts zou worden versterkt. Daarnaast kan een variabele die als 'label'
heeft gewerkt in een adviseringsproces, bezwaarlijk worden gecorrigeerd op veronderstel-
de regressie-effecten.

Het door De Groot en Van Peet gehanteerde argument, dat door het veronachtzamen van
de regressie-effecten de gevonden verschillen tussen de 'gematste' groepen geen reële
betekenis hebben, kan men moeilijk serieus nemen en is duidelijk demagogisch van aard."^

4 In hoeverre worden de resultaten beïnvloed door de veronderstelde regressie-effecten?

In principe moet in een discussie de kwaliteit' van argumenten de doorslag geven. Helaas
blijkt het vaak moeilijk om allereerst de argumenten goed te beoordelen en ze daarna te
wegen naar kwaliteit. Bovendien zijn het meestal geen 'alles-of-niets' argumenten; er is
vrijwel altijd sprake van een zekere voorkeur van- het ene boven het andere, zonder dat
een kwahteitscriterium de doorslag kan geven.

Een van de meest veilige criteria is naar mijn mening - en ik neem aan dat dit door De
Groot en Van Peet wordt onderschreven — het empirisch feitenmateriaal. Mocht de

4. Het demagogische karakter schuilt vooral hierin dat ook De Groot en Van Peet weten dat zelfs een
versclül'van 5 punten IQ niet verantwoordelijk kan zijn voor een opleidingsverschil van in doorsnee
ULO voor de lagere en HBS/Gym voor de hogere sociaal milieugroep. Uit vele onderzoeksgegevens
blijkt dat het gemiddeld verschil in IQ voor kinderen op deze beide schooltypen minimaal 10 punten
IQ bedraagt (voor ULO gemiddeld ca. 110, VHMO gemiddeld ca. 120; zie o.a. Nijsse, 1975, p.14, 29).

Voorgaande argumentatie niet voldoende overtuigend zijn geweest, dan kunnen de volgen-
e feiten wellicht de laatste twijfel ten aanzien van de geldigheid van de conclusies van het
^'lieu-School en Berocp-ondcrzoek wegnemen.

'iet beschikbare materiaal is opnieuw geanalyseerd. Voor iedere persoon zijn drie 'nieuwe'
'Q s berekend, uitgaande van verschillende maten van regressie-correctie, die het gevolg
zouden zijn van de meetonbetrouwbaarheid en onvolledige begripsvaliditeit van de

Allereerst is een correctie voor r^x = .90 berekend, ervan uitgaande dat de betrouwbaar-
'leid van de GALO in die orde van groote zal liggen. Het gemiddelde verschil in IQ per
pmatcht paar zou in dat geval 1.3 punt IQ bedragen. Daarnaast werden gecorrigeerde
'Q's berekend uitgaande van een begripsvaliditeit (r^y) die 'ergens tussen de .50 en de .80
Zou liggen'. We kozen hiervoor .67, hetgeen overeenkomt met een verondersteld verschil
Van 4.3 punt IQ per paar gemiddeld. Daarbij moet wel worden aangetekend dat op deze
^ijze slechts 45% van de variantie in 'ware' intelligentie wordt gemeten, wat niet bepaald
een gunstige indruk geeft van psychologische meetinstrumenten, die worden gebruikt
Voor predictieve en adviserende doeleinden. Ter controle werden nog IQ-scores berekend
op basis van rxx = -80, overeenkomend met een gemiddeld verschil van 2.6 punt IQ.
^ortheidshalve duiden we de verschillende correcties verder aan als C90, C80 en C67.
^et behulp van deze drie gecorrigeerde IQ's zijn nieuwe gematchte groepen gevormd,
^erst is matching-per-subcategorie toegepast, daarna individuele matching, waarbij steeds
^e resultaten worden vergeleken met de oorspronkelijk gepubliceerde.

a. Omdat naar verwachting bij het opnieuw matchen volgens een gecorrigeerd IQ veel
matches verloren zouden gaan, is eerst matching-per-subcategorie toegepast (Ga-
dourek, 1972,p.75-76).
zijn per sociaal milieu subgroepjes gevormd met eenzelfde GALO-IQ, sexe en leeftijd,
daarna de gemiddelde score in bereikt opleidingsniveau en aantal jaren opleiding werd
Vastgesteld. Daarna zijn de verschillen tussen de gelijkwaardige subgroepjes voor de beide
Sociale milieus vastgesteld. Op basis van de gemiddelden (en de spreiding) is de Student
^■toets berekend. Op basis van de verschillen is de Wilcoxon-rangtekentoets voor gematch-
Je paren berekend. Daarbij zijn paren subgroepjes vergeleken in plaats van paren personen,
ezelfde procedure is toegepast voor subgroepjes waarbij achtereenvolgens C90, C80 en
als indelingscriterium is gebruikt,
■^oals te verwachten, is de uitval bij de C67-procedure het grootst: door de regressiecor-
rectie van het IQ is de overlap tussen de hoge en lage milieugroep verminderd. Toch blijft
er als gevolg van de matching-per-subcategorie bij de C67-procedure nog 83% van het
Oorspronkelijke aantal personen over.

Jn tabel 1 en 2 zijn de resultaten van de matching-per-subcategorie binnen het geselecteer-
de materiaal weergegeven. We zien daarbij dat het gemiddelde opleidingsniveau voor de
êroep HOOG miheu - met de toeneming van de correctie - daalt van 6.38 tot 6.14.
Jegelijkertijd stijgt het gemiddelde opleidingsniveau voor de groep LAAG van 3.90 tot
•28. Het oorspronkelijke verschil van 2.48 tussen beide groepen wordt verminderd tot
•^6, maar blijkt volgens beide toetsen nog steeds zeer sterk significant te zijn. Voor het
Aantal jaren opleiding geldt in grote lijnen hetzelfde: een daling in de hoge milieugroep

' ^oor de_berekening_van deze 'true scores' is uitgegaan van de volgende formule (Nunnally 196'^
p.199): Y=X + Txx (X-X), waarbij voor rxx achtereenvolgens werd ingevuld .90, .80 en .67 en voor X
de hoge milieugroep 110 en voor de lage miUeugroep 97.

Overzicht toetsingsresultaten voor opleidingsniveau bij verschillende gecorrigeerde
IQ-scores volgens matching-per-subcategorie

van 6.79 jaar tot 6.47 jaar, terwijl tegelijkertijd het aantal jaren opleiding in de lage
milieugroep stijgt van 3.79 tot 4.10. Het verschil van oorspronkelijk 3.00 jaar opleiding
wordt verkleind tot 2.37 jaar maar is nog steeds zeer sterk significant.
Wanneer er matching-pcr-subcategorie wordt toegepast op het beschikbare materiaal,
blijken de resultaten als gevolg van een correctie voor regressie van Jiet IQ niet wezenlijk
te veranderen: ze blijven buitengewoon significant.

b. Aangezien de uitval van personen bij het matchen-per-subcategorie niet groot was, is
dezelfde correctieprocedure ook toegepast voor individuele matching binnen de
geselecteerde groep.

Overzicht toetsingsresultaten voor opleidingsnivé"au bij verschillende gecorrigeerde IQ-
scores volgens individuele matching

l^erzicht toetsingresultaten voor aantal jaren opleiding bij verschillende gecorrigeerde
IQ-scores volgens individuele matching

l^aar verwachting zullen nu meer personen uitvallen dan bij de subgroepmatching: toch
olijven er bij de C67-procedure nog 50 paren (= 45%) over.

Jn de tabellen 3 en 4 zijn de resultaten van de correctie- en matchingprocedure voor
individuele paren weergegeven voor twee afliankelijke variabelen: lengte en niveau van de
'Opleiding. We zien hier — analoog aan de bevindingen bij de matching-per-subcategorie—
dat de gemiddelde score van de hoge milieugroep daalt, terwijl die van de lage milieugroep
^^'jgt. Het verschil in opleidingsniveau tussen beide groepen van oorspronkelijk 2.62 daalt
1.88: het verscliil in gemiddeld aantal jaren opleiding daalt tegelijkertijd van 3.31 tot
2.62 jaar.

Het blijkt ook liier dat de significantie van de verschillen tussen beide milieugroepen iets
daalt maar nog steeds zeer sterk beneden de 5% grens blijft.^

een indruk te geven van het beeld dat ontstaat door de correcties van de IQ's, zullen
voor het opleidingsniveau de verschillen per paar in beeld brengen voor zowel de
oorspronkelijke matchgroep (N=l 12 paren) als voor de C67-groep (N=50 paren) (vergelijk
eschar, 1975a, pag.67 voor een beschrijving van de methode),
"•eruit blijkt duidelijk dat de verschillen per paar in opleidingsniveau nog steeds sterk
aanwezig zijn, maar dat 'de scherpe kantjes eraf zijn geslepen'. Hetzelfde geldt overigens
^oor het aantal jaren scholing.

'^e resultaten van de individuele matching samenvattend, blijkt er grote overeenstemming
e bestaan met de voorgaande bevindingen. Er is geen sprake van dat de verschillen tussen
"e milieugroepen verdwijnen, wanneer de groepen worden gelijkgeschakeld op een voor
■regressie gecorrigeerd IQ. De verschillen tussen beide milieugroepen blijven zeer signifi-
cant (p<.001).

e- Toch kan men het een bezwaar vinden dat er zoveel informatie verloren gaat,
wanneer binnen de gematchte groepen nogmaals wordt gematcht. Het materiaal van
het Milieu-School-Beroep-onderzoek bood ons echter geen andere mogelijkheid:
slechts de oorspronkelijk gematchte personen zijn na 15 jaar ondervraagd.

• Terzijde mag nog worden opgemerkt dat de t- en z-waarden dalen door het verminderde aantal
Petsonen in beide groepen, hetgeen gemakkelijk valt na te rekenen. We menen dat op dit punt een
""lige meting wordt gepresenteerd.

Bereikt opleidingsniveau voor de individueel gematchte paren zowel zonder als met
correctie voor regression-to-the-mean (C67)

Alleen wanneer van een totale populatie longitudinale gegevens beschikbaar zijn, kunnen
meerdere keren gematchte groepen worden samengesteld volgens verschillende criteria.
Hoewel er sinds 1966 in Nederland een follow-up van een ..grote steekproef wordt
ondernomen (ITS, 1968), zijn longitudinale gegevens over langere tijd in Nederland nog
niet beschikbaar.

In Zweden bevinden zich echter gegevens over een follow-up van 1500 personen over 34
jaar, die voor ons doel een aantal aantrekkelijke alternatieven bieden. Deze generatie
kinderen werd in 1938 op lO-jarige leeftijd in Malmö getest en ondervraagd. Sindsdien
zijn verscheidene follow-ups ondernomen (zie Husén et al., 1969, p.40-53; Fagériind
1975) en inmiddels is ook informatie van hun kinderen aan het materiaal toegevoegd. Een
beschrijving van dit unieke materiaal vindt men in Kallen (1975).

Met behulp van dit Malmö-materiaal is de individuele matching gerepliceerd voor de
verschillende gecorrigeerde IQ's. Er werd in totaal vier keer een matchgroep samengesteld;

achtereenvolgens op het test-JQ, C90, C80 en C6l\ Als maatstaf voor het totale
opleidingsniveau is de variabele 'academic level' (ACLEV) gekozen.^
De resuhaten van de toetsing voor de verschillende gematchte groepen (op sexe, leeftijd,
dan niet gecorrigeerd IQ) worden in tabel 6 weergegeven.

Overzicht toetsingsresultaten voor opleidingsniveau (ACLEV) bij versclüllende gecorri-
geerde IQ-scores volgens individuele matching. Malmö-gegevens.

Het gemiddelde opleidingsniveau (ACLEV) voor de hoge milieugroep zonder IQ-correctie
bedraagt hier 4.62; voor de lage mUieugroep is dat 2.93: een verschil van 1.69. Dit verschil
"eemt af tot 1.25 wanneer paren worden samengesteld waarbij de C67-procedure is
'oegepast. Desondanks blijven de verschillen tussen de groepen en binnen de paren
buitengewoon significant (p < .001). Bovendien is de terugval van het aantal paren bij de
C67-procedure betrekkelijk gering: nl. van 73 naar 61.

Ook bij dit materiaal mogen we concluderen dat een - eventuele - regressiecorrectie van
bet IQ het oorspronkelijke verband tussen sociaal milieu en opleidingsniveau (ACLEV)
allerminst doet verdwijnen.^

dit artikel werd ingegaan op enkele bezwaren zoals die door De Groot en Van Peet
(1975) tegen het Groningse Milieu-School-Beroep-onderzoek naar voren zijn gebracht. Als
gevolg van meetonbetrouwbaarheid en onvolledige begripsvaliditeit van de GALO-test

''•Voor de berekening van_do 'true-scores' werd dezelfde formule gebruikt. De respectievelijke
^"bgroeps-gemiddelden zijn Xhoog=109, X)aag=95, zodat de verschillen per paar gemiddeld achtereen-
volgens O, 1.4, 2.8, 4.7 punt IQ bedragen. De test-retestbetrouwbaarheid van de IQ-test wordt geschat
op .85 (Fi^etlind 1975, p.55).

De codering voor deze variabele ACLEV is: (1) Mt folkskola when mandatory school age expired
according to School Act § 48, which means that the individual did not complete/o/fcsfco/a.- (2) six or

fven years of folkskola: (3) folkskola followed by some post-school vocational training: (4) realskola

[['udentexamen): (5) matriculation examination (studentexamenj or some poii-realskola vocational
like teacher training, economic or technical training: (6) some kind of university training,
^'-agerlind 1975, p.47-48).

IQ-verschil		Opleidingsniveau (ACLEV)	T-tocts	Wilcoxon
per paar	N	Xh XL SDH SDL	t	Z
0	2 X73	4.62 2.93 1.21 .95	9.39*	6.36*
1.4	2X73	4.59 2.90 1.27 1.07	8.75*	6.34*
2.8	2X70	4.50 2.96 1.28 .97	8.02*	6.74*
4.7	2 X61	4.51 3.26 1.23 1.05	6.04*	5.48*

^•Uaarnaast blijkt dat de opleidingsverschillen tussen de sociaal milieugroepen bij steekproefonder-
m t ~ ^onneer wordt gecontroleerd op sexe, leeftijd en IQ - vrijwel even groot zijn als volgens de
jg^j^i"g-inethode. We menen dat in matchingonderzoek verschillen reëel worden gemeten (Peschar

lemic high school graduate) or some gymnasium training but without matriculation examination

zouden de onderzochte paren niet zijn geHjkgeschalceld op het IQ maar juist systematisch
in intellectuele capaciteiten verschillen. De onderzoeksconclusies zouden hiennee sterk
worden ondergraven. We menen echter dat het in dit onderzoek niet zinvol was om met
correcties voor regressie-effecten rekening te houden. Op basis van het GALO-IQ zijn
destijds schoolkeuze-adviezen gegeven zodat het - gezien de vervolgeffecten die hierdoor
zijn ontstaan — voor analytische doeleinden in feite onmogelijk is geworden om te
corrigeren op regressie-effecten.

Om definitief te kunnen vaststellen dat de onderzoeksresultaten niet kunnen worden
wegverklaard door regressie-effecten, werd aan de hand van het empirische onderzoeks-
materiaal nagegaan wat voor consequenties eventuele correcties zouden hebben.
De resultaten na verschillende regressiecorrecties van het IQ wijken slechts betrekkelijk
weinig af van de oorspronkelijk gepubliceerde, terwijl de verschillen tussen beide gematch-
te groepen nog steeds zeer sterk significant blijken. Als een controle werden resultaten
gepresenteerd van eenzelfde bewerking op Zweedse longitudinale gegevens, die het beeld
bevestigen.

De oorspronkelijke constatering, dat het sociaal milieu nog steeds van besUssende invloed
is op school- en beroepsloopbaan, ook wanneer men kinderen uit verschillende sociale
milieus op 12-jarige leeftijd een 'gelijke start' geeft, blijft daarmee dan ook volledig van
kracht. Eén van de doeleinden van ons onderzoek was om de invloed van het sociaal
milieu op school- en beroepsloopbaan in een doorzichtige (semi-) experimentele opzet
glashelder aan te tonen. We zijn er nog steeds van overtuigd dat dit aardig is gelukt.

Ahhauscr, R.P. and D. Rubin. Measurement Error and Regression to the Mean in Matched Samples.

Social Forces, 1971/72, SO, 206-214.
Fagcrlind, 1. Formal Education and Adult Earnings: A Longitudinal Study on the Economic Benefits

of Education. Stockholm, 1975.
Gadourek, I. Sociologische onderzoekstechnieken: Inleiding tot de werkwijze bij het sociaal- en

gedragswetenschappelijk onderzoek. 3e, gerev. druk. Deventer, 1972.
Groot, A.D. de. De zin en de plaats van dc research in het onderwijs. Onderwijsresearch in Nederland.
Pedagogische publicaties, 4. Tilburg 1959. Blz. 21-27. (Herdrukt in: Standpunt over onderwijs,
democratie en wetenschap. Den Haag 1971. Blz. 105-111.)
Groot, A.D. de en A.A.J. van Peet, Enkele kanttekeningen bij het proefschrift van J.L. Peschar: Milieu,

School on Beroep. Tijdschrift voor Onderwijsresearch, 1975,1, 36-38.
Harnqvist, K. Relative Changes in Intelligence from 13 to 18. 1. Background and Methodology .

Scandinavian Journal of Psychology 1968, 9, 50-64.
Husén, T. Talent, Opportunity and Career. A twenty-six year follow-up of 1500 individuals. Stock-
holm 1969.

l.T.S. Van jaar tot jaar. Onderzoek naar de school- en beroepskarrière van jongens en meisjes die in

1965 het lager onderwijs verlieten. Onderzoeksvoorstel Nijmegen, 1968.
Kallen, D.B.P. Torsten Husén. Intermediair. 14 febr. 1975, blz. 27-33.

Kema, G.N. en B.J. Kouwer, Intelligentietest zesde klas lagere school (GALO). Handleiding. Gronin-
gen, 1959.

Lord, F.M. and M.R. Novick, Statistical Theories of Mental Test Scores. Reading, Mass. 1968.
Nunnally, ].C. Psychometric Theory. New York, 1967.

Nijsse, M. Samenvattende en aanvullende opmerkingen bij de ISI en GALO-intelligentietests. Gronin-
gen, Subfaculteit PAW, 1975.
Peschar, J.L. Milieu-School-Beroep: Een achteraf-experiment over de pe'riode 1958-1973 naar de

invloed van het sociaal milieu op school- en beroepsloopbaan. Groningen 1975a.
Peschar, J.L. De efficiëntie van gematchte en toevals-steekproeven in longitudinaal onderzoek: Een
vergelijking op basis van Zweedse secundaire gegevens. Groningen: Sociologisch Instituut, 1975b.
Thorndike, R.L. Regression Fallacies in the Matched Groups Experiment. Psychometrika, 1942, 7,
85-102.

Normhandhaving: Een Beschouwing naar Aanlei-
ding van een door Hofstee ontwikkeld Alternatief

A note on Hofstee's method for successive adaptation of test norms
W.K.B. Hofstee (1973) has derived a model to determine the cut-off points for the situation in
which an achievement test or a parallel form is administered to several groups (e.g., in
subsequent years) of equivalent composition. To take the data of the successive groups into
account, he derived for the cut-off point the following formula:

where Xn, and Xp are the mean raw scores of the two groups with respectively m and n
subjects; e is a margin of safety.

In this article the same formula is derived in a much simpler way, starting from the assumption
that the new norm Ym+n is derived from the norms Y^, and Yn£or the two groups in the same
way as the weighted average is derived from the averages Xp, and Xn.

Hofstee postulates further that the norm is formed by subtracting a constant e from the
average. In this article it is assumed that the norms for different groups of equivalent
composition with different average scores are found by subtracting factors proportional to the
average scores X^ and Xn-
This leads to the formula for the cut-off score:

In paragraph 7 an application of this model is described for testing-programs in the field of final
examinations. Till now the norms were determined by a committee which had at its disposal
the frequency-table of all the candidates. In the article is demonstrated in several ways that in
most cases it will not make a difference if the cut-off score is determined from the frequency-
table in which the 'selects' (the answers sheets which were not accepted in the first reading run
of the optical reader) are missing. By doing so the norms can be determined and sent to the
schools several days earlier than in the former situation.

een bijdrage in het Nederlands Tijdschrift voor de Psychologie 28 (1973) pag. 215-227
Saat Hofstee ervan uit 'dat alle normen uiteindelijk (of liever: in eerste instantie) niet
anders dan relatief kunnen zijn'.' Gebruikt men nu voor verschillende, in beginsel

Hofstee doet hier een normatieve uitspraak, waar hij spreekt van "kunnen zijn'. Of dan wel in
^ocverre de realiteit aan deze conditie voldoet, is een vraag. Bij de eindexamens VWO en AVO zijn er
Or verschillende vakken schriftelijke examens, waarbij er duidelijk sprake is van absolute normen:
^e Worden vooraf bepaald en er wordt derhalve geen rekening gehouden met de verkregen scores.

gelijkwaardige groepen eenzelfde toets of een equivalent ervan, dan neemt men de
prestaties van de eerste groep 'te serieus' als men de norm baseert op de van die groep
verkregen gegevens. Het niet-verwerken van de prestaties van een verse groep proefperso-
nen noemt Hofstee inconsequent. Het kan 'dat deze inconsequentie zelfs overgaat in
nonsensicaliteit'. Met het voorgaande als uitgangspunt komt Hofstee tot een formule voor
de afbreeknorm^, die gebaseerd is op de prestaties van de oude èn nieuwe groep
proefpersonen. Ik meen dat een veel kortere weg leidt tot dezelfde formule als door
Hofstee gevonden. In de volgende regels wil ik dat demonstreren.

Hebben we twee groepen van resp. m en n gegevens; stellmi we het gemiddelde van de
eerste ni gegevens voor door Xn, en van de n gegevens door Xn, dan is bekend de formule
voor het gewogen gemiddelde:

Gaat men ervan uit dat voor twee groepen, die 'in beginsel gelijkwaardig' zijn, de normen
Ym en Y,, volgens dezelfde procedure uit de respectieve gemiddeWen Xj^ en Xn worden
afgeleid, bijvoorbeeld door een constante e van resp. Xp, en X,i af te trekken (zie
Hofstee) dan ligt het vooj; de hand op analoge wijze uit Y^, en Yn af te leiden als

In het voorgaande is sprake van één, als men wil: arbitraire, aanname: laten we Yn,+n op
dezelfde manier uit Y^ en Y^ afleiden als X^+n uit X^ en X„. Is daardoor de basis niet
zwakker dan bij Hofstee? Ik meen dat het tegendeel het geval is:

— Hofstee beschouwt eerst het geval dat twee personen een toets maken. Uit grafische
voorstellingen komt hij tot een formule waarbij een parameter C(=tga) is ingevoerd.

2. De termen 'afbreeknorm', 'norm', 'aftestgrens', 'grensscore', 'cesuur' komt men in de literatuur in
vrijwel identieke betekenis tegen. Hofstee noteert in zijn artikel de voorwaarde waaraan een score
moet voldoen vrijwel steeds in de vorm van een ongelijkheid. Ik volsta met de grensscore te vermelden.

dan volgt 'een zeer fraaie semantische interpretatie van C: de fraaiheid ontleent deze
interpretatie voor zo ver ik het zie alleen aan het feit dat ze leidt tot de afbreeknorm

— de algemene formule leidt Hofstee 'niet op dwingende wijze' (pag. 221) maar op grond
van een voor de hand liggende generalisatie (pag 220) uit het bijzondere geval af.

- De boven onder (3) vermelde (uiteindelijke) formule wordt uit een eerdere verkregen
door toevoeging van een correctiefactor 'uit esthetische overwegingen'.

Ik meen dat mijn 'voorstel' berust op een duidelijk expliciet vermelde aanname, waaruit de
afbreeknorm simpel volgt. Hofstee heeft om tot hetzelfde resultaat te komen een
Voor-de-hand liggende generalisatie (niet dwingend), een 'fraaie semantische interpretatie'
en 'esthetische overwegingen' nodig. Ik acht dit minder bevredigend dan mijn voorstel.

trekken. Geheel bevredigend vindt hij dit niet: zie pag. 222 (voetnoot). Ik stel nu voor m
plaats van formule (3) te schrijven:

^emen we nu aan (een tweede aanname dus!) dat e^, en en evenredig zijn met X^, en
^n.dan is: en, : e„=Xm : Xn-D"S

Zowel door Hofstee als in mijn nieuwe voorstel wordt eenzelfde weg bewandeld: uitgaan-
de van de stelling dat normen 'niet anders dan relatief kunnen zijn' (Hofstee pag. 216)
relateren we de norm aan de gemiddelde score van de groep. Hofstee neemt aan dat bij
toepassing van eenzelfde toets of van equivalente toetsen bij gelijkwaardige groepen,
waarbij die groepen tot verschillende gemiddelde scores komen, de normen zullen ont-
staan door de gemiddelde scores met een constante te verminderen. Ik geef er de voorkeur
aan deze vermindering variabel te laten zijn, evenredig met de gemiddelde score. Opge-
merkt dient te worden dat in beide gevallen normhandhaving wordt verkregen door
procedurehandhaving.

De gebruikte werkhypothesen zijn volkomen willekeurig: slagen in de lucht, waarvan we
hooguit kunnen zeggen 'dat ze nog zo gek niet zijn'. Wij proberen erin te modelleren wat
zich afspeelt in het brein van normbepalers: een gebeuren waar we nog (vrijwel) geen
enkele kijk op hebben (Hofstee 1973, p. 225; Van der Linden-Mulder, 1973).
Zoekt men naar argumenten voor het ene of het andere model, dan zijn die amper te
vinden. Overeenkomst van het model met de realiteit kan men niet als criterium aanvoe-
ren daar 'de' realiteit niet bestaat: Men ziet slechts de ontzettende spreiding in de normen
die verschillende beoordelaars (willen) aanleggen.

Enige voorkeur voor de nieuwe formule lijkt me gerechtvaardigd. Ik baseer dit op een
reeds aangehaalde opmerking van Hofstee (pag. 222) en op een - uiteraard zwak -
esthetisch argument: de afgeleide formule is doorzichtig en eenvoudig.

Om de eenvoud van de procedure te demonstreren, neem ik de illustratie die Hofstee ook
gebruikt in zijn artikel:

Het verschip tussen deze uitkomsten kan niet als een argument voor een der beide
modellen worden aangevoerd. Het lijkt mij belangrijk dat bestudering van de materie leidt
tot grotere duidelijkheid, vooral ook tot het bewustzijn dat het gaat om een keuze, die op
een gegeven moment gemaakt moet worden: de doorzichtigheid van de procedure voor
eoordelaars en beoordeelden kan daarbij misschien wel eens een der belangrijkste
argumenten zijn voor het wel of niet accepteren.

yan 'normhandhaving' spreekt men als gelijke of equivalente toetsen in achtereenvolgen-
e jaren worden afgenomen. Men kan echter ook denken aan verschillende subgroepen
Van eenzelfde jaargang of populatie, waarvan men weet c.q. postuleert dat ze gelijkwaar-
dig (moeten) zijn. De vraag kan dan zijn in hoeverre men de norm die bepaald wordt voor
een zo'n subgroep zonder bezwaar kan gebruiken voor de andere subgroep ofwel voor de
totale populatie. Een goed voorbeeld hiervan hebben we bij een aantal eindexamenprojec-
ten. Bij giote examenprojecten die in de vorm van door het CITO ontwikkelde meerkeu-
zetoetsen worden afgenomen wordt de norm bepaald door de Commissie Vaststelling
|:^Pgaven Schriftelijke Eindexamens (C.V.O.). Daarbij maakt men gebruik van door het
verstrekte frequentietabellen, die een overzicht geven van de scores van alle
l^andidaten voor een bepaald vak. Voor de tekstbegriptoets Engels bij het HAVO in 1974
^e men tabel 1.

oordat zo'n tabel tot stand is gekomen, is er heel wat gebeurd. De antwoordbladen
'borden aan het CITO gestuurd, gecontroleerd, daarna ingelezen en de gegevens worden
Weggeschreven op tapes. Het probleem is echter dat een aantal antwoordbladen om
verschillende redenen door de leesapparatuur niet verwerkt wordt: te dunne streepjes, een
•tem overgeslagen, een streepje dat de kandidaat wilde uitgummen is niet helemaal
Weggeveegd etc..

Het percentage 'selects' varieert van 4 tot soms 20. Deze antwoordbladen moeten met de
and verwerkt worden. Dit vraagt veel tijd. En gedurende al die tijd is de frequentietabel
"'et compleet te maken en kunnen er derhalve geen normen worden vastgesteld. De vraag
P nu opgekomen of de normen ook niet kunnen worden vastgesteld aan de hand van een
requentietabel, die gebaseerd is op de gegevens van de 'vuile tape'. Hieronder verstaan we
® tape die de gegevens bevat van alle kandidaten die bij de eerste 'run' geaccepteerd
borden voor verdere verwerking. Dit zou namelijk de mogelijkheid bieden de normen
aanmerkelijk eerder vast te stellen en de gegevens aan de scholen eerder te versturen.

bovenstaande formules kunnen naar mijn mening uitkomst bieden. Het gaat namelijk om
Wee groepen en we willen de gegevens van alle kandidaten gebruiken,
tel: er zijn N kandidaten, waarvan er Najneteen worden ingelezen; er zijn Nb selects,
tel de gemiddelde score van de a-groep: Xg
^tel de gemiddelde score van de b-groep: Xb

^a = Xb levert de nieuwe formule hetzelfde resultaat als de formule van Hofstee.
I' Aan de heren W. Knöps en drs. H. van der Hoeven, medewerkers van de afdeling Methodologie van
zii ik veel dank verschuldigd. Zij verstrekten mij de gegevens die in deze paragraaf verwerkt

ee d ^^ voerden een aantal berekeningen uit. Ook in andere paragrafen is van hun kritiek op een
^^'aere versie dankbaar-gebruik gemaakt. Een aantal kritische opmerkingen van drs. K.D. Thio,
^Junct-directeur, 'heeft eveneens tot aanmerkelijke verbeteringen geleid. Ook van de medewerking van
P-H. Meijering, hoofd van de afdeling Eindexamens, werd dankbaar gebruik gemaakt.

Welke correctie moeten we toepassen om Yg+b te krijgen: een norm die - naar verwacht
mag worden - overeenkomt met de gegevens van alle (a+b) kandidaten?
Formule (6) toepassend:

Om enig idee te geven van de waarden die p en k kunnen aannemen, zijn in tabel 2 de
gegevens opgenomen die betrekking hebben op de HAVO-examens 1974.

Ook als p vrij groot^ en de afwijking X^ - Xb vrij aanzienlijk is, geldt voor de
Vermenigvuldigingsfactor:

In die gevallen geldt dat bij een afb reeknorm kleiner dan 40 (zoals bij eindexamens steeds
Voorkomt) het verschil tussen Y^+b en Yg kleiner is dan 0,40.

öaar de cesuur door de normencommissies steeds bepaald wordt op een geheel getal, is de
correctiefactor niet groter dan een normale 'afrondingsfout'.

Natuurlijk blijft voor beslissers van belang om te weten hoeveel hoger het percentage
onvoldoendes wordt door Yg in plaats van Ya+b te hanteren. Daarvoor is het overzicht in
tabel 3 illustratief dat betrekking heeft op het HAVO-examen Engels 1974 (tekstbegrip) .
In de eerste kolom vindt men weer de mogelijke scores, in de tweede kolom zijn de
cumulatieve percentages vermeld van de totale populatie, in de derde kolom vindt men de
cumulatieve percentages exclusief de selects (de tabel vangt pas aan bij de ruwe score 15,
omdat alle percentielscores daaronder O zijn).

^it tabel 3. blijkt dat de informatie die in de derde kolom aan de beslissers verstrekt wordt
Vrijwel identiek is met die in de tweede kolom: de afwijking is nooit meer dan één

5-Petcentagcs boven 10 komen slechts sporadisch voor. De percentages vcrschiUen "«f l ^
schooltype In 1973 waren de percentages: voor VWO 3,2% voor HAVO 4,8% voor MAV04 6,2/o
^oor MAVO-3 7,0%.

Z'e hierover ClTO-pubÜcatie nr. 28: De eindexamens AVO/VWO 1973 in de vorm van meerkeuze-
toetsen.

6. De gegevens voor andere schooltypen en vakken vertonen alle hetzelfde beeld. Omwille van de
plaatsruimte worden aUeen de gegevens die betrekking hebben op het vak Engels hier opgenomen,
^oor geïnteresseerden zijn meer gegevens beschikbaar.

percent. Dat betekent dat er door één percent van de kandidaten méér^ een onvoldoende
cijfer kan worden behaald als de beslissers de cesuurbepaling baseren op de gegevens van
kolom 3. Als men echter bedenkt dat de percentages zowel in kolom 2 als in kolom 3 in
het gebied waar de meeste scores liggen, zeg: tussen 24 en 40, met ongeveer 4 oplopen,
dan zal de wetenschap dat misschien 1% van de kandidaten méér een onvoldoende cijfer
krijgt, vrijwel nooit een reden zijn de cesuur voor ± 4% van de kandidaten te verleggen.
Men kan zich in uitzonderingsgevallen voorstellen dat men met grote tegenzin K%
onvoldoendes nog net accepteert en men bereid zou zijn het te verlagen tot (bijvoorbeeld)
(K-4) in plaats van (K+1) percent te accepteren. Overigens moet men bovendien nog
bedenken, dat de gevolgen minder 'desastreus' zijn nu de ruwe scores niet in gehele cijfers
van de 1 O-puntsschaal worden omgezet maar er sinds kort cijfers met één decimaal
gehanteerd'worden.® Voor het vak Engels bijvoorbeeld zag de omzettingstabel in de buurt
van de cesuur er als volgt uit in 1974:

Zowel op grond van de uitkomsten die werden verkregen met de in het voorgaande
ontwikkelde formule (10) als ook op grond van de daarna gegeven tabellen is het te
verdedigen met de cesuurbepaling niet te wachten tot ook de gegeveiis van de 'selects'
verwerkt zijn. Daardoor wordt het mogelijk de verzending van de uitslagen aan de scholen
te vervroegen.' Eventueel zou bepaald kunnen worden in welke (uitzonderings-)gevallen
men een beslissing over de cesuur uitstelt tot ook de gegevens van de 'selects' bekend zijn.

"ofstec, W.K.B. F.cn alternatief voor normhandhaving bij toetsen. Nederlands Tijdschrift voor de
l'sychologie.Wi, 28, 2X5-221.
an der Linden-Mulder, M. Cesuurbcpaling en verschillen tussen scholen in 1972. In: De eindexamens
in de vorm van meerkeuze-toetsen. CITO publicatie nr. 23, Arnhem, 1973.

• Speciaal van de kant van het MAVO kwamen in 1974 protesten omdat men zo lang op de uitslag
moest wachten. Door de leden van de Tweede Kamer Konings en van Ooyen zijn daarover aan de
"i'nistcr van Onderwijs en Wetenschappen schriftelijke vragen gesteld.

De RIJKSUNIVERSITEIT te LEIDEN vraagt t.b.v. het BUREAU
ONDERZOEK VAN ONDERWIJS een

— het trainen van universitaire docenten met behulp van micro-
teaching en cursussen;

— het verzorgen van schriftelijk voorlichtingsmateriaal betreffende
de herprogrammering van het onderwijs.

Aanstelling kan gegarandeerd worden tot 1 januari 1979. Sala-
riëring volgens Rijksregeling.

Inlichtingen over de functie kunnen worden ingewonnen bij drs.
T-M. Chang, tel. 071-148333, tst. 5389.

Brieven vergezeld van curriculum vitae te richten aan de afdeling
Werving en Selectie van de Dienst Personele en Welzijnszaken der
Rijksuniversiteit, Stationsweg 46 te Leiden, onder vermelding van
vacaturenummer 66075.

In this article an attempt is made to give an explanation of the results of two factor-analytic
studies published earlier (Van dcr Ven, 1971, 1972).These results could be accountcd for by
assuming that time-limit tests arc linear r-equivalent. This holds only if the number of items
attempted and the proportion of items right are used as test scores. This assumption makes it
possible to derive reliability estimates for these scores. The reliability of the total or composite
score - the sum of the number attempted scores for speed and the sum of the proportion right
scores for precision - is also considered.

Reliability coefficients are computed for each separate score, as well as for the total score. The
results lead to several conclusions, two of them being especially noteworthy. First, the
reliabilities of the separate tests are unexpectedly low. Secondly, the total score results in a
substantial increase in reliability.

Finally, some violations of the model arc discussed. One must avoid trying to explain these
deviations in terms of content bound factors. The introduction of content bound factors leads
more to naming than to explanation.

In some previously published articles (Van der Ven 1971 and 1972) evidence has been
given for the assumption, that in time-Hmit tests individual differences can be explained
by two uncorrelated factors: speed and precision. The speed factor accounted for the
difference's in the number of items attempted and the precision factor for the differences
in the proportion of items right. A better understanding of these scores is of utmost
importance since the usual scores such as the number right, and the number wrong can be
explained in terms of these more fundamental scores. In this note a different point of
view will be given in order to offer a better comprehension of the factors mentioned
above. Tliis view leads to the formulation of rehability coefficients for the number
attempted and proportion right scores.

Lord and Novick (1968, p. 49 and 50) consider T-equivalent and essentially T-equivalent
tests._

Two test scores jCg and Xh are T-equivalent, iff for each subject i, Tg; = Thi and x^iand Xhi
are independent.

Here Xg is tlie observed score x on test g. Underlined letters will be used to indicate
random variables. The letter r is used to indicate a true score.

^wo test scores Xg and Xh arc essentially r-equivalent, iff for each subject i, Tgj = agh +
^hi and Xgiond Xhi are independent

An obvious extension of the concept of essentially r-equivalence is the concept of linear
'"-equivalence. Two tests are linear r-equivalent iff for each subject i, Tgi = agh + bghTiu
X gj is independent o/Xhi-

this article the basic assumption is made that time-limit tests are linear r-equivalent. It
is obvious that for

h may easily be proved (see Lord and Novick, 1968, equation 3.5.4), that
o(lg.Xh) = <7(xg,Xh)-

In other words if two tests are linear r-equivalent then their mutual correlation is equal to
the geometric mean of their respective reliabilities. The reverse is also true, with the
restriction that agi, may be equal to zero or bgh may be equal to unity. Van Naerssen
(1969, p. 227) calls linear r-equivalent tests equal factorial. He also (p. 228) offers a
derivation of the former formula.

In order to determine the reliabilities p(Xg,Xg) one may use a procedure, wliich is
completely analogous to the centroid - or principal axis method of factoring a correla-
tion matrix (see Harman, 1960). It can easily be shown that the reliabilities are equal to
the communalities for a unifactor solution. Since the diagonal terms in the correlation
matrix are the unknowns one may use an iterative procedure by refactoring (see Harman
1960, p. 89). This analysis must be carried out for each type of score separately.
The data obtained thus far (see Van der Yen 1971 and 1972) suggest the following linear
hypothesis: time-limit tests are linear r-equivalent. This holds separately for the number
of items attempted and the proportion of items right. In order to obtain reliability
estimates for the different tests for each type of score one may use the procedure
described above.

To increase the reUability of speed one could add the number attempted scores. The same
can be done for the proportion right scores. The question arises how large the reliabilities
of these total or composite scores are. The following theorem can easily be proved.

Let x 1, X2. •••> Xi, Xj —jJ^n be n linear r-equivalent tests and let x = x i + X2 — ^m
then

So the reliabihty of the composite score is a function of the variances and the reliabilities
of the component terms.

For the GATB- and ISI samples mentioned in Van der Ven (1971 and 1972) reliabilities
for the different tests were computed by an iteration procedure of centroid
refactoring. From these reliabilities the reliability of the total score was computed
according to formula 2. The results are shown in tables 1 and 2.

The reliabiUties of the GATB-I sample generally are somewhat larger then those of the
GATB-11 sample. This is in correspondence with what one could expect, since the
GATB-II sample is more homogeneous in relation to the GATB-I sample.

With respect to the number of items attempted one finds larger reUabilities for the
lSl-5 sample. This probably is related to the fact that in the ISI-5 sample the number of
children that attempted all items in the test is less in comparison with the ISI-6 sample.
So more discrimination is possible for the number of items attempted score. Table 3
shows for each test how many children attempted all items.

Generally, the rehabilities of the different tests do not fluctuate very much. An
^'^eeption is the reliability of the number attempted score in the test Three Dimensional

Space of the GATB. This reliability is rather low. Other exceptions are reliabilities of the
proportion right scores in the GATB tests Computation and Tool matching. Until now,
no explanation could be found for these results. There is no relation to the mean or
standard deviation of the respective scores in these tests.

4. More generally, one may conclude that the reliabilities for the separate tests are (at
least for the author) unexpectedly low. With respect to the number atempted scores of
the ISl tests, these low values can be explained by referring to the fact that in all cases a
large number of children attempted all items of the test. The reliabilities of these tests
will considerably increase if more items are added, to such an extent that also the most
rapid examinee will not finish the test.

5. Finally, the conclusion seems justified, that the use of a total score results in a
substantial increase in rehability. This is an important result for further validation
research. The use of composite scores, weighted or unweighted, seems far more desired
than the use of separate scores.

Dwyer (1939) has proved that the squared multiple correlation (SMC) is a lower bound
for the communality. For linear r-equivalent tests the communality is equal to the
reliability (REL), so in this case SMC is also a lower bound for the reliability. If REL <
SMC, then the test cannot be considered as fully linear r-equivalent. Such a situation
could appear if another systematic component 5 would be involved:

Looking at the SMCs of the number attempted scores in table 1, one must admit that test
2, Computation, and test 6, Arithmetic Reasoning, as well as test 3, Three Dimensional
Space, do not completely satisfy linear r-equivalence. According to table 2, the same
conclusion holds for the number attempted scores of test 1, Synonyms, and test 2, Cut
Figures, as well as for the proportion right scores of test 1.

It would be too .easy - in the case of the GATB - to postulate the existence of more
specific factors such as a speed factor for number and space and - in case of the ISI - to
postulate the existence of a speed and precision factor for the start of the test.

One would fall in the same pitfall of the content-bound structure of intellect explanation
of intelligence tests as given by Thurstone and Guilford, which is naming but not
explaining. Further thinking, and inquiring is necessary to account for these exceptions.

Dwyer, P.S., The contribution of an orthogonal multiple factor solution to multiple correlation.

Psychom'etrika,\9i9, 4,
"arman, H.H., Modern Factor Analysis. Chicago: University of Chicago Press, 1960.
Lord, F.M. and Novick, M.K., Statistical theories of mental test scores. Readmg, Massachusetts:

Naerssen, R.r. van and Groot, A.D. dc, Studietoetsen: construeren, afnemen, amlyseren. Den Haag:

^en^T.H.G.S^ran der, Time-limit tests, a critical evaluation. A^frfeW^js Tijdschrift voor de psycholo-

Speed and precision in the General Aptitude Test Battery. Nederlands
Tijdschrift voor de psychologie, 1972, 27, 530-537.

This article gives the results of research on some criterion-referenced tests which were con-
structed to evaluate the beginning reading method 'Zo/Veilig lercn Iczen'.
The objectives were constructed with a content-behavior grid, whilst the tests were constructed
with the aid of item forms (Osburn, 1968).

Tlie reliability of the tests was sufficient (Tabic 2). Also the content validity was good. A factor
analysis didn't disclose any factor which could be interpreted in the light of the content
behavior classification. The zero-order and multiple correlations between the tests and some
external variables (one minute tests, teacher's jugdment) arc given in table 3 and 6. High
correlations with the external variables were found in tests which concern reading or writing of
(new) words and letters.

Het onderzoek betreft een aantal kriteriumtoetsen bij de eerste twee leesboekjes van de
leergang 'Zo/Veilig leren lezen' (Caesar, 1970). Naast, de beschrijving van de konstruktie
en de afname van de toetsen worden een aantal uitkomsten van het onderzoek weergege-
ven.

GJaser en Nitko (1971) omschrijven een kriteriumtoets als een toets die speciaal gekon-
strueerd is 'to support generalizations about an individual's performance relative to a
specified domain of tasks'. In de 'Standards' (APA, 1974) wordt dit aangeduid met
'content-referenced' interpretatie van toetsskores (Vgl. Cronbach e.a. 1972).
Wil men een kriteriumtoets konstrueren bij een onderwijsdoel, dan is het dus nodig om
dit doel te omschrijven als een verzameling taken. De toets moet dan zo gekonstrueerd
worden dat op grond van de toetsskore uitspraken over de prestaties met betrekking tot
die taken mogelijk zijn.

Om tot doelstellingen bij de bovengenoemde leesboekjes te komen, is gebruik gemaakt
van een 'content-behavior' klassifikatie (Vgl. Tinkelman, 1971).

De inhoudelijke indeh'ng is ontleend aan de handleiding bij de betrokken leergang (Caesar,
a.w.). Op grond daarvan kan onderscheid gemaakt worden tussen oefeningen met globaal-
woorden, met wisselwoorden, met letters en struktureeroefeningen. Verondersteld wordt
dat deze oefeningen als doelen beschouwd kunnen worden.

1 Bij dit onderzoek heb ik gebruik kunnen maken van de waardevolle adviezen van drs. Mommers en
drs. Voeten van de K.U Nijmegen.

Dc gedragsindeling is van Hiveley (1966). Hij biedt een raamwerk voor de analyse van
'elementary reading behavior', steunend op het werk van Skinner. Aan elk leesgedrag
onderscheidt Hiveley een stimulus en een respons. Zowel de stimulus als de respons
kunnen auditief, visueel of niet-linguistisch zijn. De respons kan bovendien vrij zijn of van
het meerkeuze type.

Tabel 1 geeft een kombinatie van beide indelingen en de doelen die op grond hiervan
geformuleerd zijn. Een aantal mogelijke doelen ontbreekt echter omdat geen passende
formulering gevonden kon worden.

Om de verzameling taken bij elke doelstelling te bepalen is gebruik gemaakt van itemvor-
men (Osburn, 1968). Onder een itemvorm wordt verstaan: een model-item waarvan één
of meer onderdelen variabel zijn.

Bij het doel 'uit een gedikteerd globaalwoord een bepaalde letter opschrijven' is als
modelitem gekonstrueerd: "schrijf op: de letter die bij 'lief vooraan staat". De variabele
onderdelen zijn hierbij 'lief en 'vooraan'. Voor 'lief kunnen alle andere globaalwoorden
uit de eerste twee leesboekjes gesubstitueerd worden; 'vooraan' kan vervangen worden
door 'achteraan' en 'in het midden'. Door alle mogelijke onderdelen in een model-item te
substitueren ontstaat een itemverzameling, die opgevat kan worden als de verzameling
taken die het doel omschrijft.

Door at random k onderdelen te kiezen en in het model-item te substitueren ontstaat een
toets met k items die beschouwd kan worden als een random steekproef uit de itemverza-
meling. De skore op deze toets stelt ons in staat om uitspraken te doen over de prestaties
met betrekking tot de gehele itemverzameling. Een dergelijke toets is dus een kriterium-
toets.

Bij 21 doelen uit tabel 1 zijn op deze wijze toetsjes gekonstrueerd. De betreffende doelen
zijn aangeduid met vet-gedrukte letterkombinaties.

In het schooljaar 72/73 zijn in 14 klassen de toetsen afgenomen na beëindiging van het
tweede leesboekje; per klas 12 klassikale en 3 individuele toetsjes. Elk klassikaal toetsje is
in telkens 8 klassen afgenomen, de individuele toetsjes in alle 14 klassen. De klassikale
toetsjes werden in 4 periodes afgenomen, 3 toetsjes per keer. Bij 12 van de 14 klassen
waren de proefleiders studenten van pedagogische akademies. De volgorde van afname en
de persoon van de proefleiders zijn op deze scholen systematisch gevarieerd. Op de
overige twee scholen zijn de toetsjes door mijzelf afgenomen.

Buiten de skores op de kriteriumtoetsen zijn ook gegevens verzameld over de volgende
eksterne variabelen:

Een skore van 1 voor de beste 20% leerlingen op het gebied van lezen, een skore van 2
voor de volgende 20%, etc.

Een bij de leergang behorende toets, die in december door de leerkrachten is afgeno-
men. De skore wordt gevormd door het aantal goed gelezen woorden.

Praktijkoordeel taal (paasrapport) (pot)
Praktijkoordeel lezen (paasrapport) (pol)
Eén-minuut test (emt)

De oude vorm van deze toets (Brus & Bakker, 1965) is door mijzelf in juni 1973 op de
betrokken scholen afgenomen. De skore is het aantal goed gelezen woorden.

ten aantal algemene gegevens over de kriteriumtoetsen en de eksterne variabelen staan
vermeld in tabel 2.

I-Uit de eerste drie kolommen van tabel 2, gemiddelde, modus en standaardafwijking,
blijkt dat de toetsjes door de meeste leerlingen goed gemaakt worden. Een gevolg hiervan
IS de extreem scheve verdeling van de skores van vrijwel alle toetsen.

2. De Kr^20 kan opgevat worden als een maat voor de homogeniteit van de items waaruit
de toetsjes bestaan. Voor vergelijkbare toetsen (v.d. Laan, 1973; Creemers, 1974, Zwarts,
1975) wordt over het algemeen een overeenkomstige waarde van dc KR20 gemeld, indien
men rekening houdt met de verschillende testlengtes.

Uit de laatste kolom blijkt dat het effekt van geringe variantie op de KR20 bij gegeven
verdeling van de moeilijkheidsgraden betrekkelijk gering is (Vgl. Zwarts, 1974).
Tabel 3 bevat de korrelatiematrix van de kriteriumtoetsen en de eksterne variabelen.
Doordat niet elke leerling elke toets voorgelegd heeft gekregen, berusten de koëffisiënten
op wisselende aantallen leerlingen; elke korrelatie is echter over minimaal 150 waarnemin-
gen berekend.

Voor een kriteriumtoets is inhoudsvaliditeit een noodzakelijke voorwaarde. De inhouds-
validiteit zal dus als eerste nagegaan moeten worden.

Voor het bepalen van dc doelstellingen is een bepaald systeem gehanteerd. Het is van
belang te weten of met dit systeem alle doelstellingen bij de eerste twee boekjes
gegenereerd zijn.

De onderscheidingen die gehanteerd zijn om tot dc doelstellingen te komen, kunnen
opgevat worden als onderliggende variabelen. Wil men de skore met betrekking tot die
onderliggende variabelen kunnen interpreteren, dan dient hiervoor eerst empirische evi-
dentie aangedragen te worden.

Als de toetsjes inhoudsvalide zijn, meten ze een aantal duidelijk omschreven vaardighe-
den. Het is interessant na te gaan hoe deze vaardigheden samenhangen met de eksterne
variabelen, al was het slechts om de bruikbaarheid van de toetsjes als voorspeller te
kunnen bepalen.

Om de inhoudsvaliditeit van een toets aan te tonen is het volgens de 'Standards' (APA,
1974) nodig dat het doel waarvan men de beheersing wil meten omschreven is en
aansluitend een gedragsdomein is gedefinieerd. Op grond van deze definitie dient men uit
te kunnen maken welke taken tot dit gedragsdomein behoren. Vervolgens moet aange-
toond worden dat het testgedrag een representatieve steekproef vormt uit het gedragsdo-
mein.

De itemvormen geven een zeer preciese definiëring van de gedragsdomeinen. Zij sluiten
redelijk aan bij de gestelde doelen. Het is echter mogelijk om op grond van deze doelen
via een ander model-item tot een ander gedragsdomein te komen.

De items vormen een random en daarmee representatieve steekproef uit het itemdomein.
De betrokken kriteriumtoetsen voldoen dus aan de «isen die de 'Standards' met betrek-
king tot inhoudsvaliditeit stellen.

Om na te gaan of alle doelen bij de eerste twee leesboekjes met behulp van het systeem
gegenereerd zijn, zijn de doelstellingen vergeleken met twee andere doelstellingen-
overzichten. Het ene overzicht is ontwikkeld door een werkgroep onder leiding van drs.
Aarnoutse van de K.U. Nijmegen; het andere is ontworpen door J. ten Hove (1972). De
resultaten zijn neergelegd in tabel 4.

Van de 21 doelstellingen uit tabel 1 komen er in beide andere doelstellingenoverzichten 7
in geen van beide voor, 10 in één van beide en slechts 4 in alle twee. De gekozen
werkwijze om de doelstellingen te genereren is dus duidelijk niet uitputtend.
Om vast te stellen of de onderscheidingen die gehanteerd zijn om de doelen te bepalen tot

CS
C3

O
OJ

C
^

u
T3

c
g

'3-*-OtDO<lCNT-CNT-CDrN.*-inCO«tCOr^CN
OOCOOOCiOCDOOOOOCJOOO
I III I I I I I I I I I I

fo
	>4.	Q]	n
O	0)	X	D	CM
	IT	Q)	O	CO CD
	•-H	M	TD	CD CD

systematische samenhang in de toetsskores hebben geleid, is een iteratieve hoofdassen-
analyse uitgevoerd. De veronderstelling is dat de "resulterende (geroteerde) faktoren te
interpreteren zijn in termen van de onderscheidingen van tabel 1. De analyse is uitgevoerd
over de kriteriumtoetsen en over de kriteriumtoetsen samen met de eksterne leesvariabe-
len. Toevoeging van de eksterne variabelen levert dezelfde faktorstruktuur op voor wat
betreft de ladingen van de kriteriumtoetsen. Tabel 5 geeft de resultaten van de faktorana-
lyse over alle variabelen. De faktoren zijn geroteerd met een 'direct oblimin' rotatie.
Faktor 1 kan opgevat worden als een algemene leesfaktor: alle eksterne leesvariabelen
laden hoog en van de kriteriumtoetsen hebben o.a. de toetsen die een leestaak inhouden
(GB2, LVl, WVl) een hoge lading. Bij de tweede faktor vah op dat alle visuele
struktureeroefeningen (SVl, SV2, SV3, SV4,) hoog laden; het is echter niet duidelijk wat

^eze groep gemeen heeft met de andere toetsen die een hoge lading hebben (GA2, GB2,
CA3, SA4,). De overige faktoren zijn nog minder duidelijk interpreteerbaar; van enige
relatie met de onderscheidingen uit het doelstellingenschema blijkt in ieder geval weinig.
Het is overigens de vraag of het zin heeft om de faktoren 2 t/m 5 in de analyse te
I'etrekken gezien het verloop van de eigenwaarden: 11.7; 1.6; 1.1; 0.9; 0.6. Op grond van
interpreteerbaarheid van de faktoren en het verloop van de eigenwaarden wordt dan
ook aangenomen dat de toetsjes slechts één latente variabele meten. Deze variabele kan
beschouwd worden als een algemene leesfaktor.

De samenhang van de kriteriumtoetsen met de eksterne variabelen blijkt uit de korrela-
ties. Deze zi\n over het algemeen van gemiddelde grootte.

Drie groepen kriteriumtoetsen hebben over het geheel een korrelatie met de leesvariabelen
die hoger is dan .40, nl. de wissclwoordoefeningenWAl,WA2,enWVl; de letteroefenin-
gen LAl en LVl en drie toetsen waarbij een woord geschreven moet worden; GBl, GA2
SA5. Twee andere toetsen die hoog korreleren zijn: lezen van globaalwoorden (GV2)
en aanvullen tot een globaalwoord (SV2).

Het verband tussen de set kriteriumtoetsen als geheel en de eksterne vanabelen kan
Worden weergegeven door multiple korrelaties. Deze korrelaties staan vermeld in tabel 6.

Opvallend is dat het praktijkoordeel met Pasen (POL) beter voorspeld wordt, dan het
praktijkoordeel op het moment dat de toetsjes afgenomen worden (PON). Mogelijk
bevatten de toetsjes een aantal onderdelen die pas later in de beoordeling van de
leesprestaties een rol gaan spelen.

Door middel van 'stepwise' regressie is nagegaan welke subset van kriteriumtoetsen de
leesvariabelen zo goed mogelijk voorspellen. Een kriteriumtoets wordt hierbij in de

Stepwise regressie op de leesvariabelen, met de kriteriumtoetsen als voorspeller_

regressievergelijking opgenomen als de partiële korrelatie met de leesvariabele - gegeven
de toetsjes die al in de vergelijking zijn opgenomen - signifikant is op .05 niveau. De
resultaten staan vermeld in tabel 7.

De toetsen die in de regressievergelijkingen zijn opgenomen, blijken over liet algemeen
ook de beste enkelvoudige voorspellers. Opvallend is liet positieve gewicht van LA2 in de
regressie van PON. Als aangenomen wordt dat CES en EMT equivalente toetsen zijn, is
liet ook opmerkelijk dat in de regressie van EMT een letteroefening ontbreekt. Mogelijk
zijn de letteroefeningen een indikator voor leesprestaties op korte termijn.
Voor het voorspellen van leesresultaten op langere termijn (eind schooljaar) bieden drie
typen oefening gezamenlijk een goede indikator: het lezen van wisselwoorden; het
schrijven van globaalwoorden en het kompleteren van onvolledige globaalwoorden (WVl ^
GB1,SV2).

De doelstellingen bij de eerste twee leesboekjes van Caesar's 'Zo/Veilig leren lezen' zijn
bepaald door middel van een 'content-behavior' klassifikatie. De daarmee bepaalde
doelstellingenverzameling blijkt niet uitputtend te zijn.

De toetsjes bij de doelen zijn gekonstrueerd door middel van itemvormen. Deze toetsjes

Een faktor analyse levert geen faktoren op die te interpreteren zijn in termen van de

onderscheidingen die gebruikt zijn om de doelen te genereren. Interpretatie van de

De vaardigheden die door de toetsjes gemeten worden vertonen een vrij goede samenhang

In het onderzoek van v.d. Laan (1973) komen enkele toetsen voor die overeenkomen met
een van de kriteriumtoetsen. Als specifieke voorwaarden noemt hij o.a. 'letterbenoeming
aktief en 'letterdiktee'. Deze toetsen komen overeen met LVl en LAl. Als leesprocessen
noemt liij o.a. 'woorden lezen' en 'woorddiktee', die overeenkomen met WVl en WAl-
De korrelaties tussen de lettertoetsen en 'woorden lezen', .65 en .72, liggen in dezelfde
orde als de korrelaties van LVl en LAl met WVl: .67 en .61. De korrelaties van de
lettertoetsen met woorddiktee die v.d. Laan vermeldt: .95 en .86, wijken echter niet
onaanzienlijk af van de korrelaties van LVl en LAl met WAl: .62 en .68.

Een verklarmg ligt niet zonder meer voor de hand. Mogelijk komt het omdat v.d. Laart
zijn skores heeft bepaald door over een aantal toetsmomenten te middelen.
Het gedragsdomein bij elke toets is bepaald door één itemvorm. In plaats van één, best
passende, hemvorm is het waarschijnlijk beter om te trachten verschillende itemvormen
bij één doelstelUng te formuleren. De toets kan dan gekonstrueerd worden door gestratifi-
ceerd random steekproeftrekken. Op deze wijze is het mogelijk om 'trait' en 'method'
enigszins van elkaar te scheiden.

Bij korrelaties tussen diskrete variabelen met een beperkte range is de absolute waarde van
de grenzen waarbinnen de korrelatie coëfficiënt kan variëren over het algemeen kleiner
dan 1. Het meest uitgesproken geldt dit voor de phi-coëfficiënt. Deze invloed op de range
van de korrelatie hangt echter sterk af van de verdeling: hij is sterker naarmate de
verdelingen meer van elkaar afwijken. Omdat de kriteriumtoetsen allen op dezelfde wijze
scheef verdeeld zijn, zijn de grenzen van de korrelatie-coëfficiënten weinig beïnvloed. De
versmalling van de range van de korrelatie zal wat groter zijn bij de korrelatie tussen de

'^'"iteriumtoetsen en de eksterne variabelen: de eksterne variabelen zijn over het algemeen
g-mmetrisch verdeeld.

e faktoranalyse is uitgevoerd op een korrelatiematrix. Dit veronderstelt dat oorsprong
en eenheid van de meetschaal arbitrair zijn. Omdat kriteriumtoetsen de pretentie hebben
soluut te meten is de oorsprong niet arbitrair. Het is wellicht beter om de faktoranalyse
°ver een proximity-matrix uit tc voeren waarin dit verdisconteerd is.

'^"'1974" Association, Standards for educational and psychological tests. Washington,

B.Th., m.m.v. J. Bakker, Schoolvorderingentests voor het lezen. 's-Hertogenbosch 1965.
^acsar, P.b. Handleiding, Zo!Veilig leren lezen. Tilburg, .
cenicrs, B. Evaluatie van onderwijsstijlen binnen het aanvankelijk lezen. Utrecht, 1974
■■onbach, L.J., Glescr, G.C., Nanda, H. & Rajaratnam, N. The dependability of behavioral measure-
ments. New York, 1972

R. & Nitko A.J. Measurement in learning and instruction. In: Thorndike: Educational
jj, Measurement. Washington, 1971.
iveley, W.A. A framework for the analysis of elementary reading behavior. American Educational
Research Journal, 1966,5,89-103.

J. ten, Praktijkboek voor de leesmethode 'ZojVeilig leren lezen'. Utrecht, 1972.
H. v.d. Leren lezen, schrijven en rekenen. Groningen, 1973.
^rHi H.G. Item sampling for achievement testing. Educational and Psychological Measurement,
.p. 1968,25, 95-104.

"^I^'tI^"' the objective test. In: Thorndike: Educational Measurement. Washington,

^^varts, M. Analyse van een set kriteriumtoetsen voor aanvankelijk lezen. Doctoraal scriptie, K.U.
Nijmegen. Nijmegen, 1974.

M. De betrouwbaarheid van enkele schooltoetsen. Projektpaper p. 66/146, DAL-projekt
(SVa0204), 1975.

(Een reaktic van een paar leestrage onderzoekers op: M.J.M. Voeten. De relatie van enkele
leestests met het praktijkoordeel voor lezen. Memoreeks Onderwijsresearch, jrg.1, nr.l>
juh '73,p.lO- 14).

Zegt Marie tegen Sophie: 'Moet je opletten. Els zou naar de kapper gaan, ze heeft vast
heel kort haar'.

Els komt, haar haar gekortwiekt. Sophie en Marie in koor: 'Jij bent naar de kappsf

De redenering van Marie was: zo dit dan dat, dus indien dat dan dit. Ze bevat twee
vooronderstellingen:

Ie. Als Els naar de kapper gaat wordt haar haar geknipt. Maar ze kan daar ook krullen
laten zetten, of zich een andere haarkleur verschaffen, om maar iets te noemen. Maar
Marie heeft Els wellicht nooit met krullen of blauw haar van de kapper zien komen-
Kwestie van empirie, niet van logica.
2e. Om haar haar kort te krijgen, moet Els naar de kapper. In feite was het haar op een
andere manier gelukt.

De redenering van Voeten bevat beide vooronderstellingen. En doordat Voeten causaliteit
aan wil tonen met gelijktijdige metingen, kan hij niet achterhalen welke vooronderstelling
nu juist of onjuist is. Marie was wijzer. Zij kon nagaan dat Els inderdaad thuis door haar
zus geknipt was. Zij kon het causale proces vaststellen. Voeten kan dat niet.
Voeten redeneert: technische leesvaardigheid (EMT) gaat vooraf aan of bepaalt begrijpen-
de leesvaardigheid (SO, SLT) en deze bepaalt het oordeel van de leerkracht (OL). Als dit
inderdaad een causale keten is (Els gaat naar de kapper en wordt geknipt), dan moet de
partiële correlatie tussen EMT en OL, na correctie voor SO en/of SLT nul zijn (kort haar)-
Dus indien die partiële correlatie nul is, dan is er sprake van een causale keten.
Stel dat Voeten inderdaad zijn nul had gevonden, was dan die causale keten aangetoond?
Nee, want om kort haar te krijgen hoef je niet per se naar de kapper.
EMT en SO/SLT zijn gelijktijdig afgenomen. De samenhang tussen beide kan, maar hoeft
geen causaal verband te zijn.

In plaats van Voeten's stelling (EMT SO/SLT OL) kan de partiële correlatie van nul
tussen EMT en OL ook zijn ontstaan in de volgende causale relaties:

^at begrijpende leesvaardigheid bepalend zou zijn voor de voortgang in technisch lezen is
Cl strijdig met de gangbare opvatting in het onderwijs, die stelt dat technische leesvaar-
'gheid voorwaarde is voor begrijpend lezen en daar 'dus' aan voorafgaat. Dat betekent
og niet dat onze veronderstelling absurd is. In onze onderzoekingen vinden we allerlei
iwijzingen dat reeds in de eerste en tweede klas de voortgang in technische leesvaardig-
'u voor een deel beïnvloed wordt door de vaardigheid in begrijpend lezen. Bovendien —
ewel voor het model hier niet zo ter zake doende — vinden we aanwijzingen, dat het
eesproces als zodanig afliankelijk is van veel meer dan louter lees-specifieke leeraktivitei-
In de 3e en 4e klas zou daar nog bij kunnen komen dat achterblijven in begrijpend

samengaat met weinig zelf lezen. Waarom zou je ook als je er toch weinig wijzer van
Wordt? Het tekort aan leesroutine zou er toe kunnen leiden dat in vergelijking met
andere leerlingen het technisch lezen in zekere zin weer wordt 'afgeleerd'. Zelfs is het
pen gekke veronderstelling dat een sterke nadruk op de vervolmaking van de technische
neskunst voor een aantal leerlingen of in bepaalde schoolklassen ten koste gaat van het
^grijpend lezen, omdat de kinderen een verkeerde instelling tegenover de tekst wordt
ijgebracht. Zo verhindert het overal nog héél gebruikelijke beurtensysteem bij klassikaal
dat de leerling zich uit interesse voor de inhoud van het lesje in het lezen gaat
^eriiezen. Hij kan elk moment een beurt krijgen en moet dus 'bij blijven'. De goede lezer
®rveelt dit al snel. De trage lezer leert voornamelijk dat lezen onder dergelijke omstandig-
leden een eigenaardige activiteit is, waarbij bijhouden van de klassikaal verslonden
®esregels belangrijker wordt gevonden dan bij zinnetjes blijven hangen, die niet begrepen
berden. Dit maakt dat een derde causaal model nog het meest plausibel zou zijn:

SO/SLT OL of begrijpend en technisch lezen beïnvloeden elkaar, de
■j- t leerkracht baseert zijn oordeel echter alleen op begrijpend lezen.

gaan er bij deze modellen van uit dat het rapportcijfer dat de leerkracht voor lezen
8®eft (OL) wordt bepaald door de leesprestatie. Causaliteit in één richting lijkt in dit geval
aannemelijk, omdat het rapportcijfer aan het eind van het schooljaar werd toegekend,
e^ijl de leesprestaties halfweg het schooljaar werden getoetst. Maar zelfs wat dit betreft
alt te twijfelen. Uit onderzoek (o.a. Pygmalion in the classroom) blijkt dat de prestaties
leerlingen worden beïnvloed door de verwachtingen die de leerkracht van de leerlin-
Sen heeft. Het is dus mogelijk dat het oordeel van de leerkracht aan het begin van het
ehooljaar voor een deel de prestaties in dat schooljaar bepaalt, zodat het oordeel aan het
eind van het schooljaar wordt bevestigd. Behalve SO/SLT ^ OL kan de relatie ook nog
^'Jn: SO/SLT

komen we in totaal tot 6 modellen, die alle kunnen leiden tot de eventueel gevonden
jjil-correlatie.

et enige dat zou zijn aangetoond is, dat technische leesvaardigheid geen van begrijpende
^esvaardigheid onafliankehjke invloed op het oordeel van de leerkracht uitoefent. Ofwel:
tls heeft inderdaad kort haar. Hoe ze er aan komt weten we niet, misschien wel van de
"ap gevallen of rattekruid geslikt.

Nu werd in feite de verwaciite nul niet gevonden. De Els van Voeten droeg een
permanentje. Betekent dit nu dat de veronderstelde causale keten niet bestaat? Zelfs dat
niet. De krullen van Els kunnen best verbergen dat er wel degelijk een stuk van haar haar
af is. Misschien draagt ze zelfs wel een pruikje.

De causaliteit kan verhuld worden door de invloed van een vierde factor. Het is bijvoor-
beeld mogelijk dat aangepast schoolgedrag (AS) bevorderlijk is voor de voortgang in
technisch lezen en tevens het oordeel van de leerkracht gunstig beïnvloedt, terwijl de
begrijpende leesvaardigheid daar nauwelijks van profiteert. Ook dit is geen onzinnige
veronderstelling, daar in onze onderzoekingen blijkt dat in de tweede klas het specifiek
technische leesonderwijs sterk gebonden is aan schoolse lessituaties waarin hoge eisen
worden gesteld aan de aangepastheid van de leerlingen, met name in de klassikale leesles
met leesbeurten. Bovendien wordt in deze lessituatie de leesprestatie publiek beoordeeld,
niet alleen door de leerkracht, maar ook door de leerlingen. Lessituaties die waarschijnlijk
vooral het begrijpende aspect van het lezen ten goede komen - stillezen, klassegesprek,
mondelinge en schriftelijke expressie bijv. - zijn juist minder 'schools', minder 'grijpbaar'
en minder makkelijk te beoordelen. Kortom, het model zou er zo uit kunnen zien:

In dit geval zou de partiële correlatie tussen EMT en OL nul kunnen zijn, als behalve voor
SO/SLT ook nog voor AS zou worden gecorrigeerd. De causale keten zou weer tot de
mogelijkheden behoren.

Wat heeft Voeten nu aangetoond? Niet dat de veronderstelde causale keten wel bestaat.
Ook niet dat die causale keten niet bestaat. Heeft de hele analyse dan geen zin gehad?
Ook dat niet. Want het heeft wel degelijk een belangrijk, zij het wat trieste uitkomst
opgeleverd. Namelijk, dat niet alleen in de eerste en tweede klas, maar ook in het derde en
vierde leerjaar de leerkracht in zijn oordeel over de leesprestaties van de leerlingen nog
steeds vooral afgaat op de geconstateerde technische leesprestaties. Het feit dat de
verworven vaardigheid in begrijpend lezen waarschijnlijk voor de leerkracht veel moeilij-
ker te beoordelen is, heeft, naar we moeten aannemen, niet alleen invloed op zijn
praktijkoordeel, maar oefent vermoedelijk invloed uit op zijn wijze van les geven, op de
accenten die hij in het onderwijs legt en op zijn, wellicht onuitgesproken, doelstellingen.

Uit de samenhangen van de rapportcijfers met de leesprestaties lijkt naar voren te komen
dat leerkrachten er vaak geen kijk op hebben hoe,goed hun leerlingen in werkelijkheid
lezen. Lezen met begrip wel te verstaan. En niemand in het onderwijs zal ontkennen dat
het daar bij het lezen uiteindelijk om hoort te gaan.

Dit duidt een reëel onderwijsprobleem aan met een veelheid van mogelijk ongunstige
gevolgen voor de onderwijssituatie.

Een minimale technische leesvaardigheid kan de grote meerderheid van de kinderen
bereiken in de eerste, eventueel tweede klas.

Met minimale technische leesvaardigheid bedoelen we een beheersing van de leestechniek
die voldoende is om niet belemmerd te worden in de voortgang op begrijpend lezen
gedurende de gehele verdere schoolloopbaan. Een voortgezette leergang in begrijpend

lezen is echter waarschijnhjk nodig voor de meeste leerlingen, terwijl alle leerHngen
zullen profiteren.

~ hoe kan effectief begrijpend leesonderwijs worden gegeven als de leerkracht over
onvoldoende middelen beschikt om de problemen die leerlingen op dit gebied hebben
te onderkennen?

hoe kan de leerkracht bij de leerlingen een gerichtheid op het lezen met begrip
bevorderen als die leerlingen zich in de eerste plaats beoordeeld weten op de vaardig-
heid in het verklanken van teksten?

hoe kan verliinderd worden dat veel leerlingen in deze situatie een hekel aan lezen
krijgen?

Overigens kan men de leerkrachten hun eenzijdige oriëntatie op het technische aspect van
{^et lezen moeilijk kwalijk nemen. Het is hier niet de plaats uitgebreid in te gaan op de
actoren die daar een rol in kunnen spelen. Twee zaken willen we echter aanstippen.
" de eerste plaats is het oordeel van de leerkracht, niet alleen op het rapport maar ook in
e schoolklaspraktijk van alledag, wellicht vooral gebaseerd op datgene dat het makke-
^kst waarneembaar is.

Wat dit betreft kan men aannemen dat de vaardigheid in het verklanken van teksten
v'eclmisch lezen, EMT) eenvoudiger controleerbaar is dan vaardigheid in het uitvoeren van
^chriftelijke opdrachten (SO), terwijl de vaardigheid in SO weer beter te controleren lijkt
de vaardigheid in stillezen (SLT). De resultaten van Voeten, komen met deze
verwachting overeen.

de tweede plaats hebben we de indruk dat ons, onderwijskundige onderzoekers, ook
"iet erg helder voor ogen staat wat er zoal te pas komt bij begrijpend lezen. In dit stukje
"ebben we SO en SLT beide onder de noemer 'begrijpend lezen' gebracht. Beide toetsen
ellen echter verschillende eisen. Bij SLT gaat het om een stuk tekst met vragen over die
ekst. Uit de beantwoording van de vragen moet blijken of het kind de tekst goed gelezen
eeft. Een schriftelijke opdrachten toets voor begrijpend lezen eist naar onze mening
eer. Niet alleen moet de opdracht goed gelezen worden, de tekst moet bovendien
°mgezet worden in een handeling gericht op een realiteit buiten de tekst. Hier wordt een
eroep gedaan op de functie die het lezen kan hebben in alle andere schoolvakken. Het is
°or ons dan ook onbegrijpelijk dat Voeten SO in zijn hypothetische causale keten plaatst
^oór SLT. Als er al sprake is van causaliteit, zouden we die in de omgekeerde richting
Eerwachten. Volgens Voeten's stelling zou de partiële correlatie tussen EMT en SLT, na
•correctie voor SO nul moeten zijn. In werkelijkheid blijkt deze voor de 3e klas .30 en
Voor de 4e klas .23 te zijn.
olgens onze verwachting zou de partiële correlatie tussen EMT en SO gecorrigeerd voor
LT nul kunnen zijn. In werkelijkheid blijkt ze voor de 3e klas .15 en voor de 4e klas .14
e zijn. Wel geringer, maar nog geen nul.

eest waarschijnlijke conclusie: naast veel gemeenschappelijks doen SO en SLT elk
zonderlijk beroep op verschillende aspecten van de begrijpende leesvaardigheid.

is niet onze bedoeling met dit stukje aan te tonen dat onderzoek als dat van Voeten
J^^tteloos zou zijn. Ook is het niet onze bedoeling de methode van analyse die Voeten
°epast als waardeloos te bestempelen. Integendeel heeft Voeten gelijk in zijn pleidooi
or het zoeken naar structurele modellen in de onderwijsresearch. Alleen zou de

onderzoeker zich daarbij moeten zien te bevrijden van de neiging om al te snel tot
modelconstructie over te gaan en ook een redelijk 'wantrouwen' moeten proberen te
handhaven tegenover de wijze waarop praktijk-oordelen tot stand komen.
Het is o.i. bij de iiuidige stand van kennis over zoiets complex als het leesproces en het
onderwijskundig kader waarin dat plaats vindt, voorbarig en zelfs misleidend een eenvou-
dig causaal model te willen toetsen als men niet zorgvuldig heeft doordacht:

— op welke vooronderstellingen dat model gebaseerd is, en waaraan die vooronderstellin*
gen ontleend zijn: aan onderzoeksresultaten? Aan onderwijs of leertheorie? Of aan
(voor)oordelen stammend uit de onderwijspraktijk? Waarbij de gebruikte onderzoeks-
instrumenten bovendien vaak een weerspiegeling van deze onderwijspraktijk vormen sn
de invoering in de dagelijkse praktijk een bekrachtiging van verkeerde onderwijsge-
woontes (of doelen) met zich mee kan brengen!

— welke andere modellen dezelfde uitkomst op kunnen leveren en in welke mate die
andere modellen volgens hun voorondersteUingen meer of minder plausibel zijn-
Hierbij is vooral van belang dat in de gaten wordt gehouden, dat ver doorgevoerde
reductie van de werkelijkheid ook de zeggingskracht van het model aantast. De vraag
daarbij is welk stukje werkelijkheid men denkt te 'verklaren' met het model: een
leeractiviteit onder optimale condities of een activiteit, die in een dagelijkse school-
praktijk plaats vindt?

— wat de consequenties van een bepaald model voor de praktijk van het onderwijs zijn en
of die gevolgen wel zo wenselijk zijn.

— welke bij benadering de eisen zijn, die een bepaalde toets aan de leerhngen stelt en wat
de aard is van de onderwijs- en beoordelingssituaties waarin de vereiste vaardigheden
verworven zijn.

Er is geen behoefte aan eenvoudige modellen waarvan men bij voorbaat kan vermoeden
dat ze toch niet kloppen. Behoefte hebben we aan inzicht in een veelomvattend onder-
wijsproces en de omstandigheden die daarbij een rol kunnen spelen, met speciale aandacht
voor die omstandigheden die beïnvloedbaar zijn door het onderwijs. In elk geval heeft het
artikel van Voeten ons tot denken gezet en vruchtbare aanknopingspunten geleverd. Wie
weet worden we er allemaal, maar vooral Els, Sophie, Marie en Janneman, wijzer van.

J^^PASSING VAN EEN OPERATIONAL RESEARCH BESLISSINGSMODEL BIJ DE
"ORBEREIDING VAN EEN ONDERWIJSLEERSITUATIE

Veel van de probleemsituaties die zich in het onderwijs voordoen kunnen gekenmerkt
Worden als complexe decisie gerichte probleemsituaties. Het is een taak voor de onder-
wijskunde instrumenten aan te reiken waarmee dergelijke probleemsituaties tot een
Oplossing gebracht kunnen worden. Stelt men de vraag wat als instrument zou kunnen
•enen, dan is het zeker niet onterecht naar een vakgebied te kijken dat voor het oplossen
®n complexe decisie gerichte probleemsituaties in de economie een instrumentarium
nreikt Met dit vakgebied wordt gedoeld op de operational research,
el dient men zich daarbij het volgende te realiseren. Uit een literatuuroverzicht van
®tgene wat veelal onder het begrip 'Educational-management-technieken' wordt gepres-
nteerd (en dat omvat naast operational research ook input - output analysis; PPBS';
^p^'benefit en cost-effectiveness analysis; management information systems; PERT en
^ W ; en simulatie) blijkt onder andere dat:

men nogal eens mathematische modellen bouwt op een aantal niet te vervullen
Voorwaarden, zoals:

het beschikbaar hebben van hanteerbare onderzoeksresultaten ,
net kunnen meten van het totale scala van onderwijsdoelen;

nien soms blijft steken in het geven van triviale voorbeelden of onrealistische, of dat
men slechts voorbeelden ontleent aan industriële of economische toepassingen;
^ men soms het probleem ongeoorloofd reduceert,
gen deze achtergrond moet dan ook de volgende toepassing van een operational
search model bekeken worden. Deze toepassing beoogt niet meer te zijn dan een
ustratie voor de bewering dat de in de operational research gehanteerde modellen en
ehnieken toch wel handvatten kunnen bieden om complexe decisie gerichte probleem-
' "aties in het onderwijs te formuleren en soms op te lossen.

De toepassing, waar het in dit artikel over gaat is tot stand gekomen naar aanleiding van
en Vraag die zich in een praktische situatie (voorbereiding van een biologieles voor een 6e
basis onderwijs) aan een leerkracht vooi

''fogram Evaluation and Review Technique en Critical Path Method,
de w®inig wordt tekening gehouden met de non-significantie van veel onderwijskundig onderzoek of
■Moeilijkheid om de sleutelvariabelen te identificeren.

De vraagstelling was als volgt: voor een deel van mijn biologielessen maak ik gebruik van
kaarten die een bepaald onderwerp (bijv. plant of dier) uit de biologie behandelen. De
leerlingen bestuderen de kaart en verwerken deze op verschillende wijzen. Nu doet zich
het probleem voor van het kiezen van de kaarten.

Daarbij wil ik niet door middel van een systeem van roulatie werken maar de keuze aan de
kinderen overlaten. Nu kan ik de kinderen in groepjes van vijf uit de kaartenbak laten
kiezen, maar dit levert een heel gezoek en onenigheid op, terwijl ik er ook om moet
denken dat de groep die het eerst mag kiezen steeds een andere is.
Is er een andere methode denkbaar?

De methode die hieronder uitgewerkt wordt, geeft inderdaad een heel andere opzet. De
werkwijze was als volgt: De leerlingen kozen uit de totale rij van mogelijkheden een vijftal
(of meer) onderwerpen. Dit leverde een serie briefjes op met in totaal 38 verschillende
keuzen. Op dc briefjes stonden de keuzen in willekeurige volgorde. Alle keuzen werden in
een matrix uitgezet met horizontaal de 38 keuzen en verticaal de kinderen (zie bijlage !)■
Met behulp van deze matrix moest nu aan elke leerling een kaart toegewezen worden
volgens een van de keuzen die hij of zij gedaan had.

Zo gesteld heeft het probleem de vomi aangenomen van een van de modellen die in de
operational research (O.R.) gebruikt worden om beslissingen te optimaliseren, nl. een
transportmodel.

Een dergelijk probleem kan in het algemeen slechts met behulp van een computer met een
behoorlijke geheugencapaciteit opgelost worden. In principe is een 'handoplossing' na-
tuurlijk ook mogelijk volgens de methode waarmee de computer geprogrammeerd is, maar
dit kost erg veel tijd.

Dat een leerkracht ook zelf een andere methode voor 'handoplossing' kan volgen wordt in
het volgende aangetoond mede om te laten zien welke frappante verschillen in uitkomsten
zich dan voor kunnen doen.

3. Voordat nu verder gegaan wordt met het aangeven van werkwijzes en oplossingen
wordt nader ingegaan op operational research en de daarbinnen onderscheiden hoofdcate-
gorieën van modellen.

Operational research (de Britse term voor wat in de Verenigde Staten meestal aangeduid
wordt met 'operations research' of 'management science') kan gedefinieerd worden als: 'a
scientific approach to problem-solving for executive management', of meer gespecifi-
ceerd:

- Constructing mathematical, economic and statistical descriptions or models of decision and control
problems to treat situations of complexity and incertainty.

- Analyzing the relationships that determine the probable future consequences of decision choices
and devising appropriate measures of effectiveness in order to evaluate the relative merit of
alternative actions'. (Wagner, p.4)

Wagner hanteert in zijn boek 'Principles of Management Science' de volgende basismodel-
len, die gebruikt worden om te komen tot optimale beslissingen in complexe situaties:

" bet kader van dit artikel worden nu verder alleen de basisschema's van de hneaire
odellen en de netwerk modellen aangegeven,
et lineair programmeringsmodel ziet er als volgt uit:

l^et standaardprobleem is hier het minimaliseren van transportkosten van een serie
'abrieken (m) naar een serie warenhuizen (n).

= hoeveelheid goederen van fabriek i, naar warenhuis j.
= kosten per eenheid goederen
= totale bescliikbare hoeveelheid bij fabriek i
= gevraagde hoeveelheid bij warenhuis j

Bijlage I geeft een overzicht van de keuzen die de kinderen (30) gemaakt hebben. Uit
totaal van ± 100 kaarten worden 38 onderwerpen één of meer malen gekozen. (De
onderwerpen waren bijv. forel, distel, algen, buizerd, hamster). Onderwerpen en kinderen
"aan in een willekeurige volgorde. Het getal dat bij elke keuze van een kind staat geeft de
'rangorde aan op het ingeleverde briefje.

4.2. In het voorgaande is al gesteld dat een 'handoplossing' van het probleem mogelijk is.
maar dat dit een erg tijdrovende procedure zou zijn indien de oplossing verkregen zo"
moeten worden via het normale algoritme voor het transport probleem. De 'handoplos-
sing' die in bijlage I door cirkeltjes aangegeven staat is dan ook met een andere methode
verkregen. Het gaat hier om een algoritme die betrekkelijk snel zelf door een leerkracht
gevolgd kan worden.
De gevolgde algoritme is:

1
2

6
7
b
9

10
1 1
12

20
21
22

het aantal malen dat een 9nderwcrp gekozen is als b,,,
be^^t minimum van alle an- Indien dit minimum door meerdere m's wordt
^ reikt neem dan m minimaal,
im, Wordt vastgelegd als de keuze van kind ni voor onderwerp nii.
paal vervolgens weer het minimum van de overblijvende an.
bijlage 1 is de oplossing aangegeven.

principe van dit algoritme berust op het zo min mogelijk beperken van het aantal nog
ogelijke keuzen bij elke stap die gedaan wordt. Het bezwaar van dit algoritme is, dat het
Öijlagc 2

1
2

8
9

10
1 1
12

20
21
22

9
7

4
6

17
9

5
2
4

10
2
2
2
1
2

4
3

6
2

5
1
2
1
1

12
5

4
10

18
1
3
1
2
9

niet noodzakelijl< tot een oplossing leidt in al die gevallen waarin wel een oplossing
mogelijk is en dat er geen rekening wordt gehouden met een voorkeur van het kind
binnen zijn keuzen.

4.3. Dat laatste gebeurt wel met het transport algoritme. Bij het doorrekenen daarvan is
uitgegaan van de veronderstelling dat de door de leerlingen opgegeven volgorde ook d®
volgorde van zijn of haar keuzen was.'*
De formulering van het probleem is dan als volgt:

Geef de mogelijke keuze van de j-de leerling voor het i-de onderwerp aan als xy.
Waardeer deze keuze met Cij waarbij
Cij = 1 wanneer xy de eerste keuze van een leerling is
Cji = 2 wanneer xjj de tweede keuze van een leerling is etc.
= 99 wanneer xy geen keuze is.

Een vergelijking van de handoplossing en de computer oplossing laat nu het volgende
beeld zien.

Het is overigens zo dat het niet uitgesloten is dat voor het bereikte minimum van de
computeroplossing (67) meerdere oplossingen mogelijk waren.

Brands, J.A. Educational Management. Amsterdam, Algemeen Pedagogisch Studiecentrum, 1974.
Wagner, H.M. Principles of Management Science. Englewood Cliffs N.J. Prentice Hall, 1970.

4. Dankzij de bereidwillige medewerking van de heer J.A.C. Anthonisse van het Mathematisch
Centrum te Amsterdam was computerverwerking mogelijk.

^•H.L. Oud, Sociaal Wetenschappelijk Onderzoek, Inleiding in de Methodenleer, Nijme-
gen, 1975, 154 blz.. Uitgeverij Berkhout.

is bedoeld voor degenen die in hun opleiding, hun werk of op andore wijze met empirisch
f,QQ/^®'®nschappelijk onderzoek in aanraking komen en voor wie daarom ook een zekere kennis
doelsr van de methoden, dio in ccn dergelijk onderzoek worden toegepast. Vanuit deze

grof Sccft de auteur een keuze uit do methoden en technieken van het sociaal onderzoek, die

jj^.^veg overeenkomt met hetgeen in deze jaren minimaal aan studenten in do pedagogische en
ond wetenschappen, sociologie, politikologie, kulturcle antropologie e.d. ploegt te worden

Het boek behandelt iets meer onderworpen dan do bekende inleiding van Swanborn:
S^iC h " Sociologiscit Onderzoek. Oud's introduktie is echter kompakter gosohrovon dan die van
*vord en zal daarom moeilijker door studenten in hot eerste of tweede kursusjaar begrepen
vra vermoeden, dat Oud hooft nagelaten advies van een didaktisch deskundige te

het . vermoed verder, dat hij zijn onderwijs niet door evaluatie-onderzoek heeft aangepast aan
'ccrh " ^'"-"l^n'en optimaal aanspreekt, voordat hij zijn kollege-syllabus heeft omgewerkt tot een
oek. Wat didaktische vormgeving aangaat zou hij veel kunnen leren van boeken zoals dat van R.
en R.L. Rosnow, Primer of Methods for the Behavioral Sciences, New York en Londen,

bc'n sociale wetenschappen zuinig zijn op het beetje belangstelling voor de empirische

treff .'"houd is het boekje vrij traditioneel. Het komt niet tot een originele systematiek, tot een
Aan ■ voorbeelden of tot interessante aanvullingen vanuit de ruimere rosearch-literatuur.

2ou " van de tekst met een behandeling van het laboratorium-experiment on het veldexperiment
zijn verdienen. Verder bevat het boek enkele krasse uitspraken, die alleen aanvaardbaar

tic ' ^'j uitvoerig en overtuigend worden beargumenteerd. Ik citeer als voorbeeld: 'De introduk-

Complexe eenheden heeft in de natuurwetenschap geleid tot allerlei logisch en mathematisch
•nfor vakken als systeem-theorie, cybernetica (wetenschap van zelfsturende systemen) en

Gezi '"^'''^"'heorie, waar de sociale wetenschap nog nauwelijks aan toe is' (blz. 49).

resultaten met de systeem-benadering in de laatste jaren kan deze diagnose van Oud
Ind'^'^ serieus genomen worden.

didaw"- struktuur van zijn boek nog eens grondig zou herzien, vervolgens met advies van

5.d t deskundigen de tekst door verdubbeling (toelichting per term, uitgewerkte voorbeelden
Voö ®Sankelijker zou maken en tenslotte de tekst in een ruimer kader zou plaatsen (meer aandacht
Wetenschapstheorie, methodologie en wetenschapsgeschiedenis), dan zou het boekje kunnen
beh ®en inleidend leerboek, dat bij vele studierichtingen in een behoefte zou voorzien. Die

stee . aanwezig, omdat in het Engels gestelde leerboeken in do eerste kursusjaren

De Corte, Erik, Inventariseren van 'actueel geldende leerdoelen: Ontwikkeling van een empiris^^^

methode. Universitaire Pers, Leuven, 1975.
Drenth, P.J.D., Inleiding in de testtheorie.

Deventer: Van Loghum Slaterus, 1975
Knip, Hans, Speyer, Diny & Van Woerden, Willem.

Veranderingsstrategieën en onderwijsvernieuwing. Delft: Delftse Universitaire Pers, 1975.
Marx, E.C.H. De organisatie van scholengemeenschappen in onderwijskundige optiek. Groninge"'
Tjeenk Willink, 1975.

Van Hauwermeiren, Paul. Het leesbaarheids-onderzoek. Groningen: Tjeenk Willink, 1975.

- Center for Study of Evaluation, University of California at Los Angeles, Los Angeles, California-
90024, U.S.A.

- Institute for Science Education (IPN), University of Kiel, D-2300 Kiel 1, Olshausenstrasse 40-60'
West Germany.

Editorial Board: Ralph Hanson, U.S.A.,
Hogwon Kim, Korea,
Ayatunde Yoloye, Nigeria,
Wynne Harlen, England,
Pinhas Tamir, Israel,
Eva Baker, U.S.A.

Studies in Educational Evaluation publishes original evaluation research and reports of evaluatio"!
studies. Three types of articles will be published by the journal: empirical evaluation studies, bfi'^'
abstracts of such studies and theoretical reflections on issues involved in the evaluation of education^'
programs.

Send following subscription order to editors either at the Kiel, Los Angeles or Tel Aviv Centers lists®
above.

lor members of the V.O.R. (Vereniging voor Onderwijsresearch) a 20% reduction has been agre®°
upon. Please indicate your membership of the V.O.R. and pay $ 4.00.

Please charge our institute $ 5.00 subscription rate for SEE
Enclosed $ 4.00 V.O.R. member's special rate for SEE
Name and address:

Step-down analysis as applied to a multivariate analysis of variance problem may be very useful
a post-hoc analysis and data reduction technique. Two approaches are described. One
approach is performed on the original variables themselves and the other approach is carried out
on transformed variables, derived from a principal component analysis. Simple solutions are
proposed to overcome the main disadvantages of each procedure, namely the non-uniqueness of
the solutions and the interpretation of the principal variables.

m order to illustrate the computational details of the procedure and proposed solutions a
numerical example is added.

Pr^Ki'^"^" analysis can be used as a post-hoc analysis in a multivariate analysis of variance
^^oblem (MANOVA). Several multivariate test statistics are available to test the muUiva-
nu hypothesis, that there is no association between an independent variable and a
of dependent variables. After the multivariate test has been found to be
and the null hypothesis has been rejected, it is often useful to determine the
te^t existing association seperately for each of the dependent variables. Univariate

^^erefore not statistically independent, and it is very difficult to control the probability
erroneously rejecting the null hypothesis. Using the univariate tests the variables are
ted as uncorrelated, and the information provided by the dependence of these
p^Jiables is not used.

reason step-down analysis has been recommended for behavioral research
^"^ODlems by authors like Bock and Haggard (1968), Finn (1969), Stevens (1972) and

descriptions of MANOVA can be found in texts of Timm (1975), Roy, et al.
'1), Bock (1975) and Kshirsagar (1972) among others.

® ^^ep-down procedure has some disadvantages. The purpose of this paper is to discuss
Tw the analysis and to delineate some ways to overcome these disadvantages.

Cjg® approaches will be described, the original one first described by Roy and Bargmann
^o) and the application of step-down analysis to principal components, which was
''roposed by Dempster (1963a, b).

' indebted to E.J. Bijnen, J.A.P. Hagenaars and Ph.C. Stouthard for critical reading of this text.

If the overall test of significance, for example the test based on Wilks' Lambda (of cours®
this criterion is not always the most sensitive one in certain situations), has indicated that
a significant association exists between the independent variable in question, and the P
dependent variables (p = number of dependent variables), the step-down analysis wi"
determine the contribution of the successive dependent variables to rejection of th®
multivariate null hypothesis, eliminating the contribution of all the previous dependent
variables. Roy and Bargmann (1958) first described this procedure and Roy (1958)
applied the analysis to the multivariate analysis of variance problem, and derived a test oi
significance.

The analysis decomposes the multivariate hypothesis into p independent univariate
hypotheses. The first null hypothesis describes the marginal distribution of the firs'
dependent variable or variate; the second null hypothesis describes the conditions'
univariate distribution of the second dependent variate, given the first dependent variate-
the i"^ null hypothesis describes the conditional univariate distribution of the i
dependent variate, given the first i-1 dependent variates, and so on. Finally, the last nuH
hypothesis describes the conditional univariate distribution of the p"^ dependent variate.
given the foregoing p-1 dependent variates. The test of the first null hypothesis is an exact
univariate test. The testing of the following p-1 conditional null hypotheses can actually
be seen as a testing of a univariate null hypothesis in an analysis of covariance, in whic^
the preceding variates are treated as concomitant variates. The step-down analysis
particularly useful in situations where the association between previous measurements
and some independent variable is known and one wants to find out whether some recent
measurements add anything to this association. The order in which the p variates af®
tested is important. There are p! different orders of variables, that means there are at
most p! different solutions. Therefore the procedure requires an a priori arrangement O'
the p dependent variables which has some kind of theoretical or empirical foundation'
This means that one should place those variates of which it is a priori most likely that
they will show deviations from the null hypothesis in the most sensitive positions, that is
one should analyse those variates first. However, if there is no prior interest in the p
dependent variables, i.e. if it is not possible to arrange the variables in a theoretically
meaningful way, the step-down procedure will not be of much use. Some sort of 'optimal
ordering of the dependent variates is then required.

To perform the analysis the matrices containing the sums of squares or variations and the
sums of crossproducts or covariations calculated in the multivariate analysis of variance
can be used. Because these matrices consist of variations and covariations they will be
called covariation matrices.
The following decomposition will be familiar:

Sb = between pxp covariation matrix with dfb degrees of freedom
Se = error pxp covariation matrix with dfg degrees of freedom.

Cholesky factors. The Cholesky or square root factorization is based upon the following

puff pxp matrix A be symmetric positive definite. Then A can be transformed as
follows:

^here T is a lower triangular matrix with positive main diagonal elements.
The elements of T can be obtained in the followmg order:

because at least one of the main diagonal elements ti(i.i,2,3.....i-i) 0=2,—.p)

One can describe the elements of T as follows.
squ on the main diagonal of T are related to semi-partial variations, because the

renf'^®'' (i.1,2.....i-i)(i = 2,...,p) represent the variation of the variables that

tgj. diagonal of the triangular matrix are related to semi-partial covariations. The
^emi-partial variations and covariations are chosen here to resemble the term
ele correlation. If a correlation matrix would be factored as described above, the

of the obtained triangular matrix would be equivalent to what is known as
tQj I'Pa'^ial correlations or part correlations. So the error covariation matrix Se and the
covariation matrix S, can be factored as

tria of the main diagonal elements tej^^ j 2 i.i)and ttj^j j j j of these
i^gular matrices the step-down criteria can be obtairie'd: .......

Dempster (1963a, theorem 3.1,11) showed that under the null hypothesis these criteria ar®
distributed independently. Each criterion Cj (brief notation) has a beta distribution with
parameters (dfe-i+l)/2 and dfb/2. It can be shown (see e.g., Roy, et al, 1971, p. 47) that
the statistics

have an F distribution with respectively dfb and dfg-i+l degrees of freedom, when th^
null hypothesis is true. These are the statistics Roy (1958) proposed. The independence
of the distributions of these Fj statistics can be formulated as follows.
The first Fj statistic has a marginal F distribution with dfb and dfg degrees of freedoifl-
The conditional distributions of the other F; statistics, holding constant the first i-'

variates, do not include the effect of the preceding i-1 variates (i = 2.....p), and therefor®

Hence the statistics Fj, F2, F3,...,Fi,...,Fp, are distributed independently (see Roy-
1958).

Since the Fj statistics are distributed independently under the null hypothesis, it is quit®
easy to control the probability of erroneously rejecting the null hypothesis. If each
variate has a preassigned level of significance ai then the probability that the Fj statistic^
(i =1.....p) will all satisfy the condition:

where f, is the upper 100ai% point of the F-distribution with dfb and dfg-i+l degrees of
freedom is given by:

And the'probability that at least one of these step-down Fi statistics will exceed th®
critical value f,, when the null hypothesis is in fact true, corresponds with the overall lev®'
of significance

In choosing appropriate values for a, ,a2.....oip, the overall level of significance can be set

This control of the overall level of significance makes the procedure rather conservative-
Loss of power for finding real differences will be inevitable. Except for the uniformly
unbiasedness of the step-down procedure (Roy, 1958), little is yet known of the intrinsic
and comparative power properties of the step-down procedure.

derived from the variables is not unique. When there is no
vari ^formation about the order of the variables, it seems reasonable to place the
bee ^^ smallest criterion C in the most sensitive positions of the analysis

next"^^ ^hey are most likely capable of showing deviations from the null hypothesis. The
dev' proposed in this paper to obtain an optimal set of variables wliich show

hvr^'T select the variable which is most likely to deviate from the univariate null
it j that means select the variable with the smallest univariate criterion C, and put

" first position. This can simply be done, by calculating C; = SeJ^a (i = 1 .-.p) for
J tbe p dependent variates and choosing the smallest criterion. The elements te,^^ and
'kk are the square roots of the diagonal elements Se^^ and s,^^ in Se and St of the k"^
^sriable, which is the variable that is selected first.

'he elements t^.^ and tjj,^ of the first column of Tg and T, Q = 2,...,p) can now be
mputed. These elements are the covariations of the first selected variable k and the p-1

Agonal elements tej.j and tjj.j which are the semi-partial variations with the
Variable partialled out,'must be calculated for each of the remaining p-1 variables.
^ ® variable which has the smallest criterion Ci.k = te^jj^) /tti(j.k) ^^at means with the
rem^^^ amount of variation left after the variation of the first selected variable k has been

var" w ^^'"'■P^rtial covariations of the second selected variable m with the p-2 remaining
in ' g'ven the first selected variable k, which are the elements tej. and tt,.^

fou ^^^ variable can be selected in the same way as the second variable was
the" ^ ^^^^ the main diagonal elements te^; ^ ^^ and tt^j ^ ^^ which are

fg^®"ri-partial variations with the linear effect of the first and second selected variables
Q. for each of the p-2 remaining variables. The variable whh the smallest criterion

^^^'^wing these steps, a permutation of the initial order of the dependent variables,
a m • ^ ° 'optimal' ordering, is obtained. There is no guarantee, however, that
sgj ""'rnum set of variables which show significant deviation from the null hypothesis is
^ets ^h® analysis should be carried out for all possible ordered

numK ^ variates. For a small number of dependent variables it was found that the
the variables showing a significant deviation from the null hypothesis, selected by

very often not be much larger than the minimum number.
J^jJ^'^inant analysis also yields an optimal solution by means of a canonical breakdown

of fi analysis aiso yieias an opiimai solution oy means oi a canonical oreaKuown

sjj J® between variation. In order to decide whether a particular dependent variable
anal ^^ added to a descriminant function the statistical test provided by step-down
may be very helpful. In this way the two analyses can reinforce one another,
■^ot optimal order solution, proposed here, may be preferred, because one does

The step-down procedure described above in fact makes use of transformed variable^'
wliich are obtained by a particular linear transformation of the original variables. Becaus®
the set of criteria Cj (1=1,2,...,p) is related to the set of linear transformed variable^'
Dempster (1963a, b) in order to obtain some sort of 'optimal' set of criteria proposed,
perform the analysis on principal variables, which are uncorrelated variables derived fro"^
a principal component analysis on the data. He hopes that no essential information abou
the variation of the original variables is lost and that the first principal variables are ^
some way more important to the null hypothesis in question than the other princip
variables. If this is the case, these principal variables should be placed in the most sensiti^®
position of the analysis. The well known principal component transformation is defin®
by

where X is the nxp score matrix and A is a pxp matrix containing the normalize''
eigenvectors of X'X, the covariation matrix. A'A = I.
The eigenstructure of X'X is

This transformation yields a new nxp matrix Y, containing the scores on the so called
principal variables. The covariation matrix of these principal variables is now:

where A is a diagonal matrix containing the eigenvalues corresponding to the eigenvectotj
in A of X'X. These eigenvalues can be described as the variations of the princip^
variables.

This covariation matrix Y'Y is used as input for the step-down analysis. The set of critet'^
from this step-down analysis on principal variables is one of all possible sets of indepe'^'
dent criteria that can be obtained from the data. And according to Dempster (1963^'
theorem 3.1) the same distribution theory is valid when the null hypothesis is true. But i
the null hypothesis is not true it will be very difficult to determine the exact distributio
theory.

The problem of choosing an a priori order of the original variates has disappeared no^'
but another problem has arisen. A disadvantage of Dempster's procedure is that th
interpretation of the step-down analysis based upon principal variables, is closely relate^
to the interpretation of the principal variables themselves, and this interpretation mig*^
raise some problems. .

An advantage of this approach is as Dempster (1963a, b) mentioned, that it is even usefu
when the error covariation matrix Se does not have fuU rank, that is when dfg <p-
criteria and the corresponding Fj statistics are then only defined for the first dfg origin®

^"ables (i=l,..,,dfe), and the remaining p-dfe variables cannot be examined at all in Roy
va approach. Dempster's approach, however, makes use of the p-dfg remaining

'^fter Solving the eigenstructure of the total covariation matrix Sj
^^^ S,A, = A,A„

^'^ere At is the matrix of normalized eigenvectors and At contains the corresponding
6®nvalues in the main diagonal, the total covariation matrix of the principal variables
' h scores in the columns of Y, which are obtained by

^■^'ch is of course equal to At, the diagonal matrix containing the eigenvalues of St,
^presenting the variations of the principal variables,
'he error covariation matrix of the principal variables is

'hese two covariation matrices are required for the step-down analysis. Ag must be
factored into triangular matrices, but At of course does not have to be factored because it

already a diagonal matrix,
'lie criteria related to the principal variables are defined by

tAg.. are the main diagonal elements of the lower triangular matrix Ta«, so that

^ "mentioned above the procedure carried out on principal variables is only usetul when
•^«se principal variables have some meaning in relation to the original variables. Since it is
purpose to determine the relative contribution of the dependent variables to the

rejection of the multivariate null hypothesis, it is not enough to stop, as Dempster
(1963b) did, after finding that a principal variable shovi's a significant contribution.
must relate this result to the original variables.

When it is hard to find a meaningful interpretation for the principal variables, it
suggested in this paper to scale the eigenvectors in A and to try to find scores oH
uncorrelated components or variables which are maximally related to the corresponding
original variables. The principal component transformation can now be defined ^
follows:

where Y and X were already defined. We shall assume however that the scores in X and ^
will be standardized, and that X is of full rank. B is a non-singular matrix with constant
elements.

X'Y/n = F can be seen as a correlation matrix between the scores on the original variables
and the scores on the transformed variables or principal component variables. Th®
elements fii on the main diagonal of F can be interpreted as the correlation coefficients
between the i"* variable and the i"^ component variable. F is often called a factor matri"
and it is not unique. It depends upon B. In order to get new variables which ar®
maximally related to the successive original variables, the sum of the diagonal elements fii
must be maximized, or:

under the constraint that the matrix Y contains standardized scores, so that
Y'Y/n = I or B'X'XB/n = I.

where A^A'B is an orthonormal matrix. The columns of A are of course normalize^
eigenvectors of X'X/n and A^ contains the square roots of the corresponding eigenvalues-
Johnson (1966) solved the problem of maximizing the trace of F by substituting X'X/n
AAA'into (15) and (16):

't can be seen that aU'BA is an orthonormal matrix, since it is the product of the

the largest possible values on its main diagonal, that means if it is equal to the identity
"latrix I.
So

^ similar result was obtained by Kaiser (1967) for the special case of two dependent
Variables.

the factor matrix has sufficient large correlations on its main diagonal then it can be
assumed that we can obtain scores on principal variables which resemble e origin

^^Perience has revealed that generally as the number of dependent vanablesmcreases, it
be harder to obtain sufficient large correlations on the main diagonal ot t-.

f^mmarizing, it can be concluded that when dealing with a research-problem for wWch
step-down analysis is appropriate, the first approaj is to be recommended m
^/"ations where there exists a priori knowledge about the relative
<^®Pendent variables in relation to the multivariate nuU hypothesis. But even if there is no
knowledge, an optimal ordering of the variables is quite ^f J!

Proposed method The analysis on principal variables will be very helpful to confirm the

conclusions drawn from the first approach. In some special situations, when the numbef
of dependent variables is not large, it is possible to draw conclusions from the univariate
analysis, after finding orthogonal variables, which are closely related to the origin^'
variables.

To illustrate the described procedures, the analysis is carried out on data reported W
Bock and Haggard (1968). Scores on tests of achievement in reading, arithmetic, spelling
and language skills were collected for 63 male pupils and 59 female pupils in thre®
successive year groups. The error covariation matrix Se was calculated to be

And the covariation matrix containing the variations and covariations between the two
sex groups, after eUmination of year-group effects, Sb, was

It was found that the sex effect was highly significant. WUks' lambda is 0.51121 and
Rao's statistic for the variance-ratio distribution is equal to 27.01 with 4 and 113 degrees
of freedom. For the sake of completeness Roy's largest root criterion and Hotelling's
trace criterion are reported to be 0.4886 and 0.9558.

Now it is interesting to determine which variable is responsible for this significant
difference between the sex groups.

In the firk place we will compute the step-down criteria for the order of the variates used
by Bock and Haggard (1968). The two lower triangular matrices obtained by factoriza"
tion of Se and St = Sb + Se are

2. A simple FORTRAN IV computer program has been written to perform the calculations outlined in
this paper. A copy of the source listing can be obtained from the author.

Jhe choice of this order of variates seems quite -bitrary for the ^
he most sensitive position, and reading does not seem to c^
found between sex group variation, in contrast with the other three var ame

therefore reasonable to search for an 'optimal' ordering, and an optimal order
^^riates can be found by following the steps described above,
"e Univariate criteria are

The fourth variable (language) has the smaUest criterion, and is therefore put in the first
Position. Then the covariatiL of this variable with the other three vanables can be

'^"li-partial variations of the first, second and third variable, with the effect of the fourth

C2.4 has the smallest value, so the second variable (arithmetic) is put in second position-
and the semipartial covariations of the second variable, with the first and the third
variable, given the effect of the fourth variable are now as follows:

The semi-partial variations of the first and third variable, with the effect of the second
and fourth variable held constant are

and the criteria for the first and third variable, given the second and fourth variable are-

Ci .4^2 has the smallest value and the first variable is put in the third position. Finally th®
last step-down criterion €3.4^2,1 is easily calculated to be 0.9901 after finding

tem^ ^""prising that arithmetric explains more of the between group variation after
of the effect of the variable language, than language itself. Some sort of

^^ "eluding it can be said, that language and arithmetic show significant deviation from
5 ® hypothesis of no sex group achievement difference, and that for reading and
Sd n"^ the null hypothesis can be accepted considering the chosen significant levels aj.
Pelling surely does not contribute much to the between variation, given the effect of the
"er three variables.

da transforming the original variables into principal variables, the scores are
■^ed, so that the total covariation matrix now consists of correlations:

^^ch are related to the total variations of the principal variables. The error covariation
^trix Ae from(12)isnow

The hope that the first principal variable with the largest amount of total variance
(65.3%), also has the largest between sex-group variation cannot be fulfilled. The second
and fourth principal variable seem to have the largest between group variation.
Turning to the matrix containing factor loadings F = AAI

it seems hard to find a meaningful interpretation for these principal variables.
Finally the factor matrix F = AA5A', defined in (22) is

Tliis matrix has the largest possible loadings on the main diagonal for this case. One has t"
decide now whether these loadings are sufficiently large to be able to conclude that th®
scores of the principal variables have the same between group variations as the scores o'
the original variables. Considering these main diagonal elements this conclusion seeiii^
acceptable. Looking at the univariate criteria and F-statistics now, it can be seen that th®
variable? arithmetic and language explain the most between sex group variation. Thi^
conclusion confirms the earlier found optimal order.

Bock, R.D. Contributions of multivariate experimental designs to educational research. In: R-®'

Cattell (ed.), Handbook of Multivariate Experimental Psychology. Chicago: Rand McNally,
Bock, R.D. Multivariate Statistical Methods in Behavioral Research. New York: McGraw-Hill, 1975.
Bock, R.D. and Haggard, E.A. The use of multivariate analysis of variance in behavioral research.
J.K. Whitla (ed.). Handbook of Measurement and Assessment in Behavioral Sciences. Reading'
Mass.: Addison-Wesley, 1968.
Dempster, A.P. Multivariate theory for general stepwise methods. Annals of Mathematical Statistic^'
\963a, 34, 873-883.

tion i? Uncorrelated linear composites maximally related to a complex of correlated observa-
Kshirsa ' '^"'^'"'onol and Psychological Measurement, 1967, 27, 3-6.

'^^Mvariate Analysis, New York: Marcel Dekker, Inc., 1972.
70 I'yg'i™'^ profile methods useful with singular covariance matrices. Psychological Bulletin, 1968,

II i" S'ep-down procedure in multivariate analysis. Annals of Mathematical Statistics, 1958, 29,
Roy s v|

An ; Bargmann, R.E. Tests of multiple independence and the associated confidence bounds.
Roy o^fj °f Mathematical Statistics, 1958, 29,491-503.

Mi^r'' '^"^"adesikan, R. and Srivastava, J.N. Analysis and Design of certain Quantitative
^'evens I Oxford: Perganion Press, 1971.

riat' D methods of analysing between variation for the K-group Manova problem. Multiva-

BpU • St®P-down analysis and simultaneous confidence intervals in Manova. Multivariate
Timm ^'^«earc/i, 1973, 8, 391-402.

Tliis investigation shows a possible application of simulation in a rather complicated system "
tests of six courses: partly conjunctive, partly compensatory, and with a second chance (tes'j
for every course. As suggested by former research about tests of these courses, it is assurn®"
that there is only one factor, capacity, underlying the test scores which are multivariate
normally distributed. Simulation was used to calculate how the proportions of successt"
students and their mean capacity are altered if third and fourth chances are introduced. High'''
minimum scores were calculated so that the two additional chances would not lower the m^al
capacity of the successful group. With a former group of 293 students the parameters of tf
model were found: means, standard deviations, reliability coefficients of the test scoreSi
correlations with a sum score ('capacity'), and other statistics. Drop-out and increasing't®'
wiseness' are also taken into account.

Om voor de propedeuse aan onze subfaculteit geslaagd te zijn moet de student zich o.a-
door een blok van zes tentamens gewerkt hebben: A, B en C bevatten resp. 45, 55 en 80
items over Hilgard & Atkinson (1967), T (testleer), G (geschiedenis der psychologie) en S
(statistiek) bestaan uit elk 30 items. S bestaat weer uit twee afzonderlijke tentamens (kort
antwoord en multiple choice) die geheel compensatorisch gecombineerd worden. Voof
elk van de zes 'vakken' wordt één herkansing georganiseerd. Men is geslaagd wanneer me^
op elk van deze vakken een minimumscore (m.s.) gehaald heeft van 55% (van het aanta'
items) en bovendien een totaalgemiddelde van 70% (welk percentage bij de vierkeuzetoet-
sen beschouwd werd als juist-voldoende). Voor wie aan een herkansing meedoet vervalt d®
score van de eerste (tentamen) gelegenheid. Voor wie na de herkansing nog niet geslaag''
is vervallen alle voorlopig gehaalde tentamens (dus met scores van minstens 55%).
Van studentenzijde en de 'prekandidaatsvakgroep' kwam het verzoek het aantal geleget^'
heden uit te breiden van twee tot vier per jaar, desnoods met een hogere m.s. bij de laatst®
twee (extra) gelegenheden. Door een commissie werd voorgesteld 63% bij de derde ef
70% bij de vierde gelegenheid. Gevraagd werd na te gaan wat de invloed van de twee extra
herkansingen zou zijn op het niveau van de grpep geslaagden en hoe hoog de m.s.
moeten zijn om niveaudaling te vermijden.

Niveaudaling kan echter betrekking hebben op kennis of vaardigheid (achievement) dai^
wel op capaciteit (aptitude). Het probleem kan dan ook op twee geheel verschillend®
manieren worden aangepakt. Met behulp van het 'tentamenmodel' kan vaardigheid^'
niveauhandhaving worden nagestreefd; berekeningen hiervoor zijn verricht met het logi^'
tische tentamenmodel (Van Naerssen, 1975) en met een andere versie (van Naerssefl'

Bewerking van een deel van het bij de literatuur genoemde rapport (Van Naerssen, 1975).

ten opzichte van het utiliteitscriterium. Daarbij werd bijvoorbeeld de superioriteit van
compensatorische selectie — tegenover de conjunctieve — voor de meeste in de praktijk
voorkomende gevallen aannemelijk gemaakt.

Bij meer dan twee tests en zeker bij een betrekkelijk ingewikkelde regehng als die van d®
propedeuse, zal men de gemiddelde capaciteit van de groep geslaagden niet meer kunneii
uitrekenen met alleen formules (Jarrett) of numerieke integratie. Dat zou zeer gecompljj
ceerd zijn, doordat de verdelingen door selectie en 'toeval' na de eerste gelegenheid
telkens veranderen. In het onderhavige onderzoek is daarom gebruik gemaakt van ne
alternatief dat vermoedelijk steeds meer ingang zal vinden naarmate computertijd goedkO'
per wordt: de Monte-Carlo methode, ofwel computersimulatie.

De drie, in werkelijkheid in meerdere cycli doorlopen, fasen van het onderzoek zijn-
model- en programma-ontwikkeling, empirisch onderzoek en toepassing.

Het programma genereert scores persoonsgewijs; dus achtereenvolgens worden voor d®
eerste persoon de zes scores van de eerste gelegenheid gegenereerd, daarna eventueel die
voor de tweede, derde en vierde gelegenheid; dan de scores voor de tweede persoon en zo
vervolgens. De personen zijn in 11 capaciteitscategorieën ingedeeld, en wel zo, dat de
gehele groep een capaciteitsverdeUng 1-3-7-12-17-20-17-12-7-3-1 heeft. De theorie be-
treffende de bivariaatnormale verdeUng leert dat de score van persoon i op toets j
geschreven kan worden als

en dus gegenereerd kan worden met de uit het empirisch onderzoek te vinden schattingen
van het gemiddelde xj, de standaardafwijking Sj en de correlatie met de capaciteit Tcj
de betreffende toets, en met een quasi-randomtrekking Ze uit een standaardnormale
verdeling; z^ is de capaciteit van de persoon in z-scores (een der elf waarden tot
Het programma simuleert dan als volgt de werkelijkheid: Eventuele negatieve scores
worden nul gemaakt, scores boven de toetslengte kj evenzo kj. Na elke score wordt
'gekeken' of de minimum-score gehaald is en of de persoon reeds geslaagd is voor de
propedeuse; als dit het geval is (voor alle zes vakken minstens het minimum en bovendien
totaal minstens 189 items-goed, d.i. 70% van 270) dan wordt de persoon geturfd bij de
geslaagden en afgevoerd. In het programma doet een persoon mee aan herkansingen
zolang hij nog niet de minimum-score gehaald heeft. Maar bij de laatste gelegenheid doet
hij altijd mee als liij nog niet geslaagd is voor de propedeuse (als het ware om de
totaalscore nog op te halen). Bij herkansingen vervalt de oude score op de toets.
Het programma berekent aantallen en gemiddelde capaciteit van deelnemers en geslaag-
den, per toets, per gelegenheid en totaal; het kan gedraaid worden voor twee of voor vief
gelegenheden. Het belangrijkste doel is natuurlijk de gemiddelde capaciteit van de groep
geslaagden bij twee gelegenheden te vergelijken met die bij vier gelegenheden. De laatste
ligt uiteraard lager, maar dit niveau kan weer op het uitgangspunt teruggebracht wof
den door de als input verwerkte minimum-scores te verhogen.

Er zijn echter nog twee verfijningen aangebracht om het model reaUstischer te maken-
namelijk door het incorporeren van de verschijnselen 'testwisenessj en 'weglopen'.
Wat het eerste betreft wordt aangenomen dat de ware score de tweede en volgende keren
dat een toets wordt afgelegd door wat maar genoemd wordt 'testwiseness' een constante

dan de eerste keer. Deze constante wordt empirisch bepaald als de gemiddelde
^ordt d bij de herkansing min die gehaald bij de eerste gelegenheid; maar hiervan

versch'- weer afgetrokken de scorestijging die verwacht kan worden door het regressie-
gg yisel. Als r de correlatie is tussen eerste gelegenheid en denkbeeldige herkansing
gele^^ ^ ^oor de totale groep - welke r geschat kan worden door de KR21 van de eerste
sube^" - Ml de gemiddelde score is bij de eerste gelegenheid en M', die van de
Verw tf (herkansers) dan is M'i - M, hun gemiddelde afwijkingscore. Men kan

doo 'iat deze door het regressieverschijnsel stijgt tot (M'i - Mi )r, zodat de stijging

Ijg^j ^"singen. Aangenomen wordt dat er voor iedere student een kans op weglopen
aat, die een lineaire functie is van de totale relatieve score (totaal aantal op het
ite weglopen juist beantwoorde items, gedeeld door het totaal aantal gemaakte

een t ^ regressievergelijking kan weer empirisch bepaald worden. Oorspronkelijk werd
We 1 weglopen geprogrammeerd na elke toets. Maar later bleken de aantallen

tgjj na elke afzonderlijke toets te klein te zijn om nauwkeurige regressiecoëfficiën-
de t ^ opleveren, zodat het model vereenvoudigd werd door slechts weglopen na

^ ° eerste gelegenheid te veronderstellen. Op die plek in het programma wordt dus
ünif^^^" of de regressiefunctie ax + b groter is dan een quasi-random trekking uit een
Van verdeling tussen O en 1; zo ja, dan verdwijnt als het ware de persoon, na turven
Ten^'l" '^^P^'^iteit, uit het programma.

^^ Unnen nagaan van de gevolgen van homogene toetsverlenging. Dat is mogelijk omdat

de ■ , ' 'ingaan van ae gevolgen van nomogene xoetsveriengmg. uai is mugeiijK. oiuudi
Cao"'- ^ hiervan op gemiddelden, standaardafwijkingen en vahditeiten (hier t.o.v. de
lijk uit de klassieke testleer bekend is. De toetsverlengingsinvloed werd aanvanke-

dal' ^^'"^^ci^d in de hoop dat deze, door de veroorzaakte validiteitsverhoging de niveau-
Prnhf herkansingen gedeeltelijk zou kunnen compenseren, net als bij het

Wn ^^ testverlenging niet aantoonbaar, zodat niet verder op deze mogelijkheid zal
"™en ingegaan.

verricht bij de 293 studenten die in 1974 aan minstens één van de tentamens
gen 'ieelgenomen. Berekend werden onder andere gemiddelden en standaardafwijkin-
l^g , cn intercorrelaties tussen gewone X-scores, behaald bij eerste gelegenheid en
deel bovendien zogenaamde Y-scores. De Y-score is 'indien aan de herkansing is

styj^^'^onien de herkansingscore en anders die bij de eerste gelegenheid'. Voor de
gaat het juist om de Y-scores: die moeten boven het minimum liggen en hun
X-s niinstens 189 zijn. Bovendien zijn Y-scores bij grotere groepen bekend dan de
zodat hun correlaties betrouwbaarder zijn. Daarom werden Y-scores gebruikt
Vjj^ H schattingen r^j (zie formule 1). Als capaciteitsvariabele werd aangenomen de som
onde ^^^ Y-scores. De correlaties staan in tabel 2. Men ziet dat, evenals bij het oudere
een fabel 1, een sterke algemene factor naar voren komt, hoewel men hier ook

De ^^^.'^'^ere tweede wiskundefactor ontwaart, die testleer en statistiek verbindt.

Semiddelden en standaardafwijkingen van (1) zijn die van de eerste tentamengelegen-

onde^ deze benadering was het echter, in tegenstelling tot het hieronder vermelde
nog niet mogelijk rekening te houden met ingewikkelde tentamenregehngen
y van onze subfaculteit; elke toets werd er afzonderlijk beschouwd, niet als deel

^ngenomen wordt dat er een algemene factor is die hoofdzakelijk de hoogte van de
y^j^*^® tentamenscore bepaalt. Men kan desgewenst denken aan een vaste combinatie
^ .^^■^geboren en aangeleerde samenstellende factoren, zoals diverse cognitieve en
'vationele factoren, maar dit is voor ons doel irrelevant. Waar het om gaat is dat al

UcZe faptr.,.»« -1- '' 1 , , _ I_______j 1_______ _____J_____1.___J. 1-1..1. u::___

Meth.	Stat.	Funet.	Pers.	Gedr.	Toegep.
_	.599	.560	.666	.573	.536
.599	-	.495	.554	.397	.434
.560	.495	_	.604	.448	.540
.666	.554	.604	—	.486	.599
.573	.394	.448	.486	—	.467
.536	.434	.540	.599	.467	-

ziet rtabell) dat de correlaties nauwelijks meer dan ^^
ferdaad verklaart de eerste ongeroteerde factor 92% van de vanantie (de tweede tactor
de derde 3,4%)*

gjQ^^" de groep geslaagden en veronderstellen dat de capaciteit van de oorspronkelijke

P eerstejaars standaardnormaal verdeeld is.
Van probleem slechts één toets of totale score betrokken is kan, bij aanname

^an H^*^ l'l^ariaatnormale verdeling tussen testscore en capaciteit, de gemiddelde capaciteit
ëem-H geslaagden berekend worden met de formule van Jarrett (1948), en wel uh

cq , .Iden en standaardafwijkingen van capaciteit en testscore bij de totale groep, de
Cro tussen beide variabelen en de selectieverhouding. Voor twee tests hebben
ütil't • en Gleser (1965) berekeningen verricht voor het vinden van de gemiddelde
bgfj (= hier capaciteit). Ook Lord (o.a. 1963) heeft interessante uitkomsten gevonden

®tfende twee variabelen met gegeven intercorrelatie, betrouwbaarheid en 'vahditeit'
-----

heid. Deze gemiddelden zijn, mèt die van de herkansingen, en met de schattingen van de
correlaties tussen beide (KR21, zie par. 3) voorts nodig voor de testwiseness-schattingen'

Ten slotte de weglopers. Die groep werd gedefinieerd als de subgroep die na de eerst®
gelegenheid nog niet geslaagd was maar toch niet deelnam aan de herkansing. Deze bleek
uit 70 studenten te bestaan, en de regressieanalyse leerde dat de wegloopkans gelijk was
aan -l,669x + 1,394, waarin x de relatieve score is op de beantwoorde items (270 oi
minder) van de eerste gelegenheid.

Met het model werden de verwachte gevolgen (wat betreft percentage geslaagden en hun
gemiddelde capaciteit) berekend van drie voorstellen. Het eerste reeds vermeld in par. 1'
accepteert minimumscores van resp. 55, 55, 63 en 70% bij de vier gelegenheden. Het
tweede voorstel bevat, overeenkomstig de assumptie van de testwiseness, gelijke aftest-
grenzen voor de drie herkansingen, en wel 70% (met weer 55% voor de eerste gelegen-
heid). Het derde voorstel is de huidige regeling: twee gelegenheden met elk 55%. Bij alle
drie de voorstellen werd dezelfde eis gesteld van een totaal van 189 punten (70%). Voof
elk voorstel werd met een studentenaantal van 500 gesimuleerd, waarbij verondersteld
werd dat met dit relatief grote aantal weinig variatie zou optreden bij herhaling. Van de
resultaten vermelden we kortheidshalve slechts tabel 3. Deze bevat, chronologisch gerang-
schikt, de percentages geslaagden en een kolom weglopers van het eerste voorstel, plus de
uiteindelijke percentages geslaagden van de beide andere voorstellen.
Men ziet bijvoorbeeld, dat de gemiddelde capaciteit van de geslaagden afneemt met het
gelegenheidsnummer, zodat invoering van de twee extra herkansingen zonder verandering
van de aftestgrenzen van de eerste en/of tweede gelegenheid wel tot een daling van de
gemiddelde capaciteit moet leiden. Dit blijkt ook bij de berekening van de gemiddelde
capaciteit van de groep geslaagden bij de drie voorstellen; in z-scores: +0,51 bij de huidig®
regehng tegenover +0,42 bij het eerste voorstel (55-55-63-70). Door bij alle drie d®
herkansingen 70% te eisen is dit gemiddelde terug op 0,49, dus praktisch op het oude peü-
We merken nog op, dat geen rekening werd gehouden met het terugkeren van een deel def
gezakten in het volgende studiejaar. De werkelijke capaciteitsstijgingen door selectie zijn
dus kleiner dan de vermelde waarden. Voor verdere details moet. verwezen worden naaf
het rapport.

En ten slotte: het gebmikte model is zeker niet het enig-mogelijke. Er zijn ook reeds

^^■■ekeningen verricht met enkele varianten. De intercorrelaties tussen de tentamens bij
and jaargang studenten bleken hetzelfde beeld op te roepen. Ook werd een

jjjg 'strategie' beproefd, namelijk steeds meedoen aan een tentamen indien men nog
„Q het geheel geslaagd is, tenzij men óf reeds 70% van de items van dat tentamen
8eh , 'T'®" minstens de minimumscore gehaald heeft en bovendien voor het

geb^^f 70%. Deze, misschien nog reahstischer strategie dan de bij het onderzoek
den'^n^^' tot practisch dezelfde gemiddelde capaciteiten en percentages geslaag-

• Ook binomiale verdelingen van de scores, gegeven de ware scores, brachten weinig

sco f 'fit' van het model werd niet verder gegaan dan het laten afdrukken van de

jjj^'^^^kwentietabellen, die er op het oog goed uitzagen; maar uiteraard kan hier nog veel
iaa 1-- gevijld worden. Ook zou een aantal herhahngen - met het werkelijke

(j. "'jl^se aantal personen - nuttig zijn om een schatting te kunnen maken van de be-
^Oüwbaarheid van de uitkomsten.

lin ^ ^^^ echter slechts de bedoeling te illustreren hoe bij ingewikkelde tentamenrege-
gevT Monte-Carlo-methode uitkomst kan brengen voor het voorspellen van de
°lgen van geplande wijzigingen .

'onbach, L.J. & G.C. Gleser. Psychological Tests and Personnel Decisions. Univ. of III. Press, Urbana,
'tilêar

E.R. & R.c. Atkinson. Introduction to Psychology, 4th ed. Harcourt, Brace & World, New
1967.

' R.F. Percent increase in output of selected personnel as an index of test efficiency. Journal of
Psychology, 1948, i2, 135-145.
' P-M. Cutting scores and Errors of Measurement - a second case. Educational and Psychological
Vin^einent, 1963, 23, 63-68.

^ f^erssen, R.F. Rapport aan de Examencommissie candidaats-I betreffende de invloed van
''kansingen op het niveau van de voor de propedeuse geslaagde studenten. Subfac. Psychol. Univ.
Van ■^'"Sterdam,

1 Q R.F. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijsresearch,

We analysed the relation between task setting and optimalization behavior of teachers and
characteristics of pupils (sex, intelligence and reading attitude) on the one hand and reading
achievement, as measured by criterion referenced tests on the other hand. Step-wise regression
analysis with forward inclusion and with the possibility of removmg already entered variables
(at each step) was used.

The results indicate significant but unimportant relations between task setting and optimalize'
tion behaviors on the one and reading achievement on the other side. The performance on tW
preceding criterion test, i.c. the grasp of the preceding learning tasks, appeared to be muc"
more important for explaining reading achievement.

In het 'Project Aanvankelijk Leesonderwijs' (PALO), waarvan verslag is gedaan doof
Creemers (1974), zijn gegevens verzameld die betrekking hebben op het taakstellend ^^
optimahserend gedrag van leerkrachten bij het verzorgen van het aanvankelijk leesondef'
wijs met behulp van de methode 'Zo/Veilig leren lezen' (Caesar, 1954). Eveneens zij"
gegevens verzameld over leerlingkenmerken. De gegevens over het leerkrachtgedrag zij''
o.a. gebruikt voor het in clusters plaatsen van leerkrachten op grond van eenzelfd®
frequentie van taakstellende gedragingen. De aldus verkregen clusters zijn tesamen met d®
leerlingkenmerken gerelateerd aan de prestaties die een grote groep leerUngen heet'
geleverd op een aantal criterium- (methode gebonden) en niet-methode gebonden toetsen-
Tevens is nagegaan of er verband bestaat tussen de frequentie van taakstellende gedragi"'
gen, tot uiting komend in het hdmaatschap van een bepaald cluster en het optimaliseren"
gedrag van leerkrachten.

In het kader van het project 'Onderwijs en Soöiaal Milieu' (O.S.M.) wordt momenteel
gewerkt aan het schrijven van een handleiding bij de methode 'Zo/Veilig leren lezen >
zodanig dat kinderen uit kansarme milieus meer dan voorheen profijt van het leesondef'
wijs met behulp van deze methode zullen trekken. Bij het schrijven van die handleiding
wordt een strategie gevolgd die voorschrijft de onderwijsactiviteiten, i.e. het taakstellend
gedrag, zo mogelijk te kiezen op grond van hun positieve bijdrage aan de leerprestaties dje
zij moeten bewerksteUigen. Tegen deze achtergrond gezien, hgt het voor de hand gebruik
te maken van de gegevens over het taakstellend gedrag zoals die in het kader van he'
PALO zijn verzameld. In het PALO-onderzoek zijn de taakstellende gedragingen echtef

aan de prestaties op de niet - methode gebonden - en criteriumtoetsen
af2Q ƒ ^' in clustervorm. Het verkrijgen van duidelijkheid over het belang van de
riji^g ^ Vtaakstellingen en het verkrijgen van zo mogelijk een beperkt aantal belang-
Waarv ^^ vormen het doel van de secundaire analyse van de PALO-gegevens,

32 ta 'll® uit het PALO-onderzoek ter beschikking staan, hebben betrekking op
bove ^.^'^e'lingen (i.c. leesmethodegebonden leerkrachtgedrag); een aantal daarvan is
opg " "og in subtaakstellingen verdeeld. Een omschrijving van deze taakstellingen is
hcto^'^ in Creemers (1974;

234 e.v.). Daarnaast zijn uit dat onderzoek een drietal
eejj met betrekking tot het optimaliserende leerkrachtgedrag bekend, evenals

Score ^^^^'■^Sscore van elke leerkracht. Van de leerlingen kunnen wij beschikken over de
Pote ^ drietal kenmerken: intelligentie, milieu en sekse. Een omvangrijk geheel van

Score verklarende variabelen dus. Als te verklaren variabelen staan ter beschikking de
(twee^ de vijf crheriumtoetsen aansluitend bij de boekjes 1 t/m 5 van de leesmethode
ba3-\ de toetsen leveren twee scores op; totaal zijn dus zeven criteriumscores beschik-
gejjj/ de scores op een vijftal niet-methode gebonden toetsen (waarvan er twee
Las ' afgenomen en later nog eens vijf gelijktijdig). Tenslotte zijn er een drietal

njeljf'^^^es (Leesattitudeschaal) bekend; deze drie zijn op verschillende tijdstippen verza-
variab , van het tijdstip van afname is de LAS als verklarende of als te verklaren

sen u ^ beschouwen, hetgeen ook steeds met één of meer voorafgaande criteriumtoet-
Gezje^ Seval is t.o.v. daarop volgende toetsen.
beia„" doel

van deze secundaire analyse zijn wij in het bijzonder geïnteresseerd in het
criter afzonderlijke taakstellingen voor de verklaring van de prestaties op de

Zej,. '^nitoetsen. Om dat te kunnen bepalen lijkt een vorm van regressie-analyse aangewe-
Ver^u .^^'''nce kan het belang van elke afzonderlijke verklarende variabele voor de
Verba prestaties op de criteriumtoetsen worden vastgesteld. (In een ander

toets ^"llcn wij terugkomen op de verklaring van de prestaties op de meer algemene
regfgj^' gezien de gelijktijdige afname daarvan multivariaat van aard is.) Het werken met
'bontinmogelijk ongeacht de vraag of wij met een gecategoriseerde of met een
■■egres ^^^'^a'^cnde variabele te maken hebben, mits aangetoond kan worden dat de
nauw voor de verschillende waarden van de gecategoriseerde variabele niet of

koi^p . v^n elkaar verschillen. (M.a.w. indien er géén interactie optreedt; hierop
afbanu terug.) Met behulp van regressie-analyse kan tevens duidelijk worden,

een d richting van de regressiecoëffïciënt, of de bijdrage van een variabele als

een beschouwing van de regressiecoëfficiënten als causale coëfficiënten,
geacht ^^'^l'^^^lng üjkt ons plausibel. Leerkrachtgedrag en leerhngkenmerken worden
causjj. gaan aan het leveren van toetsprestaties (wij zien af van circulaire

terwijl het opnemen van zoveel mogelijk variabelen uit beide genoemde
de anT" garandeert dat de belangrijkste potentieel verklarende variabelen bij

P^Lq betrokken worden. In onze secundaire analyse zullen daarom alle door het
destiid ^®^^"teerde variabelen in aanmerking worden genomen. Deze variabelen zijn
shot p ^ op theoretische en/of empirische gronden; dus niet op grond van the 'the

De ter beschikking staande gegevens uit liet PALO-onderzoek overziend en onze conclusi®
om met regressie-analyse te werken daarbij betrekkend, lijkt het ons verstandig om e®"
aantal univariate analyses uit te voeren. Voor elke criteriumtoets één (deze toetsen zijn if
de tijd op verschillende momenten afgenomen). Bij elke aan de orde zijnde criteriumtoets
kunnen de daaraan voorafgaande toets(en) bovendien als verklarende variabele(n) worden
meegenomen.

Andere teclmieken die eventueel in aanmerking komen zijn weUicht een canonische ot
een commonaliteitsanalyse.

Gezien de te verwachten intercorrelaties tussen de verklarende variabelen zullen wij in d®
volgende paragraaf voorstellen met een bepaalde vorm van stapsgewijze regressie-analys®
te werken, waardoor overwegend onderling niet sterk correlerende variabelen in d®
regressievergelijking opgenomen worden.

Deze analysetechniek doet niet geheel recht aan het belang van de afzonderlijke verklaren-
de variabelen: voor zover enkele daarvan gezamenlijk een gedeelte van de varianti®
verklaren zal d.m.v. deze analyseprocedure alleen die variabele gekozen worden die d®
hoogste partiële correlatie met de te verklaren variabele heeft; hun gezamenlijke bijdrag®
blijft buiten beschouwing. Bij een commonaliteitsanalyse is dat niet het geval: daarni
wordt de gezamenlijke bijdrage aan de variantie, i.c. de commonaliteit, in aanmerking
genomen. Hoe hoger echter de intercorrelaties van de verklarende variabelen des te grot®r
zullen de commonaliteiten zijn en des te sneller zullen wij ons doel voorbijstreven: on^
een beperkt aantal voor het leren lezen belangrijke variabelen op te sporen.
Een canonische analyse kan ingegeven worden door te verwachten hoge intercorrelaties
tussen de criteriumtoetsen onderling. Zo'n analyse is echter om onderwijskundige reden®"
niet bruikbaar. De taakstellingen verscliillen per boekje van de leesmethode en dus p®"^
criteriumtoets. De taakstelling 'ontbinden van globaal aangeleerde woorden' heeft b-^-
alleen betrekking op de boekjes 1 en 2. Het relateren van de taakstellingen aan de h®'®
groep van criteriumtoetsen (zoals noodzakelijk is bij een canonische analyse) zal to'
interpretatieproblemen leiden. In de door ons voorgestelde analyse worden deze niet t®r
zake doende taakstellingen niet in aanmerking genomen, daaraan moet dus de voorkeuf
gegeven worden.

Teneinde duidehjkheid over het belang van de afzonderlijke taakstellingen te verkrijgen e"
om zo mogelijk een beperkt aantal belangrijke taakstellingen te selecteren die bij d®
constructie van de herziene handleiding voor het leesonderwijs gebruikt kunnen word®"'
lijkt ons een aantal univariate regressie-analyses de aangewezen weg. Teneinde bij t®
dragen aan de oplossing van het probleem van de intercorrelaties tussen de verklarend®
variabelen zullen deze analyses stapsgewijs gedaan moeten worden.

In deze paragraaf bespreken wij een aantal veronderstellingen en problemen die zich m®*
betrekking tot univariate, stapsgewijze regressie-analyse voordoen. Ter sprake komen:

- wijze van steekproeftrekking: staat de in het PALO gehanteerde steekproef conclusi®s
toe m.b.t. de populatie waarvoor O.S.M. werkt? ;

a. leiden de eventuele intercorrelaties tussen de verklarende variabelen met hu"
nadelige invloed op de steekproefvariantie van de te schatten regressiegewichten
daarmee ook op de traagheid waarmee de nulhypothese dat een combinatie va"

coëfficiënten een invloed van nul heeft niet tot onjuiste conclusies? (M.a.w. het
probleem van de multicollineariteit en de invloed daarvan op het onderscheidings-
^ vermogen van de statistische toets.);
• in hoeverre is aan de veronderstellingen die ten grondslag liggen aan de toetsproce-
dure voldaan? (Lineariteit van het model, homoscedasticiteit, normaliteit, even-
t^ueel meetniveau; zonodig moeten deze assumpties bekeken worden in relatie met
Ind' • '""l^i<^°lli"eariteitsprobleem.)

ren niet aan deze veronderstellingen voldaan is, in hoeverre is de te hanteren toetsings-
^ ocedure dan toch nog bruikbaar?

steekproef uit het PALO-onderzoek bestaat uit groepsgewijs aselect getrokken leerlin-
jjj" uit de Utrechtse populatie van overwegend leerlingen uit de sociale middengroepen
3'® oiiderwijs met de methode 'Zo/Veilig leren lezen' ontvangen. De groepen bestaan uit
vo ^^''^'l'Se klassen l.o. De te hanteren toetsingsprocedures veronderstellen een enkel-
"uige, aselecte steekproef. Daarvan is dus geen sprake. (Een alternatieve interpretatie
ge" toetsingsprocedure, de toetsing tegen z.g. toevallige invloeden waarbij zich géén
6 neraliseringsmogelijkheid voordoet (cf. Edington, 1966), is in dit geval niet interessant:
^'^^^lUen generaliseren naar een populatie waaronder ook de O.S.M.-populatie te subsu-

f^^^'^^'i^eringsprobleem doet zich ook voor in situaties waarin wèl sprake is van een
jg.. Ivoudige aselecte steekproef: daar waar gegeneraliseerd moet worden van de popu-
waaruit de steekproef afkomstig is, naar de bedoelde populatie. Dat moet op
j^noudelijke gronden gebeuren (cf. Cornfield & Tukey, 1956).

probleem waarmee wij geconfronteerd worden is omvattender: in hoeverre is de
j^J^epsgewijze getrokken steekproef generaliseerbaar naar de Utrechtse populatie en in
Po^^T"^^ is die weer generaliseerbaar naar de O.S.M.-doelpopulatie, althans, naar een

waaronder die te subsumeren is?
ggj^ j o^wen wij het eerste probleem dan zien wij dat een groep gedefinieerd wordt door
lee 1. ^'^'^a'^bt. Diens gedrag kan in statistische zin verstorend werken ten aanzien van de
gg, "êprestaties. Daar het leerkrachtgedrag via de taakstellende en optimaliserende
/^S^variabelen in de regressievergelijking wordt opgenomen, bestaat op die verstorende
g , °®den controle; het Hjkt ons daarom geen groot bezwaar om de steekproef als
«ivoudig aselect te beschouwen. De generalisering zal dan op de gebruikelijke wijze
^nnen plaatsvinden.

"^oij zich m.n. de vraag voordoet of er geen interactie bestaat tussen het sociale milieu
^ artoe de leerlingen behoren en de continue variabelen die in de regressievergelijking zijn
j^Pgenomen. In Utrecht blijken de leerlingen overwegend tot de sociale middengroepen te
ho'^fH uitzondering van 99 ppn. die tot kansarme milieus horen); O.S.M. heeft
Het ^lijl^ te maken met leerhngen uit kansarme milieus.

rtiil' ^^P'^'^iet nagaan van alle mogelijke interacties tussen de gecategoriseerde variabele
ProM^ ^ regressievergelijking opgenomen continue variabelen roept een tweetal
do Jf"^^" oP- het aantal interacties wordt erg groot en de multicollineariteit neemt toe
var° K te vormen interactietermen uit producttermen bestaan van de gecategoriseerde
de ^ de continue variabelen en dergelijke producten meestal hoog correleren met

"derlijke stapsgewijze regressie-analyses gedaan met als categorieën de kansarme en de

sociale middengroep. Behalve verschillen in de algemene niveauparameter leverden deze
analyses vrijwel dezelfde volgorde zowel als dezelfde gewichten voor de in de vergelijking
opgenomen variabelen op. Wij concluderen dat het generaliseren van de resultaten naaf
een populatie met kinderen uh kansarme milieus mogelijk is.

Een andere mogelijkheid om ons uit het generaliseringsprobleem te redden is het be-
schouwen van de gegevens op een ander aggregatieniveau; in dit geval zou dat b.v. het
klassegemiddelde op de criteriumtoetsen kunnen zijn. Wij lossen op deze wijze de
generalisering vanuit de steekproef naar de populatie waaruit deze afkomstig is eleganter
op. Wij werken dan echter met slechts 31 onderzoekseenheden, veel te weinig om de
regressiegewichten zonder al te grote fluctuaties te kunnen schatten. Bovendien willen wij
niet persé generaliseren naar het domein van het leerkrachtgedrag, maar naar de leerling-
prestaties gegeven bepaalde leerkrachtgedragingen.

De tweede reeks van problemen heeft hoofdzakelijk te maken met de toetsingsprocedure:
het probleem van de multicollineariteit en de invloed daarvan op het onderscheidingsver-
mogen van de toets en de assumpties van de te hanteren toets zo nodig in relatie tot het
multicoUineariteitsprobleem.

Collineariteit heeft een nadelige invloed op de steekproefvariantie van de te schatten
regressiecoëfficiënten en daarmee ook op de traagheid waarmee de nulhypothese dat een
combinatie van coëfficiënten een invloed van nul heeft, wordt verworpen. Dit probleein
kan gedeelteUjk ondervangen worden door de regressie-analyse stapsgewijs met de moge*
lijkheid tot verwijdering van reeds opgenomen variabelen te doen plaatsvinden, waardoor
variabelen die op dezelfde wijze correleren met de te verklaren variabele en dus ool^
onderling gecorreleerd zullen zijn, minder snel zullen worden opgenomen. Via inspectie
van het tolerantieniveau (de portie variantie van één verklarende variabele die niet
verklaard wordt door reeds in de regressievergelijking opgenomen variabelen) is daarop
nog controle uit te oefenen. Een dergelijke inspectie heeft in ons geval opgeleverd dat er
blijkbaar slechts een geringe collineariteit tussen de uiteindelijk opgenomen variabelen
blijkt te bestaan. Het niet hoeven opnemen van producttermen om interacties weer te
geven draagt ook bij aan beperking van het multicoUineariteitsprobleem: de in zo'n term
opgenomen variabelen correleren meestal hoog met de variabelen waarvan zij het product
zijn.

Samengevat: wij menen dat de conclusies uit de analyses niet door collineariteit in
discrediet gebracht zullen worden.

Voor het uitvoeren van de stapsgewijze regressie-analyse met verwijderingsmogelijkheid
van reeds opgenomen variabelen als deze door het opnemen van een nieuwe verklarende
variabele niets meer doen (hun regressiegewicht nul is), zal gebruik gemaakt worden van
het SPSS-programma voor multiple regressie-analyse (Nie et al; 1975). Het significantie-
niveau voor het opnemen en verwijderen van variabelen (op grond van hun bijdrage aan de
multiple correlatie) hebben wij op 20% gesteld om, gezien de bedoeling van dez®
secundaire analyse, niet te snel veel variabelen te verliezen.

Het uiteindehjk criterium voor het als bevredigend accepteren van een vergelijking i®
steeds de significantie van de multiple correlatie tussen de opgenomen variabelen en de te
verklaren variabele. Over de veronderstellingen die aan de F-toets daartoe ten grondslag
hggen spreken wij verder in deze paragraaf. (De veronderstellingen ten grondslag hggend
aan de opname in de vergelijking van elke afzonderlijke variabele laten wij buiten
beschouwing.) ,

hot ' normaliteit en de homoscedasticiteit; aan de orde komt ook het probleem van

niet voldoende voldoen aan deze assumpties zal voor ons aanleiding zijn de analyse
assy te voeren. Wij maken dienaangaande een voorbehoud ten aanzien van de
robu ^ normaliteit en homoscedasticiteit. De F-toets is ten opzichte daarvan

tusse ^ 1 afwijkingen niet extreem zijn èn er geen of nauwelijks collineariteit

tesa " verklarende variabelen bestaat. Collineariteit èn afwijkingen van normaliteit
Via'"®" leiden tot onjuiste conclusies (cf. Vasu & Elmore, 1975).

is analyses, waarbij o.a. het verklaarde scoredeel tegen het residuele scoredeel

•nodef^^^ (ef. Anscombe & Tukey, 1963) is geconstateerd, dat de lineariteit van het
aanw Problematisch is; homoscedasticiteit in vijf van de zeven analyse-situaties niet
in O (meer spreiding op de lagere niveaus) en dat aan de normaliteitsassumptie

bezu,'^ al dat de collineariteit gering is; we kunnen daarom concluderen dat er geen
De gebruik van de F-toets bestaan.

'■^'^'^erstelling t.a.v. het meetniveau van de verklarende variabelen die soms gemaakt
een H '^^""linste intervalniveau), lijkt ons onjuist. De door ons gehanteerde toets steh
oergeüjke eis niet (Harris, 1975; 226).

eliswaar geen assumptie, maar soms wèl een belangrijk probleem is wat Van Hemert -
dine^*^^ ^ Mellenbergh (1975) 'Eén minus de vergeten fout' noemen: het onderschei-
van de gehanteerde toets. Een analyse met behulp van de door Cohen
...' beschreven procedure levert voor alle door hem onderscheiden effectgroottes
•995 O êebruikehjke significantieniveaus een onderscheidingsvermogen van meer dan

niet ^"^^ttend kunnen wij concluderen dat het gebruik van stapsgewijze regressie-analyse
Van L^'^^'j*^®ringsmogelijkheid van reeds opgenomen variabelen bijdraagt aan de oplossing
te u rnulticollineariteitsprobleem; dat van de assumpties ten grondslag Uggend aan de
dog] " ''en F-toets niet extreem wordt afgeweken en dat generalisering naar de O.S.M.-
gfQj^j P^ratie mogelijk is. Anders gezegd, dat er geen overwegende bezwaren bestaan op
van statistische criteria tegen de door ons voorgestelde werkwijze.

gegeven in de vorm van gestandariseerde regressiecoëfficiënten (jS),
cnöff®^® vergelijkbaarheid, en in de vorm van gekwadrateerde multiple correlatie-
^oeffic,enten (R).

Imgen blijk dat deze voor elke afzonderlijke taaksteUing ger g ^ ^^^ ^^^^^^^
^ich nagenoeg bij alle te verklaren critenumtoetsprestaties

Ve " verklaringswaarde tussen de taakstellingen die de toetsprestaties mede
.j^jKlaren; deze zijn echter niet consistent.

aalwoorden), maar worden niet door dezelfde variabelen verklaard. Enkele taakstel-
hebben geringe negatieve effecten; steekproeffluctaties zullen daaraan niet vreemd
'erecht^^ nierendeel der taakstelHngen komt echter niet eens in de regressie-vergelijking

Wo°H hereiken van de leerdoelen zoals die door de verschillende criteriumtoetsen
■"den gemeten, zijn dus de taakstellingsfrequenties van weinig betekenis. Het doel
^^artoe wij deze secundaire analyse uitgevoerd hebben, wordt derhalve niet gerealiseerd,
^ijn wèl een aantal andere conclusies te trekken.

gg^.^®"^® frequentie van voorkomen van bepaalde taakstellende gedragingen, dienen.
Dg 'en de resultaten van onze analyse, aan een herinterpretatie te worden onderworpen,
gg, .^^^onderlijke frequenties van taakstellingen die kenmerkend voor de stijlen zijn
leken, blijken weinig effect te sorteren, zodat - ook al doen zich met betrekking tot
j , ^^rlingprestaties tussen de stijlen een aantal significante verschillen voor - het
nio afzonderlijke taakstellingsfrequenties met het doel een zo effectief

invl ^ """l^rwijsstijl als sommige afzonderlijke taakstellingen blijken dus een significante
Oed te hebben, die echter praktisch van weinig betekenis is.

(1974) beschrijft mastery learning als de situatie waarin een sequentie van
^ eenheden doorlopen moet worden, waarin na elke leereenheid een toets afgenomen
•^iet K leertijd beschikbaar gesteld wordt voor leerlingen die het 'mastery level'

gQ het voorspellen van de leertijd die tot het beheersingsniveau moet leiden. (Als de tijd
leer gehouden wordt, voorspelt de intelligentie echter de leerprestatie.) Voor latere
gg f^.r'heden geldt dat niet intelligentie, maar wèl de prestaties op de toets van de vorige
^oorr'^lf^ leertijd voorspellen (en bij het constant houden van de tijd: de leerprestaties

Ofti'^f ^oor ons geanalyseerde gegevens is een bijna analoge situatie aanwezig. De leerstof
A grotendeels sequentieel geordend: in het eerste boekje (leereenheid)

ii, ^ globaalwoorden geleerd en daaruit worden letter-klank combinaties losgemaakt,
p^j® derde boekje worden daarmee nieuwe drie-klank woorden gevormd etc. De in het
jjjj -onderzoek gebruikte criteriumtoetsen volgen deze leersequentie nauwkeurig. Van-
Ojj^^'J^^rwijskundig oogpunt meten zij bepaald niet dezelfde vaardigheden, maar een
Scho hng van beginvaardigheden naar hiërarchisch hogere vaardigheden. Bij de be-
op j van

de tabellen met de resultaten van de regressie-analyses (tijd constant) valt
Vq het door Bloom voorspelde wegebben van de invloed van de intelligentie zich
togn (tabel 1), terwijl het belang van de prestaties op de voorafgaande criteriumtoets
"eemt (overige tabellen).

Deze overeenkomsten suggereren dat een experiment met het leren lezen volgens een
strategie voor mastery learning het proberen waard is. Het onderwijzen van de leerkracht)
zijn taakstellend gedrag dus, zal binnen een dergelijk systeem opnieuw bezien moeten
worden. Daarbij dient dan relatering plaats te vinden van de taakstellingen aan allerlei
deelvaardigheden die leiden tot de vaardigheden die in de doelen van een onderwijseen-
heid (die het prestatieniveau definiëren) genoemd worden. Op deze wijze komt een
koppeling tussen leer- en onderwijstheorie tot stand, zoals eerder bepleit door één onzef
(Creemers, 1974; 212).

Anscombe, F.J. & Tukey, J.W. The examination and analysis of residuals Technornetrics, 1963,
141-160.

Cohen, J. Statistical Power Analysis for the behavioral sciences. New York: Academic Press, 1969-

Cornfield, J. & Tukey, J.W. Average values of mean squares in factorials, Annals of Mathematics'
Statistics, 1956, 27, 907-949.

Creemers, H.P.M. Evaluatie van onderwijsstijlen binnen het aanvankelijk lezen. Utrecht: proef'
schrift, 1974.

Edington, E.S. Statistical inference and non-random samples. Psychological Bulletin, 1966,
485-487.

Harris, R.J. A primer of multivariate statistics. New York: Academic Press, 1975.

Hemert, M. van & Mellenbergh G.J. Eén minus de vergeten fout (gestencild), Utrecht: Subfaculteit
Psychologie, Afd. Methodologie & Statistiek, R.U. Utrecht, nr. PG-75-25-1N, 1975.

Kerhnger, F.N. & Pedhazur, E.J. Multiple regression in behavioral research, New York: Holt, Rinehaft
and Winston, 1973.

Nie, N.H., HuU, C.H., Jenkins, J.G., Steinbrenner, K. & Bent, D.H. Statistical packages for the soci"'
sciences. New York: McGraw Hill, 1975.

Vasu, E.S. & Elmore, P.B. The effect of multicollinearity and the violation of the assumption o'
normality on the testing of hypotheses in regression analysis, Virginia: Educational Resourced
Information Center, microfilmno. ED 106 341, 1975.

sch , van onderzoek bij landelijke innovatieprojecten, zoals basisschool, midden-
Ond Participatie-onderwijs. Bij deze besprekingen waren betrokken de Directie
(Di ^^'j^^^rnieuwing en Planning van het Ministerie van Onderwijs en Wetenschappen
teno Stichting voor Onderzoek van het Onderwijs (S.V.O.), het S.V.O.-Institu-

Midd^^ (I-O.), de Innovatie-Commissie Basisschool (I.C.B.), de Innovatie-Commissie
^^^aenschool (I.C.M.), de Onderzoeksgroep Participatie-onderwijs (O.P.0.) en waarne-
Cnn! Ministerie voor Cultuur, Recreatie en Maatschappelijk werk (C.R.M.) en de

land r spitste zich vooral toe op de functie die onderzoek in het kader van
Hjk E'■''^u '""ovatieprojecten dient te vervullen en de mede op grond daarvan noodzake-
vers Vu organisatie-structuur. Verschillen van mening waren vooral terug te leiden op
^oor h ^ gekozen uitgangspunten. Bij de landelijke innovatieprojecten is gekozen
(Zie verlenen van prioriteit aan de zogenaamde normatief-reëducatieve benadering,
bestp)?^ deze terminologie de discussienota: 'Contouren van een toekomstig onderwijs-
Bij d ^ I, hoofdstuk 4).

nen benadering wordt uitgegaan van de normen en waarden van de direct betrokke-
®erste" T®' name de onderwijsgevenden. Alle te verrichten activiteiten dienen in de
scjj plaats te worden uitgevoerd ten dienste van het innovatieproces op een betrokken
Van ° erkenning van dit uitgangspunt wilden de onderzoekers echter meer uitgaan

Innov^'- '■^tioneel-empirisch model en daarmee tevens oog hebben voor het landelijk
aiieg ^^'®Proces. Met andere woorden volgens de onderzoekers dient het onderzoek niet
School Pf'^'^ te worden tot onderzoek met betrekking tot één door een betrokken
Probl' ^^^'Snaleerd probleem, maar kon het onderzoek evenzeer gericht zijn op één
land r meerdere scholen geldt of zelfs op problemen voortkomend uit het

een innovatieproces in zijn totaliteit. Deze verschillen in uitgangspunten leidden tot
opyJl^schil in visie op de functie van onderzoek, maar evenzeer tot uiteenlopende
Proi organisatie van onderzoek in het kader van de landelijke innovatie-

Xoevan de genoemde besprekingen werd door de heren A.J. Mens (Instituut voor
Ond Sociologie, Nijmegen) en A.H. van den Berg (Kohnstamm-instituut voor

uerwijsresearch, Amsterdam) een discussiestuk opgesteld. Na de discussiefase werd
^ïini het stuk nog zouden bijstellen en aan de

'Pün houden aanbieden. Dit gebeurde in juli 1975, in de vorm van een nota getiteld:
etie en organisatie van onderzoek in landelijke innovatieprojecten'.

De Minister heeft de genoemde nota daarna voor commentaar naar alle participantei^
gezonden en mede op grond van deze commentaren onlangs een beslissing genomen ovef
de structurering van het onderzoek in het kader van de landelijke innovatieprojecten-
Aangezien de Minister in grote lijnen instemt met de in deze nota gedane voorstellen»
zullen de daar gegeven oplossingen, zonodig gemodificeerd volgens het standpunt van de
Minister, hieronder kort weergegeven worden.

Sommige onderscheidingen die naar mijn gevoel hier niet nodig zijn om de kern van de
nota weer te geven zijn weggelaten, terwijl uitwerkingen alleen in grote lijnen ziJ''
weergegeven.

2. De voorstellen in de nota 'Functie en organisatie van het onderzoek in landelij''®
innovatieprojecten'

Alhoewel op grond van het normatief-reëducatieve uitgangspunt tot een andere relati®
kan worden gekomen, wordt in de nota uitgegaan van de gelijkheid van te onderscheiden
ondersteuningsfuncties. Deze ondersteuningsfuncties, te weten de begeleiding, de schO'
ling, de ontwikkeling en het onderzoek, verhouden zich elk op hun eigen wijze tot de
innovatieprocessen op de scholen en het landelijk innovatieproces. De ondersteuning^'
functies dienen zoveel mogelijk rationeel-empirisch te werk te gaan, zodat van zinvo'
experimenteren, niet alleen op de scholen, maar ook in een landelijk innovatieproces
sprake kan zijn. Voor iedere ondersteuningsfunctie zal dan ook een landelijk pl^^
opgesteld moeten worden. Bovendien wordt gesteld dat de ondersteuningsfuncties zoveel
mogelijk moeten streven naar consensus over de concretisering van de eenmaal gekozen
innovatiestrategie. De noodzaak van goede informatieverstrekking van en over de activite'"
ten van de ondersteuningsfuncties en van coördinatie tussen de ondersteuningsfuncties
wordt mede vanuit deze gedachten benadrukt.

De onderzoeksfunctie in landelijke innovatieprojecten wordt omschreven als het op
systematische wijze verzamelen van informatie waarvan de beleidsvoerders (zij, die verant-
woordelijk zijn voor de vaststelling en bewaking van plannen) op verschillende niveaus
gebruik kunnen maken. Er worden een drietal niveaus in het innovatieproject onderschei'
den waarop het onderzoek zich kan afspelen:

— het schoolgebonden niveau (schoolgebonden onderzoek: al het onderzoek dat informS'
tie aandraagt, die vooral bruikbaar is in één school);

— het ondersteuningsniveau (praktijkgericht onderzoek: al het onderzoek dat informat|®
aandraagt die rechtstreeks van belang is voor de praktijk in de scholen en di®
toepasbaar is op meer dan één school);

— het landelijk niveau (landelijk onderzoek: al het onderzoek, dat informatie aandraagt,
die rechtstreeks van belang is in het landelijk innovatieproces.

Onderzoek kan op al deze drie niveaus relatief zelfstandig zijn van de andere ondersteU'
ningsfuncties, dan wel worden uitgevoerd in het kader van deze 'ondersteuningsfuncties-
Het onderzoek op het schoolgebonden niveau zal in verhouding minder zelfstandig
kunnen zijn dan onderzoek op het ondersteunings- of landelijk niveau. Dit komt vooral

n^m VV" ^^^ innovatieproject en de daarin participerende scholen is gekozen voor de
8®geven w strategie, waardoor aan de scholen veel 'experimenteerruimte'

eenheid van de onderzoeksfunctie in landelijke innovatieprojecten en
^ordt nauwe koppeling van het onderzoek op de drie onderscheiden niveaus

li'Wt ""^^^ilsatorische verzelfstandiging van onderzoek op een bepaald niveau bemoei-
Zo aanpassing aan de in de tijd veranderende behoeften, waardoor een

snel^*^^"^^' ^^^^^ behoefte aan de beschikbaarheid van een onderzoeksapparaat, dat
m tv.^" efficiënt kan bijspringen als het gaat om de keuze van adequate onderzoeks-
noden en -technieken, om mankracht en faciliteiten voor dataverzameling, -verwer-
Q ® -analyse. Voor het niet univershaire onderwijs wordt zo'n apparaat op dit
6 nblik slechts geboden in het kader van de bestaande insthuten voor onderwijs-
_ ^®arch, waarvan het merendeel verenigd is in het S.V.O.-lnstitutenoverleg.

oor onderzoekers is het van groot belang te kunnen werken in een situatie, waarin
n specifieke deskundigheid mede door collega's ondersteund en verder ontwikkeld
Wordt.

s'ch^i organisatorische scheiding aan te brengen zullen onderzoeken op de ver-
Utende niveaus elkaar kunnen beïnvloeden en daarmee sneller en efficiënter speci-
® probleemstellingen voor een bepaald niveau aan het licht kunnen brengen.

äans^u'r"^^^"'^^^'^ onderzoek in landelijke innovatieprojecten moet een optimale

karaw gezocht worden tussen de eisen die, vooral door het normatief-reëducatieve
mogej-K, deze projecten, aan het onderzoek daarbinnen worden gesteld en de
Uitoa,, ^^ de huidige onderwijsresearch. Op grond hiervan worden de volgende

j. "hogelijk moet worden aangesloten op de bestaande structuur van de onderwijs-

uningsteam te worden uitgevoerd, waarbij een onderzoeksinstituut de nodige facili-

tp u °"derzoeksactiviteiten dienen volgens een van tevoren vastgesteld en goedgekeurd

instituten voor onderwijsresearch die betrokken zijn bij een landelijk innovatie-
^ oject zullen een deel van hun autonomie met betrekking tot onderzoeks- en beheers-
Q , nioeten opgeven, zodat eenheid van programmering en uitvoering van het

coordinatie met andere ondersteuningsfuncties zal zo goed mogelijk gewaarborgd
'"oeten worden.

2.4 De organisatie van het onderzoek in het kader van landelijke innovatieprojecten
Ten behoeve van de voorbereiding en uitvoering van een onderzoeksplan wordt P^'
innovatieproject een onderzoeksgroep geformeerd, waarin in aanmerking komende insti-
tuten participeren. Momenteel zijn vanuit het S.V.O.-Institutenoverleg een drietal groepen
geformeerd, namelijk voor de Middenschool, de Basisschool en het Participatie-onderwijs-
Tot deze zogenaamde Sector-Onderzoeksgroepen (S.O.G.'s) kunnen echter ook niet in het
S.V.O.-Institutenoverleg participerende instituten toetreden en ook kunnen instituten
voor de uitvoering van onderzoek ingeschakeld worden, zonder dat zij deel uitmaken van
de S.O.G. Voor de voorbereiding van het plan kunnen onder dezelfde condities deskun-
digen ingeschakeld worden.

De S.O.G.'s bestaan uit onderzoeksinstituten. Op grond hiervan is de vergadering van
vertegenwoordigers van deze instituten het besluitvormend orgaan van de onderzoeks-
groep. Deze vergadering, het bestuur van de S.O.G., is de beleidsbepalende en aanspreek-
bare instantie. In dit bestuur zullen niet alleen beleidsmedewerkers van de instituten
vertegenwoordigd mogen zijn, maar ook onderzoekers die betrokken zijn bij de uitvoering
van het onderzoek op alle drie de niveaus. Eén van de betrokken instituten neemt het
secretariaat op zich en een ander het voorzitterschap.

2.5. De coördinatie van de onderzoeksfunctie in landelijke innovatieprojecten
Voor de coördinatie van de onderzoeksfunctie in de landelijke innovatieprojecten zal zorg
gedragen moeten worden. Dit geldt zowel voor de externe coördinatie van het onderzoek
dat plaatsvindt op de drie niveaus als de interne coördinatie van het onderzoek. Voor wat
het laatste betreft is de eenheid van de onderzoeksfunctie en de mogelijkheden voor
coördinatie in de voorgestelde structuur gehandhaafd. De interne coördinatie zal in de
S.O.G. tot stand moeten komen.

De coördinatie van het onderzoek met andere plannen op het landelijk- of ondersteu-
ningsniveau zal tot stand moeten komen in de coördinatiegroepen welke voor ieder
innovatieproject zijn opgericht. Hierin participeren zowel de experimenterende scholen
als de ondersteuningsfuncties. Vanuit het onderzoek wordt dan ook aangedrongen op het
geven van een 'harde' coördinatie-functie aan deze groepen. Een beslissing over de aard
van de coördinatie (meer of minder hard) die deze groepen kunnen uitoefenen is door de
Minister op dit moment nog niet genomen.

De coördinatie van het onderzoek op het niveau van de scholen verdient bijzondere
aandacht. De verantwoordelijkheid naar de experimenterende scholen zal voorop dienen
te staan rtiaar daarbij dient de ruimte voor verantwoordelijkheden naar de onderzoeks-
groep en het onderzoeksinstituut structureel gegarandeerd te zijn, waardoor een bijdrag®
voor de coördinatie van het onderzoek op dit niveau in landelijke kaders kan worden
gegeven.

Bij de voorbereiding van het onderzoeksplan dienen alle groeperingen binnen een innova-
tieproject betrokken te worden. Hiertoe zullen niet alleen goede bestuurlijke relaties met
andere organen binnen een mnovatieproject tot stand moeten komen, maar evenzeer
goede werkrelaties. In de onderzoeksgroep vindt de feitelijke planvoorbereiding plaats,
waarbij de gesystematiseerde onderzoekswensen van de overige betrokkenen bij het
innovatieproject in relatie worden gebracht met de personele, financiële, organisatorische,
inhoudelijke en methodische mogelijkheden van de onderzoeksgroep.
Zodra het plan is goedgekeurd door het bestuur van een S.O.G., wordt het besproken

dacht"^^'*''^^ coördinatiegroep van het betreffende innovatieproject waarbij vooral aan-
ander besteed aan de afstemming van het plan op de plannen van de scholen en de

Vervolgens wordt het plan ingediend bij de betreffende
Vraag/advies ter kennis brengt van de Minister. De Minister
plan ^-V.O. (soms S.L.0.) een advies over de wetenschappelijke kwaliteit van het
S_Y Q "ccnit na ontvangst van dit advies een beslissing over het plan en geeft daarmee de
cont de werkzaamheden in het kader van het plan te gaan subsidiëren en

stry . bet functioneren van de structuur zal noodzakelijk zijn. Een evaluatie van de

au^*^^®* wij ingaan op de reactie van Peschar op 'enkele kanttekeningen' eerst een paar
opmerkingen.

scfj P°tbese te verdedigen, namelijk dat sociaal milieu géén invloed zou hebben op
twee H' beoordelen van een onderzoek als dat van Peschar komt het maar op

®rvan aan, namelijk op de grootte van het te vinden verschil en op de interpretatie

~ ^it laatste ten eerste in statistische zin, ten tweede maatschappelijk,
iutgj^'j hieromtrent hebben gesteld had in hoofdzaak betrekking op Peschar's statistische
effgj statie. Het ging in het bijzonder om de vraag of de verwaarlozing van regressie-
^vlo h" ^ Peschar's proefschrift (1) een fout is, en (2) tot gevolg gehad heeft, dat de
Zijjj ® Ean milieu op schoolkeuze door hem, meer of minder zwaar, wordt overschat. Wij
rekg®*^ erg gelukkig mee dat Peschar de berekeningen nog eens heeft uitgevoerd, nu wel
^^^J^g houdend met regressie-effecten. Op de uitkomsten van die nieuwe berekeningen

A.D. ^^p®^ van regressie-effecten in het milieu-, school- en beroep-onderzoek: een antwoord aan
49-58. A. van Peet, door J.L. Peschar. Tijdschrift voor Onderwijsresearch, 1, 2, 1976,

]^®nttekeningen bij het proefschrift van J. Peschar: Milieu, school en beroep, door A.D. de
" A. van Peet. Tijdschrift voor Onderwijsresearch, 1 1, 1975, 36-39.

en op de betekenis daarvan uit een oogpunt van 'gelijke kansen' komen wij nog terug-
Eerst willen wij nog twee andere punten aan de orde stellen, namelijk de functie van d®
intelligentietest in dit onderzoek (1) en de vraag naar mogelijke regressie-effecten van e®"
onbetrouwbare milieu-indeling (2).

Peschar stelt dat wij aannemen, dat matching op IQ bedoeld zou zijn om capaciteiten ^
verband met schools leren (opleidingen) gelijk te schakelen. Peschar schrijft, dat als h®'
daarom zou gaan, dat dan een schoolvorderingentest een zinvolle maatstaf zou zijn-
Peschar schrijft vervolgens: 'wij wilden gelijkschakelen op een algemeen intelligentieni'
veau dat ruimer is gedefinieerd (...)' (blz. 51 van Peschar's reactie).
In het bovenstaande zit een tegenstrijdigheid verborgen. Want waar gaat het om?

a. Het gaat niet om de testscore hier en nu; daarover zijn wij het nu redelijk eens.

b. Het gaat ook niet om de GALO-testscore gecorrigeerd voor onbetrouwbaarheid, dus
om de ware GALO-score - immers het begrip-zoals-bedoeld is niet 'GALO- intellig®"'
tie'; het is 'ruimer gedefinieerd' (zegt ook Peschar). Nog steeds zijn we het eens; ma^r-

c. het intelligentiebegrip waarop Peschar doelt als hij het over een 'ruimer gedefinieerd
'algemeen intelligentieniveau' heeft is naar wij menen óók niet het begrip-zoals-bedoeld
waaraan men hier moet denken! Hier gaan de wegen dus uiteen.

Peschar's beschrijving doet vermoeden dat hij het 'psychologen-intelligentiebegrip' voof
de geest heeft, dat wel gedefinieerd wordt als de veronderstelde (gemiddelde) ware scor®
op alle als zodanig aanvaardbare intelligentietests. De idee om daarop gelijk te schakelen is
op het eerste gezicht een mooie, eerlijke gedachte; maar is die idee adequaat aan
vraagstelling?

Het onderzoek heeft te maken met de vraag naar (on-)gelijke kansen. Men wil immsf®
nagaan in hoeverre milieu-verschillen tot ongelijkheid van kansen leiden; kansen op e®''
bepaald, hoger of lager niveau van vervolg-onderwijs. Denkt men bij dit begrip 'kansen oP
scholing' aan een empirische frequentie-definitie, dan kan men voor bepaalde nader t®
definiëren subgroepen van een cohort van 12-jarigen stellen dat hun kansen op h®'
verkrijgen van een scholing van een bepaald niveau afhangen van twee grote groep®"
factoren: miWeM-factoren (wat hun overkomt) en potentieeMzcXoïtn (wat er, gemeten oP
12-jarige'leeftijd, 'in zit'). Wil men nu iets bewijzen over de invloed van een bepaald®
milieu-factor op die kansen, dan moet men trachten de invloed (op diezelfde,
gedefinieerde kansen) van potentieel-factoren zo goed mogeÜjk uit te schakelen.
Verder: gebruikt men daartoe (1) matching op een intelligentietest en (2) een regressi®'
correctie, dan houdt dit in, dat men de inteUigentietest principieel hanteert als voorspeH^^
van 'kansen op scholing' (potentieel-factor). De invloed hiervan wil men uitschakelen oi"
de invloed van de milieu-voorspeller (milieu-factor) op diezelfde kansen zo zuiver mog®'
lijk te kunnen aantonen. Het gaat dus duidelijk om de validiteit van de intelligentie-scof®
m.b.t. iets anders dan intelligentie; daarom is opvatting c niet adequaat.
Vat men die vahditeit op als predictieve of criterium-validiteit - wat hij in principe is (z'®
boven) - dan is het vervelende dat men hem niet kan meten; en wel omdat men hierto®
(omgekeerd probleem) de feitelijke invloed van alleriei miliéu-factoren zou moet®"
uitschakelen; de predictieve correlatiecoëfficient zou in principe een partiële correlati®"
coëfficiënt moeten zijn. Men kan die vahditeit echter wel enigszins schatten. De relevaflt®

eognif'^ '^an: In hoeverre representeert de intelligentie-zoals-bepaald het geheel van
opjg. vaardigheden die relevant zijn voor het bereikbare niveau van schoUng (school-
hoop Of korter - en daar komen we weer bij onze vroegere formuleringen uit: Hoe
leerv ^^Sripsvaliditeit van de gebruikte intelligentietest voor dat wat er aan 'schools
d. toekomst) 'in zit'? ^ Wij komen aldus tot:

^ begrip-zoals-bedoeld met betrekking waartoe de validheit van de intelligentietest
se geschat (en waarop vervolgens de regressie-correctie moet worden geba-

fv ~ principe: een predictiescore, die representeert: - het schools leervermogen
^^oor de toekomst) dat er 'in zit'."

Ook^p^^ '^^gripsvaliditeit een wetenschappelijk ideaal is waarvoor geen correctie nodig is.
Uitgg ®schar toont reeds aan dat ér geen sprake is van een doublure. Zie bovenstaande

sprake zou zijn van regressie naar het gemiddelde op grond van
Aajig begripsvaliditeit, dan is dat zeker het geval bij de variabele sociaal milieu,
"lind alleen de extreme milieugroepen in ons onderzoek werden geselecteerd (en
tege^*^ ^''treem bUjken), zal het duidelijk zijn dat de invloed van regressie-effecten hier
De bevindingen worden slechts versterkt' (blz. 52).

4ll ^"Idingen worden versterkt, maar welke bevindingen worden versterkt?
Vadef^'^^^' betekent het wanneer een indeling in sociale milieus op grond van beroep
Het ^°"^®trouwbaar is gebeurd?

in fe-f^^'^®"^ ouders zijn die bij voorbeeld in het lage milieu zijn geplaatst maar die

Vajj ! ® een hoger sociaal milieu behoren en v.v. Gegeven het verband tussen beroep
indeii^ en de GALO-score van het kind, betekent dit dat een volmaakt betrouwbare
miijg tot gevolg zou moeten hebben dat het gemiddeld verschil in IQ tussen beide
het V ^ worden dan het door Peschar gevonden verschil. Maar dit betekent dat

pop .^'■^.'^bil in de gematchte groep dat ontstaat door regressie naar de respectievelijke
atiegemiddelden, groter zou zijn dan het door ons berekende verschil. De onbe-

."ling denken in termen van predictieve (of criterium-) validiteit - in overeenstem-

's hief_ ^ j idee van verschillen in 'kansen op scholing' - naar denken in termen van begripsvaliditeit
gewoonlijk, geïndiceerd door de onmogelijkheid om de hand te leggen op de predictor-
meer ^^."^0"<=laties die

men eigenlijk zou moeten hebben. Die overgang houdt in dat men óók andere,
«Oed m^ inferentie-methoden (theorie- en hypothese-toetsing) wil gaan gebruiken om tot een zo
^^c'ie/p? beantwoording van de validiteitsvraag te komen (zie b.v. P.J.D. Drenth: De psycholo-

is dat dit begrip (waarin, zoals wij al eerder gesteld hebben, abstractievermogen een
'"leoret- speelt) enige gelijkenis vertoont met wat Ph. Kohnstamm 40 jaar geleden bedoelde met
Hoeve Ph inteUigentie' (tegenover 'praktische', nl. test-inteUigentie). Zie hiervoor: A.H. van der
•^Utsse'n,- Kohnstamm en G. van Veen: Stil-lees-stof ah denk-materiaal en denk-maatstaf. MededeUng

'^"'^ej-v^-Leerlingen uit verschillende sociale milieus hebben geen gelijke kansen. Tijdschrift voor
''Research, 1 1, 1975, 40-42.

trouwbaarheid van de milieu-indeüng werkt dus niet tegengesteld, maar versterkt de
grootte van het regressie-effect.

Overigens gaat het hier o.i. om een onbelangrijk punt. Als men een criterium gebruikt oi"
groepen in te delen en dan een verschil in gemiddeld IQ tussen die groepen vindt, dan
treedt het regressieeffect in werking (zelfs al is het criterium willekeurig).

Na de correctie voor onbetrouwbaarheid en onvolledige begripsvaliditeit stelt Peschar dat
de resultaten na verschillende regressiecorrecties slechts betrekkelijk weinig afwijken va»
de oorspronkeUjk gepubliceerde (blz. 58 van Peschar's reactie).

Het oorspronkelijke verschil in bereikt opleidingsniveau was 2,48 (op een schaal van
t.m. 9): na correctie® is dit verschil 1,86 geworden, ofwel een kleiner worden van het
verschil met 25%. Dat men 25% een betrekkelijk geringe afwijking noemt, is een kwesti®
van woordkeus.

Nu geeft een verschil van 1,86 (op een schaal van 1 t.m 9) aan, dat het milieu een sterk®
invloed heeft op de schoolkeuze, maar om nu te stellen - zoals Peschar dat doet - dat ef
geen sprake is van gelijke kansen, gaat ons te ver.'' Men moet niet de significantie maar d®
grootte van het effect in aanmerking nemen, en wel in verhouding tot de invloed di®
verschillen in capaciteiten (aanleg, potentieel) hebben bij de schoolkeuze en bij h®^
bereikte opleidingsniveau. Wat dit laatste betreft, belangrijker dan het bereikte opleidings*
niveau is naar onze mening het laatst uitgeoefende beroep. Het verschil in de gematcht®
groep voor wat betreft beroepsniveau laatste beroep is gelijk aan 1 (op een schaal van 1
t.m. 6): Peschar blz. 72.® Alweer... het gaat ons te ver om op grond van een dergelijl'
verschil te stellen dat het milieu van beslissende invloed is op o.a. het beroepsniveau van
het laatst uitgeoefende beroep.

Tot slot het volgende: wanneer men de bijlage 6 van het proefschrift van Peschar
bestudeert, krijgt men sterk de indruk dat verschillen in beroepsniveau voor een de®'
ontstaan doordat kmderen met een relatief laag IQ uit een hoog sociaal milieu toch gaa"
studeren (zie overzicht p. 137).

De vraag is nu of de acht onderstaande kinderen uit de hogere milieus ten onrecht®
studeren of dat kinderen met overeenkomstige IQ's uit laag sociaal milieu 'ten onrechte
niet studeren.

Een feit is dat deze gevallen bijdragen aan het gevonden verschil van 1 punt op de schaal
van beroepsniveau van het laatst uitgeoefende beroep.

6. Matching per subcategorie; ook andere regressiecorrecties geven vergeüjkbare afname van de vei'
schillen te zien.

7. 'Geen sprake van gelijke kansen' is vooral daarom een moeilijk verteerbare samenvatting v»"
Peschar's onderzoeksbevindingen, omdat de consumenten en citeerders van zo'n uitspraak (onder
laatste: vele kranten, tijdschriften, alsmede de Minister van Onderwijs gn Wetenschappen) de sta'''
tische betekenis ervan - 'significante verschillen gevonden' - meteen vervangen door een politie"
betekenis: 'alwéér een misstand'.

"'nenvattend zouden wij willen concluderen dat uit de gegevens van Peschar blijkt dat -
na diverse correcties - de verschillen in de gematchte groep kleiner geworden zijn,
"^ar zeker niet zijn verdwenen. De termen waarmee Peschar de grootte van de verschillen
aanduidt en de termen waarmee wij het zouden doen, zullen wel altijd 'verschillend'
Olijven.

de discussie rond de regressie-effecten bij gematchte steekproeven, wil ik graag nog
^nkele - wat mij betreft laatste - opmerkingen maken.

het beoordelen van een kritiek als van De Groot en Van Peet komt het maar op één
png aan: is deze kritiek ter zake of niet?

1 mijn eerste reactie heb ik de kritiek empirisch weerlegd en het doet me genoegen te
®Zen dat De Groot en Van Peet inzien dat de resultaten uit het Milieu-School-Beroep
•iderzoek in het geheel niet kunnen worden wegverklaard door een - eventuele -
.Oed van regressie-effecten. Bij het beoordelen van de verschillen in bereikt opleidings-
'Veau komt het minder aan op de daling van het verschil in criterium binnen de paren
n op de daling van de Wilcoxon Z-waarden. De bijbehorende p-waarden liggen alle nog
eeds zeer duidelijk onder de .001 (wat buitengewoon laag is in vergelijking met de in
psychologische experimenten gehanteerde norm van .05 of zelfs .10). Zoals bekend, duidt
en dergelijk kleine p-waarde op een zeer grote systematiek van de verschillen binnen de
Paren. Kinderen uit een hoger sociaal milieu blijken systematisch een hoger opleidingsni-
eau te bereiken dan de kinderen uit het lager sociaal milieu, ook nadat met de invloed
..^l^^^nderstelde regressie-effecten rekening is gehouden.

»^Naar aanleiding van: 'Nogmaals de invloed van regressie-effecten'; door A.D. de Groot en A. van

Blijft de vraag waarom van deze - in wezen technische - zaak zoveel ophef moest
worden gemaakt en waarom de suggestie werd gewekt dat de nul-hypothese wèl een reëel
alternatief was. Men kan daar slechts over gissen, evenals over de redenen waarom in hun
tweede reactie 'nieuwe' argumenten op tafel komen die de resultaten van het MilieU'
School-Beroep onderzoek nogmaals zouden moeten relativeren. Wie de moeite neemt zicti
enigszins te verdiepen in de methodologie van achteraf-experimenten, zal gemakkelijk
inzien dat de 8 (van de 112) paren die De Groot en Van Peet als illustratie kiezen,
natuurlijk niets veranderen aan de relevantie van de resultaten. Integendeel.
Het doet daarnaast merkwaardig aan wanneer De Groot en Van Peet niet ingaan op de
argumentatie m.b.t. de functie van de GALO. Op grond hiervan zijn schoolkeuze-adviezen
verstrekt en is correctie voor analytische doeleinden achteraf in feite onmogelijk: er is
immers destijds met de ongecorrigeerde IQ-scores gewerkt. ,

Dat de invloed van regressie-effecten in onderzoek met gematchte steekproeven 'puzzling
is, zal niemand ontkennen. Het is mij echter een raadsel waarom De Groot en Van Peet
mijn opmerkingen over de onvolledige begripsvaliditeit van de variabele sociaal miliei|
beantwoorden met een heel verhaal over een onbetrouwbare milieu-indeling, dat dan ooK
kant noch wal raakt.

Samenvattend wil ik stellen dat - mede dank zij de publicatie van de kritiek van De
Groot en Van Peet — in ieder geval duidelijk is komen vast te staan dat de invloed van
regressie-effecten lang niet zo groot is als zij hadden gedacht.^

De kritiek van De Groot en Van Peet blijkt derhalve - zacht gezegd - voor enige
kwalificatie vatbaar. De termen waarin zij hun kritiek hebben geformuleerd, zullen altijd
wel 'verschillend' blijven van de termen waarin ik dat zou doen.

2. Met name de publicatie van hun kritiek is van belang. De oorspronkelijke versie in het RlT?'
memorandum no. 53 mag zonder toestemming van de auteurs niet geciteerd worden. Dit intern^
memorandum circuleert echter bij heel wat universiteiten en instituten, zodat de opvattingen van D®
Groot en Van Peet een zelfstandig anoniem leven gingen leiden, (vgl. bijvoorbeeld W.A.W. van
Walstijn: Kansen op Onderwijs, Den Haag 1975, p. 64).

De redactie beschouwt de discussie over de invloed van regressie-effecten in het Milieu-School-BeroeP
onderzoek als gesloten.

De heer Van Peet deelt n.a.v. voetnoot nr. 2 van Peschar mee dat het RITP-memorandum no. 53 ook is
gepubliceerd in Natuur en Techniek 1974, 42, p. 540-551.

E.C.H. Marx, De organisatie van scholengemeenschappen in onderwijskundige optiek.
Groningen: Tjeenk Willink, 1975.

Het boek van Marx is het resultaat van een studie, die 14 jaar geleden begonnen is. De auteur is op d®
studie in juni 1975 gepromoveerd. Het onderwerp van het proefschrift is 'de organisaties vaü

^"^holengemcenschappen in een onderwijskundige optiek'. De beschouwing wordt toegespitst op het
/^so-nivo van de scholengemeenschap. Het meso-nivo wordt omschreven als: de interne onderwijskun-
'gc organisatie van een school (of scliolengemeenschap) (p 31). Het is een lijvige studie geworden, die
jj "eergelegd in een boek van 330 pagina's,
et doel van de studie is: 'het - met betrekking tot scholengemeenschappen - construeren van enige
nderwijskundige modellen en organisatiemodellen, die zodanig zijn geformuleerd, dat door samenvoe-
yan telkens een onderwijskundig model en een organisatiemodel consistente onderwijskundig-
rganisatorische modellen betreffende het systeem van scholengemeenschap worden verkregen' (p32).
® auteur construeert vijf onderwijskundig-organisatorische modellen. De modellen moeten een
'agnostische functie hebben. 'Een diagnostisch model is een instrument om een gegeven situatie te
analyseren teneinde na te gaan of, en zo ja, in welke richting verbeteringen aan te brengen zijn' (pl5).
^<:probeerd wordt om te komen tot een speciale vorm van theorievorming. De auteur maakt
nderscheid tussen theorie en praktijktheorie.

"eorie wordt - met De Groot - gedefinieerd als toetsbare theorie. Praktijktheorie verschilt van
'eorie hierin, dat ze niet streeft naar toetsbaar geformuleerde hypothesen, maar naar beweringen, 'die
odanig zijn geformuleerd, dat het voor één of meer groepen van beroepsbeoefenaren mogelijk is er
^ndenties uit af te leiden, ter vervulling van hun beroepsrollen' (p7). Tendenties betreffen de te
®twachten werking van min of meer veranderbare faktoren in 'een type van situaties, die bij de
crvuUing van de beroepsrollen worden aangetroffen.

. gemaakte onderscheid tussen theorie en praktijktheorie lijkt op de vaak gesignaleerde 'tcgenstel-
'"g' tussen theorie en praktijk. De theorie stelt als kriterium de toetsbaarheid en de praktijk heeft als
^"terium de bruikbaarheid of toepasbaarheid. Met name in de pedagogiek en organisatiekunde is het
. '''schil geliefd. De gevolgen zijn niet onverdeeld gunstig. Do overaccentuering van 'praktijktheorieën'
de organisatiekunde heeft er toe geleid dat wetenschappelijk gezien de stand van zaken in de
'Organisatiekunde niet gunstig wordt beoordeeld, omdat de gepresenteerde inzichten veelal fragmenta-
"sch zijn, en elkaar tegenspreken (De Leeuw, 1974). Meuwese (1970) trekt soortgelijke conclusies
over de 'theorieën over onderwijs'. Het streven van Marx om een diagnostische praktijktheorie te
instrueren, moet wetenschappelijk gezien dan ook niet als positief aangemerkt worden. Temeer, daar
J^t zeer wel mogelijk is naar een toetsbare diagnostische theorie te streven. Een theorie, die gaat over
c besturing van een onderwijsorganisatie. In de systeemtheorie - waar de auteur zegt gebruik van te
"laken (pi2 e.v.) - zijn er op het gebied van de besturing van organisaties voldoende aanknopings-
punten.

J^aast de diagnostische functie, die de door de auteur geconstrueerde modellen moeten hebben, stelt
y dat er vier eigenschappen zijn waaraan de modellen voldoen of moeten voldoen:
- "et veld van werkelijkheid waarop zij betrekking hebben,

• de aard van de consistentie tussen de onderwijskundige component en organisatorische component

• de wijze, waarop de openheid van het systeem van scholengemeenschappen is verwerkt' (p32).

"e modellen hebben betrekking op scholengemeenschappen voor v.w.o., havo en mavo. (.....) De

'Modellen beschrijven niet alleen het heden en recente verleden, zij geven ook een beeld van scholenge-
"leenschappen zoals deze volgens bepaalde (niet of slechts partieel verwezenlijkte) voorstellen eruit
gouden kunnen zien' (p32).

^e modellen zijn zo te construeren dat zij in hun respectievelijke combinaties telkens de onderwijskun-
'ge en organisatorische component zijn van een consistent onderwijskundig-organisatorisch model,
^nder consistent wordt verstaan dat de organisatie een geschikt middel is voor een effectief functione-
fen van het onderwijskundig model. Het begrip consistentie speelt een centrale rol. Op enkele plaatsen
het boek wordt het begrip omschreven, zonder dat er operationele kriteria genoemd worden (bijv.
P24,33,240).

'J de hantering van het begrip voert de auteur voor zijn probleem - de constructie van consistente
Onderwijskundig-organisatorische modellen - het begrip valentie in. Hij schrijft: 'Het bleek mogelijk
reeks organisatiemodellen te construeren die - in volgorde van de reeks - een toenemende
hebben voor de verschillende modellen op mesonivo. Een organisatiemodel met een hogere
alentie kan alle prestaties leveren die door de modellen met lagere valentie wordt geleverd' (p237).
betoogd wordt dus dat er een transitieve ordening is aan te brengen in de organisatiemodellen. De
^omplexere organisatiemodellen hebben meer mogelijkheden - een grotere valentie - ten aanzien van
®t onderwijskundig model. De organisatiemodellen met een 'overcapaciteit', grotere valentie, dan het
Onderwijskundig model zijn niet in evenwicht, dus niet consistent.

De manier, waarop daarna de consistentie wordt aangetoond tussen de organisatorische en ondcr\vU'
kundige modellen, is niet overtuigend. De auteur schetst uitvoerig de situaties, die kunnen ontstaan in
bepaalde constellaties. De beschrijvingen worden niet ondersteund of pdragcn door empirisch materi-
aal. Beschreven wordt wat zou kunnen ontstaan. Het is te vergelijken met een betoog van een
'oude-rot-in-het-vak'. Iemand, die door jarenlange ervaring weet of denkt te weten wat er onde
bepaalde omstandigheden gebeurt. Vele van de geschetste ontwikkelingen bevatten waarschijnlijk vee
waarheid, maar de argumentatie is onvoldoende om de consistentie veronderstelling tussen organisatie
en onderwijskundige modellen te controleren.

De derde eigenschap is de plaats van de modellen in een ontwikkelingsmodel. 'De onderwijskundig'
organisatorische modellen zijn aan elkaar te relateren tot een onderwijskundig-organisatorisch structU'

reel ontwikkelingsmodcl.(.....) Dat betekent dat zij mogelijke stadia zijn in een proces van planmatig''

structurele verandering' (p33). De schrijver geeft de interne en externe condities weer, die een
ontwikkeling beïnvloeden. 'De interne en externe condities zijn te beschouwen als de middelen nie
behulp waarvan de structurele ontwikkeling van scholengemeenschappen bevorderd kan worden-
(p291). Als de meest wenselijke, planmatige verandering wordt de ontwikkeling genoemd langs o
reeks van toenemende valentie van de onderwijskundig-organisatorische modellen. Mits deze reeks nie
te rechtlijnig wordt opgevat (p294). De argumentatie is - evenals bij de consistentie - er één van
overtuiging. De auteur probeert de plausibiliteit van zijn stelling aan te geven. Ondersteuning doOi
feiten of bron-materiaal blijft achterwege.

Als vierde eigenschap is de wijze genoemd, waarop de openheid van het systeem van scholengemeen'
schappen in de modellen is verwerkt. Er wordt gekozen voor een relatief gesloten model (p33).
relatief gesloten wordt bedoeld, dat de modellen 'in beginsel als open worden opgevat en de
betreffende modellen uitgangspunten bieden voor bestudering en analyse van scholengemeenschappen
als open systemen. Het doel van deze studie omvat niet een diepgaande relatering van de 'e
construeren modellen aan omgevingsvariabelen' (p34).

Het hoofdaccent van de constructie ligt dus op de interne structuur van het systeem, waarbij de
omgeving een ondergeschikte rol speelt. De aangebrachte beperking is alleszins te rechtvaardigen.
auteur heeft de gemaakte beperking consequent laten doorwerken in zijn constructie.

Nadat Marx een uiteenzetting heeft gegeven van micromodellen en macromodellen in de onderwijskun'
de, waarbij hij voornamelijk steunt op respectievelijk De Corte e.a. (1973) en Matthijsscn (l97l|
ontvouwt hij een algemeen model van een onderwijskundig model op mesonivo (p66 e.v.). Het modej
omvat een achttal componenten, waaronder doclstelüngen der scholengemeenschap, onderwijsprofie'
en formatiepatroon der leerlingen.

Als doelstellingen van de scholengemeenschap worden onderscheiden: vakspecifieke doelen, nie'
vakspecifieke doelen, doelen in verband met externe demokratisering en het streven naar onderwijsvei'
nieuwing (p67). Deze opsomming is niet geheel in overeenstemming met de opmerkingen, die "P
pagina 34 over de doelstellingen van de scholengemeenschap gemaakt worden. Daar wordt gesteld dat
onderwijsleerdoelen indirekt, maar niet direkt worden beschouwd als doelen van de organisatie.

De constructie van het algemeen model van de scholengemeenschap op mesonivo moet beschou\*'d
worden als een belangwekkende bijdrage. Op dit aggregatienivo van de schoolorganisatie is weinig
bekend. Het is de verdienste van Marx dat hij hier zijn aandacht op heeft gericht. Temeer daar er een
aantal begrippen wordt ingevoerd en aan elkaar wordt gerelateerd door Marx, die centraal staan in de
problemen op het mesonivo van de scholengemeenschap. Als voorbeelden kunnen genoemd worden-
het gelede, ongelede en meervoudige onderwijsprofiel, injrapositionele differentiatie, intragroepsdiffe'
rentiatie enz.

In enkele hoofdstukken worden vijf organisatiemodellen voor scholengemeenschappen geconstrueerd-
de segmentale organisatie met hiërarchieke leidingsstructuur, lijn-, staforganisatie, collegiale organisatie
(linking pin), de gedifferentieerde organisatie en de procesorganisatie. De organisatietypen worden
beschreven aan de hand van rapporten. De invalshoek van de beschrijvingen is steeds de forme'®
hiërarchische gezagsrelaties tussen de participanten. Daarna worden de modellen beschouwd in hun
onderwijskundige optiek.

Zoals reeds eerder gesteld, is de theoretische opstelling van de auteur wetenschappelijk gezien te
betreuren. Het maken van 'praktijktheorieën' leidt niet tot de wetenschappelijk gewenste theorievoi'
ming. De studie vblgt hierin evenwel de traditie, die in de organisatiekunde bestaat.

^ dc 'relatief gesloten' benadering van de auteur wordt de aansluiting gemist met moderne theorievor-
Qj ® pver de eigenschappen van de organisatie enerzijds en de technologie en beslissingsprocessen in de
bock""'^¹''^ anderzijds. Misschien kan dit gemis verklaard worden uit de lange voorgeschiedenis van dit

Om gesloten' benadering kan als argument dienen om geen relatie te leggen met theorieën over

^ Seying en organisatiekenmerken. In de theorievorming over organisaties speelt de relatie van
(jg "'^aties met de omgeving een rol van toenemende betekenis. Waarschijnlijk zou het betrekken van
j^^relatie omgeving-organisatie in de beschouwing nieuwe interessante gezichtspunten opleveren,
ee ^^^rde van de studie ligt in de - wat eerder genoemd is - beschrijving van de werkelijkheid door
oude-rot-in-het-vak'. Praktici in de school; schoolleiders, bestuurders, leraren enz. zullen een schat
'tc" P'^^H^'-i'^e'^^ring in dit boek aantreffen. Zij zullen in het boek - om met de auteur te spreken -
"Qenties' aantreffen, die kunnen ontstaan in verschillende situaties.

E. (Je, GeerUgs, C., Lagerwey, N., Peters, J., Berghe, R. van den. Beknopte didaxologie,
^ Groningen: Tjeenk Willink, 1973.

^uw, A. de, Systeemleer en organisatiekunde, Leiden: Stenfert Kroese, 1974.
. atthijsen, M. Klasse-onderwijs, sociologie van het onderwijs, Deventer: Loghum Slaterus, 1971.
®uwese, W. Onderwijsresearch, Utrecht: Spectrum, 1970.

trouwbaarlieid en de homogeniteit van de verzamelde oordelen, waarbij een hoge mate van overeen-
stemming blijkt te bestaan tussen beide beoordelingsgroepen. De objectiviteit van de beoordelingspro-
cedure wordt ondersteund door de hoge mate van intersubjectieve overeenstemming tussen beoorde-
laars en het feit dat de drie beoordelingsopdrachten duidelijk van elkaar werden onderscheiden'
Tenslotte gaat De Corte in op een probleem, waar men bij doelstellingenonderzoek vaak mee te maken
heeft, nl. het bepalen van een criterium om bij elk leerdoel de graad van intersubjectieve overeenstem-
ming te beoordelen. Hij geeft hier weliswaar geen oplossing voor, maar verschaft de lezer wel enig®
richtlijnen.

Wat is nu de waarde van dit boek voor een zo begeerde doelstellingenmethodologie? Om deze vraag 'e
beantwoorden wil ik onderscheid maken tussen de algehele onderzoeksstrategie en het zware bewer-
kingsinstrumentarium van de onderzoeker.

Ten aanzien van de algehele onderzoeksstrategie kan men enige kanttekeningen maken, die de
algemene toepasbaarheid inperken. Zo laat De Corte doelstellingen van affectieve aard bewust buiten
beschouwing. Wellicht is dat bij een vak als rekenen minder bezwaarlijk, maar de onderzoeker die op
een dergelijke wijze doelstellingenonderzoek verricht bijvoorbeeld op het terrein van de kunstzinnig®
vorming of de wereldoriëntatie wordt met een enorm 'dekkingsprobleem' geconfronteerd. Verder kan
men bezwaren aanvoeren tegen de uitgesproken deskundigheidsbenadering van De Corte, maar de
auteur geeft zelf reeds aan dat ook andere groeperingen bij het onderzoek betrokken zouden kunne"
worden. Naar mijn mening ligt de waarde van dit boek vooral in de elegante procedures, waarmee
enkele problemen van specifiek-methodologische aard zijn opgelost. Hierbij kan iedere onderzoeker,
die zich met doelstellingenonderzoek bezig houdt, wel iets van zijn gading vinden.

interest, 35 participants from 18 countries attented a planning conference to discuss
of such an association. The meeting was held in Princeton, New Jersey, U.S.A. on April

of important accomplishments came out of the conference. Perhaps, the most important of
on a*^ ^^^ consensus that such an association would contribute greatly to educational improvement
by ^J^'ortd-wide basis and that steps should be taken to develop it. A Preparing Committee was elected
the Various geographic areas represented and charged with the responsibility of carrying forward
Kdu plannmg to bring the association tentatively named 'International Association for

Gen ® objective of rotating meetings, the first official meeting of IAEA was held in

Oncf^H- Switzerland on May 27, 28, 29, 1975. Attented by 32 representatives of 30 organizations
tuti " international organizations) in 17 countries. Tlie participants reviewed a draft Consti-

obi°"- By-Laws, elected officers and Executive Committee members, reaffirmed the basic
Co of IAEA as specified in the Constitution, and identified a number of projects and

as M ' ™Portant accomplishment of this meeting was the decision to seek affiliation with UNESCO
this "■'Governmental Organization. A dossier has been filed with UNESCO for NGO 'C status. To
a, the President of IAEA conferred with UNESCO officials and the Executive Committee met
UNESCO in Paris on December 1 and 2,1975. At the same time, plans were made for the next full

International Association for Educational Assessment can be described as a federation of vital
intr"'^^^- organizations already in existence to share information and expertise and to encourage
eyj|®'®Sional as well as international cooperation. As an Association of a number of major educational
tht research groups from all parts of the world, it hopes to serve as a resource not only

tj, ""Sh its international structure, but through its regional representation as well. Through IAEA,
solut' and agencies allied in interest and expertise, hope to make a contribution to the

Resident: WiUiam W. Turnbull, U.S.A.
«.^^■P'esident: Iraj Ayman, Iran
•^cretary-Treasurer: WiUem Solberg, The Netherlands

^^"iparability of Degrees and Courses: Sanford Jameson
£ °P®tation with Other Organizations: Iraj Ayman
p ■'hange of Personnel: Junius Davis, U.S.A.
nance: The Executive Committee
tute Plans and Activities: RogeUo Di'az-Guerreio
Sanizational Procedures: Hamid Zahedi, Iran
J. 'ertai Service: Karlheinz Ingenkamp, West Germany
''Search: WiUem Solberg

Het eerste nummer van de 'IAEA Journal' bevat verder de 'Construction and Bylaws' en een eerst®
opsomming van organisaties en instituten, die bij IAEA zijn betrokken. Voor verdere inlichtingen ka"
men eventueel terecht bij:

Twee-bericht: Informatie-bulletin van het project 'Technische Wetenschappen 2', T.H. Delft

'Door een 'kerngroep', bestaande uit medewerkers van het Natuurkundig Practicum en van d®
Onderwijskundige Dienst wordt het z.g. 'introduktieblok' voor hoofdvakstudenten Natuurkunde aa«
de T.H. Delft onderzocht en verder ontwikkeld. De kerngroep geeft een informatie bulletin uit waafi"
regelmatig mededeling wordt gedaan over de stand van zaken. Belangstellenden kunnen zich voO'
toezending aanmelden bij het secretariaat, adres: Natuurkundig Practicum, Lab. voor Techn. Nat"
Lorentzweg 1, Delft, t.a.v. kerngroep PN-OD.'

Deel I: Beleidsplan, Deel II: programma's, Amsterdam, november 1975.
Pedagogische Studiën, Themanummer 'Leren denken'anno 1975.
Jaargang 52, nr. 10, oktober 1975.

(Bijdragen van C.F. van Parreren, J.J. Elshout, L. de Leeuw en L.A. Venger).
Van der Kamp, Max. Evaluatie Onderwijsresearch. Eindrapport. Amsterdam: Kohnstamm-InstituU"
november 1975.

Tot opvolger van de huidige directeur-secretaris van S.V.0. is met ingang van april 1976 benoemd:
DRS. C.W. VAN SEVENTER

De heer Van Seventer is momenteel werkzaam als waarnemend chef van de directie onderwijsstructuu
bij het Directoraat-Generaal Hoger Onderwijs en Wetenschappelijk Onderzoek van het Ministerie va"
Onderwijs en Wetenschappen.

Voorts zijn, met ingang van de genoemde datum, als adjunct-directeuren van het bureau van "
Stichting aangesteld:

Het Bestuur van de Vereniging voor Onderwijsresearch is voor het jaar 1976 als volgt samengesteld:
H.P.M. Creemers (voorzitter)
E. Warries (vice-voorzitter)
H.M. van Strien (secretaris)
H. Wesdorp (pennmgmeester)
M. Geense

M.A.M. Schoemaker-Hol.
Het adres van het secretariaat is:
Drs. H.M. van Strien
Afdeling Onderwijsresearch
Vrije Universiteit
De Boelelaan 1105
Amsterdam.

In this article, the following historical overview of developments 1945-1975 in educational

measurement and educational research in the Netherlands is presented and discussed.

1945-1950 C: recovery; good intentions; territorial fights resumed
A: little research; some psychological test construction
P: 'determination': judging pupils' fitness for existing programs

1950-1955 C: awakening interest in the field, primarily in selection
A: some early test validation studies

1955-1960 C: 'Not selection but...' (didactics; counseling; going comprehensive)

A-. the first achievement tests constructed (CITO blueprint 1958) - CITO =
Centraal Instituut voor Toets-Ontwikkeling (National Institute for Educational
Measurement) -
P: criterion measures wanted; can the System be changed at all?

1960-1965 C: Educational Measurement gains some ground - promoted by growth of
student numbers

A: new educational research institutes, many new projects; SVO founded (1965)
- SVO = Stichting Voor Onderzoek van het Onderwijs (Foundation for
Educational Research) -
P\ methodology; raising interest, getting cooperation in schools

A: congresses, publications, international contacts, diversification of subjects, the

first action research projects, etc.
P-. problems of educational goals (and research goals and methods) - complicated
by ideological controversies

A -. educational objectives; curriculum; individual study systems; etc.
P: orgaruzational problems; research coordination, quality control (subvention
procedures); impact of outcomes (political decision procedures)

jg ®ijgewerkte tekst van een lezing t.g.v. de oprichtingsvergadering van de V.O.R., te Utrecht, op 5
Ptember 1975. De letterlijke tekst - zelf een bewerking van 'Some remarks on educational
. ®asutement and research in the Netherlands, 1954-1975'. RITP-Memorandum 047, oktober 1974 -
®erder uitgekomen als RITP-Memorandum 059, September 1975.

In the discussion of the problems of 1970-1975, namely that of the impact of the outcomes
educational research, a special task for both the newly founded educational researcher
association (Vereniging voor Onderwijs-Research, VOR) and the present journal (Tijdschru
voor Onderwijs-Research, TOR) was highlighted. In matters of educational change and i""®^
tion in general, and in the Netherlands, with its 'unusual degree of social cleavage,' in particula >
pohtical decision making is much more hkely to be tuned to flexible compromise with the m"
important political ideologies and pressure group claims than to systematic planning on t«
basis of sound research findings. Worse, fund-^.mentally critical educational research -
example, evaluation studies regarding educational innovations and experiments - are unlii^e i
to be welcomed and sponsored. In this situation, the special task for VOR and TOR consists ®
working out and making clearly known what educational research stands for, which quaU'
requirements must be respected, and how good educational research can be both tuned to an
used for improving the educational system, without being trapped in politics.

1. Zoals de titel al kon doen vermoeden, blijven de volgende beschouwingen beperkt tot'
a) Nederland en b) de onderwijsresearch. Uit een oogpunt van adequate geschiedschrijvi^
zijn zulke beperkingen natuurlijk niet reëel, maar als men in één lezing iets overzichtelij''
wil zeggen over dertig jaar geschiedenis en nog een stukje toekomst ook, dan moet m®"
wel drastisch snijden. Het enige wat ik eraan kan doen, is een paar inleidende opmerki"'
gen wijden aan het buitenland (a) en aan andere onderzoeksgebieden (b).
Wat andere landen betreft: kijken we daarbij naar de V.S. en Europa, dan valt enerzij»
een duidelijke parallelliteit in de ontwikkelingen te constateren, anderzijds een duidelij''
invloed op het gebeuren uitgaande van de V.S. Die twee zaken - aspecten - zijn overa|
waar te nemen. Ook voor een aantal van de ontwikkelingslijnen die in het volgende voO
Nederland zullen worden beschreven, geldt, dat zij, analoog, ook elders voorkomen, en/o
dat zij hun impuls vanuit de V.S. hebben gekregen. Dat daarmee echter nog maar he®
weinig gezegd is wordt duidehjk zodra we constateren dat het (b.v.) in België, Duitslan"'
Zweden, Frankrijk, Engeland toch maar heel anders is gegaan dan in Nederland. P
opzichten waarin en de oorzaken waardoor die ontwikkelingen — toch ook — zo stef
verschillen moeten hier echter buiten beschouwing bUjven.

Wat betreft andere onderzoeksgebieden: het is duidelijk, dat de onderwijsresearch in v®'
van zijn ontwikkeUngslijnen en vooral ook in de bijbehorende ontwikkehngsproblem®"!
niet alleen staat. Het lijkt nuttig daar iets meer over te zeggen, als algemene achtergro"
voor het volgende — en om ons het samengaan, en de samenhang, van onze problemati®
met die van andere gebieden van wetenschap te realiseren. Daarbij gaat het niet alléén
de gammawetenschappen maar in sommige opzichten ook om alpha- en/of beta-gebied®"'
het gaat ook niet aUeen om problemen van toegepaste maar soms ook van zuiv®f®
wetenschapsbeoefening.

Om bij dit inleidende punt niet te lang te hoeven stilstaan en toch iets substantieels t®
kunnen bijdragen heb ik een hjstje opgesteld van zulke meer algemene kenmerken (z'®
Schema 1).

uitgedrukt'. Dit is gebaseerd op een bekende manier om 'harde' en 'zachte' wetenschap^'
gebieden te onderscheiden. Harde wetenschappen hebben een sohde, stevige kern: e®"
'body of knowledge'. Die kern vindt men o.a. terug in inleidingen tot het vak;
middelbare-schoolboeken eventueel, maar zeker in de basisprogramma's in het hog®'
onderwijs. Die veranderen naar inhoud niet zo veel meer: er is gewoon een basis. Va"
daaruit vindt de groei plaats; d.w.z., in het beeld van de kern- zij groeien aan de rand-
Zachte wetenschappen daarentegen hebben een zachte, niet sohde kern: bij praktisc"
ieder detailonderzoek krijgt men weer te maken met de onzekerheden van die zacht®

Schema 1: Kenmerken van de empirische onderwijskunde en van andere weten-
schapsgebieden met soortgelijke moeilijkheden

l^e empirische onderwijskunde, gezien als de (sub-) diseipline of het wetenschapsgebied
Waarin de onderwijsresearch (O.R.) thuis hoort, is, evenals verscheidene andere gebieden:

(3) een wetenschap die zich pas sinds één of twee decennia op empirisch onderzoek heeft
geworpen; en die dit heeft moeten doen:

W) zonder een stevige empirisch-wetenschappelijke traditie om op voort te bouwen,

(5) zonder door de tijd beproefde procedures voor onderzoeksorganisatie, voor commu-
nicatie en samenwerking,

(6) met weinig of geen geïnstitutionaliseerde contacten met (beoefenaars van) oudere
vakken die langer met het bijltje van het wetenschappelijk onderzoek hebben gehakt,
met weinig coryfeeën van internationale allure, en

(8) zonder een (of meer) duideüjk(e), aanvaard(e) paradigma(ta) in de zin van Kuhn;

(9) een wetenschap waarin men er veel moeite mee heeft om, naast democratische
besluitvormings- en overlegprocedures, óók de onmisbare hiërarchische structuren
naar erkende competentie op te bouwen;

een wetenschap waarin de research-produktie wordt gekenmerkt door divergentie,
óók qua uitgangspunten en basisbegrippen, en door een overmaat van 'kleingoed'
zonder veel verband;

"1) een wetenschap die een relatief lage status heeft, bij andere wetenschappen en bij het
publiek,

^12) alsmede, door dit alles, relatief weinig blijvende invloed, weinig effect op het
maatschappelijk gebeuren.

Anders uitgedrukt: De 'kern' is week gebleven - pogingen tot versterking daarvan hebben
Weinig succes - de randgroei is daardoor grotendeels wildgroei gebleven - gebaseerd op
hulpconstructies (modellen = wegwerptheorieën) - met een opbrengst van weinig stabiele
Waarde.

Hoe kunnen zulke wetenschappen groeien? Ten eerste, door echte verstevigingen in
l^ern. Zij kunnen ook een sóórt randgroei vertonen, die dan wel grotendeels, maar
hm^'^ " niet helemaal wildgroei is; namelijk, wanneer men de kern versterkt d.m.v.
de L ^^'^^tructies ad hoe. Die maken dan toch een uitbouw mogelijk - tenminste zolang
Ij betreffende hulpconstructie het houdt.

^ "erkent ongetwijfeld het beeld; die hulpconstructies - die wij graag 'modellen' noemen
^ijn conceptualisaties-ad-hoc. Soms hebben die conceptualisaties een privé-karakter,
horen zij bij een bepaalde school, soms bij een voorbijgaande mode van nieuwe
^^ Orden voor oude problemen. Zij zijn vaak zeer slim bedacht, echter zelden zo grondig
^ °^dacht, dat zij een kans maken om algemeen aanvaard te worden — d.i. tot een
^^rkelijke, blijvende versterking van de kern bij te dragen. Vaak zijn zij daar ook niet
.eer voor bedoeld. Modellen zijn soms veeleer: 'wegwerp-theorieën' - passend, zou
het'^ heggen, bij onze economische expansie en in onze wegwerpcultuur. De vraag waar
jj^ aankomt is uiteraard, of wij er goed aan doen daarmee door te gaan.
^ 8a nu niet verder met dit voorafje - het gestelde diene ter overdenking. Ik wil er alleen
hg aan toevoegen, dat het hiermee geschetste probleem, naar mijn mening, waarschijnlijk
Q belangrijkste en in ieder geval het meest onderschatte probleem van de wetenschaps-
gg, Wikkeling is op al die gebieden waarop men zich de zoëven genoemde twaalf punten
®el of gedeeltelijk kan aantrekken.

2. Het nu volgende bliksem-overzicht over 30 jaren 'historie-zoals-meegemaakt' -
staat het boven Schema 2 (p. 150) - heeft uit de aard der zaak een wat persoonuJ
karakter. Het is ook wat willekeurig, wat betreft de keuze van de 'klimaats'-factoren
de 'activiteiten' (A) en de 'prominente problemen' (P): ik had het best heel anof
kunnen opzetten en zeker heel anders kuimen formuleren. Maar belangrijker is natuurlij
het persoonlijke element dat er ook dan in gezeten zou hebben. Anderen, die er óók
geweest zijn en er ook aan hebben meegewerkt, maar in een andere hoek, zoude
ongetwijfeld een ander overzicht presenteren. Misschien is het daarom goed om de ho
van waaruit ik de historie bekijk, de hoek waar ik gezeten heb en waar ik aan de zaak n
meegewerkt, kort te karakteriseren. Laat ik maar gewoon een paar namen van gebieden e
onderwerpen noemen waarmee ik me vanaf het begin van de 40'er jaren heb bezie

gehouden. Psychologie als empirische wetenschap, grondslagenproblemen; cognitie-onde

zoek: denk- en dieptepsychologie. Dat waren (en zijn) mijn basis-Uefhebberijen - ve^
van behavioristisch, zoals u ziet. Daarnaast wiskunde-onderwijs enerzijds, 'toegepa®
psychologie' in de oude betekenis anderzijds: selectie en advies voor school- en beroep
keuze, bedrijfspsychologie: personeelsselectie en -beoordeling, werkclassificatie. Verdef'
testconstructie, vahdatie, criterium-analyse; leidend tot methodologie en in het bijzonde
psychometrica en didakometrika — dus: mental and educational measurement. ,

We zijn nu ergens achter in de 50'er jaren aangekomen en daarmee is de basis ^
geschetst; wat daarna kwam weten de meesten van u wel. Ik wil er toch nog graag e®
opmerking aan toevoegen, een opmerking die alle, genoemde en niet-genoemde, (schij''
bare) veranderingen van gerichtheid voor u misschien iets begrijpelijker maakt. Ik ö®.
telkens weer, via empirisch onderzoek in de toegepaste sector dus, terecht gekomen "'J
kwesties die je zou kunnen karakteriseren als prealabele problemen — of misschien nw
beter als: de voorwaarden (deels 'randvoorwaarden', met een modewoord) voor zin^"
werk. Om goed te kunnen testen, bijvoorbeeld, moet je gevalideerd hebben, en, is dat m®
gebeurd, dan moet je gaan valideren; om goed te kunnen valideren moetje aan criteriuf"'
analyse doen, èn aan criteriumconstructie: toetsconstructie met name ook. Voor dat all®
heb je natuurlijk een goede methodologie nodig; maar óók: institutionalisering van J
werk. Wil je dat goed doen, in casu: een onderzoeksinstituut goed leiden (RITP) en e®
ontwikkelingsinstituut goed starten (CITO), dan kom je terecht bij problemen
onderzoeks-organisatie, onderzoeksbeleid, researchstrategie - met als kernvraag: Hoe ka
men onderzoek zo opzetten dat het wat uithaalt? Die vraag leidt weer, even onontkoo^
baar als in vorige gevallen, tot een nieuwe prealabele vraag: Op welk gebied (en op vi'elk
wijze) moet onderzoek 'wat uithalen'? Nieuwe studie-onderwerpen derhalve: onderWr
systemen, innovatiestrategieën, onderwijsbeleid. Dit laatste is, zoals wij allen weten, e®
uiterst belangrijke 'randvoorwaarde' voor al ons werk.

Maar ik ben nog niet klaar! Wat is namelijk een conditio sine qua non voor een bet®^
onderwijs- (inclusief innovatie-) beleid, voor betere overheidsplannen, beter O.R.-bele' '
het tot stand komen van betere onderwijswetten vooral ook? U raadt het: een bete''
onderwijskunde - met name betere basisbegrippen, meer consensus over hoofdzaken, ee
wérkelijk versterkte 'kern'. Daaraan voeg ik nog toe: een betere disseminatie van dj
basiskennis. Daarmee zijn we terug: van het beleid bij het vak; zij het dan speciaal bij d
studie en verbetering van de grondslagen, de theorie, de methodologie en, niet te vergete
de onmisbare forumfunctie in dat vak.

En daarmee zijn wij dan óók terug bij een hoofdtaak van de V.O.R., de Vereniging vo"
Onderwijs-Research.

Het schema, met toelichting, dan nu.
^ Verdeling in perioden van vijf jaar is willekeurig, maar zij komt niet zo slecht uit.

betreft de drie categorieën - K, A en P - deze zijn natuurlijk niet erg scherp te
verscheiden. 'Activiteiten' brengen 'Problemen' met zich mee en in zekere zin horen
^ beide ook bij het 'Klimaat', d.w.z. bij de determinanten van het sociale klimaat in een
. De term sociaal klimaat is echter speciaal bedoeld om aan te duiden wat en hoe
'n^b'bepaalde periode dacht over O.R. - zowel binnen als buiten het groeiende
j^.-R--establishment' - en wat de positie en de status van O.R. was.
'e Uitdrukking - het groeiende O.R.-establishment - zal u waarschijnlijk ook zonder
^eliehting wel aanspreken. Toch nog een enkel woord over die groei. Die is zoals wij
he^ f spectaculair geweest, kwantitatief gezien bepaald een succes-verhaal. Die groei
f®tt zich ook zeer snel voltrokken. In de eerste periode, tot ongeveer 1950 was er bijna
®ts dat de naam empirisch onderzoek verdiende. De validatie-studies die bij de tweede
^^fiode vermeld staan werden uitgevoerd door 'anderhalve man en een paardekop'. Pas in
j® derde periode begonnen de eerste wat verder reikende ideeën naar voren te komen.
1 .'r^migen durfden, nog steeds aarzelend, te gaan twijfelen aan de 'cultuurnoodzakelijk-
in Nederland, van het heersende immobilisme. Men ging zich voor het eerst wat
, Afstellen van wat er met O.R. zou kunnen worden gedaan; en er kwamen enige,
Scheiden, fondsen beschikbaar - zo bescheiden echter, dat Idenburg, nog steeds, de
.sering terecht kon verwijten dat zij het nationale onderwijs 'als een snoepwinkeltje'
, "®erde. De werkelijke groei kwam pas in de zestiger jaren en dan nog vooral in de
, eede helft daarvan - samen met de sterke aanwas, eerst, in de aantallen studenten en,
j. in aantallen afgestudeerden in de sociale wetenschappen.
® situatie nu behoef ik u niet te schetsen. De O.R.-beweging is duidelijk een 'establish-
in its own right' geworden, althans aan het worden, een establishment dat streeft
zijn eigen bestendiging, versterking en uitbreiding. Sommige van de met die nieuwe
sitie verbonden problemen komen in het volgende nog ter sprake.

1" Laten we nu de zes vijfjaarsperioden eens nader bekijken, met het overzicht erbij:
150).

de eerste regel, achter K, behoeven alleen die 'territorium-gevechten' enige nadere

^^Titorium-gevechten': Deze ethologische uitdrukking is naar mijn mening bijzonder
.Schikt om bepaalde eigenaardigheden van de Nederlandse cuhuur mee te kunnen
p^schrijven. Wij zijn altijd zeer goed geweest in allerlei territorium-strijd, op kleine schaal,
ofessor Lijphart heeft, zoals de meesten van u bekend zal zijn, de Nederlandse
■iienleving qua tradities door de jaren (en eeuwen) heen, beschreven als een samenleving
®t 'an unusual degree of social cleavage'. Die gespletenheid is gebaseerd op een aantal
j^fschiiiende dimensies.

j ® eerste is natuurlijk die van de 'zuilen' - ik bespaar u de toelichting. Daarnaast is een
vere politieke dimensie van overwegend belang geworden, een dimensie die steeds meer
afhankelijk van de zuilen-trichotomie lijkt te worden: 'progressief versus conservatief
^ steeds echter zijn de 'zuilen' van grote betekenis en wel omdat de indeling daarnaar,
nu nog duideUjker merkbaar, ten grondslag ligt aan de opzet van het Nederlandse

andere uiterst belangrijke onderscheiding is uiteraard die naar discipline. In 1945-'50
^fde deze onderscheiding de boventoon bij de territorium-gevechten. Het ging toen met

K = (sociaal) klimaat; A = (ondcrzoeks)activiteiten: P = (voornaamste) problemen

1945-1950 K: naoorlogs herstel; goede bedoelingen; hervatte territorium-gevechten
A: weinig onderzoek; enige (psych.) testconstructie

P: 'determinatie'; hoe 'bepaalt' men de geschiktheid van (a.s.) leerlingen voor
bestaande schooltypen?

1950-1955 K: ontwakende belangstelling, m.n. in selectie-vraagstukken
A: enkele vroege validatiestudies

P: 'Wet van Posthumus' (1940) - algemener: het criterium-probleem - wordt
(her)ontdekt

1955-1960 K: 'niet selectie maar...' (didactiek; psychologisch advies; 'going comprehen-
sive'; scholengemeenschappen)
A : eerste school- en studietoetsen (CITO-blauwdruk 1958)
P: criteriummaatstaven gevraagd; kan het Systeem wel worden veranderd?

1960-1965 K: eerste successen van educational measurement; studentenmassa's bevor-
deren vraag naar toetsen
A: nieuwe instituten, nieuwe projecten; SVO opgericht (1965)
P: methodologie; hoe participatie van het onderwijs te verkrijgen?

1965-1970 K: sterke groei: van activiteiten, belangstelling, institutionalisering

A: congressen, publikaties, internationale contacten; diversificatie van onder-
werpen; eerste actie-onderzoek-projecten, enz.
P: doelstellingen van onderwijs (maar ook van onderzoek); gecompliceerd
door ideologische controversen

P: organisatieproblemen; researchcoördinatie; forumfunctie; kwaliteits-
controle (subsidiëringsmethoden); halen uitkomsten iets uit? (politieke
besluitvorming)

name tussen een aantal - niet meer dan een handjevol - psychologen die wat empi^^^ ^
werk wilden doen met betrekking tot onderwijs, en een aantal - ook maar weinigen,
toen een relatief machtige groep van - theoretische pedagogen, die op deze initiatieven ®
activiteiten reageerden door uitdrukkelijk te stellen: 'Onderwijs is ons gebied, niet dat v»
juUie'.^

2. Dit soort territoriumgevechten heeft nog lang doorgewerkt, ver voorbij die eerste vijf jaar n» .
oorlog. Toen de oude Werkgroep Onderwijsresearch - opgericht in 1954(?) - zich (ik denk dat ^^
omstreeks 1960 was) stelde achter een plan om een Centraal Instituut voor Toets-Ontwikkeling oP ,
richten, kwam bijvoorbeeld nog van de zijde van Langeveld en Vliegenthart de waarschuwing ^
psychologen - en zeker 'psychometrici', toen door deze schrijvers nog tussen aanhalingstek ^^
geplaatst - niet moesten denken dat zij daarbij meer dan enige hand- en spandiensten zouden k'""' »
verlenen. Het maken van schoolvorderingentests lag, zo schreven zij - en Kohnstamm had dat al l^j
voor de oorlog gezegd - 'op de weg van de pedagogen'. In een concept-antwoord op die brief " ^
nooit verstuurd is, maar dat hoefde ook niet want de beide heren kregen toch alle vergaderstukke"^^
in dat concept-antwoord, met de strekking waarvan de groep zich akkoord verklaarde, heb ik
gesteld, dat het onderwerp toetsconstructie inderdaad primair op de weg van de pedagogen lag, ^
dat zij het daar dan ook hadden laten liggen, een halve eeuw lang. Zodat een initiatief om het oP
pakken van de zijde van in onderwijs geïnteresseerde psychologen toch alleen maar welkom kon z'J

^it soort territoriumgevechten hebben wij nu wel grotendeels achter ons gelaten. Hoe-
met de onderwijssociologen als derde groep erbij: helemaal verdwenen zijn zij zeker

een belangrijke dimensie waarnaar wij ons verdelen, moet worden genoemd. Evenals
® naar disciplines is ook deze internationaal bekend: de O.R.-mensen, de onderzoekers,
®genover - zoals dat tegenwoordig met een soort agrarische beeldspraak heet - de
. e'^kers in het veld, de onderwijsgevenden. De werkelijke situatie is in Nederland echter
"gewikkelder. Er is bij ons namelijk een betrekkelijk machtig en officieel geïnstitutionah-
^erd establishment tussen deze beide in: dat van de 'Innovatoren' (van de Landelijke
®uagogische Centra (LPC) en het Werkverband van Plaatselijke en Regionale Onderwijs-
"viescentra (WPRO) met name), aan wie, in principe exclusief, de taak is voorbehouden
, O-R.-bevindingen toe te passen op en in te brengen in de onderwijssituatie. Zijn zij
'^nange agents'? In zekere zin wel - maar het probleem met dit tussen-establishment is,
°'gens sommige critici, dat zij onderzoeksbevindingen die zij niet begrijpen moeten
°orgeven naar schoolsituaties die zij niet kennen. - Zo staat het in de oude Engelse
kst; ik verbloem dat nu maar niet. In het Nederlands heb ik, elders, het probleem
eschreven als dat van mensen die door hun positie - geen actieve deelname aan de
®search noch aan het onderwijs zelf - structureel dus, met 'twee linkerhanden' opge-
jCheept zitten (De Groot 1974, zie voetnoot 3).
ieder geval, ook dit is een trichotomie van belang.
Zal zo niet doorgaan,
algemene punt waar het om gaat is het volgende.

ziet ernaar uit dat er in Nederland een tendentie bestaat - sterker dan in de meeste
nere landen — waardoor verschillen tussen groepen een ideologische lading krijgen, zó
\zij kunnen worden opgevat als 'principiële' verschilpunten; met als gevolg dat er een
eiale structuur ontstaat bestaande uit een groot aantal afgescheiden, betrekkelijk
athankelijke sub-estabhshments met eigen territoria en goed verdedigde grenzen ertus-
Enigszins in karikatuur beschreven is de consequentie van deze structuur dat over
®n zaak van enig gewicht een nationale besUssing kan worden genomen indien bij de
'uitvorming niet alle subgroepen, apart, vertegenwoordigd zijn. Dat betekent dat
Q ''^missies en andere besluitvormingsgroepen bij ons de neiging vertonen om te groot, te
^ Vangrijk te worden om nog te kunnen werken; en dit leidt er dan weer toe dat over
^ fundamentele zaken géén werkelijke besUssingen worden genomen. — Elders heb ik
, gewezen dat deze situatie zich, helaas, uitstekend leent tot een regeer-politiek van

type: Verdeel enheers...^
^ andere woorden gezegd: onze geschiedenis heeft ons sterk gemaakt in de kunst van de
^^".®^istentie, maar zwak in de vaardigheden van co-operatie, samenwerking - om maar te
ijgen van nationale planning en vernieuwing volgens plan. Maar nu ben ik al doende
de P van de laatste periode. Terug naar de chronologie, naar dtf oude tijd.
A (voor activiteiten) van 1945-1950 behoeft geen toelichting, de P maar heel weinig,
die tijd twijfelde praktisch niemand aan de juistheid en bestendigheid van ons
®goriale, permanent selectieve systeem - met zijn hoge percentages mislukte en
■^raagde school- en studiecarrières. Het was toen nog zo goed als ondenkbaar dat dat

^ bussen centrale overheid en individuele school. Kritisch commentaar op een ministeriële discussie-
de ^''cchure RITP. Amsterdam 1974; Adequate opbouw van een tertiair systeem: Zijn de voorwaar-
Vervuld? In: Ontwikkelingen naar tertiair onderwijs. Congresverslag februari 1972. Tilburg:
j^j^holieke Leergangen 1972, p. 63-82. Ook verschenen als RITP-Memorandum nr. 009. Amsterdam:

systeem ooit zou veranderen. Bijgevolg was het probleem van die jaren dat van het
'determineren' van leerlingen, met behulp van welke middelen dan ook, in termen van de
mogelijkheden die het systeem bood: 'vaststellen' (tussen aanhalingstekens) van het
school- of programmatype - welk van de bestaande categorieën - waarvoor leerlingen
'geschikt' waren, en dat dan op leeftijden tussen de 11 en 14 jaar.

Ook deze manier van denken - waarbij je kinderen van die leeftijd zou kunnen 'determi*
neren' als planten, als je maar de goede testmiddelen (de goede Flora) ontwikkelde - is it^
onze tijd nog niet helemaal overwonnen." Maar wij hebben sindsdien toch wel wat
voortgang gemaakt.

De belangstelling voor selectie-vraagstukken waarvai} hier wordt gesproken, ontwaakte m
deze periode op enkele plaatsen in het onderwijssysteem. Sommige grote middelbare
scholen en groepen daarvan (b.v. in bepaalde gemeenten) en in het bijzonder de instellin'
gen voor tertiair technisch onderwijs - de m.t.s.'en, nu h.t.s.'en geheten, en de Tech-
nische Hogeschool Delft, toen de enige - namen testpsychologen in de arm om hen te
helpen bij het oplossen van hun selectieproblemen. In een aantal gevallen leidde dit tot
validatie-studies - waarbij dan uit de aard der zaak, evenals in andere landen, het
criterium-probleem naar voren kwam (zie P). 'Schoolsucces' in een gegeven, specifieke,
opleiding bleek niet de harde, objectieve en betrouwbare criteriummaat te zijn waarop
men altijd had gerekend. De traditioneel uniforme eisen van het Nederlandse systeeni.
met zijn jaarlijkse overgangsbeslissingen en eindexamens van specifieke secundaire ^^
postsecundaire opleidingen, deze op papier uniforme eisen bleken niet te garanderen wat
zij geacht werden te garanderen, namelijk dat de 'objectief geschikten zouden slagen en
de 'objectief ongeschikten zouden falen. Toentertijd was dit - ongeacht het feit dat
voorlopers daarop al veel eerder hadden gewezen - een soort ontdekking.
In deze context begon men langzamerhand ook de werking van de zogenaamde 'Wet van
Posthumus' beter te begrijpen - nu min of meer beroemd in dit land (of alweer
vergeten?). Die 'wet' zegt ongeveer dit: Zelfs in een betrekkelijk homogene klas in zo'n
ouderwets Nederlands, specifiek, monolithisch opleidingsprogramma, zullen leraren ^
gegeven ons permanent selectieve systeem, met klassikaal onderwijs, gegeven het ontbre-
ken van objectieve maatstaven (examenmethoden, studietoetsen), en gegeven ons, meer
dan een eeuw oude cijfersysteem - gegeven dit alles, zullen leraren in belangrijke,
moeilijke vakken zowel hun manier van onderwijzen als van beoordelen en cijfers geven
aanpassen aan wat de middelste helft van de klas of groep aankan, met als gevolg dat ii^
doorsnee ongeveer 25% onvoldoendes zullen vallen.

Het punt waar het op aankomt is dat vaste percentages onvoldoendes bij een vast aantal
belangrijke, moeilijke vakken bij gegeven beoordelingsmaatstaven, tot vaste zak-percenta-
ges leiden - en wel ongeacht het prestatieniveau van de klas. Dat betekent dat het
systeem zelf het fenomeen van het zitten blijven door de schooljaren heen bestendigt-
Posthumus schreef daarover al in 1940 een waarlijk briljant artikel - dat toen zijf
audience miste ten gevolge van het uitbreken van de oorlog en dat, helaas, nooit herdrukt

4. Zie b.v. de ideeën over 'positieve selectie' - in de betekenis van: studenten, die onvoldoend®
propaedeuse-resultaten hebben behaald, vertellen waar zij wèl geschikt vopr zijn - m.b.t. de Herstruc-
tureringswet aangehangen door regering en parlement, en bekritiseerd door de Commissie Voorberei-
ding Herprogrammering Wetenschappelijk Onderwijs (CVHWO, Derde werkstuk: De propaedeuse. D«"
Haag: Academische Raad 1974).

■s. De 'wet' houdt ook in dat zakken of slagen als criterium, afhankelijk als dit is van het
prestatieniveau van de klas - of: in een bepaalde school - onbetrouwbaar is.

soort bevindingen, met bijbehorend empirisch materiaal maakte echter nog steeds
Geinig indruk; tot constructieve pogingen tot verandering van het systeem leidden zij
Nauwelijks. De invloed die zij hadden was veeleer averechts. Degenen die ahijd al tegen
eijfers waren geweest, zeiden nu 'Zie je nou wel', en werden gesterkt in hun neiging om de
permanente selectie van het systeem in vage woorden te verbloemen. Bij pedagogen en bij
onderwijs-onderzoekers trad een andere vluchtreactie op: men vond selectie niet meer
^o'n interessant probleem en ging zich op andere zaken werpen. Dit staat achter K: 'niet
Selectie, maar...'. Wat betreft de overgang naar de studie van de didactiek was Kohnstamm
trouwens al in de dertiger jaren voorgegaan, en door de meeste pedagogen gevolgd. Nu
l^^vam de selectieproblematiek - hoewel die het oude systeem in feite beheerste - nog
■^eer onder de tafel terecht in plaats van erop. Ook de psychologen, die trachtten selectie
Jo veel mogelijk door advisering te vervangen - zonder te streven naar verandering van
■^et permanent selectieve systeem zelf — werkten alleen maar aan lapmiddelen. De nog het
J^eest constructieve strategie van het type 'niet selectie maar X' was die van degenen die
begonnen te ijveren voor federaties van secondaire schooltypen onder één dak; d.i. voor
Scholengemeenschappen waarin het overstapprobleem kan worden vereenvoudigd en de
Schok van mislukking in een bepaald programmatype kan worden verzacht. Zoals bekend
Jjeeft deze beweging, waaraan ik, vooral in de beginfase van harte heb meegedaan,
bescheiden successen geboekt — zij het pas veel later.

'Och groeide, ondanks al deze omtrekkende bewegingen, langzamerhand het besef dat er
^^eer moest worden gedaan. Maar kon dat wel? Was het wel mogelijk de zo sterk
'^gebakken tradities van zo'n heel schoolsysteem te veranderen? U ziet: dat staat onder
Het feit dat deze vraag opkwam en reëel gesteld werd - kan dat wel? zo ja hoe? en
^aar moet je in hemelsnaam beginnen? - het feit dat men hierover durfde te gaan
"ienken was, opnieuw, een belangrijk novum. Tot dusverre was eigenlijk iedereen ervan
Uitgegaan dat dit zowel onmogelijk als onnodig was.

^n ander en uiterst belangrijk punt was, dat bij de onderwijsonderzoekers van die dagen
nog steeds een handjevol mensen — langzamerhand het besef begon te dagen dat het
ónmogelijk zou zijn welke vernieuwingen ook maar, hoe bescheiden ook, onder controle
te houden zonder te beschikken over adequate criterium-maten. Het werd eigenlijk toen
pas aan een langzamerhand wat groter wordende groep geïnteresseerden duidelijk dat men
nelemaal geen research van enige betekenis kan verwachten als men leerefftcten niet
behoorlijk kan meten. Dat was, naast overwegingen van verhoopte praktische bruikbaar-
heid. het voornaamste motief om aan toetsconstructie te begiimen. De eerste Nederlandse
Schooltoets — schoolvorderingentest heette dat toen nog — kwam tot stand in het
Brabantse onderzoek van 1956 waarbij de tweede spreker van vandaag betrokken was.'
l^e oude Meetkundetestserie van het RIT? (1958) was een andere pionier — primitief,
2oals het pioniers betaamt. Dat was het begin van de 'toetsbeweging' in Nederland. Ook
•^e eerste blauwdruk voor een CITO als nationaal instituut dateert uit die periode
(1958).®

Drs. C.J.M.H. Souren sprak op dezelfde dag over: Onderzoek in samenhang met innovatie.

Zie A.D. de Groot: Standpunt over onderwijs, democratie en wetenschap. Den Haag: Mouton
'971,hfdst. 3, p. 29-41.

De vraag of de beweging voor objectieve examenmethoden, voor school- en studietoetsen,
voor educational measurement, gezien de zware onheilsvoorspellingen en de sterke weer-
standen die zij in het begin opriep, het ooit gehaald zou hebben als zij niet óók in enkele
opzichten de wind in de zeilen had gekregen, die vraag is achteraf moeilijk te beantwoor-
den. Feit is in ieder geval dat die wind in de zeilen er wel was. De grote groei van de
studenten-aantallen maakte namelijk voortzetting van de oude traditie mondelinge tenta-
mens in veel studierichtingen aan de universiteit volstrekt onmogelijk. Daar kwam meteen
bij, dat de uitbesteding van correctie-taken bij schriftelijk werk aan (steeds meer)
medewerkers de problemen van objectiviteit, betrouwbaarheid en validiteit die daarbij
rijzen duidelijk aan het licht bracht. Zo kwamen velen ertoe het dan maar te proberen
met objectieve toetsmethoden - en zich daarbij te laten helpen (als zij verstandig waren)
door de enkele deskundigen die Nederland toen telde.

In diezelfde, periode groeide in het algemeen het besef van het belang van verbetering van
de methodologie - die van het meten in het bijzonder en die van de onderwijsresearch in
het algemeen. U vindt dat onder P; samen met een schijnbaar geheel ander punt, waar de
onderwijskundigen van die jaren zich zorgen over begonnen te maken: hoe krijg
houvast in de school, actieve belangstelling van leraren en schoolleiders in de eerste plaats:
participatie dus?

Wat de activiteiten (A) betreft, de belangrijkste gebeurtenis van die periode was zonder
twijfel de oprichting van S.V.0. (Stichting voor Onderzoek van het Onderwijs). Het feit
dat deze instelling er kwam en door de opeenvolgende ministers van onderwijs in het
algemeen adequaat van geldmiddelen werd voorzien was een essentiële, bevorderende èn
stabiliserende, factor van de grote groei in de tweede helft van de zestiger en in de
zeventiger jaren.

Vermelding verdient alvast, dat één van de eerste belangrijke taken, die S.V.0., onder
voorzitterschap van Idenburg, tot uitvoering bracht, bestond uit het maken van een nu zo
goed als perfecte blauwdruk voor het CITO en het op gang brengen van dit nieuwe
instituut (1967-1968). Maar daarmee zitten we al in de volgende periode.

Deze, voorlaatste, vijfjaren-periode was niet alleen de tijd waarin de Grote Groei begon,
maar ook de periode van de studentenrevolutie. Ik neem aan dat het niet nodig is veel te
zeggen over hoe dit ging en wat er gebeurde; het gaat nu om een zo recent verleden dat de
meesten van u dat ook als volwassen mensen hebben meegemaakt. Wel wil ik even
stilstaan bij de vraag welke invloed de, in de confrontatiejaren ontstane, nieuwe en vaak
veel heftiger gevoerde ideologische controversen op de O.R.-ontwikkeling in de toekomst
zouden kunnen hebben.

Om te beginnen moet gezegd worden dat wij er nu ook nog midden in zitten. De strijd
wordt weliswaar met minder, althans met minder naar buiten toe blijkende opwinding, en
minder in een revolutiesfeer gevoerd; maar dat die strijd nog steeds woedt is duidelijk
genoeg. Er zijn universitaire afdelingen (vakgroepen) waar uitgesproken 'anti-positivis-
tische', ja, anti-empirische opvattingen de overhand hebben gekregen. Ongeacht de vraag
tot welke ideologische variant deze bruggehoofden moeten worden gerekend - neomar-
xistisch, emancipatorisch, nog anders? - zij stellen een nieuw probleem. Dat probleem is>
dat hier vaak, samen met andere 'produkten van onze laatkapitalistische maatschappij', de
hele methodologie - de empirie, de logica, de rationaliteit - van de wetenschap zelf öf
wordt afgewezen èf ondergeschikt wordt gemaakt aan een vooropgesteld hoger principe-

daarmee wordt dan de hele idee van wetenschap, en van research in het bijzonder, in
® kern aangetast. Deze afdelingen leveren vele afgestudeerden af - in de psychologie, de
Sociologie en de agologieën - van wie moeilijk is te voorzien hoeveel, en welke invloed zij
'"de naaste toekomst zullen hebben op de onderwijskunde en de onderwijsresearch.

u het mij nu vraagt, dan zal die invloed ook in de toekomst, zo vrees ik, ondermijnend
verwarrend genoeg zijn, maar géén beslissende betekenis krijgen. Naar mijn verwach-
zullen de nieuwe ideologische controversen in Nederland zich net zo oplossen als de
°udere dit hebben gedaan. Zij zullen waarschijnlijk leiden tot nieuwe afsplitsingen en
°PdeHngen in kleine subgroepen, elk met zijn eigen, goed verdedigde territorium; subgroe-
Pfn die zullen leren elkaar te dulden en niet 'principieel' in de weg te lopen, maar die ook
"iet of nauwelijks echt zullen samenwerken. Daar waar werkelijke taken en functies
Vervuld moeten worden, zullen die verschillen in de praktijk wel minder groot en van
"linder belang worden. Maar dat neemt niet weg dat de subgroepen zelf zullen dóórgaan
J^et het benadrukken van de principiële aard van hun overblijvende verschillen - naar
Nederlandse trant. Ik voorspel dus in zekere zin een nieuwe 'pacificatie'; met als voordeel
äls je dat zo mag noemen, want het is een voordeel voor zwakke zielen — dat niemand
""gelijk hoeft te bekennen. Een reëler voordeel zou kunnen zijn dat, zo mag men hopen,
'^le ideologische territoria, die alléén principes, zondebokken, leuzen en mooie woorden
te bieden hebben - zonder nuchtere, ondersteunende, empirische, 'positivistische' feiten
^ dat die territoria vanzelf zullen wegkwijnen.

^o'n voorspelhng is uherst gevaarlijk, ik weet het. Maar ik kan me in dit land - als het
een beetje zijn nuchtere zelf is gebleven - heel moeilijk een andere gang van zaken

. Oor deze laatste periode laat ik de K en de A maar zitten; die kunt u zelf wel
interpreteren, èn aanvullen. Alleen iets over de P dus. Dat is ons laatste thema, want het
^at hier om urgente problemen van nu, die in de naaste toekomst zullen moeten worden
JJigepakt.

dan die P betreft, neem ik aan dat het voor iedere geïnformeerde waarnemer van de
."idige situatie duidelijk moet zijn, dat het vooral problemen van organisatorische aard
die de aandacht vragen. Na de fase van stimulering en van snelle expansie van de O.R.
Nederland bestaat er nu een duidelijke behoefte aan beter functionerende organisato-
rische kaders.' Daarbij denk ik niet alleen aan de interne 'organisatieproblemen' van
"istituten, maar ook aan samenwerkingsprocedures: 'research-coördinatie'. Ik denk ook
®an de verbetering van de 'forum-functie'; d.i. van de uitwisseUng van ideeën en van de
>chtbare, zakelijke, onderlinge kritiek die iedere wetenschap die iets wil worden nodig
"eeft; en ik denk ook aan een verbeterde 'kwaliteitscontrole', en kwaliteitsbevordering, te
^reiken door verbeterde subsidiëringsmethoden. Tenslotte is ook de vraag hoe men kan
..^i^eiken dat 'uitkomsten iets uithalen' uiteindelijk een organisatorisch probleem; name-
'Jk enerzijds een zaak van publikatie-, popularisatie- en disseminatie-methoden, en ander-
ijds van de organisatorische opzet van de samenwerking met het beleid, zó dat datgene

O.R. kan doen beter functioneert als bijdrage tot de politieke besluhvorming.
't laatste hangt natuurlijk niet alleen en zelfs niet in de eerste plaats af van wat wij.

■ Dat die behoefte er is, is in zekere zin een zegen: ook m.b.t. de 'structurele' problemen van onze
'deeldheid in territoria immers is betere, doelgerichte organisatie de enig mogelijke remedie; hopelijk
ifen we daar meteen wat aan doen.

binnen het O.R.-estabhshment, kunnen doen. Politieke besluitvorming speelt zich, bi]
definitie, grotendeels buiten de research-sfeer af. Maar dat neemt niet weg dat wij er vee'
mee te maken hebben; het neemt niet weg dat de zin van ons werk, evenals van alle
andere toegepaste Research and Development, in belangrijke mate afhangt van wat er mee
gedaan wordt, van 'wat het uithaalt'. Het neemt ook niet weg dat wij toch wel enig®
invloed op die besluitvorming kunnen uitoefenen. Daartoe doen wij er goed aan dit
probleem te zien als een extern organisatieprobleem, dat als zodanig bespreekbaar is "
'extern' in tegenstelling tot andere, interne, organisatieproblemen die wij binnen het
O.R.-establishment (een instelling als SVO daarbij inbegrepen) zelf kunnen regelen.
Ik zal deze twee groepen problemen, interne en externe, in het volgende apart bespreken>
in verband met de tijd, elk heel kort.

5. Wat betreft de interne problemen - instituutsorganisatie, samenwerking, coördinatie,
de forum-functie, optimalisering van subsidiëringsmethoden - het is duidelijk, dat juist
daaraan de laatste jaren veel is en wordt gedaan. Ik noem, in willekeurige volgorde:
het instituten-overleg, onderling en met SVO;

de strakker, minder vrijblijvend en efficienter wordende coördinatie-activiteiten van de
Contactgroep Research Wetenschappelijk Onderwijs;

de Onderwijs-Research-Dagen en het ontstaan van nieuwe tijdschriften (m.n. het Tijd'
schrift voor Onderwijsresearch, T.O.R.), als pogingen tot betere disseminatie en een
versterkte forum-functie;

verder: talrijke beleidsvoorbereidende, organisatorische activiteiten van SVO, in het
bijzonder met betrekking tot de financiering en de programmering van O.R., uitmondend
in Nota's die nog niet gepubliceerd zijn, maar die wel al bij het SVO-Bestuur liggen;
en tenslotte, last but not least, de oprichting van de V.O.R.

Uit al die activiteit blijkt de hoge urgentie van die hele groep van interne - O.R.-interne "
organisatieproblemen. Dat er een sterke behoefte aan betere regelingen voor dit soort
zaken bestaat behoeft geen verder betoog. Het is natuurlijk niet mogelijk deze lijnen naat
de toekomst apart te bespreken. Ik wil alleen een paar korte, algemene opmerkinge"
maken — en wel uitdrukkelijk als een ervaren 'grootvader', die in allerlei functies (ondef
meer tien jaar als bestuurslid van de Nederlandse organisatie voor zuiver-wetenschappehj"
onderzoek: Z.W.0.) veel goede en slechte research aan zich heeft zien voorbijgaan.
Sprekend uit die ervaring - ervaring aan talloze geslaagde en vooral ook gestrande oi
waardeloos gebleken onderzoekopzetjes, geslaagde en mislukte promotieplannen, maa^
ook goede en slechte grotere research-projecten en -programma's; ervaring ook met het
goed en slecht functioneren van onderzoeksorganisaties, met instituten die komen en
gaan, althans opkomen en afzakken — sprekend uit die ervaring dan, wil ik in de eerste
plaats benadrukken van hoe verschrikkelijk veel belang goede regelingen zijn. In dit
opzicht zijn Scylla en Charybdis bekend: zij heten 'overorganisatie' en 'onderorganisatie •
O verorganisatie - b.v. van de inspraak van iedereen - kan verlammend werken; maaf
onderorganisatie, waarbij je je gang maar gaat, waarbij niemand op je werk zit te wachten,
niemand eisen stelt, niemand scherpe, zakelijke kritiek levert, is zo mogelijk nog erger-
Laat ik het kort maken: Nu wij bezig zijn Charybdis te ontwijken, d.i. onze problemeii
van onderorganisatie op te lossen, moeten wij oppassen en moet met name SVO oppassen,
niet bij Scylla terecht te komen.

De vraag waar het daarbij op aankomt is natuurlijk hoe men dan moet zeilen om langs di®
klippen te komen. Dat vereist een speciaal soort zeilkunst - en die is niet gemakkelijk-
Vooral voor Hollanders, die met territorium- en pacificatie-denken zijn groot gebracht.

neigen tot de bijbehorende provinciale vorm van bureaucratie, en tot individualisme
^ sectarisme, vooral voor Hollanders is deze zeillcunst naar het schijnt moeilijk te leren.

moeilijkheid zit hem in het feit dat men er zo gemakkelijk toe komt fraai schijnende
regelingen op papier te treffen, die echter in de praktijk vooral zo uitwerken dat zij
^epaalde welbekende afweermechanismen in de kaart spelen.

denk bijvoorbeeld aan regelingen die bedoeld zijn om kwaliteit te garanderen, maar die
alléén op preventief-bureaucratische leest zijn geschoeid, zonder 'repressief (evaluatief)
pendant; d.w.z. regelingen die de onderzoeker allerlei voorwaarden en overlegprocedures
^ de weg leggen (zo voelt hij dat), die echter de sponsor het gevoel geven dat hij 'veel
^oet' en hem de mogelijkheid bieden het evaluatieprobleem te blijven uitstellen - zodat
•^et voor een volgende keer geen verschil maakt of het eindrapport waardeloos of
1'oortreffelijk was, en niet echt is na te gaan of de voorwaarden en overlegprocedures
"iderdaad kwaliteit-bevorderend of -garanderend hebben gewerkt. Ik denk ook aan
''egelingen van het gelijke-monniken-gelijke-kappen-type, die die moeilijke kwaliteitsver-
schillen onder de tafel werken; ik denk aan het overtrekken van inspraak, en aan het
^®frnijden van hiërarchie èn daarmee vaak van duidelijkheid in de besluitvorming - zodat
^^n territoriumpje, hoe onbelangrijk ook, zich bedreigd behoeft te voelen. Veel voor de
^nd liggende en schijnbaar mooie regelingen zijn gebaseerd op, en bevorderen omge-
^®erd, het 'pacificatie-denken'-, wat zich dan uitdrukt in vlucht- en vermijdingsreacties. Bij
yoorbeeld: vermijding van confrontatie, van kritiek — zodat men onbedreigd eigenwijs
blijven, in de clubfauteuil van de eigen club, op het eigen territorium.
Zouden nog veel meer van zulke gevaren genoemd kunnen worden; het zou de moeite
J^aard zijn dit eens uit te werken - maar niet nu. Ik volsta ermee nog eens te zeggen, dat
bet moeilijk èn buitengewoon belangrijk is goede regelingen te ontwerpen. Als wij die
aak onderschatten - en met name als wij hem niet als een op te lossen probleem, als een
^akelijk, organisatorisch probleem opvatten maar als een te bereiken compromis tussen
elangen, provinciaalse territorium-belangen - dan zal het niet goed gaan met de O.R. in
komende tijd.

^'jn tweede algemene opmerking sluit hierop aan. Heel kort: het belangrijkste punt is dat
® onderzoekersconrracren waartoe wij komen - want daar gaat het om - stimulerend
^jn. stimulerend door goed geregelde terugkoppelingen onderweg, inclusief verstandig
"^gebouwde aansporingsmiddelen. Bij dit laatste denk ik aan wat degenen die de geld-
raan hanteren kunnen doen om de coördinatie te bevorderen en de kwaliteit van het
)^erk te verhogen. De ZWO-ervaring leert dat dit zeer veel is. Maar ik denk ook aan de
''^^erne organisatie van projecten: zelf zorgen voor supervisoren (c.q. promotoren), die
^®regeld lastige vragen stellen; eventueel ook (zoals in de VS), op een nog hoger niveau,
consultanten van buiten, die gecontracteerd zijn om van tijd tot tijd met het
•iderzoeksteam het hele project een dag lang kritisch te komen doorspreken. In het
gemeen: Wie onderzoekt, maar aan niemand rapporteert, wie niemand heeft die eisen
®h en op resultaten zit te wachten, en óók niemand die, met het gezag van zijn ervaring
deskundigheid, ertoe in staat en bereid is geregeld fundamentele kritiek te leveren, zo'n
heeft — geniale uitzonderingen daargelaten — gewoon weinig kans om iets
®°eds tot stand te brengen. Stimulerende subsidiëringsvoorwaarden en stimulerende
•^•tiek zijn daarvoor onontbeerlijk; beide zowel qua aansporing (b.v. om op te schieten
je output) als qua leersituatie en leermiddel. Alleen utopisten kunnen menen dat de
het vanzelf goed doet, of 'het goede' doet, buiten ieder sociaal contract om - d.i.
^nder dat hij het door dit soort sociale kritiek hoeft te leren. Wij moeten deze factoren
erstandig inbouwen, organiseren.

De derde opmerking ligt al min of meer in de voorgaande besloten: Wij zijn in dat
O.R.-establishment, als onderzoekers, niet allemaal gelijk; en wij moeten niet doen alsof
dit wel zo is. Wij zijn niet gelijk in leeftijd, in opleiding, in ervaring, in competentie, i"
verantwoordelijkheden; maar ook niet in talenten, in visie, in denkkracht, in wat wij q^a
O.R.-werk wel of niet aankunnen. Dit is zo vanzelfsprekend, dat het eigenlijk te gek is dat
ik dit hier sta te vertellen. Maar het punt waar het op aankomt is dat wij ook niet moeten
doen alsof. Wij zullen moeten inzien, dat het onvermijdelijke kiezen tussen research-voor-
stellen die wel en die niet kunnen worden uitgevoerd, in belangrijke mate gebaseerd moet
worden op het principe dat de beste voorstellen het winnen; en wij zullen moeten inzien,
dat bij de beoordeling van wélke voorstellen 'de beste' zijn, een onmisbaar criterium iS'
naast de kwaUteiten van het plan, hoe goed de onderzoekers zijn die het willen uitvoeren-
In een goed werkend research establishment is een vrij duidelijke, door de leden aanvaa^
de, hiërarchie naar bekwaamheid, naar talent, naar kunnen en kennis onmisbaar; dat is
overal te zien waar research echt goed werkt, in binnen- en buitenland. Om tot zo n
aanvaarde hiërarchie te komen is onderlinge beoordeling nodig - van de kwaliteiten van
de onderzoeker zoals en voor zover die gebleken zijn uit de kwaliteit van zijn werk. Het
probleem hoe wij daarvoor goede regelingen kunnen treffen - op tafel, niet onder de tafel
— is er één waar wij niet langer omheen kunnen lopen. Bij beroepsvoetballers — waar een
echt objectieve beoordeling óók onmogelijk is - wordt dit, zoals bekend, geregeld doof
het prijsmechanisme; dat kunnen wij niet goed doen. Maar in het establishment van d®
schakers bestaat een vrij objectief systeem - dat van de zgn. ELO-punten - waarvan Wij
misschien iets kunnen overnemen.® In ieder geval heeft daar, bij voetballen en bij
schaken, geen deelnemer er moeite mee te erkennen dat een ander beter, althans
vooralsnog beter is dan hij, in geval de beoordelingen dat duidelijk uitwijzen. Ik zie niet in
waarom wij dat niet ook zouden kunnen leren. In ieder geval moeten wij af van de ficti®
van allemaal geUjke monniken en van de verdringing van de bestaande ongelijkheid; eei|
ongelijkheid in bekwaamheid, die volstrekt niets prejudiceert ten aanzien van de 'waard«
van de betrokkene als mens - zijn waarde 'voor God', zo zou men vroeger gezegd hebben-

6. Tenslotte de externe organisatieproblemen - die poUtieke besluitvorming; het gebruil'
dat er al of niet van O.R. wordt gemaakt. Dat ik daarover betrekkelijk pessimistisch be"
heb ik al bij diverse gelegenheden gezegd - ook in de Engelse voorloper van mijn lezing
van vandaag. Het is op dit punt vooral die voor Nederland zo traditionele 'unusual degree
of social.cleavage', die het mij moeilijk maakt te geloven in spoedige verbetering. 'P®
politieke besluitvormingsprocedures in dit land zijn niet berekend op de taken en de eise"
van planmatige, op onderzoek gebaseerde, systematische innovatie'. Zo staat het in die
oudere tekst; en verder: 'De structuren waarin wij hier leven - erger: de leefstructure"
waaraan wij gehecht zijn geraakt — zijn veel beter geschikt voor voortgezette territoriuiü'
gevechten en coëxistentie (op zichzelf: een positieve kwaliteit) dan voor gerichte natiO'
nale planning', laat staan voor - wat tegenwoordig heet, o.m. in de WetenschapsbeleidS"

8. Noem ze bijvoorbeeld EGO-punten - Excellentie-Gegevens-Onderzoekers - en ken ze toe op gr""
van, niet toernooiresultaten, maar publikatielijsten; dan kan de ene onderzoeker tegen de ander
zeggen dat hij nu aan het schrijven van dat artikel voorrang geeft omdat hij nog wat EGO-punten
halen - zeer passend. Helemaal serieus is dit voorstel (nog) niet; of liever, aanvaarding en hanteriw
ervan veronderstellen een soort speelsheid waarvan het niet zeker lijkt dat het O.R.-establishment
kan opbrengen. Maar wie weet... Belangrijke analogie-overweging: van de ELO-punten hangt niet ^
wie het (volgende) toernooi wint.

9. Twee voorbeelden voor dit belangrijke punt worden hieronder apart besproken (zie P.S.).

iiota van Minister Trip - 'concerted action' volgens goede lange-termijnplannen'.
Twee vragen rijzen hierbij.

Ten eerste: Wat kan het O.R.-establishment hieraan doen? Antwoord: Proberen het over
de bijbehorende interne organisatie-problemen zo goed mogelijk eens te worden, een
duidelijk gezicht te krijgen en een duidelijk standpunt in te nemen over wat goede O.R. is
en over hoe dit moet kunnen bijdragen tot een verstandige besluitvorming ten aanzien van
onderwijsvernieuwing. Verheldering, duidelijk en eensgezind gebracht, kan helpen.
Ten tweede: Is Minister Van Kemenade niet hard bezig op zijn manier het immobilisme
^an die structuur van territoria te doorbreken? Antwoord: Jawel, en in zekere zin
Verdient hij daar lof voor, al was het alleen maar voor zijn moed en volharding. Maar, ik
°en een beetje bang dat je niet moet vragen ten koste van wat dit gebeurt - voor zover
het gebeuren zal. Mijn grootste vrees is dat zijn werkwijze het ontstaan van quasi-O.R.
bevordert. Als men in échte O.R.-stijl van 'beleidsondersteunend onderzoek' zou spreken,
dan zou dit een onderneming moeten zijn waarvan a priori zeker is dat het onderzoek is —
research - maar waarvan het onzeker is of het beleid van de Minister er, positief of
■negatief, door gesteund zal worden. Gaat het om quasi-O.R., dan is positieve steun a
priori verzekerd, met als gevolg dat het, zacht gezegd, uiterst onzeker is of wat er gedaan
^ordt wel onderzoek (research) mag heten. Mocht in Nederland dit soort quasi-O.R. de
Overhand krijgen, èn invloed op de besluitvorming, waar de echte O.R. geen reële invloed
heeft, dan verliezen wij, dan verUest onze cultuur een veel belangrijker slag dan de slag die
Van Kemenade, misschien, wint als hij het immobilisme doorbreekt,
^ok hierbij kan men vragen of het O.R.-establishment, en misschien de V.O.R. iets kan
^oen. Het antwoord daarop is niet anders dan dat op de eerste vraag: Duidelijk laten
^eten, wat ondemij&research is, welke eisen goed onderzoek stelt, en hoe onderzoek -
®ehte O.R. - kan worden afgestemd op, en zinvol en eerlijk-wetenschappelijk kan worden
gebruikt voor de verbetering van het onderwijs. Dat hier onder meer duidelijke taken
'ggen voor de V.O.R. - en voor het T.O.R., zo kan ik daar nu aan toevoegen - behoeft
geen nadere toelichting.

Op een vraag, na de recente lezing aan de Technische Hogeschool Twente van Benjamin Bloom over
Mastery Learning, een vraag naar de kosten die gemoeid zijn met invoering van dit systeem - met
J^nie de kosten van onderzoek en ontwikkeling van specifieke curricula en leerpakketten, diagnos-
'sche toetsen, hulp- en steunmiddelen voor achterblijvers onderweg, etc. - antwoordde de spreker
Ongeveer als volgt: 'Als je het systeem eenmaal hebt zijn de (exploitatie-) kosten relatief gering. De
'esearch- en ontwikkelingskosten zijn ongetwijfeld hoog - hoe hoog is moeilijk te schatten - maar als
^pn aanneemt, dat deze hulpmiddelen, zeg, op een miljoen leerlingen zullen worden toegepast, dan
'Jn die kosten niet hoog en is het geld goed besteed'.

't antwoord is ongetwijfeld zeer ter zake. Het probleem ligt echter in de aanname aan het einde: kan

zich in Nederland, met zijn vele 'principiële' territoria, zijn sectarisme, zijn pacificatiedenken, zijn
'yheid van richting en inrichting voorstellen, dat één veeleisende, gecompliceerde methode een
pnijoen keer wordt gebruikt? Zónder dat er telkens van alles aan veranderd wordt - zó dat je (a) niet
Unt evalueren en (b) de kosten toch hoog blijven? Met de toetsbeweging en het CITO is dit
fliswaar, min of meer, gelukt - maar dan wel dank zij de eindexamens die bij ons uniform geregeld
•Jn, ongeacht 'richting en inrichting'. Bovendien: er is zeer veel verzet tegen de toetsmethode (en het
ITO) gerezen; Nederland staat, vrees ik, alwéér klaar om een coalitie te vormen die het kind met het
.j,®dwater zal kunnen weggooien...

Bvalt, ten eerste, dat het in Nederland al uiterst moeilijk zal zijn de grote, consistent gerichte R
ö-inspanning en samenwerking op te brengen, die de constructie van de leer- en toetsmiddelen voor
^®"eersingsleren vereist; ten tweede, dat het voor Hollanders bijna onmogelijk zal zijn over langere tijd
® niethode- en techniek- 'trouw' op te brengen die nodig is voor een succesvolle toepassing; en ten

derde, dat op dit binnen de leerplanontwikkeling liggende terrein, waarop de overheid geen uniformi-
teit kan afdwingen, iedere 'kring', ieder sub-establishment, ieder territorium het 'creatief op zijn eigen
wijze zal willen doen - zodat gebruiksfrequenties van de orde van grootte van een miljoen naar het
land der dromen verwezen moeten worden.

2. In het Voorwoord van het bekende boek van W. James Popham, Educational Evaluation, staat te
lezen dat hij dit textbook heeft geschreven omdat er een zo grote behoefte aan bestond. Dit lezende,
heb ik me afgevraagd, of er in Nederland wel eens echte evaluatiestudies zijn of worden uitgevoerd; en
vervolgens, of er een kans zou zijn dat dit soort studies - betaald uit overheidsgeld - er bij ons in
zouden komen. Deze laatste vraag komt hierop neer: kunnen wij ons voorstellen, dat de overheid in
Nederland bereid zou zijn min of meer grote bedragen te besteden aan onderzoekingen, die gericht zijn
op het verkrijgen van zo objectief en relevant mogelijke informatie over de vraag of een bepaald
subsysteem goed werkt, of een bepaalde experimentele onderwijsopzet aan zijn doelstellingen beant-
woordt? Ik bedoel: een evaluatie die géén pijnlijk-negatieve feiten onderdrukt; géén lastige principiële
vragen uit de weg gaat, géén petitio principii pleegt in zijn onderzoeksvragen (zó dat alleen gunstige
uitkomsten kunnen blijken); kortom een evaluatie waarvan het a priori zeer onzeker is of z'j
'beleidsondersteunend' zal uitpakken? Kunnen wij ons in Nederland voorstellen dat de overheid in dit
soort onderzoek zal leren durven investeren - onderzoek waarvan de uitkomsten zo niet het Ministerie
dan toch in ieder geval de leiders van allerlei territoria tegen de haren zal instrijken?
Ik twijfel er sterk aan of dat in Nederland nu kan - en zelfs of wij er, gegeven ons sociaal-politieke
khmaat, binnen redelijke tijd rijp voor zullen zijn.

De jaarlijkse SMEP-conferentie wordt dit jaar gehouden op donderdag 9 en vrijdag 10 september a.s. in
Hotel Zinger te Noordwijk aan Zee.

Deze conferentie wordt georganiseerd door Dr. A.J.A. Verberk (Vakgroep Methodologie & Statistiek
i.o., Subfac. Psychologie, R.U. Utrecht).

Drs. C.J.M.H. Souren heeft vanwege het bereiken van de pensioengerechtigde leeftijd afscheid geno-
men als directeur-secretaris van de Stichting voor Onderzoek van het Onderwijs.
Bij gelegenheid van zijn aftreden vond op 23 april jl. een feestelijke bijeenkomst plaats in hej
Nederlands Congresgebouw te 's-Gravenhage, waar de heer Souren een voordracht hield onder de tite'
'Balans van tien jaar S.V.O.-werk'.

Drs. Souren is vanaf de oprichting in 1965 directeur-secretaris geweest van de Stichting. Hij blijft nog
enige tijd als adviseur, belast met speciale opdrachten, aan de S.V.O. verbonden.

Beroepsopleiding, Informatieblad van de Commissie van de Europese Gemeenschappen, nr. 2/3''

Het vaststellen, formuleren en ordenen van onderwijsbekwaamheden.
Verslag van een literatuurstudie.

Nijmegen, Instituut voor Onderwijskunde, K.U., 1976 (S.V.O. projekt no. 262)
Hey nen, G. (e.a.) Handleiding voor projektgroepen en werkgroepen.

Groningen: Centrum voor Onderzoek van het Wetenschappelijk Onderwijs en Universitaire Stich"
ting Vormings Aktiviteiten, 1976.
Van Emmerik, J.L. Nuyten-Edelbroek E.G.M., & Stevens, G.Vi.U., Eerstejaars studenten sociologie
Rotterdam. ^

^"bfaculteit Psychologie van de Universiteit van Amsterdam
The third examination model and an application

The 'examination model' was developed in order to make more rational decisions about critical
scores, number of items, number of tests per year, (De Groot, 1970). The model is simple and
in accordance with knowledge about curves of learning and forgetting; the parameters can easily
be calculated and are conceptually simple. 'Knowledge' lies between 0 and 1 and is a linear
function of number of items right. Apart from forgetting, knowledge increases proportionally
to the 'length' and 'difficulty' of the subject matter. Part of is proportional to the knowledge
itself, to the 'isolatedness' of the of ti,e is proportional to the knowledge itself, to the
'isolatedness' of the subject matter, and, inversely, to 'memory'. So the learning curve becomes
concave and the forgetting curve convex. The most important aspect of the model is the
concept of optimal knowledge level. For every situation there is an optimal level at the moment
of examination, with which the expectation of the total effort of the student to pass the
examination is mmimal. By restricting oneself to the 'optimal strategy' the problem becomes
solvable.

The model is applied to a concrete problem: How can the level - defined as the optimal
knowledge level - be preserved when more chances (tests) per year are introduced, and,
eventually, how can the total effort be maintained? Using realistic values of the parameters,
how far the critical scores had to be raised and the tests lengthened were calculated. The
calculations are illustrations, to show how simple it is to use the model in decisions about
educational tests, decisions which thus become rational and acceptable to both staff and
students.

^ver het tentamenmodel is eerder gepubliceerd (Van Naerssen, I97O, 1971a, 1971b,
"74). Het doel is het construeren van een systeem waarmee beleidsbeslissingen bij
tentamenregelingen op rationele wijze kunnen worden genomen. Bijvoorbeeld de beslis-
sing tot hoever de aftestgrenzen moeten worden verhoogd wanneer eerst besloten is tot
net invoeren van meer herkansingen per jaar. Het moet tenslotte zo zijn, dat de belang-
hebbenden het eens zijn over het model en de waarden van de modelparameters; de
^eslissing zelf kan dan worden overgelaten aan de computer. Bij een enkelvoudig meer-
keuzetentamen gaat men in principe al lang zo te werk: men is het daar eens over de
scoringswijze en de itemvoorraad en laat de beslissing over slagen en zakken aan de
^achine over.

^ort geleden deed zich een mogelijk gebruik voor toen nieuwe aftestgrenzen berekend
nioesten worden bij de invoering van extra herkansingen bij de propedeuse van bovenge-
noemde subfaculteit. Het probleem werd toen echter met een ander model opgelost
°nidat de ingewikkelde tentamensituatie- gedeeltelijk compensatorisch, gedeeltelijk con-

junctieve combinatie van tentamens - zich (nog) niet leent voor berekening met het
tentamenmodel (Van Naerssen, 1975). Maar in paragraaf 8 e.v. zal het probleem wel
worden opgelost voor het geval er slechts één tentamen (met herkansingen) in het spel is-

Bij het tentamenmodel is een belangrijk punt de keuze van de leer- en vergeetcurven. Bij
de eerste versie van het model (1970 en 1971) zijn deze in zoverre aanvaardbaar dat de
leercurve een steeds negatieve, de vergeetcurve een steeds positieve tweede afgeleide heeft-
De eerste versie heeft echter onder meer als zwak punt dat de persoon zich hierbij slechts
in twee toestanden kan bevinden: een leertoestand en een vergeettoestand. Dit is niet
realistisch omdat de student in werkelijkheid kan leren met variabel 'engagement' (inspan-
ning); naarmate het engagement geringer is, lijkt de leertoestand meer op die van vergeten.
Er is in werkelijkheid een geleidelijke overgang denkbaar tussen leren en vergeten; het
vergeten gaat dóór, ook tijdens het leren.

In het tweede model is met dit verschijnsel rekening gehouden door een 'stroom' te
introduceren, waartegen bij het leren als het ware moet worden opgeroeid. Als verband
tussen de kennis — de proportie gekende items — en de vaardigheid werd de normaalogief
uit de testleer gepostuleerd. Dit tweede model was in meerdere opzichten een vooruit-
gang. Zo zijn de parameters gemakkelijk meetbaar, de score gegeven de ware score is
binomiaal verdeeld (i.p.v. normaal) en er is een minimum proportie goed beantwoorde
items geïntroduceerd (bijv. 0,25 bij vierkeuzetoetsen).

Een nadeel van de tweede versie was echter de ogiefvorm van leer- en vergeetcurven,
terwijl laboratoriumproeven meer wijzen in de richting van de curven van het eerste
model.

In het hieronder te ontwikkelen derde tentamenmodel wordt nu getracht alle voordelen
van het tweede model te combineren met de realistischer curven van het eerste model-
Het derde model kan dus worden opgevat als een synthese van het eerste en tweede model
Duidelijkheidshalve wordt nu nog even de essentie samengevat van het tentamenmodel.
Gegeven een aantal parameters, waarvan de belangrijkste zijn: de extensie (x) en de
geïsoleerdheid (i) van het tentamen, de capaciteit (c) en het geheugen (m) van de persoon,
en aantal items (k), aftestgrens (y) en onderlinge tijdsafstand (wj) van de tentamens, kan
men de moeite (f) - het product van tijd (w) en engagement (g) - berekenen die het
gemiddeld kost om, met een bepaalde 'strategie' in de vorm van een nagestreefd kennis-
niveau (t), door het tentamen te komen, eventueel na een aantal vergeefse pogingen. Nu
zijn er echter oneindig veel strategieën denkbaar, en dit is vermoedelijk de reden waarom
dit probleem nooit eerder serieus is aangepakt. De kern van de oplossing ligt nu hierin dat
aangenomen wordt dat de student de optimale strategie volgt, d.w.z. tot dat kennisniveau
studeert waarmee hij met de minste moeite door het tentamen komt. Door de afspraak
zich te beperken tot de optimale strategie maakt jnen het probleem oplosbaar, het model
toepasbaar.

Duidelijkheidshalve zullen we voor de parameters dezelfde letters gebruiken als in het
tweede model (zie Van Naerssen, 1974), maar ter onderscheiding nu kleine letters in
plaats van hoofdletters:

g = het engagement bij het studeren: g is de eenheid bij 40 uur intensieve studie per week

het betreffende tentamen en g ligt dus normaliter tussen nul en één maar kan in
uitzonderingsgevallen groter zijn dan één.

* = extensie van het tentamen, die men zich weer kan indenken als het product van lengte
(in pagina's bijvoorbeeld) en (gemiddelde) moeilijkheid. In de volgende berekeningen
heeft het echter geen zin onderscheid te maken tussen lengte en moeilijkheid; alleen het
product X is van belang. Men moet als eerste stap een bepaald tentamen uitroepen tot
'standaardtentamen' met een extensie één.

i = de 'geïsoleerdheid' van de tentamenstof; i is een maat voor het verschijnsel dat de ene
tentamenstof eerder uit het geheugen verdwenen is dan de andere. Men kan hetzelfde
standaardtentamen met x=l een geïsoleerdheid één toekennen.

= de memorieparameter van de persoon; het quotiënt i/m is evenredig met vergeetsnel-
heid als er niet gestudeerd wordt (dus als g=0).

~ de leercapaciteit van de persoon; het quotiënt gc/x is evenredig aan de leersnelheid in
het denkbeeldige geval waarin geen vergeten zou optreden.

Tot zover is er geen verschil met het tweede model. Daarin werd echter de 'ability' A uit
de testleer gepostuleerd, terwijl we in het derde model de rol van de 'ability' laten spelen
door de op raden gecorrigeerde ware score tc. Laat to de proportie items van het domein
^ijn, die op grond van raden en/of door vóórkennis al vóór de bestudering van de stof
Êoed kan worden beantwoord. Zonder voorkennis zou bijv. bij vierkeuzetoetsen to gelijk
aan 0,25, maar omdat er altijd voorkennis verondersteld kan worden, zal men bij
vierkeuzetoetsen to hoger moeten stellen dan 0,25, bij tweekeuzetoetsen hoger dan 0,5,
to is een parameter van het model die men eerst een aannemelijke waarde moet
ëeven, wellicht door het tentamen af te nemen bij zogenaamde 'naieve respondenten',
^s nu t de ware score is op het tentamen dan is de formule voor de gecorrigeerde ware
Score (net als in het tweede model)

^ok net als in het tweede model wordt de totale leersnelheid v gezien als het verschil
bussen leersnelheid en vergeetsnelheid. Maar t,. treedt op als 'ability' (kennis) en net als in
het

eerste model stellen we de vergeetsnelheid evenredig aan de kennis t^ die de persoon
^ Van de tentamenstof heeft. Men krijgt zo de volgende eenvoudige differentiaalverge-
lijking:

^ tweede term van het laatste lid van (2) geeft aanleiding tot een exponentiële
®rgeetcurve als in het eerste model, d.w.z. met de vereiste positieve tweede afgeleide en
een asymptoot tc=0 of, anders uitgedrukt t = to. De eerste term laat zien dat de
®ersnelheid, afgezien van het vergeten, zeer simpel evenredig aan capaciteit en engage-
"^ent wordt gesteld en omgekeerd evenredig aan lengte en moeilijkheid van het tentamen.

En inderdaad, als men het geleerde niet weer zou vergeten dan werkt men zich immers
met eenparige snelheid door de stof, d.i. door het aantal items als, zoals het hoort, de
items gelijkmatig verdeeld zijn over de stof.

Dankzij de tweede term is de totale leercurve geen rechte lijn, maar een kromme met een
negatieve tweede afgeleide, in overeenstemming met de laboratoriumobservaties.
De precieze leer- en vergeetcurven vindt men natuurlijk door de differentiaalvergelijking

(2) op te lossen. Duidelijkheidshalve schrijven we eerst gc/x = a, i/m = b en berekenen we
dw/dt^:

C2 kan worden weggewerkt door een randvoorwaarde in te vullen, bijvoorbeeld als ^
gelijk is aan nul dan heeft t^ de beginwaarde ti dh moet worden ingevuld in (5) waarna
C2 daaruit wordt opgelost:

Schrijven we tenslotte weer voor a gc/x en voor b i/m dan wordt de algemene formule

Hieruit zijn gemakkelijk twee belangrijke bijzondere formules af te leiden. Ten eerste de
leercurve beginnend bij t=0:

Men ziet aan (2) of aan de afgeleide van (9) dat de leercurve alleen recht zou zijn in het
denkbeeldige geval waarin niets werd vergeten (i/m nul).

Daar g, c, m, x en i altijd positief zijn is de eerste afgeleide van deze functie van ^
(namelijk — e"'^'" ) altijd positief en de tweede afgeleide altijd negatief, zoals het hoort

Maar als gcm/xi groter is dan één wordt 'mastery' (t=l) in een eindige tijd bereikt,
tegenstelling tot de situatie bij het eerste tentamenmodel, waarin de leercurve alle®"
identiek is aan die van het derde model in het uitzonderlijke geval waarin gcm/xi = 1.

gcm/xi kleiner is dan één, hetgeen natuurlijk het geval kan zijn bij te lage capaciteit of
pheugen, maar ook bij te gering engagement of bij een te lang, te moeilijk of onsamen-
hangend tentamen, dan wordt nimmer 'mastery' bereikt. Het theoretische maximum bij
oneindig lange studeertijd ligt dan juist bij een tc = gcm/xi. Slagen wordt echter pas
Onwaarschijnlijk wanneer gc/x daalt tot beneden de gecorrigeerde aftestgrens.
^it (8) leidt men de vergeetcurve af door g=0 in te vullen:

^aarin bijvoorbeeld t| het kennisniveau — de gecorrigeerde ware score — is ten tijde van
net tentamen en w de tijd die sindsdien is verlopen. Zoals al werd opgemerkt is deze
formule identiek aan die van het eerste model; de verbetering ten opzichte van dit model
in de leercurve, die nu onder meer afhankelijk is van het engagement en het geheugen,
principe is m natuurlijk eenvoudig empirisch te bepalen, namelijk uit de oorspronke-
lijke kennis ti, die na w weken gereduceerd blijkt te zijn tot tc. Uit (10) volgt dan dat

Is Van een persoon m eenmaal bekend dan kan c (of meer precies: het product gc) met
behulp van (9) berekend worden, waarin w nu het aantal weken is dat de persoon nodig
'^®eft om zijn kennis (gecorrigeerde ware score) op te voeren van O tot t^; bij het
standaardtentamen geldt daarbij x = i = 1.

^et als in de tweede versie wordt een binomiale verdeling van de scores aangenomen,
Segeven de ware score t. Als y de minimum-voldoende-score is, en k het aantal items, dan
's de slaagkans

^ok net als in de tweede versie wordt de persoon geacht zijn totale moeite te minimaUse-
De totale moeite is bij discrete studieperioden de som van de producten van g en w,
^^ bij continu variërend engagement de integraal van g naar w (net als in de tweede
^®rsie): Laat de moeite met de letter f aangeduid worden (effort):

De moeite f kan men uitdrukken in werkweken van 40 uur, in 'punten' zoals gebruikelijk
in sommige subfaculteiten.

Wat de student bij zijn 'strategie' kan variëren is zijn kennisniveau tc, waarbij hij tentamen
doet. Kiest hij tc te hoog dan kost het te veel moeite om dit niveau te bereiken. Kiest hij
tc te laag, dan wordt zijn kans op zakken te groot. Aangenomen wordt - evenals bij de
vorige versies — dat de persoon het tentamen een onbeperkt aantal keren kan overdoeti,
maar daar er een tijdsverloop w, tussen opeenvolgende tentamengelegenheden ligt en hij
in deze tijd Wt een deel van de kennis weer vergeet betekent zakken extra moeite om de
kennis weer op te halen. Er is een kennisniveau topt waarbij de verwachting van de totale
moeite minimaal is. Het probleem is nu juist deze topt te berekenen. Laat fi de moeite
zijn die nodig is om de kennis op te voeren van tc=0 tot tc=topt en f2 de moeite die nodig
is om de tussen tentamengelegenheden vergeten kennis weer op te halen, dan is de te
minimaliseren verwachting van de totale moeite

(14) E(0 = fi + qf2 + q'f2 V f2 + - = fi +^f2.
Het gaat er nu om fj en f2 bij deze nieuwe versie te berekenen.

De eerste term in (14) fj, kan eenvoudig worden berekend uit (9) door hieruit w op te
lossen en daarna met g te vermenigvuldigen. Daarbij wordt aangenomen dat tijdens de
voorbereiding op het tentamen het engagement g constant blijft:

Moeilijker is het om f2 te berekenen. Behalve de parameters x, i, g, c en m, en tc, wordt
nu ook bekend verondersteld de tijdsafstand Wt tussen opeenvolgende tentamengelegen'
heden. Om het probleem oplosbaar te maken moet de 'strategie' van de student tussen d®
tentamengelegenheden eveneens bekend zijn. Hij kan bijvoorbeeld elke dag iets studeren
om bij te blijven, of maximaal studeren vlak voor het tentamen. Bij de tweede versie van
het tentamenmodel maakt dat geen verschil, hier echter wel. We zullen aannemen dat de
student ook hier de optimale strategie volgt, dit betekent: de stof laten rusten tot he{
moment waarop hij zich maximaal inspannend het optimale kennisniveau nog juist op tijd
kan halen. Deze strategie volgt uit het feit dat in het model het vergeten toeneemt met d®
kennis. De kenniscurve tussen opeenvolgende tentamengelegenheden moet daarom zo laaê
mogelijk liggen voor de student, wat bereikt wordt door zo lang mogelijk niets te doen
aan het tentamen. Vermoedelijk passen de meeste studenten deze strategie ook i"
werkelijkheid toe. Nu kan g in principe groter zijn dan één (maximaal 7 x 24/40 = 4,2)
maar we zullen aannemen dat de student op den duur niet meer dan 40 uur per wee"
intensief kan studeren, zodat tijdens de studeerfase g één is.

Ook bij de eerste versie werd aangenomen dat de student slechts in twee toestanden
voorkomt: studerend of niet. Het verschil zit echter in de aannemelijkheid van d®
leercurve. Nu is deze formule althans zo dat elk 'engagement' mogelijk is, al is voor de
optimale strategie slechts een engagement nul of één vereist.

kenniscurve tussen opeenvolgende tentamengelegenheden bestaat uit een vergeetseg-
nient (volgens formule 10), gevolgd door een leersegment (volgens formule 8); de bekende
totale tijd Wt is de som van de vergeettijd Wi en de leertijd w^. In de vergeetformule (10)
nioet men dus voor w schrijven Wt-W2 waarna men een gecompliceerde formule kan
opstellen waaruit desgewenst W2 - waar het om gaat, deze bepaalt hnmers de moeite -
Iteratief kan worden opgelost.

degens de hieraan vastzittende lange computertijd - de berekeningen zullen vele malen
nioeten worden uitgevoerd omdat het kennisniveau iteratief moet worden geoptimaUseerd
zullen we een ietwat andere weg volgen. Niet Wj wordt direct bekend verondersteld,
maar eerst de meestal slechts weinig hiervan verschillende vergeettijd Wj. Hiermee kan
gemakkelijk de moeite geminimaliseerd worden. Tenslotte wordt ook Wt berekend als
Som van Wi en W2, en dan kan men nu een tweede wj kiezen waarbij Wt dichter ligt bij
de eigenüjk bedoelde waarde.

Is dus wj gegeven dan volgt uit (10) waarin t^ geworden is tot de minimumkennis tn, vlak
Vóór het heropnemen van de studie, en ti tot de (te optimaliseren) tg:

tijd nodig om de kennis van nul op te voeren tot tc staat in formule (15) als men
daarin g=l stelt. Hiervan moet worden afgetrokken de tijd nodig om de kennis van nul tot
^m te brengen, om de tijd te krijgen die nodig is om de kennis van tm tot tc op te voeren;
dus de gevraagde W2, die als g=l ook gelijk is aan f2:

daarin tm eerst berekend wordt met (16), en waarna Wt berekend kan worden als Wj +

yitgaande van een eerste schatting tc van het optünale kennisniveau kan men nu met
(14), waarin p berekend wordt met (12), fi met (15), en f2 met (16) en (17), of beter
Ook (18), de verwachting van de totale moeite berekenen, daarna van een tweede
Schatting, enz. tot men die schatting heeft waarbij E(f) practisch minimaal is. Deze tc is
net gevraagde optünale kennisniveau waar het bij het gebruik van het model om draait,
bijvoorbeeld wU men nagaan wat de invloed is van extra herkansingen op het niveau van
de kennis. Men kan hier het beste het optimale kennisniveau topt voor nemen. Of men wil
die herkansingen invoeren, dus Wt verlagen, met handhaving van het kennisniveau. Men
nioet dan topt constant houden door bijvoorbeeld de minimum-voldoende-grens te
Verhogen. Deze berekeningen werden reeds verricht met de tweede versie van het tenta-
•nenmodel (Van Naerssen, 1975) maar moeten nu herhaald worden met de zo duidelijk
Aannemelijker nieuwe versie.

Tenslotte wordt voorgesteld het model realistischer te maken door invoering van een
"egende parameter (naast de extensie x en de geïsoleerdheid i van de stof, de capaciteit c
met geheugen m van de persoon, de proportie tevoren reeds goed gemaakte items to,
aantal items k van de toets en de minimum-voldoende-score y en eventueel nog het

engagement g). Namelijk de extra tijd die het kost telkens wanneer men tentamen moet
doen; laat die extra tijd W3 genoemd worden, dan is

Deze W3 is minstens het aantal uren dat het tentamen formeel duurt, maar een veilige
schatting is dat de student een hele werkdag verliest door de spanning ervóór en de
ontspaiming erna. Daar w in werkweken moet worden uitgedrukt kan men W3 = 0,2
stellen.

Soms ligt de invloed van W3 op de resultaten misschien buiten de grens der nauwkeurig-
heid. Maar W3 wordt belangrijk wanneer men na wil gaan wat de invloed is van het
dichtbijéén plaatsen van de tentamengelegenheden. Zonder een W3 krijgt men dan een
onreaUstisch laag optimaal kennisniveau met een even onwaarschijnlijk lage slaagkans.
Hoe groter W3, hoe 'erger' zakken wordt, dus hoe hoger het optimale kennisniveau en hoe
groter de slaagkans.

Natuurlijk varieert W3 met de persoon. Er zijn altijd wel personen die zakken zo erg
vinden dat bij hen W3 bijvoorbeeld gelijk gesteld moet worden aan een week tijdverlies
opdat het optimale kennisniveau ook subjectief als optimaal wordt ervaren. Eigenlijk gaat
het niet om minimaliseren van de studeertijd maar om die van een meer algemene
'loss-function', om het maximaliseren van 'utiliteit'. De utiliteit kan men echter in de
eenvoudige gevallen waartoe we ons beperken wel in 'tijdverlies' omzetten. Voor iemand
die zakken erg vindt is het bijvoorbeeld 'alsof hij een week verliest (of een maand). Dat
neemt niet weg dat voor de groep in zijn geheel een gemiddelde waarde kan worden
aangenomen, bijvoorbeeld W3 = 0,2.

Het hieronder behandelde voorbeeld is niet geheel fictief; het probleem deed zich onlangs
voor, doch voor de parameterwaarden van het model werden slechts zeer ruwe schattin-
gen gebruikt. Het gaat hier alleen om de methode, maar we zullen toch trachten
realistische parameterwaarden te gebruiken. In werkelijkheid werden zes (propedeuse-)
tests tweemaal per jaar afgenomen. Men wilde het aantal gelegenheden verdubbelen, dus
w wordt van 26 teruggebracht op 13. Uit eerder onderzoek met de tentamenmodellen was
reeds gebleken dat hierdoor het optimale kennisniveau daalt. Stelt men als eis dat dit
optimale kennisniveau constant blijft, dan zal men de aftestgrenzen (minimuni-
voldoende-scores y) moeten verhogen; de vraag is tot hoe ver. Als y stijgt blijkt bovendien
de verwachting van de moeite E (f) te stijgen. Men kan nu ook deze desgewenst
(misschien) constant houden door gelijktijdig de toets te verlengen; uit vroeger onderzoek
is namelijk gebleken dat door toetsverlenging E (f) afneemt.

Voor de overzichtelijkheid zullen we ons eerst beperken tot één waarde van elke
parameter. Daarna variëren we een aantal parameters bij constant-houden van de overige;
dit variëren doen we om de invloed van parametervariatie op de uitkomst na te gaan.

De beschouwde toets bestaat uit 30 vierkeuze-items, waarvan er 17 (55%) goed moeten
worden beantwoord. We zouden de parametercombinaties c/x en i/m kunnen vinden door
de 'typische student' drie (parallel-) toetsen af te nemen: vóór hij aan de studie begint, als

tentamen en nog eens enige tijd later. Stel dat hij aan het begin 30% van de items goed
heeft, dan is to = 0,3. Stel voorts dat hij 5 weken nodig heeft (met g=l, dus 40 uur
intensief werken per week) om zijn gecorrigeerde score t^ van nul te brengen tot 60%, bij
Welke (relatief hoge) score hij tentamen doet. Na 27 weken wordt t^ weer gemeten en
blijkt dan gedaald te zijn tot 40%. Uit (11) volgt dan dat de parametercombinatie i/m
0.015 is. Met (9) kan men nu berekenen dat c/x 0,125 is. Met deze waarden 30, to=0,3,
y~ 17, i/m=0,015 en c/x=0,125 wordt in eerste instantie gerekend; daarna worden de
parameters gevarieerd.

Er staat ons een programma ter beschikking dat eerst het optimale kennisniveau berekent
Voor de bestaande situatie w=26, dat wil zeggen: t wordt systematisch gevarieerd tot de
totale verwachting E (f) (formule 12) van de moeite minimaal is. Deze optimale t zullen
^e de niveau-eis d noemen. Daarna wordt w verminderd tot 13 (om de 13 weken
tentamen) en de optimale t weer berekend. Dan wordt y telkens met één punt verhoogd
tot de optimale t juist boven d ligt. Tenslotte wordt dit hele proces telkens herhaald met
een toets die één item langer is, en deze testverlenging gaat door tot de totale moeite E (f)
Weer gedaald is tot beneden het oorspronkelijke niveau, dus dat bij k=30, y=17 en w=26.
Een complicatie wordt (zoals reeds eerder werd opgemerkt) nog gevormd door het feit
dat de totale tijd tussen gelegenheden bestaat uit vergeettijd en daaropvolgende leertijd;
de uitkomst blijkt meestal voldoende nauwkeurig wanneer de berekeningen nog één keer
herhaald worden met een totale Wt gelijk aan de juist eerder gebruikte Wt min de daarbij
gevonden wj (leertijd).

In de tabel staan enkele berekeningsresultaten. Op regel 1 staan die voor de standaard-
situatie. Men kan daar aflezen dat de minimum-voldoende-score y van de 30-itemtoets
(die 17 was) verhoogd moet worden tot 18 wanneer de tijd tussen tentamens verkort
wordt van de bestaande 26 weken tot 13 (benaderd als 12,96) en wanneer men het
optimale kennisniveau niet wil laten dalen beneden de 'eis' d=0,571. Het niveau wordt
dan 0,580 en de slaagkans 0,489, de totale verwachting van de moeite (werktijd als g=l)
4,07 weken, waarvan 3,28 weken nodig zijn om de eerste maal tentamen te doen, terwijl
telkens tussen de tentamens - aangenomen dat de student door pech zakt - 0,76 weken
nodig zijn om de stof weer tot het optimale niveau op te halen.

Op de regels 2 en 3 wordt c/x gevarieerd. Men ziet dat enorme verschillen in capaciteit (of
stofomvang) toch dezelfde aftestgrensverhoging nodig maakt bij verdubbeUng van het
aantal tentamengelegenheden per jaar. Als de stof vijf maal zo lang wordt, wordt de
verwachting van de moeite iets meer dan 5 maal zo groot, het optimale kennisniveau
neemt duideUjk af en daarmee de slaagkans, maar y varieert niet. Ditzelfde verschijnsel
ziet men bij variëren van i/m (regels 4 en 5), waardoor bijvoorbeeld de tijd nodig om de
stof weer op te halen en de slaagkans sterk variëren, maar waar ook een verhoging van y
tot 18 (als w verminderd wordt van 26 tot 13) adekwaat is. En tot dezelfde minimum-
score komt men na variëren van de vóórkennis to van 0,25 (d.i. géén voorkennis bij
vierkeuzetoetsen) tot 0,4.

Dit suggereert dat het model in bepaalde situaties (zoals deze) gebruikt kan worden voor
beleidsbeslissingen, ook zonder dat de parameterwaarden nauwkeurig bekend zijn; iu
sommige gevallen zijn zeer ruwe schattingen voldoende.

De regels 8 en 9 betreffen wat langere tests met oorspronkelijke y's van 55% van k, dus
resp. 31 en 44. Men ziet hier weer: hoe langer de toets, hoe hoger de slaagkans en hoe
lager de verwachting van de moeite.

Op de regels 10-13 wordt de tentamenafstand w gevarieerd; regel 11 geeft de oorspronke-
hjke situatie weer van 26 weken. Het minimum van 17 items-goed zou bij 13 weken (regel
1) verhoogd moeten worden tot 18, bij 5 weken tot 19 en bij één week tussen herkansin-
gen tot 20. De laatste situatie is denkbaar wanneer tentamens niet klassikaal worden
afgenomen maar individueel, bijvoorbeeld aan de computerterminal. Ondanks de invoe-
ring van een W3 van 0,2 (par. 7) is het optimale kennisniveau in het laatste geval toch
laag dat de slaagkans slechts 0,27 bedraagt. Blijkbaar is vaak zakken hier voordelig omdat
de in een week vergeten kennis in zeer korte tijd is op te halen, (in 0,24-0,2=0,04 weken
studeren,'d.i. 1,6 uur).

Door de halvering van Wt (van 26 tot 13) en de gelijktijdige verhoging van de minimuni-
voldoende-score is de verwachte moeite gestegen van 3,99 (niet vermeld in tabel) tot 4,07.
Op de laatste vijf regels van de tabel wordt de toets verlengd, bij gelijktijdige niveauhand-
having door verhoging van y, net zo lang tot de moeite weer gedaald is tot beneden 3,99
(aanvankelijk stijgt de moeite wat samenhangt met het feit dat het aantal items discreet
is). Dit bhjkt het geval te zijn als de toets verlengd is tot 34 items met een y van 20 {59^"
in plaats van 55). Door toetsverlenging kan men er dus voor zorgen dat bij vermeerdering
van het aantal tentamengelegenheden per jaar het optimale kennisniveau niet daalt efl
tegelijk de verwachting van de moeite niet stijgt.

Maar ook zonder toetsverlenging zal verhoging van y bij invoering van meer herkansingen
voor studenten misschien aanvaardbaar zijn, want de moeitetoename is erg gering en een
klein offer voor de grotere zekerheid door meer herkansingen zal men er welUcht voor
over hebben. *

Tenslotte wordt nog even herinnerd aan het feit dat tot zover stilzwijgend is aangenomen

dat de student door vóórtentamens zijn ware score weet (zie van Naerssen 1974,
appendix). Een aanvaardbaarder assumptie is misschien dat vóórtentamens dezelfde lengte
hebben als het betreffende tentamen (wat zeker het geval is als de student meermalen
(parallel-) tentamens aflegt). Bij deze assumptie blijft het model ongewijzigd, behalve dat
nien moet rekenen met de helft van het aantal items. Bovenstaande berekeningen gelden
dus eigenlijk voor een toets van 60 items (resp. 110 en 160) in plaats van een met 30
(resp. 55 en 80) items.

De Groot, A.D. Some badly needed non-statistical concepts in applied psychometrics. 1970 25,
360-376.

»an Naerssen, R.F. Over optimaal studeren en tentamens combineren. Amsterdam, Swets & Zeitlinger.
1970.

*an Naerssen, R.F. Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie (DPO)
1971a, 26, \2\-n2.

»an Naerssen, R.F. Een model voor tentamens (vervolg). Nederlands Tijdschrift voor de Psychologie

(DPO) 1971b, 26, 551-559.
Van Naerssen, R.F. A mathematical model for the optimal use of criterion referenced tests.

Nederlands Tijdschrift voor de Psychologie (DPO) 1974,29,431445.
Van Naerssen, R.F. Rapport aan de Examencommissie Candidaats-I betreffende de invloed van
herkansingen op het niveau van voor de propedeuse geslaagde studenten. Subf. Psychol., Univ. v.
Amsterdam, 1975.

UI Aan de Technische Hogeschool Twente worden plannen ontwikkeld tot instelling van
een studierichting

'n tijdelijke dienst worden geplaatst. Bij realisering van een dergelijke studierichting kan vaste
^anstelling volgen.

gestreefd wordt naar een meer exacte benadering van onderwijskundige vraagstukken meteen ac-
cent op de praktische toepassing o.m. in het technisch onderwijs. De beoogde uitwerking zal ge-
^uren in nauwe samenwerking met reeds aan de hogeschool aanwezige onderwijskundigen en
L!?®t een in te stellen Stuurgroep Toegepaste Onderwijskunde,
gevraagd wordt:

een medewerker met een academische opleiding in de gedragswetenschappen, wiens werk-
zaamheden in het begin gericht zullen zijn op de leer van de instruktie en/of de methoden en
technieken van onderwijskundig onderzoek;

een medewerker met een academische opleiding in de wiskunde, de natuurwetenschappen of de
technische wetenschappen, wiens werkzaamheden in het begin gericht zullen zijn op de leer-
^ planontwikkeling voor de exacte wetenschappen.

Van hen wordt bereidheid tot multidisciplinaire samenwerking en enig organisatorisch talent ver-
J^acht, Veel waarde wordt gehecht aan eigen wetenschappelijke aktlviteiten in reeds lopend

^anvankelijke aanstelling in het wetenschappelijk rangenstelsel in tijdelijke dienst voor een periode

J^l'chtingen te verkrijgen bij Prof.dr. E. Werries, voorzitter vakgroep onderwijskunde (053-892750;
Piiivé: 053-323110).

het zoeken naar woonruimte kan de huisvestingsambtenaar van de T.H.T. behulpzaam zijn.
Sollicitaties, vergezeld van uitvoerig curriculem vitae, in te zenden aan de afdeling personeelszaken,
echnische Hogeschool Twente, postbus 217, Enschede, onder vermelding van het advertentie-
"Urnmer 76.60/61.

A CDC-ALGOL60 Simulation Program to Evaluate
the Goodness of Fit in Targeted Rotation of Factors

SIMRANTAR is a computer program which, orthogonally or obliquely, rotates an empirical
factor matrix to a least squares fit with a realistic target matrix as well as with a number of
random target matrices. The random target matrices are generated by the program and can be
required to have, approximately or exactly, the same external features as the realistic target
matrix. After each rotation, two measures of resemblance between the rotated solution and the
corresponding target matrix are computed. These measures, for which no tests of statistical
significance are available, are the coefficient of factorial similarity and the sum of squared
deviations. The better the realistic hypotheses are, the greater the difference will be between
these measures computed for the realistic and the random target matrices respectively.
The program can not only be used to compare realistic hypotheses with random hypotheses;
that is, the realistic hypotheses can be evaluated against the expectation, that they do not differ
from random hypotheses. But it can also be used in the case of different realistic hypotheses to
get an impression which one of these different hypotheses, if any, probably is to be preferred in
view of the results obtained from the comparisons with the respective random hypotheses. In
this later case, no statistical tests are available to test for the difference in results obtamed for
the different realistic hypotheses. Some other evaluative means, however, are suggested.
Another possible use of the program would be to study the effect of such variables as numbers
of variables and factors, the variable/factor ratio, and the Uke, on the magnitude of the
measures of resemblance concerned. Some examples of the use of the program are given.

In this paper by targeted rotation (also known as Procrustes rotation) is meant the
rotational procedures as developed by CUff (1966), Schonemann (1966), and Browne
(1967). In using these procedures, the researcher constructs a target matrix, in which a''
loadings of all variables on all hypothesized factors must be specified. In order to evaluate
the goodness of fit between this target matrix and the sample factor matrix, one can test
for the equality of the correlation matrices which are reproduced from the target matrix
and from the factor matrix respectively.

In the construction of the target matrix, however, some problems have to be dealt with-
For instance, the lack of factor-pure tests (i.e., tests which correlate with only one or two
factors and which have exact zero correlations with all other factors) makes it practically
impossible to specify all factor loadings. Moreover, especially in the realm of ability tests,

1. I am indebted to Drs. J.J. Elshout, Drs. M. Elstrodt, and Dr. G.J. Mellenbergh for their advices aiid
comments, and to Ch. Koster for purifying the English text and for carrying out much of the work in
developping and testing the program.

different kinds of Ss will tend to make use of different (be it secondary) aids in their test
behavior, which means that, depending on the kind of Ss, in different investigations
different loading patterns of the variables will result.

These problems imply that, in any one investigation, it virtually is impossible to really
specify all elements in a target matrix. In practice, however, the construction of a target
^atrix is straightforward: only those factor loadings which are expected to be most
important (usually only one, or sometimes two, for every variable) are specified as
differing from zero and all other loadings are set equal to zero. This way of constructing
the target matrix means that such a target matrix is an unrealistic and idealized version of
the rotated factor solution: it typically contains mainly zero's and only very few target
loadings different from zero. (From now on, throughout this paper, by 'target loading' or
'target' is meant a loadmg different from zero in a target matrix.) Hence, the correlation
matrix reproduced from such a target matrix, typically, will also contain mainly zero's,
^hich is not to be expected from an empirical correlation matrix as reproduced from a
Sample factor matrix. So, the test for the equality of the reproduced correlation matrices
will very probably most often result in the rejection of the null hypothesis, the greater
the number of Ss the more likely this will happen. This rejection might lead to the
eventually false conclusion that the target matrix is not an adequate description of the
population factors involved in the sample factor matrix. So, one must look for another
possibility for evaluating the fit between the target matrix and the factor matrix.
One possibility, for instance, would be the construction of random target matrices which
have the same external features as the realistic target matrix, and testing each of the
correlation matrices reproduced from these random target matrices for equality with the
correlation matrix reproduced from the empirical factor matrix. (By 'external features' is
r^eant: numbers of variables, factors, targets, and negative targets, as well as the distribu-
tion of the targets across the variables and across the factors.) Of course, it is most Ukely
that for any random target matrix the null hypothesis will be rejected. But, it can also be
expected that the p-values for the random target matrices will all be worse than the
P-value for the realistic target matrix. The greater the difference between this latter
P-value and the former p-values, the better the hypotheses embedded in the realistic
target matrix are. The terms 'the greater' and 'the better' in the preceding sentence,
however, pose a problem, which also has to be dealt with in another possibility, which,
together with a computer program, is presented in this paper.

In the evaluation of hypotheses concerning the factor pattern underlying a set of
Variables, rather than evaluating the result of the targeted rotation of random data to
these (realistic) hypotheses (as did, for instance, Horn (1967)), one should evaluate the
hypotheses by comparing the results obtained from the rotation of the real data to these
hypotheses with the results obtained from the rotation of these data to random hypothe-
^es. As explained by Elshout et al. (1975), this is because

'...In factor analytic research.....the more general null hypothesis is not that the correlation

matrix in the population merely contains zero's, but that the fit between the hypothetical
factor matrix and the factor matrix in the population equals zero. This can be interpreted as:
the fit is not better than the average fit obtained from completely randomly formulated
hypotheses which have the same external features...'

The formula's used in the calculations mentioned in this section are given in section 3.1.

Hence, the method (used for the first time by Van Hemert et al. (1974)) implies the
rotation of a factor matrix to a least squares fit with a realistic target matrix (REALTAR)
as well as with a large number of random target matrices (RANTAR's). Given the identity
of the external features, the RANTAR's are a random sample (with replacement) of all
possible RANTAR's (one of which is identical to REALTAR). (Although, in fact, all
elements in REALTAR as well as in any RANTAR are specified, typically only very few
of these elements differ from zero and, consequently, only very few of these elements can
be considered to be target loadings as defined before.)

After each rotation, two measures of resemblance between the rotated solution and the
corresponding target matrix are computed. These measures are the coefficient of/actorial
similarity (CFS, a kind of correlation) and the sum of squared deviations between
corresponding elements in both matrices (SSD). For these measures no statistical tests of
significance are available, nor can anything be said concerning their magnitudes m general
(these magnitudes depend on things like: the numbers of factors, variables, and target
loadings, the variable/factor ratio, the 'evenness' with which the targets are spread across
the factors, and probably also on the number of Ss on which the correlations and, hence,
the factor loadings are based, as well as on the magnitude of the communalities of the
variables). The CFS and SSÇ obtained from the rotation to REALTAR, however, can be
compared with the CFS's ancf SSD's obtained from the rotations to the RANTAR's.
The idea, then, is that the reaUstic measures can be evaluated against the expection that
they do not differ from the random measures which, as the results show, are distributed
normally; i.e., if, say, 1% of the random CFS's is greater than or equal to the reaUstic
CFS, then, the theory from which REALTAR was derived is 'significantly' better than a
random theory at (approximately) the 1%-level; an even more exact evaluation is possible
by expressing the difference between the realistic SSD and the-mean of the random SSD's
in terms of the standard deviation of the random SSD's, which results in a value (d, from
t/istance) which is a z-score which, given the normality of the distribution of the random
SSD's (and provided that enough RANTAR's are available), can be associated with a
(one-sided) p-value. It will be clear, that this procedure enables one to unambiguously
decide, that a theory is not to be discriminated from a random theory (for an example see
section 4). At the same time, it will be clear also, that the decision that a theory, indeed,
is to be discriminated from a random theory not necessarily means, that the theory
concerned is the 'best' theory available to account for the data; other theories, which
pertain to the same subject, might give as satisfactory a result as the former theory, ot
perform even better (i.e., result in a higher ^/-value (i.e., z-score), or show a greater
discrepancy (in the ri^t direction, of course) between the realistic CFS and the frequen-
cy distribution of the corresponding random CFS's); But, if no other theories are
available, then, the theory concerned, indeed can be considered to be the best theory
which is available, even if some RANTAR's result in a better fit (i.e., a higher CFS, or a
lower SSD).than REALTAR. This is because the RANTAR('s) concerned can be prefer-
red on statistical grounds only. Statistical grounds, however, are a necessary, but not a
sufficient condition for a factor solution to be accepted as an adequate factor solution.
As rightly stressed by Elshout et al. (1975): 'Conceptual consistency must be required
above and beyond the demand of statistical significance.'

If, however, other theories, indeed, are available, then, one is confronted with the
problem that, in view of the results obtained, one shall have to decide which one of the
theories concerned is to be preferred. This poses a problem, because no statistical tests are
available to test for the difference between the <î-values obtained for different theories

(i-e., REALTAR's). Hence, in this case, one shall have to resort to other evaluative means,
h might be, for instance, that the realistic measures of resemblance obtained for one
Specific REALTAR lie so much further outside (i.e., to the right of) the frequency
distributions of the corresponding random measures than in the case of another REAL-
TAR, that one shall not hesitate to decide in favor of the theory from which the former
REALTAR was derived (i.e., a kind of 'eye-ball'-test). This decision can even be provided
)vith some firmer ground to stand on by comparing some characteristics (such as, for
instance, the number and percentage of hits, misses, and extra's (Elshout et al., 1975)) of
the two realistic solutions concerned. Even if there is no outspoken difference between
'he results obtained for two different REALTAR's, there still might be an evaluative
possibility if both REALTAR's have a number of the same factors in common (for an
example see section 4). If on the aforementioned grounds, eventually no decision can be
^ken, then, one finally shall have to have recourse to a kind of 'content-validation' of
'^oth theories and evaluate their respective implications and relevance for psychological
theory, research, and applications. (If still no decision can be taken, at least for the time
^eing, one shall have to accept both theories until more or stronger evidence becomes
available in favor of one of them.)

^ suggested by Van Hemert et al. (1974), still another use of the method can be made in
studying the effect on the magnitudes of the CPS and SSD by systematically varying the
Variables which are of influence, which variables were already mentioned before.

In applying the method, one can choose between an approximate or an exact equality of
^he external features of the RANTAR's with those of REALTAR This is not only
because choosing the approximate equality means economizing on computer time, but
also because one can imagine that the range in the magnitudes of the random CFS's and
^SD's will become larger if some difference in external features is possible. If this is true,
[hen, not completely controlling for the identity of the external features might provide a
better test for the realistic hypotheses. Using the method in this way probably implies
that a far greater number of RANTAR's is needed than in the case the identity of the
external features is guaranteed. Using the method with absolute control over the external
eatures will be indicated, for instance, if one wants to study the effect on the magnitudes
°f the CPS and SSD of possibly relevant variables.

Iji the case of oblique rotation, according to Hom (1967), it probably is to be expected
•^t the random-factor intercorrelations will have a higher absolute value than the
realistic-factor intercorrelations. Hence, the correlations between the reaUstically rotated
actors can be compared with the correlations between the randomly rotated factors, so
as to provide some more information relevant to the evaluation of the reahstic hypothe-

^'mrantar was originally written in x8-algol60 and was used for the first time in the study of
g Noot van de redactie

«chrijvingen van computerprogramma's zullen in de regel niet meer in deze uitgebreide vorm worden

Ve^" ..''®Perke zich tot een beknopte uiteenzetting van de rationale. Voor verdere bijzonderheden
rwijze men naar een rapport of memorandum dat aan de geïnteresseerde lezer ter beschikking kan
«'orden gesteld.

Van Hemert et al. (1974) to generate the RANTAR's and to perform the necessary rotations and
calculations. Its scope, however, was rather limited. Among others, it could not cope with negative
targets, nor wdth oblique rotations. Moreover, only Hall variables had either one or two targets (more
targets per variable could not be required) and all factors had an equal number of targets, then the
identity of the external features of any RANTAR and REALTAR was guaranteed (automatically) by
the original program.

The present program of the same name is an extension and modification of the original program. I'
can cope not only with negative targets and with oblique rotations, but it can also guarantee, if desired
by the user, that each RANTAR has exactly the same external features as REALTAR; i.e., not only
can it generate RANTAR's with exactly as many targets (exactly as many of which can have a negative
sign) as in REALTAR, but it offers also the possibility that the distribution of the targets across the
variables as well as across the factors in each RANTAR can (but need not) be required to be identical
to these distributions in REALTAR. That is, if desired, exactly as many variables with a certain
number of targets in REALTAR will be present in any RANTAR and the same requirement is possible
concerning the distribution of the targets across the factors. (The numbers of variables and factors of
any RANTAR will always be equal to these numbers of REALTAR.)

The equality of those external features for which the identity is not required will only be approximate
(for an exception in the case of the presence of a general factor see section 3.1.1). An exception to
this rule is the case in which all variables have the same' number of targets' and all factors have an
equal number of targets; in this case, except for the number of negative targets, the identity of the
external features is guarenteed automatically."

The new SIMRANTAR is written in CDC-ALGOL60 and was processed at the CYBER-73/28
computer of SARA (5tichting >lcademisch iJekencentrum .4msterdam). The core of the program
consists of three procedures: (1) RANTMAT, (2) TARROT, and (3) CONOR.

A call for RANTMAT generates a RANTAR in which, initially, all loadings are equal to zero-
Subsequently, RANTMAT gives every variable a random, number of target loadings on randomly
chosen factors, in such a way, however, that (depending on some input specifications) the total
number of targets and of negative targets, as weU as their distribution across the variables and acros^
the factors are approximately or exactly equal to these numbers and distributions in REALTAR- '
The minimum and maximum numbers of targets per variable and per factor are constrained by tn®
user's specifications. The magnitude of the target(s) of a variable is always equal to (h It)i, where "
is the communality and t is the number of targets of the variable concerned (i.e., all common variance
of a variable should be accounted for by its hypothesized factors). The procedure does not merely
imply a random shifting of the rows and columns of REALTAR, but (under more or less restrictive
conditions), independent of the targets in REALTAR, it gives each variable a random number of targf
loadings on one or more randomly chosen factors. If there are one or more negative targets i
REALTAR, RANTMAT gives a negative sign to an (if required, approximately) equal number o
randomly selected targets in RANTAR, independent of the variables and the factors for which the
negative targets in REALTAR are hypothesized.

An exception to the foregoing is the presence of a general factor in REALTAR (i.e., a factor on which
all variables have a target loading). In this case in each RANTAR, a general factor will be present top,
in the construction of which no random processes are involved. All targets on the general factor m

3. In this case, the total number of targets in any RANTAR will always be equal to this number m
REALTAR.

4. The identity of the distribution of the targets across the factors and of the number of negative
targets can only be required if the total number of random targets is equal to the total number o
realistic targets; i.e., this can only be required Hall variables have the same number of targets, or if it f®
required, that the distribution of the targets across the variables must'be identical to the one m
REALTAR.

5. The CDC-ALGOL60 text of the program can be requested from: N.A. Van Hemert, Psychol-
Labor., Weesperplein 8 (Room 743), Amsterdam, The Netherlands.

REALTAR are assumed to be positive and, hence, the general factor in every RANTAR will only have
positive targets. (The assumption is quite reasonable, because it is not to be expected that, in general, a
general factor will be a bipolar factor. Moreover, if one or more variables, indeed, should have a
"e^tive target on the general factor in REALTAR, there still is not too big a problem, because the
^ariables concerned can be reflected, i.e., give all their loadings on the unrotated factors as well as all
'neir target loadings in REALTAR the opposite of the original sign.) Concerning all other factors the
procedure behaves as described above. The magnitudes of the target loadings of a given variable are all
same, and the sum of the squared target loadings of any variable is always equal to its
^ommunality, whether a general factor is present or not.

•^ANTMAT, among other things, uses the procedure RANDOM from the NUMAL {Numsiical
Procedures in ALGOh(>G) library of the Mathematical Centre (MC) in Amsterdam. Subsequent calls
'Or Random result in values > 0 and < 1, which are distributed homogeneously in a pseudo-random

^ call for TARROT rotates a given factor matrix to a least squares fit with a given target matrix.
Depending on an input specification, the rotation is oblique or orthogonal.

TARRot, among other things, uses the procedure EIGSYM2 of MC's NUMAL hbrary. A call for
EIGSYM2 computes the eigenvectors and eigenvalues of a symmetric square matrix, using Househol-
der's transformation for real symmetric matrices. (In the oblique case, E1GSYM2 is not used by the
procedure TARROT, but used only once in the main program, whereas in the orthogonal case for each
rotation TARROT uses E1GSYM2 twice.)

describing the procedure TARROT two matrices will be defined:
^ = an NVAR x NFAC factor matrix, which is to be rotated to B
® = an NVAR x NFAC REALTAR or RANTAR
NVar = the number of variables
■^PAC = the number of factors

the oblique case, the rotated solution is obtained by Browne's (1967) procedure. That is, in the main
Pfogram, an nvar x nfac matrix h is computed by postmultiplication of a by the matrix of
eigenvectors resulting from the diagonalization of a'a. a call for tarrot, then, computes u = h'b.
^eh of the elements in the nfac, columns of u is then divided, column after column, by (x,- -0),
"here is the I'th eigenvalue of a a, and 6 is a number, which is obtained by means of an iterative
Procedure (see Browne 1967), which for the A:th column of U minimizes the function:

^remultiplication of the resulting U* by H, finally, gives the desu-ed solution, and U*'U* is a
symmetric matrix, the elements of which are the factor intercorrelations.

^-2.2 The orthogonal case
^ the orthogonal case, the rotated solution is obtained,by Cliffs (1966) procedure. That is, a call for
* ARrot diagonalizes the matrices b'aa B and a BE a, and delivers the respective eigenvectors in
'ne matrices v and p.

Subsequently, the procedure computes the NFAC x NFAC matrix h = p'a'b, and reflects those
igenvectors in p for which the corresponding diagonal elements of the matrix hv are negative. The
'■ssired solution, finaUy, is given by apv'.

^ wll for CONGR computes the coefficient of factorial similarity (CFS) and the sum of squared
®viations (SSD) between a target matrix and the factor matrix rotated to this target. The CFS and
are computed for every corresponding factor k according to the formula's:

where ai^ and arc the loadings of variable i on factor k in the rotated solution and in the target
matrix respectively.

For both matrices as a whole, treating all factor columns together as one column, a total CFS and a
total SSD are computed. The same formula's are used, except that each summation sign is preceded by
one more summation sign (k = 1.....NFAC).

After having read in the input data (see section 3.2) and after computation of the communalities, the
main program in the oblique case starts by computing the matrix H as described in section 3.1.2.1.
Subsequently, TARROT (orthogonally or obliquely) rotates the given factor matrix (A) to REALTAR
and CONGR computes the measures of resemblance between the rotated solution and REALTAR-
Then, RANTMAT generates the first RANTAR, TARROT rotates A to RANTAR, and CONOR
computes the measures of resemblance. Subsequently, RANTMAT generates the second RANTAR.
TARROT rotates A to this new RANTAR, and CONGR again computes the measures of resemblance.
And so on, until the required number of RANTAR's have been generated. (In the orthogonal case, in
fact, A is rotated only once; that is, in its rotation to REALTAR. In all subsequent rotations to the
RANTAR's, rather than A, the solution resulting from the preceding rotation is rotated to each neW
RANTAR. This, of course, does not make any difference.)
Finally, some means and standard deviations are computed (see section 3.3).

The input must be presented in the form of punched cards and have the standard format (i.e., numbers
separated by delimiters).
The required input data are:

(5) The required minimum number of targets of every variable in RANTAR, excluding the target
on a general factor, if any (= MINLV; MINLV must at least be equal to 0 and at most be equal
to the minimum number of targets of any variable in REALTAR).

(6) The maximum number of targets of every variable in RANTAR, excluding the target on a
general factor, if any (= MAXLV; MAXLV must at least be equal to the maximum number of
targets of any variable in REALTAR and at most be equal to NFAC).

(7) The required mmimum number of targets of every factor in RANTAR (= MINLF; MINLF must
at least be equal to 0 and at most be equal to the minimum number of targets of any factor i"
REALTAR).

(8) The maximum number of targets of every factor in RANTAR, excluding the targets of a general
factor, if any (= MAXLF; MAXLF must at least be equal to the maximum number of targets of
any factor (except the general, if any) in REALTAR and at most be equal to NVAR).

(10) '1' if exactly as many variables with a certain number of targets in RANTAR as in REALTAR
are required, else any other integer (indicating that this should be only approximately so).

(11) '1' if exactly as many factors with a certain number of targets in RANTAR as in REALTAR at®
required, else any other integer (indicating that only the MINLF and MAXLF criteria (see (7)
and (8)) will be satisfied; see also footnote 4).

(12) '1' if exactly as many negative targets in RANTAR as in REALTAR are required, else any other
integer (indicating that this should be only approximately so; see also footnote 4).

(13) A number between 0 and 1 (0 and 1 included), which determines in approximately how many
of the cases the specific matrices associated with every RANTAR (i.e., RANTAR, the rotated
solution, and (in the obhque case) the matrix with factor intercorrelations) will be printed
PROPOUT; if PROPOUT = 1, then in all cases these matrices will be printed; if PROPOUT = 0,
then, these matrices will never be printed (for an exception, however, see section 3.3 (2));''
PROPOUT = x (0<:x<l), then, in about 100x% of the cases these matrices will be printed).

(14) '1' if oblique rotations are required, else any other integer (indicating that the rotations will be
orthogonal).

(16) Per variable: its number of targets in REALTAR, excluding the target on a general factor, if
any, followed by the index of the factor(s) on which its target loading(s) is(are) hypothesized.
In case an hypothesized loading is negative, then, the index of the factor concerned must carry
a negative sign (the target on a general factor, if any, will always have a positive sign; see section
3.1.1).

(1) The unrotated factor matrix, the communalities of the variables, REALTAR and its external
features, the realistic solution, the measures of resemblance concerned, and (in the oblique case)
the realistic-factor intercorrelations as well as the mean, the standard deviation, and the number
of the negative and of the positive factor intercorrelations.

(2) For every RANTAR, among other things: its number, its external features, its measures of
resemblance, and (in the oblique case) the mean, the standard deviation, and the number of the
negative and of the positive factor intercorrelations. Moreover, depending on the value of
PROPOUT (see section 3.2 (13)) and on a random number: RANTAR, the rotated solution, and
(in the oblique case) the matrix with factor intercorrelations. (These latter matrices are printed
anyway, regardless of the value of PROPOUT, if the random total CPS happens to be greater
than or equal to the realistic CFS. This is done, because it will be interesting to see which random
hypotheses are as good as or even better than the realistic hypotheses. It might be, for instance,
that by pure chance, the random hypotheses are the same as the realistic hypotheses (i.e., apart
probably from some interchanged columns, RANTAR = REALTAR). It might also be, for
instance, that the variable/factor ratio is so low, that the rotation to REALTAR does not give a
better fit than the rotations to the RANTAR's (e.g., if NVAR = NFAC and MINLV = MAXLV =
MINLF = MAXLF = 1, then, all rotational results will be identical). Of course, it is also possible,
that the realistic hypotheses are not to be considered as being different from random hypothe-
ses.)

(3) A summary of the results of SIMRANTAR. That is, the realistic total SSD, as well as the mean
and the standard deviation of the random SSD's, and the number of RANTAR's generated. In the
oblique case also the mean, the standard deviation, and the number of all negative and of all
positive random-factor intercorrelations, with between parentheses the realistic equivalents.
Finally, the reahstic total CFS and the frequency distribution of the random total CFS's.

fhe required memory core, of course, depends upon the external features of the target matrices and is

^ords, but should at least be equal to 25,359 words. (For the meaning of the terms NVAR, NFAC,

Prom two studies, some examples of the use of SIMRANTAR will be given. Both studies
pertain to GuUford's Structure - of - Intellect (Sl-)model (Guilford, 1967; Guilford &
Hoepfner, 1971). In the first study (Van Hemert et al., 1974), SIMRANTAR was used in
Its original form (see section 3). In the second study (Van Hemert, in preparation),
SIMRANTAR was used in the revised version as presented in this paper.

In the study of Van Hemert et al. (1974), the vaHdity was investigated of the much heard
argument (e.g., Horn, 1967; Hakstian, 1972), that using a Procrustean rotation and given
a large ratio of retained factors to variables, virtually any set of data can be fitted to any
hypothesis. Which, in other words, is to say that given a low variable/factor ratio and
using targeted rotation, any randomly formulated theory will result in as good a fit
between the data and the theory as will a realistic theory. This proposition was tested by
selecting an Sl-study (Merrifield et al. 1963), which, in a reanalysis by Guilford &
Hoepfner (1971), was characterized by a very low variable/factor ratio of only 1.62(13
factors and only 21 variables). The empirical factor matrix was subjected to
SIMRANTAR. That is, 120 RANTAR's were generated, which approximately had the
same external features as REALTAR, which was based on the original Sl-hypotheses. The
rotations were orthogonal. The results showed that the random CFS's were distributed
almost normally with a range from .60 to .69, whereas the realistic CFS was equal to .73.
Although this letter value points to only a moderately good fit, it is clearly to be
discriminated from the results obtained from the rotations to the random hypotheses.
Hence, it was concluded that even a very low variable/factor ratio is not sufficient as an
argument against the use of targeted (orthogonal) rotation of factors, let alone that the
use of targeted rotation as such might be objected to.

Some more examples may be gathered from a study of the present author. As is rather
well known, the Sl-model, apart from for using targeted rotation, is also criticized, among
other things, for the lack of a general factor, for the lack of an hierarchical structure, and
for the postulation of too great a number of independent abilities. Haynes (1970), for
instance, in analyzing a battery of 34 Sl-tests, each two of which represented a different
Sl-Cognition ability, pretends to have demonstrated the existence of a General Cognitive
Ability as a general factor at the top of a hierarchy, in which the Sl-factors deal with the
more specific abilities at a low hierarchical level. Although Haynes' study can be criticized
on almost every count (Van Hemert, forthcoming), it provides one with a correlation
matrix of a test battery, in which 17 of all 24 Cognition-factors which are hypothesized
by Sl-theory are represented in a rather systematic way (only the Cognition-factors with
Behavioral content and factor CST (Cognition of Symbolic Transformations) are lacking)-
In the study of Van Hemert (in preparation), then, it is attempted to evaluate the factor
solution of Haynes' battery based on Sl-theory in comparison with a number of alterna-
tive solutions based on different assumptions concerning the underlying factor structure
of the Sl-cube. These different assumptions are referred to as different 'models', all of
which, however, are formulated in terms of the dimensions and categories of the
Sl-model, although only some of the alternative models postulate the existence of the
specific Sl-factors (apart from other (broader) factors). The different models differ not
only in the number, but also in the kind of predicted factors. Some models postulate a
general factor, which, because all 34 tests are Cognition tests, happens to coincide with a
subgeneral Cognition-factor. Some of the models postulate the 15 different Sl-categories
to be independent primary abilities (i.e., five Operation-, four Content-, and six
Product-factors). Some of the models do postulate the five Operation- and four Content-

Sl-categories to be independent factors, but instead of six Product-factors the 120
specific Sl-factors are postulated. Furthermore, in some models a 'Symbolic + Semantic'
Content-factor is postulated, which factor might tentatively be conceived of as Cattell's
(1971) Crystallized intelligence (gc)> or as Vernon's (1961) Verbal - Educational (v.-ecQ
factor. Finally, although all models pertain to orthogonal factors, some of the models are
to be considered as hierarchical models with four or five hierarchical levels (i.e., the
models 5, 6, and 7 in Table 1, in which a summary is given of the number and kind of
predicted factors per model, as well as the number of hypothesized loadings per factor,
per variable, and per model if appUed to Haynes' battery).

Summary of the predictions stemming from the different models if applied to Haynes' battery (for
explanation see text).

Results obtained from different runs of SIMRANTAR with 34 variables and varying numbers and
kinds of factors (for explanation see text).

II 5a 4* 20 .70 .70 .65 - .74 55 9.14 9.09 .71 -■0^
6a 3* 20 .76 .73 .70 - .79 25 6.50 7.07 .66 -86

forthcoming), the rather meagre result obtained for the Sl-model had been anticipated).
Although the differences in J-values obtained for the four models are not to be tested, it
niay be noticed too, however, that the models 4, 5, and 6 postulate the same 17
Sl-factors (as specific factors) that are postulated by the Sl-model (see Table 1). In order
to see the contribution of the 'more important' (i.e., broader) general and/or subgeneral
factors which are postulated by the models 4, 5, and 6, to the goodness of fit obtained
for the three models, three new REALTAR's (4a, 5a, and 6a) were constructed, which
contained only the three or four most important factors postulated by the models 4, 5,
and 6 respectively. Twenty runs of SIMRANTAR were sufficient to readily reject the
models (i.e., the hypotheses embedded in the REALTAR's) 4a, 5a, and 6a (see block II in
Table 2). These results imply, that of all the factors postulated by the different models
only the 17 Sl-factors contribute 'significantly' to the goodness of fit obtained for the
different models. (The legitimacy of this deduction is demonstrated in the study of Van
Hemert (in preparation).)

Hence, not only the Content-categories, but also the Product-categories, which are
postulated by the Sl-model, are not to be considered as being realistic factors. Although
in Haynes' study, no tests with Behavioral content were involved, and although of the
Operation dimension only the category of Cognition was involved, there does not seem to
be a single reason why this conclusion should not apply also to the Behavioral content
category and perhaps even to the five Operation categories as well.
The conclusion concerning the presence of a general factor, however, can not be as
straightforward. This is because, if in a given REALTAR a general factor is present,
SIMRANTAR automatically provides each RANTAR with a general factor too. Hence,
the conclusion that the general factor is not to be discriminated from a random general
factor is bound to be meaningless. It is evident, however, that the existence of a general
factor could be supported, if its presence in a REALTAR results in a better fit than the
fit obtained for an identical REALTAR, but without the general factor (i.e., this latter
I^EALTAR contains one (the general) factor less than the former). In the study three
such instances occurred (one of which pertains to the models 4 and 5 in Table 1). In all
<^ases the absence of a general factor was favored by the results obtained from
SIMRANTAR (the d-values obtained in the three cases of the presence of a general factor
are equal to 2.20, 6.26, and 2.88, which are all /ower than the corresponding J-values in
the case of the absence of a general factor, which are respectively equal to 2.58, 8.75, and
^•20). Moreover, in two of these three cases, the numbers of hits for the identical factors
111 both matrices (i.e., one matrix with, and one matrix without a general factor) were
Compared. In both cases the percentage of hits respectively increased from 64.7% to
^2.4% and from 72.0% to 89.0% if no general factor was postulated.
Wence, these results rather clearly reject the presence of a general factor in Haynes'
battery, and at the same time (all tests being Cognition tests), the existence of a
subgeneral Cognition factor is rejected, which is in line with tentatively generalizing the
Conclusions concerning the (non)existence of Content- and Product-factors to the
Operation-factors, as was proposed above.

Moreover, in the study it is demonstrated, that the absence of a general factor not only
favors the percentage of hits for Sl-factors, but for other (group and specific) factors in
^uite a different solution as well. Hence, in spite of Haynes' conclusion, the conclusion is
|,bat regardless of the kind of specific and/or group factors, the postulation of a general
tactor lowers the goodness of fit in a serious way.

The final conclusions are, that in the given test battery no general factor is present, and
that it makes no sense to consider the 15 Sl-categories, nor some of their combinations,
to be a kind of subgeneral or group factors. If one is inclined to consider the Sl-factors to
be rather specific (i.e., not very unportant) factors, then, one shall have to 'invent' other
broader group factors, which not only are connected logically to the existent Sl-factors,
but which also make sense psychologically.

A closer inspection of Table 2, finally, will reveal that there is no sunple relation between
the magnitudes of the random SSD's and possibly relevant variables (i.e., variable/factor
ratio, target/factor ratio, and the like). The same goes for the random CFS's. The study,
however, was not designed to answer these kinds of questions.

Cattell, R.B. Abilities: Their structure, growth and action, Boston: Houghton Mifflin Cy., 1971.

Elshout, J.J., Van Hemert, N.A. and Van Hemert, M. Comment on Horn and Knapp: On the subjective
character of the empirical base of Guilford's Structure-of-Intellect model, Tijdschrift voor Onder-
wijsresearch,\91S, 1,15-25.

Guilford, J.P. and Hoepfner, R. The analysis of intelligence, New York: McGraw-Hill, 1971.

Hakstian, A.R. Book review of Guilford and Hoepfner (.1911), Educational and Psychological Measur-
ement, 1912, 32,211-215.

Haynes, J.R. Hierarchical analysis of factors in cognition, American Educational Research JourtiuU
1970, 7, 55-68.

Horn, J.L. On subjectivity in factor analysis, Educational and Psychological Measurement, 1967, 2/>
811-820.

Merrifield, P.R., Guilford, J.P. and Gershon, A. The differentiation of divergent-production abilities
the sixth grade level, University of Southern California: Reports from the Psychological
Laboratory, No. 27, 1963.

Schonemann, P.H. A generalized solution of the orthogonal Procrustes problem, Psychometrika, 1966«
31,1-10.

Van Hemert, N.A. A critique of Haynes' 'Hierarchical analysis of factors in cognition', GedraS-
Tijdschrift voor Psychologie, (forthcoming).

Van Hemert, N.A. An evaluation of some alternative factor solutions for Haynes' 'Hierarchical analysis
of factors in cognition', (in preparation). .

Van Hemert, M., Van Hemert, N.A. and Elshout, J.J. Some simulations of targeted orthogonal
rotation of factors - 2. Real factors and random hypotheses. In Bruckmann, G., Ferschl, F. a""
Schmetterer, L. (ed.), COMPSTAT 1974: Proceedings in computational statistics, Wien: Physi^a
Verlag, 1974,415-425.

Vernon, P.E. The structure of human abilities, London: Methuen & Co., Ltd., 1961.

Runkel, P.J. and McGrath, J.E.: Research on human behavior.
New York: Holt, Rinehart and Winston, 1972.

Many textbooks go into statistics and call it methodology. Research on Human Behavior
l^y Runkel and McGrath has as one of its major advantages that a clear distinction is
maintained between methods and statistics. In earlier books, for example Kerlinger's
foundations of Behavioral Research too much space is devoted to statistical topics hke
analysis of variance and that's statistics under colour of method. In their chapter 13
Runkel and McGrath show well enough the idea behind statistics, while showing the
problems statistics is trying to solve, they avoid statistical technicalities as much as
Possible. The authors are to be congratulated on keeping to their topic: methodology.
Another sound feature of Research on Human Behavior is the use that is made of the
facet approach. The facet approach is generally employed as a research tool to classify
actors, behaviors towards objects and settings or contexts. In addition, Runkel and
McGrath ingeneously apply the facet approach as a basis for arranging their concepts and
Organizing their text, the facet approach originated from Guttman and has been well
formulated by Foa. It is not in many details in other texts. Use of the facet design
presents the reader with a very good view of what is being said.

Connected with this application of facet design in writing their book is the authors' clever
Use of the idea of the cycle of empirical research. Research is well shown as proceeding
through a series of choice points. Each decision to be made during this continuous
process has advantages and disadvantages, there being no 'right answers' anywhere around
the circle. This picture of the research cycle helps the student to truly visualize the
On-going process of research. One can enter the cycle at various places (both the
"researcher and the teacher, working with the book). The cycle leaves Uttle doubt about
^here one is going, what choices one has to make and what happens when one makes
^em. Runkel & McGrath succeed in portraying, that there are a series of cross-roads and
^hey show clearly many of the advantages and disadvantages at each of them,
pother major quality of the text is the inclusion of Coombs' theory of data. This rather
difficult material has been made far more understandable to the student. Likewise, the
Campbell & Stanley studies in chapter three on Experimental Designs add much. At the
®id of each chapter is a comprehensive section on further readings. This not only shows
f^at there is much more to be found but underlines the fact that this text is an
"itroduction.

book as a whole is well written and easy to read. Chapters three (Planning a Study:
|he Logic of Study Design), ten (Analyzing Empirical Evidence: Translating Observations
'^to Data), eleven (Analyzing Empirical Evidence: Arranging Data into Unidimensional

Patterns), twelve (Analyzing Empirical Evidence: Arranging Data into Multidimensional
Patterns), and thirteen (Analyzing Empirical Evidence: Relations among Sets of Data) are
the more technical ones but well written with the exception of chapter three. Chapter
five on sampling seems especially outstanding in this respect.

The book wisely does not employ too many difficult formulas which could scare the
beginner.

The book uses many current works, combining several recent ideas: Guttman and Foa's
facet approach, Campbell and Stanley's experimental designs, Cronbach's generalizability
concept, Campbell and Fiske's multitrait-multimethod paradigm, Coombs' theory of data
and his searchingness structure, nonreactive research of Webb and his co-authors, Cole-
man's models of change and response uncertainty, and the variety of scaling techniques,
to list but a few of the major inclusions. The text sometimes fails to integrate aU these
various ideas. For example the Campbell & Stanley experimental designs are experimental
and not general research designs. The concept of validity is over-generalized. The meaning
of validity in the context of mental test theory differs completely from Campbell and
Stanley's use of the concepts of internal and external vaUdity. Another overgeneralization
concerns Coombs' searchingness structure. This is a framework for classifying all kinds of
ways stimuli can be presented to subjects. Runkel & McGrath try to generalize this
searchingness structure to a general classification system for recording tasks but they fail-
Chapters three (on the logic of study design) and six (on vaUdity, reUability, and
generalizability) appear to be the most ambiguous ones and in need of rewriting.
In the following sections more detailed criticism is given on several parts of the book.

Beginning on page 21, where theory is first mentioned, through page 24 one finds far too
much that falls in the category 'vague and confusing'. Firstly, theory is defined as '-a
logical arrangement of concepts that parallels in some specifiable way some experience
that can occur during our observations of the real worid...'. The following questions come
immediately to mind; what is 'a logical arrangement of concepts', what is meant by some
specifiable way and finally, in what way is the real world observed?
One can easily agree as section 2-6 begins with stating that what follows is certainly, ^^
the '... simplest terms...', to say the very least. 'We shall not undertake any argument
about theory in this book, because our topic is method, not theory'.
Sjöberg and Nett's supposed enlightenment forthe reader unfortunately only adds to the
growing darkness. What are logically interrelated 'propositions' or 'statements'? What is
'empirically meaningful'? Scientific theory does not refer to the assumptions the resear-
cher makes about his method and data, scientific theory consists of these assumptions.
From these descriptions the reader could gain the impression that 'theory' is in itself ^
vague concept, while quite the opposite is true. Maki and Thompson's Mathematics'
Models and applications (1973, chapter i) provides an excellent, concise discussion
exactly to the point. ,

After a careful reading of the aformentioned section, one can not help but feel it woul
have been better to have had a thorough coverage of the theory area, rather than merely a
surface skimming leaving only confusion and questions.

'We shall be discussing human behavior in this book as (1) actor or actors engaging in (2)
behavior-toward-an-object in (3) a setting or context'. Following this statement the term
'behavior systems' is used (p. 59), presumably defined by actors, behaviors and contexts.
This leaves us with at least two questions. Firstly, is 'human behavior' to be equated with
'behavior systems'? Secondly, why is the technical term 'system' employed in the first
place?

The terms 'concrete class of behavior systems' and 'a generic class of abstract behavior
systems' (p. 87) lead the reader to another point of confusion. One can and probably
must suppose that the generic class of concrete behavior systems parallels the generic class
of abstract behavior systems. If this holds, understanding could be aided by making this
explicit. Secondly, one wonders what these concepts might mean.

Upon a careful reading of chapter 6-1 on operational definitions of properties, one is
disappomted with the complete omission of an essential discussion of theory — the basis
for building all operational definitions. Additionally, this section omits the other essential
concept of derived measurement as defined in Foundations of Measurement (1971,
chapter 1) by Krantz, Luce, Suppes and Tversky. In the first place a scientific concept is
only given meaning in the context of a theory. Its meaning is defined in terms of the
relations it has with other concepts in the theory. The theory itself is constructed to
account for observable phenomena; so, by the theory, the measurement of the concept is
prescribed and becomes possible. The result of a 'measurement' based upon an operatio-
nal definition without any theory leads to the well-known 'so what' question. Within this
context it also is imperative that the distinction is made between derived measurement
recorded observation (p. 174).

The reliability concept is related to the fundamental assumption that generally, measu-
rement contains unsystematic error. On page 153 sources of error are discussed, using
physical examples, such as length. The concept of reliability however stems directly from
the fact that behavior is involved within the measurement procedure. The text's discus-
sion of measurement of the distance between two points suggests that the distances are
stable while the measuring device is unstable. Measuring behavior, for example by an
mtelligence test, yields exactly the opposite - the measuring tool (the test items and
Scoring procedure) is stable, while the behavior being measured is not.

Running throughout Runkel and McGrath's textbook a basic concept is that of relation.
Certainly as basic a concept as this is to the enture book, especially for Coombs' theory of
data, one must explicitly and precisely discuss 'relation' as a subset of a Cartesian

product. For example the text discusses transitivity on page 158 where 'transitivity refers
to the logical non-circularity of the order relation on three or more points (or distances)'-
Further on page 307 a separate section is devoted to transitivity - a property of a special
type of relation. When the reader comes to Coombs' theory of data (page 253) an open
discussion of the relation concept becomes even more imperative. Here, an understanding
of the properties of dominance and proximity requires a more thorough approach toward
the relation concept.

On page 273 the properties of symmetry and complementarity are appUed to data
matrices. These properties again pertain to the relation concept. Finally, near the end of
the text (p. 377) one encounters a definition of relation. Not only is this too late, but
also one finds it too httle.
A relation is a subset of a Cartesian product.

This statement followed by some expansion is necessary in a prior section of the book.

The discussion of factor analysis by Runkel and McGrath (p. 337 and 338) must be
expanded to aid the reader for a more complete understanding. This discussion presumes
prior knowledge of two basic skills.

Firstly, one must be able to transform the verbally expressed idea, '...that an obtained
score on a test results from components that act in an additive way', (p. 337), into an
algebraic equation. This knowledge is also required in reading the text (p. 334 and 336)-
Had Runkel and McGrath been more explicit about the progression from verbal to
mathematical expressions they could have used them more and with greater effectiveness.
Secondly, familiarity with the summation sign is presumed. The text unfortunately makes
this presumption without enlightenment (p. 381). The arguments for the desirability of
inclusion, which pertain to the transformation of expressions from verbal to mathemati-
cal, also apply to the summation sign.

In section 13-2 (p. 382) Runkel and McGrath are discussing, under the heading of
Relations among Three or more Variables, three kinds of techniques for examining
relations in contingency tables. Again one finds the introduction of non-standard termi-
nology. Base rate and obtained rate are used in place of the more commonly used
expected frequency and observed frequency. (This reminds the reader of design partition
- independent variable - and observed partition - dependent variable -). New terminolo-
gy can and is often extremely helpful when it is used to clarify problem areas. In this
case, it does not tum out to be an advantage or an improvement upon the currently used
terminology.

The aformentioned three kinds of techniques require a thorough understanding of th®
concept of base rate. The base rates in table 13-12 can be grasped by the student with the
help of the explanation given on page 385. Likewise in the following sections, the student
can follow how. base rates are computed. The problem however is that the prerequisite
why — question has been omitted.

This problem becomes evident on page 388 when one reads, '...and dividing by the
Square of the total number of cases...'. The reader is perplexed when seeing a square. To
make the why, not only of this square, but of all of the base rate computations
Understandable, one must present a discussion of the assumption of independence. The
base rate is an expression of the independence of the variables involved - stochastic
variables. In the past few sentences the terms independence and stochastic variables
appeared of necessity. Likewise, of necessity, these lead one to a discussion of the basic
concepts of probability theory.

The above conclusion also holds true for the section on change and uncertainty of
response (p. 389). The change and uncertainty of response concepts are at best inadequa-
tely discussed. In discussing the problem of understanding different responses of the same
people at different times, the authors make the following distinction: 'We often think of
long-term variations as changes from one state to another, but of the short-term variations
as the unpredictable inconsistency of an uncertain world'. When Coleman (1964) uses the
term change and the term response uncertainty he means systematic change and random
change. So the contrast is not between long-term variation and short-term variation but
between systematic variation versus random variation.

In this section the student is confronted with the same problem as in 'Relations among
three or more variables'. The how is adequately shown but the why is incompletely
explained. Again one finds that a discussion of assumptions is required. The ground work
for progressing from table 13-14 to 13-15 is inadequately laid. True, the computation of
the predicted transition rates of table 13-15 from 13-14 is shown. However, the basis for
this step requires assumptions. Coleman (1964, p. 3) states clearly that 'This involves the
assumption that each individual is characterized by an identical process, with identical
ry's, and that the aggregate data represent the sum of n independent identical processes',
where ry js '...the probability of change from state i to state j in the single time period
between t and t+l'. (Coleman, 1964, p. 2) and where n is the number of individuds. So,
the essential idea of this model is '...that all individuals are characterized by identical
Processes'. (Coleman, 1964, p. 3) and when a person is in a given state his response
probability is unity, his response uncertainty is zero. If the authors '...assume that all
Variability in Table 13-15 were only uncertainty of response...' then their '...prediction
from time t to t+2 would be merely a replication of table 13-14 with the one proviso,
that while the diagonal frequencies would stay as they are, the other frequencies would
take on symmetrical values'. The reader questions
what is '...only uncertainty of response...',
why '...diagonal frequencies would stay 'as they are',,,' and
""" why '...other frequencies would take on symmetrical values...'.
The first question really begs for a more thorough discussion of the assumptions. The idea
for the basic assumption — response uncertainty - is that a person will have one
Probability for choosing brand 1, another probability for choosing brand 2, and a third
Probability for choosing brand 3. These three probabilities obviously total one. Probabili-
ties may vary over subjects. Here, in the response uncertainty assumption, over time the
Probabilities remain constant, whereas over subjects they may vary. In the systematic

change assumption, the transition probabiHties remain constant over subjects — they are
the same for each subject —, whereas the person being in one state or another will vary
over time. Questions number two and three require again knowledge of probability
theory, to be adequately covered. Adding Coleman (p. 4 and 5) is a good beginning
toward discussmg required estimation theory.

In conclusion of discussing the section on Relations among Three or more Variables and
the section on Change and Uncertainty of Response one can see that method without
theory — assumptions - is like a ship without a helm - at best one is forced to drift-
Additionally, in order to formulate assunptions, one must, of necessity, depend upon
concepts of probability theory. Closely connected with probability theory is estimation
theory, needed to justify the method used. One wonders how the motto: 'We shall not
undertake any argument about theory m this book, because our topic is method, not
theory.' (p. 23) can ever survive.

After the extensive criticims given thus far, it would be a fallacy to conclude that Runkel
and McGrath have failed in giving a fair introduction or a good overview of methods. In
large measure they attainted great success. As an introduction it both provides entrance
into various concepts, ideas, and pitfalls, and omits the technical, formula-oriented side of
methods. From the standpoint of an overview, the authors expanded and exempUfied the
material from a faceted definition and included the essential, current works in the field-
The only thing one would recommend is a rewriting of several parts, so as to clarify and
simplify. Perhaps the prior comments could aid in some of the troubled spots. Going
from observation to problemformulation - the first step of research — also needs
concrete expansion. This would show the reader the real importance of research metho-
dology and stimulate more in-depth study. Nonetheless the book may be of help for
psychology, sociology and education students, among others. However, for an adequate
curriculum any advanced study certainly requires more than this starting point.
This reviewer has used the book in his '74-'75 course on methodology for undergraduate
psychology students. In the meantime, he has decided not to use the book anymore. The
main reason for this decision was, that the book is too abstract, too far away from the
concrete problems the student encounters in research. For the experienced researcher the
book is of great value, because he finds a systematic overview of the problems he has
encountered so often. The book does not appeal to a beginning student, mainly because
of the fact he has httle or no experience in research.

Coleman, J.S. Models of change and response uncertainty. Englewood Qiffs, New York: Prentice Hall'
1964.

Kerlinger, F.N. Foundations of behavioral research. New York: Holt, Rinejiart and Winston, 1964.
Krantz, D.H., Luce, R.D., Suppes, P. and Tversky, A. Foundations of measurement. Vol. I. New York-
Academic Press, 1971.

Maki, D.P, and;Thompson, M. Mathematical models and applications. Englewood Cliffs, New YoiK-
Prentice-Hall, 1973

fiij de organisatie van een congres met meer dan 550 deelnemers loopt er wel eens iets
Verkeerd. Zo was er na het paper van J.C. van Bruggen 'Leerplanontwikkeling bij
WISKOBAS; een strategie' nauwelijks tien minuten beschikbaar voor discussie. Niet
Zoveel voor een uit onderzoekersoogpunt controversieel onderwerp, zeker niet als een
deel van die tijd gebruikt wordt door een aangewezen vriendelijke discussiant. Ik had het
Voorrecht te behoren tot de verzameling van de (twee) andere personen uit de zaal die nog
aan het woord konden komen, maar leuk was dat niet. Ik wil hier graag nog een korte
aanvulling geven op de onbevredigende discussie.

Ter documentatie mag ik het bovengenoemde paper van Johan van Bruggen aanbevelen;
het is een uitgave van het Instituut Ontwikkeling Wiskunde Onderwijs, (lOWO). Mijn
eigen standpunt heeft te maken met opvattingen als neergelegd' in mijn artikel 'Leer-
hoeken-onderzoek en leergang-konstruktie' in Pedagogische Studiën, 1974, 51, 558-571,
Waarin ik tot de konklusie kom dat stapsgewijze evaluatie bij de ontwikkeling van
leergangen nodig is.

^ijn kritiek op de leerplan-ontwikkeling van Wiskobas is samen te vatten in twee simpele

Welke garahtie is er, dat het geproduceerde materiaal als lesmateriaal voor grote
groepen kinderen bruikbaar is, in een groter aantal scholen dan de ene proefschool
Waarmee men nu al vier jaar werkt en waar al het materiaal wordt uitgeprobeerd?
Waarom werkt men niet samen met researchtechnisch geschoolde onderwijskundigen
die, gebruikmakend van het instrumentarium van de sociale wetenschappen (en dat
zijn niet alleen studietoetsen), stapsgewijs een ontwikkelings- en productieproces
kunnen begeleiden?

Ik Weet wel dat er in Groningen (ORD'76) wel reacties zijn gekomen op dit soort
^aagstellingen. Het zijn welbekende argumenten; in mijn eigen woorden komen ze
°rigeveer hier op neer:

In de jungle van de elkaar bevechtende uitgevers (wie zijn dat dan wel in Nederland
vraag ik me af) dreigt een chaos door het op de markt komen van allerlei slechte
methodes. Vanuit een CMLW-visie (CMLW: Commissie Modernisering Leerplan Wis-
kunde) dient hier orde te worden geschapen.

Wij brengen geen kant en klare methode, maar we brengen innovatie, begeleid door
bouwmaterialen, keuzemogelijkheden en creativiteitsbevorderende docenten-aanwij-
zingen.

^ Zoveel mogelijk docenten moeten vóór of tijdens hun beroepsuitoefening kennis

maken met de lOWO-visie en de innovatieplannen.
^ Het professionahseren van de leerplanontwikkeling stellen we uit totdat de visie door

het veld is overgenomen,
yit zijn sympathieke reacties voor vele wiskundigen. Voor een ieder die in de loop der
l®ren heeft kennisgemaakt met de medewerkers van het lOWO, is het bovendien echt
^idelijk dat hier vanuit een echte visie op de wiskunde en op het wiskunde-onderwijs
rraar iets nieuws en iets groots wordt toegewerkt. Helaas is een visie in de praktijk van het

Visie is nodig, maar wij moeten ook in de praktijk beproeven of de concretiseringen van
onze denkbeelden functioneren voor de meerderheid van de schoolkinderen. Als het zou
gaan om de introductie van een nieuw scheerapparaat, dan zou ik er vrede mee kunnen
hebben dat er meer aandacht wordt besteed aan de productie en de verkoop dan aan het
onderzoek van baardgroei- en haarsnijprocessen want de consumenten hebben per slot van
rekening nog andere mogelijkheden; ze kunnen een ander merk apparaat aanschaffen, ze
kunnen zich met gilette-mesjes scheren en ze kunnen ook nog hun baard laten staan. Maar
bij Wiskobas gaat het nu eenmaal niet om de vrijwillige aanschaf van gebruiksgoederen
door een consument, het gaat om de innovatie van een schoolvak waar elke jonge Neder-
lander zonder keuzemogelijkheid mee te maken krijgt. In zo'n geval mag er niet bespaard
worden op de kosten die nodig zijn om reeds tijdens het ontwikkelings- en productiepro-
ces een kwaliteitskontrole in te stellen. Research in het lab en in het veld moeten routine
worden, als men niet alleen een visionnair product wil maken maar ook aan het onderwijs
leerstof wil leveren die op grote schaal bruikbaar is.

Ik geloof best in de CMLW-visie over het mathematiseren van de wereld en ik geloof ook
in het élan en de overtuiging van de medewerkers van het lOWO. Zelfs wil ik op gezag van
anderen aannemen dat er een gunstige attitude bestaat bij al diegenen die vanuit het
onderwijs de conferenties van Wiskobas hebben bijgewoond. Maar wat ik zonder aan-
wezigheid van behoorlijk empirisch materiaal weiger te accepteren is de algemene bruik-
baarheid. Werkt de vernieuwing van Wiskobas iets uit voor meer dan 90% van de kinderen
in een steekproef van dertig scholen die een jaar, of twee jaar, of drie jaar, hebben
gewerkt met Wiskobasmateriaal? Daarom gaat het. Naar mijn mening moeten daarover
meer gegevens ter beschikking komen. En dan niet door een enkele goedwillende
doctoraalscriptie, maar door langdurig en degelijk onderzoek op grote schaal. Er zijn best
gegevens te verzamelen, al kost dat dan wat geld. Hoge kosten en de spoed van andere
werkzaamheden mogen geen blijvend excuus zijn voor het ontbreken van een kwantifice-
rende evaluatie van zo'n gigantisch experiment. En als er niets te evalueren zou zijn omdat
men slechts geloof hecht aan kwalitatieve evaluaties die niet door onderwijsresearchers
kunnen worden gedaan, dan trekt men op den duur toch wel een zware wissel op de
goede gunst van de belastingbetaler. En laat men nu niet zeggen dat er op dit gebied geen
deskundigheid in Nederland is. Die is er beslist wel. Ik weet wel dat de onderwijsresearch
in ons land pas kort geleden begonnen is en dat er nog veel ondeskundigheid is, maar waaf
is dat m'et? Er is, in samenwerking tussen vertegenwoordigers van verschillende disciph'
nes, best een behoorlijk stuk formatieve evaluatie van de grond te krijgen tegenwoordig-
Ik hoop dat de uitspraak van de heer Van Bruggen op de ORD over de op handen zijnd®
professionahsering van lOWO inderdaad de inschakeling van onderzoekers zal meebren-
gen. Voorlopig blijf ik daarover, als een echte onderzoeker, nog sceptisch.

Werkgroep Sociale Systemen, Vakgroep Psychologie van Arbeid en Organisatie, K.U. Nijmegen

In two concatenated articles we describe the process of educational innovation or change. In
order to do that first a general model about goal-diiected activity is formulated using social
system theory. Then elementary educational processes are mapped by application of the general
model on their evident characteristics.

In the second, forthcoming article the goal-directed change of elementary educational processes
by educational researchers and engineers is modeled. Using this model three basic problems in
dutch educational innovation, namely the implementation problem, aspect-models, and vertical
coordination of innovation, are explained and discussed.

A side-purpose of our descriptions is to convince educational researchers of the descriptional
power of the interdisciplinary systems language. System theory can be a tool for constructing
more integrated, dynamical models of real-life educational processes. Such models are a
prerequisite for the deduction and implementation of coordinated, long-term educational plans.

dit artikel en een artikel wat hierop zal volgen (deel 2), is ons onderwerp of object van
Onderzoek en discussie:

'het proces van innoveren van onderwijs'.
^ plaats van 'innoveren' hanteren we het iets algemenere begrip 'veranderen'.
Ons object van onderzoek is dan:

'het proces van veranderen van onderwijs'.
Het doel van deze artikelen is te komen tot een beschrijving of model over dit object.
Omdat dit model gebruikt kan worden om af te leiden op welke wijze een veranderings-
proces gewijzigd moet worden opdat het optimaler verloopt, vormt dit onderzoek een
aanzet tot:

'het veranderen van het proces van veranderen van het onderwijs'.
Een zeer algemene definitie van onderwijs is als volgt: 'onderwijs is het proces van
Veranderen van pupillen/leerlingen/studenten/adolescenten'.
Zo opgevat zijn we met ons onderzoek bezig met:

we in het algemeen een veranderingsproces V t.a.v. een object S noteren met V(S),
dan kunnen we de activiteit van ons onderzoek formeler noteren als zijnde een onderdeel
Van

^ I^t onderzoek werd financieel ondersteund door de afdeling Analyses van de Directie Rechtpositie-
Onderwijs, Ministerie van Onderwijs en Wetenschappen, 's-Gravenhage.

waarbij P = Pupillen, en Vq.Vi .Vj geïndexte veranderingsprocessen zijn.
Uit deze notatie blijkt duidelijker het object van elk veranderingsproces.
De drie veranderüigsprocessen hebben ieder hun eigen karakteristieken doordat het
concrete object voor elk verschilt. Ongeacht dat zijn ze elk een verbijzondering van V(S),
nl. 'n veranderingsproces t.a.v. 'n object S. Een efficiënte beslissing is daarom eerst een
consistente beschrijving of model te geven over V(S), en daarna deze algemene beschrij-
ving (= aantal termen en relaties tussen de termen) te hanteren om de concrete verande-
ringsprocessen te beschrijven.

— Eerst geven we een beschrijving van een veranderingsproces in het algemeen (i.e. V(S))-

— Dan geven we een beschrijving van het microproces van het onderwijs nl. het proces
waardoor pupillen worden onderwezen en veranderd (i.e. Vo(P)).

— Vervolgens geven we aan wat we moeten verstaan onder verandering van onderwijs-
processen en op welke wijze dit, gegeven de karakteristieken van Vo(P), dient te
geschieden. Daarmee hebben we een model geformuleerd over Vi(Vo(P)).

— Tenslotte bespreken we enkele kernproblemen van de huidige onderwijsveranderings-
processen in het licht van het model. Deze kernproblemen ontleenden we aan de
discussies in de groep 'innovatiemodellen' van de Eerste Konferentie door Ondervvijs-
probleemoplossers (maart 1975 te Noordwijkerhout).

Een dergelijke toepassing van het model in functie van V2(Vi(Vo(P))) vereist, naast
een duidelijker probleemsteUing, meer data over nederlandse innovatieprocessen om
het model uit te bouwen en te valideren.

De beschrijvingen in deze artikelen berusten conceptueel op de Systeemtheorie of
Systeemleer, een interdiscipline die tracht de nadelen van de bestaande aspectmatige»
monodisciplinahe, en partiële bestudering en beschrijving van objecten of systemen (zoals
individuen, groepen, commerciële en publieke organisaties) te ondervangen. Ze probeert
dusdanig algemene concepten te ontwikkelen dat daarmee geïntegreerde, wholistische
beschrijving van op zich complexe, multi-aspect objecten of gehelen of systemen mogelij''
wordt.

Spécialistisch onderzoek blijft daarbij mogelijk doordat de systeemtaai in staat stelt om
specialisten doelgericht te coördineren en specialistische modellen/beschrijvingen te kop'
pelen.

Een nevendoel van deze artikelen is dan ook aan onderwijsresearch-beoefenaars de
vruchtbaarheid van systeemtheorie voor de modelvorming over onderwijsprocessen te
tonen. We doen dit niet door systematisch'de potentie van de verschillende systeembena-
deringen te evalueren, maar door algemeen herkenbare onderwijsprocessen middels de
meest elementaire systeembegrippen te beschrijven.

De keuze tussen wat we bij deze beschrijvingen meenemen en wat niet, berust door het
ontbreken van een gedetailleerd beschrijvingsprobleem min of meer op conventie. Ander®
invullingen zijn mogelijk.

Voor een inhoudelijke verantwoording en historie van onze systeembenadering verwijze"
we naar Hanken en Reuver (1973), Klabbers (1975a, 1975b), en Geurts (1974).

Bij elk veranderingsproces t.a.v. een object zijn twee systemen of gehelen (of objecten)
betrokken nl.

Ete relatie tussen beide gehelen is minimaal dusdanig dat systeem I op systeem S inwerkt
Zodanig dat S 'anders' wordt. Dit betekent dat er een output is van I die gelijktijdig input
van S is (figuur 1).
We beschrijven in het volgende welk
proces in systeem I en welke relatie
tussen I en S het doelgericht
Veranderen van een bepaald aspect
Van systeem S mogeUjk maken.

Stel dat een individu I wensen/doelen/prefetenties heeft ten aanzien van de uitkomsten of
outputs van een bepaald systeem in zijn omgeving (bijv. zijn auto, zijn zoon, zijn politieke
partij, zijn bedrijf). Om het systeem te beïnvloeden heeft hij tot zijn beschikking een
aantd mogehjke gedragingen of acties. Veelal is tevens het geval dat de uitkomsten niet
alleen bepaald worden door zijn acties, maar dat een aantal omgevingsfactoren inwerken
op het systeem die mede de uitkomsten van het systeem bepalen.
Het individu I gaat als volgt te werk om zijn acties t.a.v. het systeem te bepalen (noem dit
bet besluitvormingsproces van het individu) (volg de volgende beschrijving a t/m f aan de
hand van de conceptuele weergave in figuur 2).

a) I inventariseert zijn doel t.a.v. S. Daarmee stelt hij vast in welke richting hij een
bepaald aspect oftewel bepaalde uitkomsten u van S (formeler heet u een outputvaria-
bele) wil veranderen.
We noteren een doel t.a.v. u met ü.

Tevens inventariseert I wat de maximaal beschikbare middelen zijn om doel ü t.a.v.
*ritkomsten u van systeem S te bereiken. Deze laatste informatie houdt een norm in ten
aanzien van de acties a die I voor het bereiken van doel ü kan inzetten. Daarom noteren
We de norm met NA. Deze twee gegevens (doel ü, en actie- of middelennorm NA) zijn
3-h.w. inputs voor het besluitvormingsproces van I t.a.v. systeem S. Hoe deze gegevens
Sevormd worden, verklaart zich straks vanzelf.

(noot: doelen en normen kunnen zeer minimaal, en zeer vaag zijn. Doelen t.a.v. een auto
kunnen bijvoorbeeld zijn:
'ik wil 100 km/uur rijden'
}k wil rijden'

b) I inventariseert zijn algemene kennis over systeem S. M.a.w. hij inventariseert wat hij
weet omtrent de wijze waarop uitkomsten (of outputvariabelen) op een bepaald tijdstip
gerelateerd zijn aan zijn acties en omgevingsbeïnvloedingen. Deze laatste twee input-typen
van systeem S noemt men ook wel regelbare en niet-regelbare inputvariabelen. De kennis
van I over de relatie tussen inputs en outputs van systeem S noemen we het model van het
individu over systeem S.

Met betrekking tot het systeem auto kan een model bijvoorbeeld de volgende vorm
hebben

waarbij u, = snelheid op tijdstip t
ai j = stand gaspedaal op t
a2 j = stand versnellingshandle op t
ii j = hellingshoek van wegdek op t
ij j = mate van voor- of tegenwind op t

We hanteren in het navolgende als notatie voor het model van I over S: u = f(a,i).

c) Vervolgens meet I de omgevingsbeïnvloedingen i en inventariseert zijn verwachtingen
t.a.v. toekomstige omgevingsbeïnvloedingen (m.a.w. uitspraken over de toekomstige waar-
den die de niet-regelbare variabelen zullen aannemen).

We noteren deze gegevens over werkelijk gebeurde en verwachte omgevingsbeïn\4oedingen
met T.

(Een stippellijn in figuur 2 geeft aan dat 1 djn.v. een meetprocedure informatie heeft over
de variabele waaraan de stippellijn ontspringt.)

d) Aan de hand van voorgaande gegevens tracht I zijn beslissingsprobleem op te lossen.
Dit probleem is: 'Selecteer een actie (of actie-set) a zodanig dat deze samen met te
Verwachten omgevingsinputsTeen uitkomst u tot gevolg heeft waarvoor geldt dat u = ü,
en tevens geldt dat deze actie voldoet aan de norm NA'

Als de kennis van I over S voldoende is om een optimale actie(-set) a af te leiden, volgt

Als de kennis van 1 over S onvoldoende is om a af te leiden, kan fase e volgen. 1 beslist in
dit geval tot leeractiviteit.

I gaat onderzoek doen, of leren. Hij meet, analyseert, en poogt aldus zijn kennis (of
model) over hoe systeem S werkt, te verbeteren.

C>ata over het gedrag van systeem S bij allerlei inputs (eventueel door individu I
gecontrolleerde inputs dwz. experimenten) worden vergeleken met de predicties omtrent
het gedrag van het systeem vanuit min of meer hypothetische uitspraken (= geponeerde
kennis of model over S) over systeem S. Deze vergelijking leidt tot beslissingen over
'^^funderingen in de hypothetische uitspraken (= verandering van kennis).
Dit proces gaat door tot besloten wordt dat de opgebouwde kennis voldoende is om het
punt (a) bepaalde doel te bereiken. Het stoppen van het leerproces kan ook gebeuren
Vanwege tijdstress (ongeacht of I voldoende weet over S moet er een besluit worden
genomen), of vanwege overschrijding van de voor het leerproces gereserveerde midde-
len/resources.

O 1 voert de geselecteerde actie(-set) a uit, en meet de werkelijk optredende omgevings-
heïnvloedingen en uitkomsten teneinde èn in te kunnen grijpen als zich onverwachte
ontwikkelingen mochten voordoen èn op grond van deze feedbackinformatie zijn kennis
over het systeem te verbeteren (= verbeteren van model = leren).

Zie nu figuur 3, waarin systeem S het te regelen of te veranderen systeem voorstelt, en B'
bet systeem representeert dat voorgaand besluitvormingsproces uitvoert,
(noot: B' representeert niet het totale individu I, maar slechts voorgaand besluitvormings-
proces zoals dat in individu I plaatsvindt)

Het geheel is een voorsteUing van een regelproces. Belangrijke aspecten van B' zijn het
interne model omtrent S, de doel en norminput (ü,NA) welke iets zegt over gewenste
(toekomstige) waarden van de output en de hoeveelheid middelen die daarvoor maximaal
ingezet mogen worden, de mogelijkheid tot het plaatsen van acties a, en de mogelijkheid
tot meten van u, i, en eventueel andere factoren in S (zie stippellijnen figuur 3), en de
mogeUjkheid tot verbeteren van het model middels een leerprocedure. (Voor algemene
behandeling van dit proces zie Simon (1947), Mesarovic et al. (1970), Nijssen (1974a,
1975), en voor aspectmatiger weergave zie utiliteitstheorie, decisietheorie, en regel-
theorie)

Door de aard van koppelingen tussen besluitvormingsprocessen van een individu in de
beschouwing te betrekken, kunnen we op eenvoudige wijze laten zien dat doelen en
actie-normen die input zijn voor een bepaald besluitvormingsproces B' altüd gespecifi-
ceerd zijn door (en dus outputs zijn van) een vroeger besluitvormingsproces B .
We lichten dit toe door weer te geven hoe het in het voorgaande beschreven besluitvor-
mingsproces B' naast de actie-output a ook doelen en actienormen als output kan hebben
welke laatsten weer als input kunnen dienen voor een later besluitvormingsproces B^.
Als volgt: Stel dat in fase (c) van proces B' het individu merkt of weet dat de factor i die
input is voor systeem S, in feite bepaald wordt door systeem P, en dus een output is van
systeem P.

Afhankelijk van de kennis van individu I en zijn verdere toestand kunnen zich nu 2
gevallen voordoen,

In dit geval kan I deze kennis over P in ieder geval aanwenden om betrouwbare
verwachtingen i omtrent i op te stellen. Het besluitvormingsproces voltrekt zich daarna
zoals weergegeven in paragraaf 2.1 en heeft als enige output een actie a t.a.v. systeem S-
(2)- óf het model van I over systeem P is van de vorm i = f(m,j), waarbij m behoort tot
de verzamehng van voor individu I manipuleerbare omgevingsaspecten en dus een regel-
bare variabele is, en waarbij j weer de niet-regelbare omgevingsbeïnvloedingen represen-
teert.

Als dit nu het geval is, leidt besluitvormingsproces B' tot een ander resultaat dan in het
voorgaande geval.

In het beslissingsprobleem in fase (d) wordt nu niet uitgegaan van een gegeven T, maar
nagegaan wordt welke actie a én input i volgens het model over systeem S leiden tot een
dusdanige uitkomst u dat u = ü (en de norm NA t.a.v. actie a vervuld is).
M.a.w. B^ selecteert niet alleen optünale acties a, maar formuleert ook wensen oidoelen
t.a.v. de üiput i.

Een bijkomende activiteit in deze besluitvorming is het bepalen van welke hoeveelheid
middelen maximaal ter beschikking zijn voor het bereiken van subdoel i (m.a.w. een norm
NM t.a.v. acties m). Dit zal bijvoorbeeld neerkomen op NM = NA - a. Deze norm NM kan
dus door B' bepaald worden met de beschikbaar zijnde gegevens.
Na dit besluitvormingsproces B' met als output (a,(i,NM)), volgt een besluitvormings-
proces B^ t.a.v. systeem F welk weer verloopt volgens de fasen a t/m f, en met (i,NM) als
doel- en actienorminput. Proces B' leidt tot vaststelling van een optimale actie(-set) m en
eventueel (nl. als geval (2) opgaat t.a.v. het systeem dat factor j bepaalt) tot het
Vaststellen van wensen/doelen t.a.v. j.

We zien hoe een besluitvormingsproces, gestart door een doelinput, leidt tot een output
die een doel bevat.

doel- en norminput van een besluitvormingsproces is het verklaarbare resultaat van een
Vroeger besluitvormingsproces.

Het volgend regelschema (figuur 4) geeft een weergave van de gehele besluitvorming ten
aanzien van de gekoppelde systemen S en P. Hierbij worden de twee besluitvormings-
processen B' , B^ (die in feite na elkaar gebeuren en plaats kunnen vinden in dezelfde
besluitvormingseenheid B) apart en in hun onderUnge relaties afgebeeld (Nijssen, 1974a).

men uitgaat van het feit dat er binnen het individu één besluitvormingseenheid B is
die alle besluitvormingsprocessen sequentieel voor zijn rekening neemt (dwz. uitvoert),
dan moet men binnen het individu twee geheugens assumeren (Nijssen, 1975) nl.
^ een cognitief geheugen: hierin liggen de modellen van het individu over

allerlei omgevingssystemen (incl. zichzelf) gestructureerd opgeslagen,
^ een Norms/Values/Goals/Plans geheugen: hierin hggen de resultaten van
Vroegere besluitvormingsprocessen gestructureerd opgeslagen.
Bijvoorbeeld na uitvoering van B', B^ hgt daar, ingebed, opgeslagen (zie
fig. 5).

Door dit NVGP-geheugen kunnen opeenvolgende
besluitvormingsprocessen aii.w. aan elkaar worden gebreid.

Voor zo'n individu-model (dat bestaat uit een cognitief en NVGP geheugen, een besluit-
voimingseenheid, sensors, uitvoerorganen, en relaties daartussen) is fundamenteel dat het
verklaart hoe het meten door het individu, en het kennen, het willen, het leren van het
individu geïntegreerd leidt tot het ageren van het individu én tot veranderingen in de
toestand van het individu. In principe is dit model in staat de ontwikkeling van het
individu en daaruitvolgend dynamisch gedrag van het individu ten aanzien van zijn
omgeving te verklaren.

De complexiteit van proces en structuur van gekoppelde besluitvormingsprocessen, stip-
pen we aan in de volgende 3 punten.

We lichten mogelijke oorzaken van deze soort verandering toe aan de hand van figuur 4.
Oorzaken voor verandering over de tijd van (i,NM) (als voorbeeld) zijn:

(a) Als B^ zijn doel t.a.v. i steeds niet bereikt (d.w.z. i i) of verwacht niet te zullen
bereiken, zal B' andere oplossingen trachten te genereren voor zijn beslissingspro-
bleem. Onderdeel daarvan kan zijn een gewijzigde (i,NM).

(b) Als systeem S volgens het model van B' ook nog afhankelijk is van omgevingsinputs
q (dus model is u = f(a,i,q)), dan leidt een wijziging in de verwachtingen t.a.v. q
mogelijk tot wijzigingen in het resultaat (a,i) van het besluitvormingsproces B'.

(c) Als B' leert, d.w.z. zijn model over S verandert, kan dit licht leiden tot het feit dat
andere oplossingen voortkomen uit zijn beslissingsprobleem.

Dit impliceert mogelyke wijziging van (i,NM). De doelstelling i kan bijv. helemaal
wegvallen.

(d) Als de doel en actienorm (ü,NA) t.a.v. B' gewijzigd wordt (doordat de hier geliste
oorzaken (a), (b), (c), (d) gelden t.a.v. een besluitvormingsproces B° die (ü,NA) als
output heeft), dan leidt proces B^ tot andere oplossingen (a,i,NM).

Dit impliceert wijziging van (i,NM).
Alle. revisies van (i,NM) verlopen echter strikt via, structureel gezien, bovengeschikte
besluitvormingsprocessen.

(2) Ter illustratie van het feit dat een besluitvormingsproces meerdere doelen (t.a.v.
verschillende aspecten) als input kan hebben, en dat een besluitvormingsproces meerdere
doelen (t.a.v. verschillende aspecten) als output kan hebben, geven we het regelschema in
figuur 6 dat verder voor zichzelf spreekt. We zien hoe de structuur van koppelingen tussen
de te veranderen of te regelen systemen P°, P^, P^ zijn spiegelbeeld vindt in de structuur
van doel-koppelingen tussen de besluitvormingsprocessen B°, B', B^.

(3) Voorgaande koppelingen van besluitvormingsprocessen binnen een individu behoren
allen tot de zogenaamde 'connected case'.

Een totaal ander soort koppeling tussen besluitvormingsprocessen is de 'embedded case'
(Nijssen, 1974a).

Deze volgt uit de wijze waarop een individu zijn kennis over een bepaald systeem
organiseert.

Elk individu heeft een eindige geheugen- en denkcapaciteit. Hij is in staat slechts een
eindig aantal factoren en hun onderlinge dynamische wisselwerking te overzien. Stel nu
dat een individu 1 probeert een systeem S te beschrijven, en hij onderscheidt als
inputfactoren aj, aj, ii, ij en als outputfactoren Uj en Uj. Het kan dan best zo zijn dat
de relatie R tussen input- en outputfactoren zo complex is dat deze voor individu 1 niet
benoembaar is en bevat kan worden. De enige mogelijkheid voor individu I om toch dit
systeem S in termen van deze factoren te beschrijven, is dan het systeem te beschrijven als
een interactie tussen twee of meer subsystemen zodanig dat de input- output relatie van
elk subsysteem wel benoembaar is en bevat kan worden door individu I, en de operatie
Van de gekoppelde subsystemen inderdaad het gedrag van systeem S weergeeft.
Dit uiteenleggen van een geheel (S) in meerdere interacterende delen wordt 'decompo-
sitie' genoemd. Het model van I over S heeft dan bijvoorbeeld de volgende vorm
aangenomen (zie figuur 7: S bestaat uit 2 subsystemen S^ en S^. Factoren pen qgeven
de onderlinge beïnvloeding weer).

We noemen dit een type-II-model over systeem S (meestal hebben de subsystemen een
eigen naam, bijvoorbeeld systeem 'gezin' wordt uiteengelegd in de subsystemen 'ouders'
en 'kinderen'; systeem 'auto' wordt uiteengelegd in subsystemen 'carrosserie', 'motor'.
Versnellingsbak', en 'cardan').

Zelfs al heeft individu I nu een model over systeem S in voor hem benoembare factoren
en relaties, toch is duidelijk dat de capaciteit van zijn geheugen en denkprocessen
beperkingen oplegt aan de mate waarin hij bijvoorbeeld in een beslissingssituatie tijdig dit
geheel kan doorrekenen (of overzien) om de juiste acties ai, §2 te bepalen.

Stel dat dit voor individu 1 allemaal nog net haalbaar is als hij al zijn tijd en denken aan
systeem S alleen kan besteden. Hij komt dan echter in moeilijkheden in beslissingssitua-
ties waarbij een te veranderen systeem Q bestaat uit bijvoorbeeld 2 subsystemen S en R,
waarbij subsysteem S het reeds beschreven systeem S is. Individu I kan dan het type-H-
model omtrent S niet handhaven omdat als subsysteem R van een vergelijkbare complexi-
teit is, het geheel (systeem Q) een niet meer bevattelijke complexiteit oplevert.
Op dat moment dient hij een ander, eenvoudiger type model omtrent S te hanteren,
zodanig dat als dit model gekoppeld wordt aan het model over subsysteem R, dit geheel
weer doordenkbaar wordt en te overzien is.

Individu I kan dit doen door het type-II-model omtrent S te herschrijven op een hoger
aggregatienivo. Door samentrekking van meerdere factoren tot één factor (bijv. ai en a^
worden inputfactor A, ii en i2 worden inputfactor I, Uj en U2 worden outputfactor U)
en bepaling van de relatie tussen deze geaggregeerde factoren, kan zo'n hoger geaggregeerd
model omtrent S worden verkregen.
Dit noemen we een type-I-model over S (zie figuur 8).

(bijv. in een type-I-model over een auto representeert de variabele 'conditie van auto' een
familie van variabelen uit het type-ll-model over de auto nl. 'conditie versnellingsbak',
'conditie cardan', 'conditie carrosserie', 'conditie motor')

De kennis die in het type-I-model besloten ligt, is juist (kan juist zijn), maar is globaler
van aard. Ze mist het detail van het type-II-model, maar individu 1 is toch in staat aan de
hand van dit model de belangrijkste gevolgen van bepaalde inputs voor de uitkorristen van
het systeem te doordenken.

Aggregatie van factoren gaat meestal samen met compositie van de subprocessen of
subsystemen. Omgekeerd gaat desaggregatie van de factoren meestal gepaard met decom-
positie van het totale proces of systeem. Deze twee fenomenen zijn inherent aan de
organisatie van de kennis binnen een individu (en met name de structuur van het cognitief
geheugen).

Voorgaande betekent voor de koppeling van besluitvormingsprocessen het volgende.
Stel besluitvormingsproces ontvangt doel en actienormen (g,NA) ten aanzien van
systeem Q. Het model omtrent systeem Q is bijvoorbeeld het type-ll-model als in figuur
9.

Besluitvormingsproces leidt dan tot de bepaling van 2 subdoelen (ü,g) en daarbij
behorende actienormen NA', NA', die input zijn voor twee besluitvormingsprocessen B'
en B^.

Besluitvormingsproces B' leidt aan de hand van een meer gedetailleerd model over
subsysteem S (bijvoorbeeld het model in figuur 7) een gedetailleerd actieplan af in termen
Van ai, a2 op grond van meer gedetailleerde verwachtingen Ti,T2, teneinde ü t.a.v. S te
bereiken.

Besluitvormingsproces B' ten aanzien van systeem R verloopt analoog.
Het totale regelschema wordt dan als in figuur 10.

(bijv. systeem Q is een familie, bestaande uit ouders (= subsysteem S) en kinderen (=
subsysteem R). Ouders bestaan uit vader (S') en moeder (S'). Kinderen bestaan uit zoon
(R')en dochter (R').
De totale decompositie is als in figuur 11.

Individu I wil met de dochter trouwen (= doelstelhng g) en heeft er alles voor over (=
NA).

Vanuit een geïntegreerd model over het geheel (de famihe) tracht hij dusdanige acties
(beïnvloedingen) vast te stellen t.a.v. vader, moeder, zoon en dochter dat het uiteindelijk
resultaat is dat de dochter met hem wil trouwen (dwz. g = g))

De 'embedded' koppeling van besluitvormingsprocessen is duidelijk hierarchischer van
aard dan de 'connected' koppeling. Deze laatste verklaart hoe besluitvorming t.a.v. een
gedeelte S van de omgeving van het individu leidt tot besluitvorming ten aanzien van
andere gedeelten van de omgeving, terwijl de embedded koppeling verklaart hoe de totale
besluitvorming ten aanzien van een gedeelte S uitgevoerd kan worden door op elkaar
afgestemde subbesluitvormingsprocessen.

We stelden in de inleiding dat onderwijs als activiteit gedefinieerd kan worden als het
proces van veranderen van pupillen.

Het meest elementaire basisproces zoals dat in bijna alle onderwijssituaties voorkomt, kan
in het algemeen weergegeven worden als een interactie tussen een onderwijzend individu
01 en een pupil P, waarbij 01 tracht door middel van een aantal onderwijzende activitei-
ten (bijv. onderwijsmiddelen plus instructies) de pupil P te veranderen in een bepaalde
gespecificeerde richting gedurende een bepaald tijdsinterval t-T. We beschrijven eerst dit
onderwijsmicroproces.

Omdat pupil P een complex systeem is benodigen we het concept 'toestand van de pupil'
om de pupil te beschrijven. In het voorgaande gebruikten we alleen de begrippen 'input' en
'output' ter beschrijving van een systeem. Daaraan voegen we nu het begrip 'toestand' toe.
In het algemeen geldt dat het gedrag dat pupil P op tijdstip t kan leveren (oftewel de
mogelijke responsies, of de mogelijke outputs) in belangrijke mate afhangt van de
toestand van de pupü op t, en in mindere mate afhangt van de inputs op tijdstip t.
Toestandsvariabelen van de pupil zijn bijvoorbeeld de organisatie van zijn cognitief
geheugen, zijn al geleerde vaardigheden, zijn norm- en waardenstelsel.
De toestand (oftewel de waarden die de toestandsvariabelen aannemen) van de pupil
wordt niet geacht een aangeboren, constante eigenschap te zijn. Alle leerverschijnselen
spreken dit tegen. De toestand van de pupil is veranderbaar door omgevingsbeïnvloedin-
gen. De verandering van de toestand per tijdseenheid kan daarbij echter nooit verklaard
worden uit de omgevingsbeïnvloedingen gedurende die tijdseenheid alleen, maar is ook
afhankelijk van de vorige toestand.

Om nu te komen tot een model over de wijze waarop een pupil over de tijd verandert,
moeten we kunnen specificeren hoe een nieuwe toestand op tijdstip t, ontstaat uit een
vorige toestand op tijdstip t en de inputs i gedurende t-tj. In concreto betekent dit dat we
zoeken naar een dusdanige set van n toestandsvariabelen dat we de verandering van elke
toestandsvariabele z' (i = 1,2.....n) kunnen beschrijven als een functie van toestandsvaria-
belen en inputvariabelen.

Als deze vergelijkingen geldig zijn voor een periode t=0 t/m t=m, kan men gegeven de
begintoestand (= zJ,Zo,Zo), en gegeven de inputs i gedurende periode (0-m) de toestand-
trajector van de pupil gedurende periode (0-m) bepalen door herhalend toepassen van
deze vergelijkingen, (de toestandtrajector is de sequentie van waarden die de toestands-
variabelen over de tijd aannemen) Men kan ook zeggen dat men daarmee de ontwikkeling
Van de pupil (of de verandering van de pupil) over de tijd heeft beschreven.
Men behoeft bij de beschrijving van dit soort (toestandbepaalde) systemen nog een extra
Vergelijking om het (meetbaar) gedrag of de output y, dat/die het systeem vertoont, te
relateren aan de toestand van het systeem en (eventueel) de input. Dit komt neer op een
Vergelijking van het volgend type (bij 3 toestandsvariabelen)

Stel de pupil wordt een natuurkunde-opgave aangeboden. We kunnen de verschillende

= kennis van nederlandse taal
Toepassing van de outputvergelijking levert de oplossing y die de pupil geeft.
Toepassing van bijvoorbeeld de eerste toestandvergelijking levert op hoe de kennis van
natuurkunde verandert door het oplossen van de opgave.

In het onderwijsmicroproces tracht het onderwijzend individu 01 een pupil P te verande-
ren in een bepaalde gespecificeerde richting gedurende een tijdsinterval tj-T doormiddel
Van een aantal onderwijzende activiteiten OA.
Dit is herkenbaar als een besluitvormingsproces (paragraaf 2.1),

waarbij 01 doelen heeft t.a.v. de toestand van de pupil, en er normen gelden t.a.v. door
hem aan te wenden onderwijzende activiteiten (d.w.z. normen t.a.v. te gebruiken
onderwijsmiddelen, t.a.v. zijn onderwijsstijl, t.a.v. plaats en tijd van onderwijzen).
Formeler gesteld gelden: .x,NOA,^ .t.
- waarbij 01 een (mentaal) model/kennis heeft over de pupil P, dat hem informatie geeft
over de wijze waarop een nieuwe toestand gerelateerd is aan de oude toestand, de
onderwijzende activiteiten OA (als inputs), en andere omgevingsbeïnvloedingen j.
Formeler gesteld heeft 01 een model m over P van de volgende vorm:

1. Door middel van testinputs (conceptueel behorend tot OA), metingen van j en
metingen van daarop volgende outputs, tracht hij via de outputfunctie te bepalen

wat de (initiële) toestand z^ is van de pupil (d.w.z. dat hij Zj afleidt uit de
outputvergelijking aan de hanif van voornoemde gegevens).

2. Gegeven z, , en metingen over jt en/of verwachtingen t.a.v. j, tracht hij een
dusdanig pakket onderwijzende activiteiten te bepalen dat volgens zijn toestand-
vergelijking de te verwachten nieuwe toestand Zj +i voldoet aan de doelspecificatie
^t.-T-

De geselecteerde optimale onderwijzende activiteiten OAj^, moeten tevens voldoen
aan de norm NOAt^ -t-

(noot: voor een juist begrip moet men de tijdsconcepten hier ruim interpreteren.
Als ti-T bijvoorbeeld een schooljaar is, dan kan het tijdstip ti de maand september
zijn, en het tijdstip ti + 1 de maand october)

4. 01 evalueert door middel van wat testinputs of de output yt, +i erop wijst of de
nieuwe toestand z^ +i inderdaad voldoet aan de doelspecificatie. In feite is deze
fase weer het begm van een volgende fase-sequentie gericht op doelbereik t.a.v.
z,^ +2> etcetera, net zolang tot de periode tj-T verlopen is.

Meestal volgt aan het einde van de periode tj-T nog een laatste systematische
meting van de output yj volgend op bepaalde testinputs (proefwerken, tentamens,
examens) om te bepalen of de eindtoestand Zj van de pupil dusdanig is dat hij in
aanmerking komt voor een bepaalde kwalificatie waardoor aan deze onderwijssitua-
tie (d.w.z. deze interactie tussen 01 en P) een einde komt.

We behandelen nu een aantal complexiteiten van dit micro-proces van het onderwijs zoals
die zich in de werkelijkheid voordoen, en zoals die belangrijk zijn voor pogmgen om dit
proces te veranderen.

Tevens worden complexere onderwijsprocessen beschreven in termen van gekoppelde
microprocessen en daarbij komende extra besluitvormingsprocessen. Daarmee beschrijven
we de grotere gehelen waarin elk onderwijsmicroproces is ingebed.

Het te veranderen systeem is voor een onderwijzend individu in ons onderwijssysteem
meestal een groep pupillen oftewel een klas pupillen. De toestand van een klas is
omschreven met de opsomming van de toestand van elke pupil in die klas. 01 verandert de
toestand van de klas door de toestand van pupillen in die klas te veranderen. De
besluitvorming van 01 in deze situatie is complexer dan in de sitautie van figuur 12,
orndat het te veranderen systeem bestaat uit meerdere pupillen die onderling interacteren.
Bijvoorbeeld als de klas bestaat uit 3 pupillen P', P^, P^ ziet het door 01 te veranderen
systeem er als volgt uit (zie figuur 13).

E^e klas als systeem van pupillen maakt onderwijsgeven een zeer complex besluitvormings-
Probleem. Het is immers in principe noodzakelijk alle onderlinge beïnvloedingen (zie de
"'s in figuur 13) te meten, dan wel te prediceren (bijv. prediceer u^' vanuit je model over
P^) om het effect van onderwijzende activiteiten op de toestand (en daarmee op de
output y) van elke pupil a priori te kennen en zo tot optimale OA te kunnen besluiten.

Het onderwijzend individu in deze situatie zal noodzakelijkerwijs zijn totale besluitvor-
mingsproces uiteenleggen in een aantal subbesluitvormingsprocessen die volgens de
embedded case hiërarchisch gekoppeld zijn (paragraaf 2.3, punt 3).
Een voorbeeld van de hiervoor noodzakelijke decompositie van het geheel in subgehelen is
de volgende structuur (figuur 14 (zie ook figuur 11, paragraaf 2.3)).

Een belangrijk gedeelte van de omgeving van 'n pupil wordt uitgemaakt door zijn ouders.
De grote invloed van ouders op de leer- en keuzeprocessen van de pupil is door
verschillende onderzoeken aangetoond. Ouders zijn belangrijk omdat ze veelal bepaalde
doelen hebben gesteld ten aanzien van de ontwikkeling (of toestandtrajector) van hun
kinderen, én veelal door hun nauwe relatie met hun kinderen over een aantal invloedrijke
middelen (of regelbare variabelen) beschikken om deze doelen te bereiken.
Dit wordt in de onderwijswereld steeds meer onder ogen gezien.

Het basisproces van het onderwijs zoals weergegeven in figuur 12 is zich aan het
uitbreiden naar een basisproces zoals weergegeven in figuur 15.

Hierbij zijn de omgevingsbeïnvloedingen j (uit figuur 12) uiteengelegd in k (beïnvloeding
door ouders) en 1 (restomgeving-beïnvloeding door bijv. de buurtgemeenschap of de
televisie).

De twee connected gekoppelde (paragraaf 2.2) besluitvormingsprocessen B' en B' vinden
plaats in het onderwijzend individu. In besluitvormingsproces B' worden naast optimale
onderwijzende activiteiten 0*A ook doelen Ic gesteld t.a.v. de ouderlijke beïnvloeding (of
acties) k, en worden normen NBO afgeleid die weergeven welke en hoeveel acties BO
gepermitteerd zijn om de ouders te beïnvloeden.

Besluitvormingsproces B^ bepaalt aan de hand van kennis over ouders, en andere gegevens
(over m, en k), de acties BO (bijv. het houden van een ouderavond, voorlichtingsavond,
gespreksgroepen, het sturen van allerlei informatie over de toestand van het kind of over
onderwijsplannen).

Op deze wijze wordt getracht de ouders zodanig bij het onderwijs te betreicicen dat de
acties k van de ouders t.a.v. het kind, tezamen met de onderwijzende activiteiten OA van
de leraar, een optimale ontwikkeling van de pupil tot gevolg hebben (gegeven de
omstandigheden 1).

(Volledige weergave van de interactie 01 - ouders - pupil vereist het inachtnemen van de
beïnvloedingen van 01 door ouders, en de beïnvloedingen van ouders door de pupil)
(Een dynamisch model van de interactie 01 - ouders - pupil staat beschreven in Nijssen
(1974b). Dit model is een symbolisch simulatie-model (het is bijvoorbeeld van dezelfde
aard als de wereldmodellen die Forrester en Meadows maakten voor de club van Rome))

Een veel voorkomende situatie in het onderwijs is dat meer Ol's een klas (of jaar)
onderwijzen, waarbij elke 01 tracht een ander aspect van de toestand van de pupillen in
de klas te veranderen.

Door de aard van de pupil (en met name dat de verandering van het ene aspect van de
pupil (bijv. natuurkundekennis) mede afhaneklijk is van andere aspecten van de pupil
(bijv. wiskundekennis)) is afstemming van de verschillende Ol's op elkaar noodzakelijk.
In het geval dat drie Ol's onderwijs geven aan een klas X, kunnen we de totale
besluitvorming uiteenleggen in 4 gekoppelde besluitvormingsprocessen of functies B', B^,
B^, B" waarbij B^, B^, B" werkelijke onderwijsfuncties zijn. (zie figuur 16)

Stel de onderwijsfunctie B^ wordt uitgevoerd door een leraar nederlands, B^ door leraar
wiskunde, B" door leraar natuurkunde, terwijl de bovengeschikte besluitvormingsfunctie
door deze drie personen gezamenlijk wordt vervuld (in een deel van hun tijd). B'
ontvangt doektelling z en actienorm NA. Doelstelling z specificeert de gewenste algemene
toestand van de pupillen in de klas (bijv. dat zij aan het eind van het jaar een dusdanige
toestand bereikt moeten hebben dat zij het programma in de klas X+1 kunnen volgen).
De actienorm specificeert de daarvoor beschikbaar zijnde middelen.
In besluitvormingsfunctie B' wordt dan bijvoorbeeld het volgende type model van klas X
gehanteerd.

(integraal model) (bijbehorende outputvergelijkingen houden we impliciet)

Besluitvormingsproces B' houdt zich dan bezig met het afleiden van op elkaar afgestemde
subdoelen z', z^, z^ en daarbijbehorende actienormen NOA', NOA , NOA^ die paars-
gewijs (zie figuur 16) input zijn voor de individuele onderwijsfuncties. Dit betekent dat in
B' eerstens de eisen in z worden vertaald naar eisen t.a.v. z^, z^, en dat vervolgens
dusdanig meer specifieke doelsteUingen z', z^, z^ worden geformuleerd aan de hand van
het model en gegevens over j en de initiële toestand van de klas X, dat verwacht kan
worden dat het onderwijs in het ene vak het onderwijs in het andere vak optimaal
faciliteert.

Besluitvormingsfunctie B" (als voorbeeld) ontvangt van B' naast (z^,NOA^) ook uitspra-
ken over de te verwachten waarden van t? en z^ (deze verwachtingen te noteren alsl',
z^) (B^ kan deze eenvoudig bepalen door bijv. te stellenz' Besluitvormingsfunctie

B'* heeft deze gegevens nodig vanwege zijn aspectmatig model en aspectmatig meetbereik.
Immers stel dat zijn kennis of model (over de wijze waarop z^, natuurkundekenm's van de
pupillen, veranderbaar is), dat hij bij zijn besluitvorming hanteert, neerkomt op een
uitgewerkte versie van vergelijking (3) hierboven. Dan benodigt hij steeds informatie over
z\ en z\ (d.w.z. toestandsvariabelen die niet onder zijn onderwijsbereik Uggen) om,
gegeven zf en j,, optimale onderwijsacties OAf vast te stellen (zie de fasevolgorde van
onderwijsgeven (1) t/m (4), par. 3.1). Evenzo geeft B^ onderwijs wiskunde aan klas X. De
input uit B' is voor B^ (z^ ,NOA^z^ Het model van B^ is een versie van vergelijking
(2). B^ geeft onderwijs nederlands aan klas X. De input uit B' is voor B^
(z' ,N0A' ,'z^). Het model van B^ is een versie van vergelijking (1).

Een belangrijk punt in veel onderwijssituatie's is dat in besluitvormingsfunctie B' naast de
hierboven beschreven afstemming van individuele onderwijsfuncties, ook de besluitvor-
ming plaats vindt over de specifieke kwalificatie die de leeriingen (kunnen) krijgen aan het
eind van een bepaalde onderwijsperiode t-T.

Dit betekent dat in B' aan de hand van de werkelijk bereikte toestanden Zj,Zj, van
de pupillen op tijdstip T (deze gegevens ontvangt B' via de gestippelde informatielijnen
uit B^, B^, B") wordt bepaald, welke pupillen voldoen ian de algemene eisen z. De
daaruit volgende beslissingen omtrent overgangen van bepaalde pupillen is een input voor
klas X (zie de factor odec, overgansbeslissingen, in figuur 16). Deze input bepaalt in feite
de belangrijkste output van klas X nl. het aantal pupillen dat zich aanbiedt voor klas
(of de onderwijsinstelling verlaten).

De hier beschreven besluitvormingsstructuur heeft als karakteristiek dat verschillende
besluitvormingsfuncties worden uitgevoerd door verschillende individuen of groepen van
individuen. Dit is wezenlijk verschillend van gekoppelde besluitvormingsprocessen binnen
één individu. In de eerste plaats vereist zo'n taakverdeling van de besluitvorming tussen
individuen extra voorzieningen (zoals een gezamenlijke taal, veel informatielijnen). In de
tweede plaats dient men zich te realiseren dat elk individu toch weer een eigen doel-
hierarchie (in Norms/Values/Goals/Plans geheugen, zie figuur 5) heeft in functie waarvan
hij zo'n taak of besluitvormingsfunctie uitvoert.

Figuur 16 kunnen we een embedded case van sociale besluitvorming (Mesarovic et al.,
1970, en Nijssen en Klabbers, 1975) noemen, als we figuur 10, par. 2.3, een embedded
case van individuele besluitvorming noemen.

hl scholen of onderwijsinstellingen zijn onderwijsmicro-processen zoals weergegeven in
figuur 16, paragraaf 3.2.3, aan elkaar gekoppeld. Een voorbeeld hiervan staat afgebeeld in
figuur 17: een school met drie klassen, en met drie onderwijsfuncties per klas.

Hierbij wordt het onderwijs t.a.v. klas 1, 2, en 3 op elkaar afgestemd door een besluitvor-
mingsfunctie B°. Deze formuleert dusdanige doelen y', y^, y^ t.a.v. de output van elke
klas (bijv. y' = eisen t.a.v. de aard (of toestand) van de pupillen die klas 1 gekwalificeerd
verlaten), en dusdanige normen NA\ NA^, NA^ t.a.v. de daartoe aan te wenden
middelen, dat B° verwacht dat als deze bereikt worden de uiteindelijke output van het
gehele proces (nl. y^) zo veel mogelijk voldoet aan de (bijv. landelijk geformuleerde) eisen
of doelen t.a.v. y^, nl. y^. (Er zijn natuurlijk ook andere doelen te noemen. De
belangrijkste echter zal toch zijn zo veel mogelijk pupillen dusdanig te veranderen dat zij
geschikt zijn om bepaalde vervolgscholen te volgen dan wel om bepaalde beroepen te
kunnen uitoefenen).

B° dient om deze subdoelen en subnormen te bepalen over een (eventueel hooggeaggre-
geerd) model te beschikken over de drie gekoppelde subsystemen (klas 1, 2, 3). De
besluitvormingsfunctie B° kan uitgevoerd worden door bijvoorbeeld de gezamenlijke
leraren, het hoofd der onderwijsinstelling, en andere functionarissen.
Additioneel aan de subdoelen en subnormen zal B° aan B^ ook kunnen communiceren
wat de te verwachten input y' is. Hierdoor wordt B^ in feite ge ïnformeerd over wat de
initiële toestand zal zijn van de pupillen die telkenjare in klas 2 binnenkomen. Evenzo
communiceert de verwachting y^ aan B^.

In onze samenleving geldt dat scholen of onderwijsinstellingen ondeiling gekoppeld zijn
(de output van de ene is vaak input voor de andere), en dat onderwijsinstellingen
gekoppeld zijn aan vooral beroepssituaties (d.w.z. situaties waarin de werkende mens
voorkomt).

Dit betekent dat er besluitvormingsfuncties zijn die zich bezighouden met het afleiden
van doelen voor de individuele onderwijsinsteUingen (of klassen van gelijksoortige onder-
wijsinstellingen) om doelen ten aanzien van die gehelen of systemen waarop de output
van onderwijsinstellingen van invloed is, bereikbaar te maken.
Deze besluitvorming kunnen we weergeven als in figuur 18.

B" formuleert vanuit doelen t.a.v. allerlei uitkomsten van het sociaal-economisch

systeem (bijv. u®"*^®' = de kwaliteit van het leven), en op grond van inzicht (kennis/
model) over de wijze waarop deze uitkomsten afhangen van de output van OND
(u""*^ = de toestand van onderwezen pupillen), uiteindelijk doelen t.a.v. u""*^.
B' formuleert vanuit doelen ü"""^ t.a.v. de uitkomsten van het onderwijssysteem als
geheel, en op grond van een model over OND, uiteindelijk de doelen do van de
verschillende onderwijsinstellingen (m.a.w. do specificeert in figuur 17 met name de y^
doelinput).

Hiermee is uiterst globaal in kaart gebracht hoe de micro-processen van het onderwijs
ingebed liggen in omvattender gehelen. Het is daarbij niet zo belangrijk of in het huidig
onderwijssysteem de hogere besluitvormingsfuncties werkelijk formeel zijn ingesteld en
functioneren. Een feit is dat elk van deze besluitvormingsfuncties bestaat. Ook al vindt de
besluitvorming omtrent de problematiek van bijvoorbeeld B° in figuur 18 nog zo ongeor-
ganiseerd en gedecentraliseerd plaats (bnv. allerlei politieke, religieuze en belangen groe-
pen formuleren hun wensen t.a.v. u°" ) toch wordt via §en of andere procedure een
besluit geformuleerd t.a.v.

Het bestaan van geschetste besluitvormingsprocessen staat dus buiten kijf. Daarmee is
echter niets gezegd over de kwaliteit van de besluitvorming. Het is bijvoorbeeld duidelijk
dat als X groepen de besluitvorming in B°, figuur 18, uitvoeren, en dezen zijn het

fundamenteel met elkaar oneens (bijv. omdat de voor elke groepering anders is, of

omdat het model over SOCEC voor elke groepering anders is), dat dan een democratische
procedure altijd compromis-doelen ü""'* genereert die vaag, en eventueel intern incon-
sistent kunnen zijn. Deze vaagheid en inconsistentie plant zich voort via de besluitvorming
van B' naar de lagere nivo's tot het nivo waarop concreet onderwijs wordt gegeven. De
leraar bijvoorbeeld moet echter acties OA bepalen en zal waar de richtlijnen ontbreken of
vaag/inconsistent zijn, deze aanvullen of veranderen volgens eigen inzicht en waardege-
ving.

De Onderwijscontourennota lijkt een eerste aanzet tot openbare explicitering van de
besluitvormingsproblematiek zoals die door figuur 18 aspectmatig gesymbohseerd wordt.

Na deze beschrijving van onderwijsprocessen zullen we in een volgend artikel (deel 2)
daaropvoortbouwend een model over het gedecentraliseerd veranderen of innoveren van
onderwijsprocesseh formuleren en evalueren. Bij onderwijsinnovatie zijn onderwijsproces-
sen zelf het onderwerp/object van verandering (zie Inleiding). De algemene structuur van
een besluitvormingsproces en mogelijke koppelingen tussen besluitvormingsprocessen
blijft/blijven echter toepasbaar. Daarmee is een algemeen model .over onderwijsverande-
ringsprocessen formuleerbaar.

^urts, J.L.A. Systeemleer, model en methode in de sociologie. Sociologische Gids, 1974, 21,
209-224.

Hanken, A.F.G. en Reuver, H.A. Inleiding tot de systeemleer. Leiden: Stenfert Kroese, 1973.

Klabbers, J.H.G. General system theory and social systems. Ned. Tijdschrift voor de Psychologie,
1975a, JO, 493-514.

Klabbers, J.H.G. Interactive simulation: on-line interaction between man and machine for the study
and management of social systems. Informatie, 1975b, 17, 553-561.

Klabbers, J.H.G. en Nijssen, J.B. Planning van het onderwijssysteem middels mathematische modellen.
Nijmegen: Werkgroep Sociale Systemen K.U. Nijmegen, rapport SSRG-75-00, 1975.

Mesarovic, M.D., Macko, D., & Takahara, Y. Theory of hierarchical multilevel systems. New York:
Academic Press, 1970.

Nijssen, J.B. Notes on norms and values. In: J.H.G. Klabbers, (ed.), Workshop on aspects of norms and
values and computer software. Nijmegen: Werkgroep Sociale systemen K.U. Nijmegen, rapport
SSRG-74-11, 1974a.

Nijssen, J.B. Een systeemtheoretisch simulatie-model van het onderwijssysteem inclusief de entry-into-

• employment. Nijmegen: Werkgroep Sociale Systemen K.U. Nijmegen, rapport SSRG-74-04, 1974b.

Nijssen, J.B. De betekenis van het besluitvormingsproces voor een individu-model. Nijmegen: Werk-
groep Sociale Systemen K.U. Nijmegen, 1975.

Nijssen, J.B. en Klabbers, J.H.G. Multi-level plannings- en besluitvormingsprocessen in sociale syste-
men. In: J.H.G. Klabbers, (ed.), Het hiërarchie begrip in de systeemleer. Nijmegen: Werkgroep
Sociale Systemen K.U. Nijmegen, rapport SSRG-75-12, 1975.

De Vereniging voor Onderwijs Research heeft de mogelijkheid opengesteld werkgroepen te vormen.
Het doel daarvan is de diskussie te stimuleren tussen onderzoekers die zich min of meer met hetzelfde
onderwerp bezighouden.

Gezien het aantal deelnemers aan de Werkgroep Kriteriumgeoriënteerde Toetsen tijdens de ORD '76

lijkt het de moeite waard om na te gaan of deze werkgroep in intensievere vorm voortgezet kan

-Een informele nieuwsbrief waarin men elkaar op de hoogte houdt van nieuw verschenen publikaties,

Indien U belangstelling en/of suggesties heeft voor een dergeUjke werkgroep kunt U kontakt opnemen
met

W.J. van der Linden Subfac. Psych., R.U.
Oudenoord 6, 3e etage Utrecht 030-331284

Beroepsopleiding. Informatieblad van de Commissie van de Europese Gemeenschappen, maart 1976-

Hoogstraten, Joh. Alleen of met z'n tweeën: Een vijftal veldexperimenten met geprogrammeerd
leermateriaal.

Groningen: H.D. Tjeenk Willink, 1976. (= Empirische Studies over Onderwijs - 21)

Lortie, Dan C. Schoolteacher: A Sociological Study.
Chicago: The University of Chicago Press, 1975.
Vereniging voor Onderwijsresearch, Jaarboek 1976.

In this study a more generalized error model for time-Umit tests is developed. Model estimates
are derived for right-attempted and wrong-attempted correlations both within the
same test and between different tests. A model for the within tests case was developed in a
previous article (Van der Ven, 1973).

A comparison is made between observed correlations and their model counterparts. Generally a
fair agreement was found between observed and expected correlations. Some minor but
systematic differences were accounted for by assuming a slight violation of one of the
assumptions of the model which states that speed and precision are independent.
Finally, it is stressed once more that it would be better to use the separate scores number
attempted and proportion right, instead of the more usual score number right.

In a previous study (Van der Ven, 1973) an error score model for time-limit tests was
Proposed. The main purpose of the model was to account for the correlations p (x,^,
P (f,a) and p (Xif), where

These correlations are correlations within tests. In this article an attempt is made to
generalize the model such that expressions can be found for the correlations among scores
between tests. Let the subscripts k and 1 denote different tests. The following correlations
are of possible interest:

In this article attention will be given only to the correlations p (Xj^.a)) and p (£,^,3^).
In the model presented here the correlation p (a,^,a|) will be used as a parameter in the
different formulas.

The construction of a model to account for the other correlations leads to special
problems, which will be discussed in a later article.

Each subject i has for each item attempted a constant probability n. to answer that item
correctly and this answer is independent of the answers given to the other items.
An immediate implication of this assumption is that for a particular person given that he
has attempted a certain number of items, his number of items right follows a binomial
distribution. In formula

The variance of the number of items attempted within subject i is only dependent on a^,
where a. = E(a.).
In formula

These assumptions are the same as the first two mentioned in the previous article (Van
der Ven, 1973). The parameters it and a are respectively called mental precision and
mental speed.

Speed and precision are stochastically independent within tests and between tests. In
formula

This assumption is an extension of the third assumption in the previous article, which
only referred to the case k = 1.

Within subjects the number of items right for a given test is independent of the number of
items attempted for another test. In formula

Within subjects the number of items attempted for a given test is independent of the
number of items attempted for another test. In formula

Assumptions (iv) and (v) provide few problems to the reader. They are special cases of the
generally accepted idea in classical test-theory that within sitbjects the score on a test is
independent on the score on another test. In formula

The plausibility of the first two assumptions has been discussed m the previously cited
article. A rationale for the third assumption for the case k = 1 has recently be given (Van
der Ven, 1974). When this assumption is true within tests then it certainly will be true
between tests. The last two assumptions are more technical. They cannot be omitted to
make the derivations possible.

The only term of interest is the product moment E (x^l,). This term may be written as

E(x.,a.,) = 2^^ 2^^ TT.^ a, a, P(a., = a,,a., = a,).
Application of assumption (v) leads to

By definition a. = E(a.), so one may interprete a as the true score equivalent of a. One
may prove from classical test theory that is equal to Applying this result

(5) E (x,a,) = jj^ {p (a,,a,) a (a,) a (a,) + E (a ,) E (a,)}.
Substituting (5) in the general formula for the correlation between ^ and^j one has

This formula, in another form, has been derived in the previous article (Van der Ven,
1973, p. 271).

Following the same reasoning as above the correlation p (f^iij) could be written
follows

However this result is unsatisfactory if one prefers to write E(f. ) and )in terms of
E(x^),E(a^),a'(2^)anda'(a^).

The expectation of the number of items wrong does not provide any r'.lfficulties:
E(f) = E^-x)=E(a)-E(x).

Note that in the derivation of this formula assumption (ii) has been used.
Substitution of this result in (7) leads to

are respectively the observed mean and the observed variance. Generally, both estimates
are not equal. Tne better the model applies, the more they will be similar.

In the following a comparison is made between the correlations derived from the model
and the observed counterparts. Two test batteries were used: The General Aptitude Test
Battery form B-1002 (G.A.T.B.) (U.S. Department of Labor, 1962) which is an American
test and the intelligence part of the Vocational Interest, Educational Achievement and
Intelligence Test (I.S.I.) which is a Dutch test (Welten and Snijders, 1968). Each test
battery was administered to two samples.

The samples consisted of about one thousand subjects each. A description of the
G.A.T.B., including a specification of the samples, is given in Van der Ven (1973). For
the Dutch test one may find this information in Van der Ven (1972).

2. the observed standard deviations of the number right and the number attempted
scores. In this case the estimated standard deviations of the number wrong scores are
used for the computation of the estimated correlation.

This procedure also was applied in Van der Ven (1973). Another procedure also is
possible. Instead of starting with the observed standard deviations of the number right
one uses the observed standard deviations of the number wrong and the estimated
standard deviations of the number right.

The problem arises, that the corresponding observed and estimated standard deviations
are not equal. This holds for the number of items right as well as for the number of items
wrong. New estimated standard deviations were computed, which are consistent with
each other. The technique used is as follows.
One computes estimated standard deviations s^ and s^ as follows

In order to arrive at a new estimate for s^^ and Sj., such that s^ =e s' and s =ç sj., where =e
means 'is approximately equal to', one simply takes the average of1)oth, that is

One continues this process of iteration until s^ =e s^ and Sj. =e sj..
One can prove that this procedure minimizes

In this sense the estimated standard deviations may be looked upon as least squares
estimates.

In the tables 1-4 the estimated and observed standard deviations for the different samples
are given.

From these tables one may conclude that the standard deviations of the number wrong
scores generally do not fit as well as those of the number right scores. This is especially
true for the first two tests. This result is found in all samples. Until now all efforts in
obtaining an explanation of these findings were in vain.

The correlation estimates between the number right and number attempted scores and
between the number wrong and number attempted scores were computed with the
standard deviation estimates as given in the tables 1, 2,3 and 4.

The observed and estimated correlations are shown in tables 5-12. With respect to the
GATB data the following conclusion may be obtained.

Observed and estimated (boldface) correlations between wrong and attempted score:
G.A.T.B. sample 1.

Observed and estimated (boldface) correlations between right- and attempted score:
G.A.T.B. sample 2.

Observed and estimated (boldface) correlations between wrong- and attempted score:
G.A.T.B. sample 2.

Observed and estimated (boldface) correlations between right- and attempted score: I.S.I,
fifth grade.

Observed and estimated (boldface) correlations between wrong- and attempted score:
I.S.I, fifth grade.

Observed and estimated (boldface) correlations between wrong- and attempted score:
I.S.I, sixth grade.

The correlations in these tables show a reasonable agreement between observed and
estimated values. A more detailed examination of the differences between these correla-
tions shows a few violations of this conclusion. The differences between the observed and
estimated right-attempted correlations are mostly, slightly positive, while the differences
between the observed and estimated wrong-attempted correlations are mostly, slightly
negative. An exception is test 3 - Three Dimensional Space - where these differences
have opposite signs. The first general trend may be explained by assuming a very small
positive correlation between speed and precision. The opposite sign of the differences
noticed in subtest 3 presumably indicates a small negative correlation between speed on
subtest 3 and precision on the other subtests. This means that rapid work in three
dimensional space items^s related to less accuracy on the other tests.
Another small violation of the conclusion above is the existence of relatively large
differences between the observed and estimated wrong-attempted correlations on test 2
ond 6. These differences can be accounted for by assuming that rapid work on the
numerical tests - specially test 2 - is related to an increase in precision in the other tests.
The different assumptions mentioned here find confirmation in the correlations between
the number of items attempted and the proportion of items right. Finally, one should
keep in mind, that the violations, which were discussed, are rather small.
Also with respect to the ISI data one may conclude, that there is a reasonable fit between
observed and estimated correlations. This is the more remarkable since the correlations
within tests are less satisfactory for the first three tests, a result previously found (Van
der Ven, 1973). Completely in contradiction with the GATB data one finds here, that the
differences between the observed and estimated right-attempted correlations are slightly
negative, while these differences for the wrong-attempted correlations generally are
slightly positive. This trend may be explained by assuming a slight negative correlation
between speed and precision. TTie correlations between number attempted and propor-
tion right are indeed generally slightly negative. The general trend mentioned here is
especially found in test two - Cut Figures A higher speed in test two is related to a
lower precision in the other tests.

Until now, no explanation has been found for these unexpected results.
In summary, one may state that there is satisfactory agreement between the observed and
estimated correlations. The results indicate that the GATB tests yield a slightly positive
correlation between speed and precision, whereas the ISI tests lead to a slightly negative
conelation between speed and precision. No satisfactory explanation has been found for
these differences. This phenomenon could be related to the fact, that in the GATB no
one has completed all items, whereas in the ISI a remarkable amount of children did so. It
could be that children wtio are near the end of the test have a tendency to answer the last
items too quickly, thereby making mistakes.

The present model makes it possible to predict the right-attempted and the wrong-
attempted correlations between different tests. The following step is to extend the model
in such a way that the right-wrong, the right-right and the wrong-wrong correlations
between different tests also can be accounted for. If this has been achieved, then the
score characteristics of time-limit tests can fully be described in terms of the two new
factors, speed and precision. Studies (Van der Ven 1971 and 1972) using factor analysis

have shown that apart from some minor content bound influences, speed and precision
are the only determinants of the test behavior of the subject. So the more an analysis of
time-Umit tests is desired which is based upon such scores as number attempted and
proportion right, being direct estimates of speed and precision.

U.S. Department of Labor, Bureau of Employment Security. Guide to the use of the General Aptitude

Test Battery. Washington: Author, 1962.
Ven, A.H.G.S. van der, Time-limit tests, a critical evaluation. Nederlands Tijdschrift voor de Psycho-
logie. 1971,26, 580-591.

Ven, A.H.G.S. van der. Speed and precision in the General Aptitude Test Battery. Nederlands

Tijdschrift voor de Psychologie, 1972, 27, 530-537.
Ven, A.H.G.S. van der, Een ware score theorie voor tests met tijdshmiet: beschrijving en toetsing.

Nederlands Tijdschrift voor de Psychologie, 1973, 28, 267-280.
Welten, V.J. and Snijders, J.T. De ISI-schoolvorderingen - en Intelligentie test. Vorm 1 en II-
Groningen: Wolters-Noordhoff, 1968.

Een voorbereidingscommissie, ingesteld door de stuurgroep onderwijssociologie, bereidt thans de 3de
onder^Yijssociologische conferentie voor.

Het thema van deze conferentie, die op 17 en 18 maart 1977 gehouden zal worden, luidt Vrijheid van
onderwijs'. Het doel van de conferentie is de huidige discussie over vrijheid van onderwijs vanuit een
sociologisch perspectief te ontwarren en te verdiepen. Vrijheid van onderwijs wordt thans te eenzijdig
als een politieke of staatsrechtelijke kwestie gezien. Sociologen zouden de maatschappelijke achter-
gronden van de verschillende verschijningsvormen van vrijheid van onderwijs verduidelijken. Van
daaruit kunnen ze ook aangeven welke aspecten m, de huidige discussie niet aan de orde komen. In
deze discussie zijn alvast drie verschijningsvormen van vrijheid van onderwijs te onderscheiden:

a. Art. 208 van de grondwet, voortvloeiend uit de schoolstrijd en de pacificatie in 1917.

b. Verschillende opvattingen over de taak van de overheid met betrekking tot de vormgeving van de
onderwijsstructuur met het oog op poUtiek gewenste maatschappelijke ontwikkeling (distributief/
constructief).

c. Toenemende spanning tussen de met het onderwijs nagestreefde doelen en de verregaande institu-
tionalisering van het leren en onderwijzen (ontschoüng).

algemeen-theoretische inleidingen, deel-onderwerpen en strategieën ter vergroting van vrijheid van
onderwijs.

De voorbereidingscommissie vraagt allen, die een bijdrage zouden willen leveren aan de conferentie
met haar in contact te treden (J. Dronkers of J. de Mulder, SISWO-bureau, Oude Zijds Achterburgwal
128, 020-240075). Een praatpapier over nadere uitwerking van de opzet van de conferentie en over de
mogeüjkheden voor bijdragen is besclükbaar en wordt gaarne toegezonden.

1-1 De volgende kritische opmerkingen over het rapport van de Verkenningscommissie
zijn voomamehjk geschreven met het oog op wat er met de gedane aanbevelingen gedaan
Zou kunnen worden. Aangezien de commissie zelf haar taak als beslissingsgericht be-
schouwde, gaat het ons dus om de hoofdvraag: of het rapport aan zijn doel beantwoordt.
Leveren de analyses en vooral de aanbevelingen een goede basis? Wat moet of kan er wel,
en wat moet er vooral niet met de aanbeveUngen worden gedaan?

1.2 Het commentaar gaat in op de volgende aspecten. Het rapport als produkt van
onderzoek komt allereerst aan de orde (2). Daarna wordt ingegaan op enkele lacunes:
punten die onzes inziens zo belangrijk zijn dat zij aan de orde hadden moeten komen in
het rapport (3). In een vierde paragraaf wordt iets gezegd over de relatie tussen 'onder-
zoek' en 'andere ondersteuningsinstanties' in de verzorgingsstructuur (4). Tenslotte wordt
kort ingegaan op e'én der aanbevelingen van de commissie: het verdelen van onderzoek
over verschillende velden (5).

2.1 Er is veel te loven in dit rapport. Dit is niet het obligate positieve begin van een
kritische bespreking, maar een betuiging van respect voor een zeer leesbaar en in veel
Opzichten interessant produkt van onderzoek. Weliswaar is de uitvoering van dit project
Vertraagd, maar die lange dracht heeft een goed geschreven overzicht opgeleverd.

1 Onderwijsonderzoek in Nederland. Rapport van de Verkenningscommissie Onderwijsresearch betref-
fende de organisatie en uitvoering van het onderzoek en ontwikkeUngswerk t.b.v. het onderwijs in de
Periode 1966-1974 (maait 1976).

2 Beide schrijvers zijn verbonden aan het Research Instituut voor de Toegepaste Psychologie
(R.I.T.P.). De eerste auteur als adviseur; de tweede auteur als directeur. De senior schrijver was lid van

'Kontaktkommissie' die aan de Verkenningscommissie was verbonden. Aangezien deze Kontakt-
•^ommissie geen medeverantwoordelijkheid draagt (en trouwens gebrekkig werkte) voelt hij zich vrij
kritiek te leveren. De tweede schrijver kwam als deelnemer aan het institutenoverleg met het
fapport in aanrakmg en nam deel aan een subgroep die over het rapport verslag uitbracht aan de
■nstitutenoverlegvergadering. De wijze waarop opmerkingen en meningen - soms afkomstig van
ónderen - verwerkt en gepresenteerd worden is uiteraard voor rekening van de schrijvers.

Daarbij is wel één algemene kritische opmerking over de presentatie op zijn plaats: de
formulering van wat het rapport brengt is vaak vaag. Tekenend is b.v. de een aantal keren
voorkomende stijlwending: 'Het komt de Kommissie voor dat' (dit heel erg is), 'al beseft
de Kommissie dat een andere oplossing niet goed mogelijk was' (b.v. p. 61, regel 9-11).
Daar heeft men niet veel aan.

2.2 De Delen I en II zijn over het geheel genomen zeer lezenswaardig. Deel I (Uitgangs-
punten) geeft een goed beeld van de 'setting' van het onderzoek. Het loopt uit op een
model ('output-georienteerd') van de relaties tussen onderwijs, ontwikkeling en onder-
zoek. Tegen dat model kan men bezwaren inbrengen; maar dat zou men tegen ieder ander
model ook kunnen doen - en men heeft toch wel zoiets nodig.

In Deel II, over de organisatie van onderzoek en ontwikkelingswerk, is de Verkennings-
commissie er in geslaagd om enkele grote lijnen van de Nederlandse constellatie goed in
beeld te krijgen. Dit geldt ook voor de paragraaf over de instituten die participeren in het
institutenoverleg.

2.3 Ook in Deel IV staan belangwekkende dingen; zo, bij voorbeeld, de suggesties om via
het institutenoverleg tot een goede programmering te komen. Die suggesties zijn welis-
waar merendeels niet nieuw maar zij zijn in ieder geval ook niet slecht; tervdjl de daarop
volgende 'waardering der verrichte ^tiviteiten' minstens een aantal waardevolle kritische
opmerkingen bevat. Dat het reilen en zeilen van mstituten kritisch besproken wordt, is op
zichzelf toe te juichen. Ook tussen de Aanbevelingen bevmden zich enkele zeer beharti-
genswaardige.

Daaraan moet wel worden toegevoegd dat bij het rapport reeds nu enkele verouderings-
verschijnselen zijn aan te wijzen. Enkele recente belangrijke ontwikkelingen — b.v. met
betrekldng tot de werkwijze van de instituten die meedoen aan het institutenoverleg -
zijn niet genoemd. Zo bij voorbeeld de op gang gekomen samenwerking van onderzoeks-
instituten in het kader van 'sectoronderzoeksgroepen' van waaruit de verbindingen tussen
'onderzoek' en 'veld' beter geregeld kunnen worden; zo bij voorbeeld de pogingen om de
zgn. 'schoolgebonden' onderzoekers te plaatsen in andere vormen van onderzoek. Op deze
punten loopt het rapport al lelijk achter; de ontwikkeling gaat snel.

2.4 Deel III gaat over 'het sinds 1966 verrichte onderzoek en ontwikkelingswerk' en
bestaat voomameUjk uit een verslag van de bevindingen van de projecten-enquête.

Een algemene kritische opmerking vooraf. In een tijdvak van 1966-1974 is er veel
veranderd, zowel qua projectvoering als qua samenwerkingsvormen en de inhoudelijk®
oriëntatie van projecten. Het is daarom weinig realistisch om deze periode als e'én geheel
te behandelen. Het ware beter geweest om via een indeling m kortere perioden duidelijk
rekening te houden met de verschillen tussen vroeger (1966) en nu (1976).
Wat de enquête zelf betreft, krijgen wij uit het rapport de indruk dat de analyse van de
uitkomsten minder heeft opgeleverd dan de verkenningsgesprekken, maar vooral ook
minder dan hij zou hebben kunnen opleveren als hij beter zou zijn opgezet. Dat de
respons zo betrekkehjk groot was (71%) moet men eerder toeschrijven aan de status van
de commissie - door de regering ingesteld - dan aan de kwaliteiten van de enquête zelf-
Tien pagina's waarop 46 vragen, gesteld en toegelicht met zo'n 3 500 woorden -vrage"
die dan voor elk project apart moeten worden beantwoord - is wel erg veel invulwerk.
Sommige vragen vereisten bovendien moeilijk te nemen indelingsbeslissingen; bij andere
werd gevraagd naar gegevens die, vooral voor ouder onderzoek, nauwelijks meer te

achteiiialen waren. Wat het R.I.T.P. betreft, bleken er voor een aantal oude (gerapporteer-
de) projecten, uit de zestiger jaren, nauwelijks meer 'aanspreekbare' personen te bereiken
te zijn. Als wij die lijsten toch redelijk betrouwbaar zouden hebben ingevuld, dan zou dat
Vele mandagen hebben gekost. In vrij wat van deze gevallen hebben wij gemeend deze tijd
aan andere dingen beter te kunnen besteden. Bij de bespreking van 'Enkele gegevens over
de non-response' (p. 145-146) gaan de schrijvers niet in op de mogelijkheid dat hier
sprake zou kunnen zijn van een niet zo erg gelukkige opzet: geen zelfkritiek helaas.

2.5 Niettemin: 71% is nog niet zo'n slechte basis voor de analyse van het materiaal. Die
analyse valt echter tegen; zij blijft oppervlakkig.

Zo bij voorbeeld in 11.1 (De planmatigheid in de opzet): bij de beschrijving op p. 99-100
Wordt wel naar de uitgesplitste tabellen A27 tjn. A29 verwezen maar nauwelijks gebruik
gemaakt van wat daar uit te halen is. Op p. 100 staan, in de laatste twee alinea's, alleen
globale conclusies - b.v. 'dat er nog wel iets aan de planmatigheid van de opzet der
projecten gedaan kan worden' - zonder dat er wordt ingegaan op de systematische
Verschillen in opdracht- en financieringspositie tussen, bij voorbeeld, I.O.-instituten Cwel
begroting': 88%), universitaire instituten (52%) en R.W.O.-bureaus (10%). Aan zo'n
ongedifferentieerde conclusie heeft men niets - zeker niet in een beleidsrapport.
Ook bij de nuchtere constatering op p. 106, 'dat het relatieve aandeel van de rechtstreekse
financiering door het Ministerie met de loop der jaren stijgt' (en in 1973 zelfs een groter
bedrag te zien geeft dan hetgeen via S.V.0. wordt gesubsidieerd) ontbreekt ieder kritisch
commentaar. Men krijgt hieruit de indruk dat de commissie het cruciale probleem van de
financieringsvorm van onderzoek - hoewel daarover verderop wel opmerkingen te vinden
zijn - in zijn betekenis voor een goed onderzoeksbeleid heeft onderschat.^
Hetzelfde geldt voor de verslaggeving over 'de tevredenheid' t.a.v. de doorwerking der
resuhaten' (13.2, p. 111-112). Ook hier zeggen de op p. 112 vermelde getallen weinig.
Deze 'tevredenheid' is uiteraard een functie van het soort onderzoek; maar dat verband is
niet nagegaan.

2.6 Om weer andere redenen weinig bevredigend is de analyse van de 'disseminatie-
vormen' (13.1) die aan de bespreking van de tevredenheid vooraf gaat.

De commissie constateert, dat 73 projecten (18^% van de 400) samen 112 (Nederlandse)
plus 9 (vreemde-taal-)boeken hebben opgeleverd; zij rekent uit dat dit, nog ongereaHseer-
de publikatieplannen meegerekend, neerkomt op zoiets als 25% projecten resulterend in
een Nederlands boek en nog eens 5% in een vreemdtalig boek - en acht dit een
onverwacht hoog percentage. Verder is de commissie kennelijk geïmponeerd door 'een
indrukwekkende hoeveelheid vormen, waariangs in feite de resultaten van de 400 (...)
projecten bekend gemaakt zijn'.

De lezer vraagt zich hierbij af: Is dit nu wel zo veel, respectievelijk zo indrukwekkend?
Men zou bij voorbeeld willen weten hoeveel van die boeken proefschriften zijn - maar die
Vraag stond niet in de enquête. Verder vraagt men zich af of de commissie zich wel heeft
Serealiseerd dat onderzoek waarover niet schriftelijk wordt gerapporteerd geen 'onder-
zoek' mag heten. Tenslotte: Allicht doe je iets aan disseminatie, ook mondeling, als je als
onderzoeker een paar jaar op een project hebt gewerkt.

K.ortom: de genoemde percentages zijn niet 'hoog' en de aantallen vormen zijn niet

'indrukwekkend'. Hoogstens is een en ander 'hoopgevend'; maar laat alsjeblieft niemand
de conclusie trekken, dat het allemaal goed zit met de rapportering over onderzoek in de
vorm van publikaties!

Wat de overige vormen van disseminatie betreft, daarover zijn wij zo mogelijk nog minder
optimistisch. Er valt echter te twisten over de vraag of disseminatie uitsluitend de
specifieke taak van de onderzoekers is; daarop kunnen wij nu echter niet ingaan.
Ook op het punt van de disseminatie-vraag is de analyse in het rapport in ieder geval
oppervlakkig; de resultaten blijven mager, te mager.

3.1 Een eerste belangrijke lacune in het rapport is het ontbreken van het opleidings-
gezichtspunt. De commissie heeft in haar enquête niet gevraagd öf en hoe projecten onder
wetenschappelijke supervisie staan of hebben gestaan. Ook op diverse andere plaatsen,
waar men dit wel zou verwachten, wordt niets gezegd of gevraagd waaruit zou kunnen
blijken dat de commissie zich er rekenschap van heeft gegeven:

(1) dat het verrichten van (onderwijs-)onderzoek een moeilijk vak is, dat geleerd moet
worden;

(2) dat daarvoor, naast het instituut van de promotie (waarbij tenminste één hooggekwa-
lificeerde onderzoeker, namelijk de promotor, 'sticks his neck out') nu nog maar
weinig mogelijkheden bestaan;

(3) dat van het functioneren van opleidingsmogelijkheden op korte en lange termijn de
kwaliteit van het (onderwijs-)onderzoek afhangt;

(4) dat dit gezichtspunt - wetenschappelijke supervisie en kwaliteitsbewaking, o.a. via
een 'leercontract' (de promotie), etc. - juist op een terrein als dat van het onderwijs,
waarop zo veel beleid gevoerd wordt en zo veel pressiegroepen opereren (kunnen), en
waarop het doen van goed, relevant en valide onderzoek extra moeilijk is, van het
allergrootste belang is.

3.2 Zo ontbreekt bij voorbeeld iedere verwijzing naar het opleidingsgezichtspunt bij de
aanbevelingen (p. 4, p. 132 e.v.).

Zo 'houdt het - onzalige - idee om 'het onderwijsveld, het beleidsapparaat en de
onderwijswetenschap' elk over 'eigen onderzoeksapparatuur' te doen beschikken (p. 133)
geen rekening met het kwaliteitsbewakingsgezichtspunt: onderzoek is niet een zo gemak-
kelijke zaak, datje dat zo maar op drie plaatsen (in feite op negen, nee, tien plaatsen: tien
'koepels' immers! ) apart goed van de grond^kunt krijgen.

Zo wordt er wel op een paar plaatsen gezegd dat in Nederland top-deskundigen schaars
zijn, maar niet dat daar wat aan gedaan moet worden, door wetenschappelijke scholing:
coryfeeën - of bescheidener: doodgewone vaklieden - moeten (ook) worden gemaakt.
Zo wordt er (op p. 123), bij de 'factoren gelegen in instituten of projecten', gesproken
over het 'relatief grote aantal onervaren onderzoekers' zonder dat daarbij het (post-docto-
rale) scholingsprobleem wordt aangesneden.'*

4 Hiernie& wordt natuurlijk niet gesuggereerd dat er in de instituten niets aan opleiding van onervare-
nen wordt gedaan. Senior-junior-relaties, vallen en opstaan bij het zelf doen, interne discussies kunnen
zeel leerzaam en ontwikkelend zijn. Het scholingsprobleem verdient echter veel meer systematisch
aandacht.

3.3 Geringe aandaciit voor de moeilijklieid van het onderzoekersvak, voor het belang van
scholing daarin en voor de betekenis van kwaliteitsbewaking blijkt ook uit bepaalde
interpretaties in het rapport.

Zo vindt men op p.121 de opmerking dat 'de problemen aangedragen door het veld voor
het veld zelf weliswaar interessant zijn, echter door de onderzoeker niet altijd weten-
schappelijk interessant geacht worden'. Het betoog gaat dan als volgt verder: 'Voeg
daarbij dat de rapportage voldoen moet aan de eisen welke door het wetenschappelijke
'forum' gesteld worden, wdl men als wetenschapper status in dit gezelschap verwerven of
behouden, dan betekent dit alles' - verkort weergegeven - dat het veld het rapport öf
niet begrijpt, öf zijn eigen problemen er niet in herkent, öf met de herformulering van de
problematiek door de onderzoeker geen raad weet (p. 122). Op dit soort overwegingen is,
zo kan men aannemen, het ongelukkige voorstel, om het onderwijsveld een 'eigen
onderzoeksapparatuur' te verschaffen, gebaseerd.

De bezwaren tegen deze analyse (en tegen het voorstel) zijn duidelijk. Wat er staat -
hierboven aangehaald - is niet helemaal onjuist maar eenzijdig. De 'harde' moeilijkheid
die onder deze zaken ligt is namelijk niet of de onderzoeker de door het veld aangedragen
probleemstelling 'interessant vindt', maar of het probleem, zoals gesteld, onderzoekbaar
is. 'Het veld', als opdrachtgever (zönder herformuleringsinspraak van de onderzoeker) is
nog onmogelijker dan 'het beleid' als opdrachtgever (zönder medebeslissing van de
onderzoeker).

Kortom: vergeten wordt dat het vaststellen van een onderzoeksonderwerp, -plan, -opzet,
en daarmee vooral ook de formulering van de probleemstelling, moeilijk vakwerk is,
althans: óók vakwerk voor onderzoekers is. En dat daarbij, om zo te zeggen, de besten
nog niet goed genoeg zijn.

3.4 Tenslotte kan men het ook zo zeggen. Juist het 'boomtown'-karakter van de
ontwikkeling van het onderwijsonderzoek in Nederland maakt dat de problemen van
Wetenschappelijke scholing, kwaliteitsbeheersing èn opbouw van een empirische onder-
wijswetenschap die iets voorstelt en iets kan, kernproblemen zijn. De commissie heeft ze
niet gezien, althans niet gesignaleerd.

3.5 Het probleem van de optimale organisatie van onderzoek is een tweede, uiterst
belangrijk punt waaraan het rapport te weinig aandacht geeft.

Wij denken hierbij vooral aan het al genoemde punt van de financieringsvorm. Uit de
internationale ervaring inzake wetenschaps- en onderzoeksbeleid is langzamerhand het
cruciale belang, voor de opbrengst en de kwaliteit van research, van de gekozen subsi-
dièringsprocedures en -voorwaarden naar voren gekomen. Het rapport zegt hier echter zo
goed als niets over, ook niet op plaatsen waar dit erg voor de hand zou liggen. De analyse
is oppervlakkig.

Zo wordt bij voorbeeld bij de 'factoren' op p. 123-124 onder 7 wel iets gezegd over de
'gevallen waarin een verantwoordingsplicht aan derden ontbreekt'; terwijl op p. 125
Wordt geconstateerd dat 'een zeer groot gedeelte van de totale kosten van het onderzoek
en ontwikkelingswerk op verborgen wijze uit de eerste geldstroom betaald wordt, zonder
dat daarop controle uitgeoefend wordt'. Deze beide problemen hangen natuurlijk samen;
en men zou zo zeggen: als en waar die 'verantwoordingsplicht ontbreekt', en als en waar
de betaling 'verborgen' is, 'zonder kontrole', moet men er iets aan doen! In een
beleidsrapport zou men meer aandacht mogen verwachten voor de vraag naar de procedu-
res, waarmee men verantwoordingsplicht, duidelijkheid van de financiering (zodat men

iets aan kosten-baten-analyse kan doen) èn controle kan introduceren, respectievelijk
versterken.

Dat hier niets principieels over wordt gezegd - welke financierings- en organisatievormen
het meest geschikt zijn voor evaluatie, kwaliteitsbewaking en optimalisering van het
onderzoek - is, minstens, een gemiste kans.

4 De plaats van begeleidings- en innovatiestructuren in een 'output- georiënteerd' model
en de relatie met onderzoek

4.1 Speciale aandacht verdient een ander (extem-)organisatorisch punt waarop de analyse
ontoereikend is, namelijk dat van de zinvolheid van de begeleidings- en innovatie-organisa-
ties.

De commissie introduceert dit, als vierde 'vlak' naast de drie andere (onderwijs, ontwikke-
ling en onderzoek), die zij heeft overgenomen van het 'output-georiênteerde model' van
Gideonse (resp. p. 32 en 22-24). Deze, toch nogal fundamentele wijziging wordt alleen
gerechtvaardigd met het argument, dat de commissie het model wil toepassen 'op de
Nederlandse situatie'. De vraag of dat nou zo maar kan - en zinvol is - wordt niet
gesteld.

Dat punt is nu echter juist zeer problematisch! De zwakte van het — in Nederland
opmerkelijk populaire — begrip 'begeleiding' is immers, dat men zich daarbij moeiUjk een
output kan denken. Wat moet er uit 'begeleiding' komen? Waaruit kan blijken of er
doeltreffend of niet doeltreffend 'begeleid' is? Past dit vierde vlak wel in het model? En
tenslotte: Is het wel een goed idee, dat wij wel (en anderen niet) met zo'n vierde 'vlak'
werken? Hiervan wordt op p. 31 wel iets besproken; maar de genomen beslissing wordt
niet overtuigend duidelijk gemaakt, respectievelijk uitgelegd. De vraag of 'begeleiding' als
vierde 'vlak' in een output-georiënteerd model wel op zijn plaats is, wordt niet overtui-
gend beantwoord.

4.2 Iets abstracter: er wordt in het rapport te weinig aandacht besteed aan een analyse
yan de problemen die samenhangen met:

1. de fundamentele relaties van het 'onderzoek' met andere 'ondersteuningsfuncties',
respectievelijk het totale 'onderwijsvemieuwingsveld' (vooral terreinafbakeningsproble-
men);

2. de bestaande en zich in aantal uitbreidende organisatorisch-structurele scheidingen
(vooral samenwerkingsproblemen).

Het rapport beperkt zich tot een te summiere beschrijving van 'anderen' (dan onderzoe-
kers). Daardoor wordt de indruk gewekt alsof de problemen die hier bestaan zouden
voortkomen uit 'opvattingen' van onderzoekers over onderzoek.

Zoiets opvallends als de 'afwijking' van Nederland - dat een 'vierde vlak' nodig heeft (? )
- zou toch niet onbesproken hebben mogen blijven. Er bestaat trouwens al enige
literatuur over^; bovendien is dit punt zeker in de verkennende gesprekken aan de orde
gekomen.

5 Zie b.v. A.D. de Groot: Tussen centrale overheid en individuele school. Kritisch commentaar op eert
ministeriële discussienota. Brochure RITP, Amsterdam 1974; en: Ontwikkelingslijnen in de Neder-
landse Onderwijsresearch. Tijdschrift voor Onderwijsresearch, 1976, 1, 145-160.

4.3 Het enige wat de commissie wel doet m.b.t. deze problemen is (in 6.5, p. 83-84):
rapporteren wat de begeleidings- en innovatie- instanties zelf ervan vinden. 'Men voelt zich
hier echter onmachtig (...) Men voelt de behoefte om dwingende opdrachten te kunnen
geven aan onderzoek- of ontwikkelingsinstituten' (p. 83).

Tja, maar dat zou toch ook echt niet zo'n goed idee zijn. Dat men dit zo voelt is
begrijpelijk genoeg; maar het probleem is 'structureel'.

Dit structurele probleem wordt echter niet aangeroerd in het rapport. In dit verband is
belangwekkend wat er op p. 82 over de problemen van het I.O.W.0. wordt gezegd. Er is
'weinig samenwerking met andere instituten. Wel heeft het I.O.W.0. pogingen hiertoe
ondemomen (...) Daarbij heeft het I.O.W.0. ervaren dat men zijn vragen niet gemakkelijk
kwijt kon bij de onderzoeksinstanties'. Het probleem is namelijk hetzelfde: ook het
I.O.W.0. zou waarschijnlijk 'dwingende opdrachten' willen geven aan onderzoeksinstitu-
ten - opdrachten om dingen voor hen te laten uitzoeken die zij nodig hebben, en waarbij
de onderzoeker geacht wordt de speciale theorie of innovatie-ideologie volgens welke de
innovatoren/begeleiders werken niet in twijfel te trekken en als uitgangspunt te nemen.

4.4 Hier Ugt de - in het rapport niet genoemde - moeihjkheid in de eerste plaats:
Innovatie- en begeleidingsinstellingen hebben, evenals sommige beleidsinstanties, de nei-
ging om vooraf te weten hoe het moet; en de onderzoeker moet daarover dan geen lastige
Vragen meer stellen. Het probleem is, dat onderzoekers er toe neigen - ook al zijn zij
sympathisanten van 'vernieuwing' - om dit soort opdracht niet zonder meer te accepte-
ren. Van het standpunt van onderwijsonderzoek dat iets wil voorstellen moet men zeggen:
Dat siert ze.

Deze, principieel belangrijke, kant van de zaak is niet bekeken in het rapport van de
Verkenningscommissie.

Dit gedeelte begint met wat algemeenheden waar men niet zo veel mee kan doen;in het
begin van onze bespreking zinspeelden wij daar al op.

5.2 De belangrijkste, maar tevens de bedenkelijkste aanbeveling lijkt ons deze te zijn (p.
133): '15.4.1. Een eigen onderzoeks- en ontwikkelingsapparaat voor de onderscheiden
Velden'. Dat dit een slecht idee is, en waarom, werd hierboven reeds gesteld, althans
aangeduid. Een korte nadere toelichting bij dit belangrijke verschil van mening met de
Verkenningscommissie lijkt echter nodig.

Het gaat om het volgende. De gedachte dat men best voor onderscheiden 'velden' apart
een 'eigen' onderzoek- en ontwikkelingsapparaat zou kunnen opzetten, betekent een
onbegrijpelijke onderschatting van drie zaken: (1) hoe moeilijk het is om goed onderzoek
op te zetten en uit te voeren, (2) hoe onontbeerlijk daarvoor national&^bundeling van alle
krachten is, en (3) hoe waardeloos onderzoek is dat niet goed is opgezet.

53 Maar er is meer over te zeggen: Dit is een typisch Nederlandse denk- en organisatie-
fout. Aparte apparaten voor 'velden' - dat is immers geheel analoog aan aparte apparaten
Voor 'zuilen'! De typisch Nederlandse, zichzelf verslaande, strategie die uit dit soort
Voorstellen spreekt is duidelijk:

(1) Als er moeilijkheden zijn (noem ze dan 'principieel' en) los ze op door verdeling van
het (probleem-)veld in aparte territoria, zodat ieder 'in eigen kring' autonoom zijn
beshssingen kan nemen; b.v. in tien 'koepels'.

(2) Als dat (wel tot coëxistentie maar) niet tot coöperatie leidt - zoals te verwachten is
- zet er dan een coördinerend lichaam boven.

(3) Breng echter de coëxistentie niet in gevaar door dat coördinerende lichaam macht te
geven ('geen centralisme'; 'democratie'; vanuit de basis'; de principes van de verschil-
lende 'eigen kringen' blijven de dienst uitmaken).

Dat dit systeem niet werkt - d.w.z. niet tot samenwerking, niet tot kwaliteit, niet tot
oplossing van nationale problemen leidt - zouden wij uit vele historische voorbeelden
moeten weten.

5.4 Het merkwaardige is, dat de commissie deze problemen wèl heeft gezien — getuige
haar opmerkingen op p. 136 over het feit dat 'in Nederland lichamen als de Academische
Raad en de Onderwijsraad het niet eenvoudig hebben hun opdracht waar te maken'. Maar
dit inzicht is blijkbaar maar half verwerkt. Het leidt wel tot reserve ten aanzien van 'het
poneren van een dergelijk instituut' - zie (2) - als 'toporgaan', maar het heeft de
commissie niet weerhouden van het voorstel om die drie 'eigen onderzoeks- en ontwikke-
lingsapparaten' voor de 'velden' in te stellen - elk met eigen middelen (p. 134) - noch
van het voorstel voor de tien 'koepels' of tien 'sectoren'. Maar, als die apartheid van drie
'velden' en/of van tien sectoren eenmaal geïnstitutionaliseerd is dan is het kwaad al
geschied! Coördinatie achteraf — Nederlandse stijl, di. nadat je alle troeven (o.a. geld)
uit handen hebt gegeven — helpt niet; dat kon de commissie toch wel weten?

5.5 Kortom: de aanbeveling betreffende de drie 'velden' en de tien 'koepels' kunnen wij
niet serieus nemen. Het is te hopen dat anderen dat óók niet doen.

Het is erg verleidelijk om op de vele punten die Warries in zijn notitie 'De kwalitatieve
evaluatie van Wiskobas op de ORD '76' aanstipt, in te gaan. Afgezien van het feit, dat
zoiets snel op muggenzifterij gaat lijken, is het ook niet zo hard nodig, omdat bijna alle
standpunten en de daaruit voortvloeiende beshssingen vanaf de aanvang van het Wiskobas-
projekt ter discussie zijn gesteld in het Wiskobas-Bulletin, een tijdschrift dat vanaf
oktober 1971 is verschenen.

De kernvraag is op welke wijze Wiskobas garanties kan geven dat in de loop van vijfjaar
gedane léerplanvoorstellen bruikbaar zijn voor grote groepen kinderen en onderwijzers. In
mijn presentatie op de ORD '76 heb ik er de nadruk op gelegd, dat deze garanties tot nu

toe voornamelijk berustten op ervaring, die slechts met kwalitatieve middelen is geanaly-
seerd. Dat wil niet zeggen, dat er slechts in één school zou zijn gewerkt, al is het wel zo,
dat deze ene ontwerpschool steeds de broedplaats voor de leerplanontwikkelaars is
geweest.
Enkele feiten:

* in de jaren 1971-1975 hebben ongeveer 4000 onderwijzers een heroriènteringskursus
gevolgd, waarin het praktische werk in de klas een grote plaats in nam. De leerplanvoor-
stellen uit de zogenaamde BAS-boeken (9 stuks) zijn door deze kursisten uitvoerig
bediskussieerd en uitgeprobeerd. Rechtstreeks en via de kursusleiders en het Wiskobas-
Bulletin is veel informatie over de haalbaarheid en de bruikbaarheid bij Wiskobas terug-
gekomen, geanalyseerd''en verwerkt. Interviews, enquêtes en observaties in kursusbijeen-
komsten en scholen hebben hierbij een grote rol gespeeld.

* in dezelfde periode is met dezelfde en soortgelijk materiaal gewerkt op ongeveer 60 van
de 95 pedagogische akademies. Studenten, mentoren in de basisschool en docenten
hebben op vrij uitgebreide schaal ervaringen opgedaan, die via dezelfde kanalen als
bovengenoemd zijn teruggespeeld.

* een feit is, dat de verspreiding van zogenaamde 'moderne wiskunde'-metoden in de
basisscholen sinds 1971 niet erg snel is gegaan (volgens uitgevers en Inspekteurs) en dat in
de uitgaven van de laatste twee jaar duidelijk de invloed van de leerplanvoorstellen van
Wiskobas is te herkeimen. Dit wijst erop, dat 'men' positief oordeelt over de bruikbaar-
heid van deze voorstellen.

Natuurlijk heeft Warries gelijk, dat er meer gegevens op tafel moeten komen door middel
Van 'een kwantificerende evaluatie bij zo'n gigantisch eksperiment'. De vraag is wel in
Welk stadium van het leerplanontwikkelingswerk het aksent sterk op dit soort evaluatie
gelegd moet worden en in welke mate en vooral met welk doel.

Warries legt op veel plaatsen in zijn notitie de nadruk op 'garantie voor bruikbaarheid'. In
zijn tweede 'simpele' vraag echter heeft hij kennelijk meer de formatieve curriculume-
valuatie op het oog, die het hele proces van ontwerpen en ontwikkelen begeleidt en
steunt.

Bij Wiskobas vinden we, dat beide vormen van evaluatie noodzakelijk zijn. De eerste vorm
is voor allerlei onderdelen van leerplanvoorstellen door onszelf toegepast in samenwerking
met de vele scholen die in de eksploratieperiode (1971-1973) meewerkten binnen het
kader van de heroriëntering. Een veel zwaardere vorm zou in dat stadium van het projekt
overdreven zijn geweest. Nü (1976) ligt de zaak anders: er ligt een vrij kompleet, uitvoerig
in de praktijk op haalbaarheid en konsistentie bekeken leerplanvoorstel. En het is uiterst
belangrijk, dat de effekten van dit voorstel worden bestudeerd, ook door onderzoek van

Dit geldt ook voor de informatieverzameling tijdens het ontwikkelingswerk. Toen Wisko-
bas in het voorjaar van 1973 startte met de zogenaamde integratieperiode, werd gepro-
beerd een plan te maken, waardoor op groter schaal aan formatieve evaluatie ter
Ondersteuning van de leerplanontwikkeling zou kunnen worden gewerkt. Binnen de
gestelde kaders van mankracht, gelden en taken binnen Wiskobas bleek dit niet te lukken.
Daarom werd gepoogd een eksterne evaluatiegroep in te schakelen. Pas tegen het einde
Van 1974 lukte het een samenwerkingskontrakt lOWO-CITO te sluiten, waarbinnen twee
medewerkers half-time vanuit het CITO aan formatieve evaluatie zouden kunnen werken,
(de kosten werden vanuit de lOWO-begroting betaald).

Achteraf kan gesteld worden, dat het beter zou zijn geweest bij de formatie van het

Wiskobas-teafn (in 1971!) op het evaluatie-werk in deze zin scherper te letten.....

Ook achteraf kan worden gesteld, dat het beter was geweest de kontakten met het CITO
of andere instituties eerder te zoeken.....

Vanaf 1 januari 1974 is - naast de 'connaisseurship-evaluatie' door de Wiskobasmedewer-
kers in de ontwerpschool en de volgscholen in het Gooi - gewerkt aan de formatieve
evaluatie binnen het CITO-IOWO-samenwerkingsprojekt. Van de totale Wiskobas-projekt-
begroting is sindsdien 19% besteed aan dit evaluatieprojekt, afgezien van de andere
evaluerende werkzaamheden door eigen medewerkers. Uitgedrukt in een percentage van
de totale kosten (inklusief personeelskosten) van het Wiskobaswerk bedragen de kosten
van het evaluatieprojekt (op jaarbasis).

Is dat genoeg?...... In ieder geval blijkt het werk buitengewoon moeiUjk te zijn. Niet als

het gaat om de 'eenvoudige' vragen (als bijvoorbeeld: 'kunnen de kinderen eind klas 3
werken met bepaalde soorten blokschema's?'), maar wel als het gaat om de meer
'principiële' vragen (als bijvoorbeeld: 'hebben de leerlingen eind klas 5 door de aanpak
van kombinatorische telproblemen nu inderdaad beter dan andere leerlingen geleerd om
situaties met bepaalde middelen te matematiseren?').

NatuurHjk zijn ook de antwoorden op de eerste soort vragen van belang, maar deze
antwoorden kunnen ook door de leerplanontwikkelaar-onderwijskundige zelf met vrij
eenvoudige middelen in voldoende mate verkregen worden om tameUjk gefundeerd
beslissingen over akseptatie, revisie, verwerping etc. te nemen (al kan de evaluator
natuurlijk de rationaliteit van de beslissingen verhogen met de door hem verkregen
informatie). Het ging en gaat de leerplanontwikkelaars van Wiskobas echter meer om de
'moeilijke' vragen.....

En het wordt steeds duidelijker, dat op die vragen alleen antwoorden kunnen worden
geleverd in zeer langdurige en kostbare onderzoekingen, waarin ontwikkelaars en evalua-
tor zeer nauw moeten samenwerken vanuit een gezamenlijk entousiasme en een verschil-
lende verantwoordelijkheid.
Er zijn daarvan wel voorbeelden. Ik noem er enkele:

- het werk van Ponomarev, Puskin e.a. bij het leerplanontwikkelingswerk van Davydov
en El'konin

- een recent voorbeeld is het werk van Stanley Erlwanger uit Princeton, die met
diepgravende gesprekken met kinderen de leerplanontwikkelaars in het Madison Pro-
ject kan steunen (zie 'The Journal of Children's Mathematical Behavior' vol. 1 nr. 3
van zomer 1975).

De ben het met Warries eens, dat de kostbaarheid en de moeilijkheid van het werk geen
voldoende redenen zijn om het niet te gaan doen. Ik vind wel, dat het Wiskobasprojekt
geleerd heeft

— tot nu toe — dat men niet al te optimistisch moet zijn over het direkte
rendement voor de leerplanontwikkeling. En dat ligt niet alleen aan de 'jeugdigheid' van
de onderwijsresearch in ons land of aan de onervarenheid van de onderzoekers (Warries
schrijft daarover), maar ook 'eenvoudig' aan de moeilijkheid van de problematiek.

Konkreet: in leerplandeel 1 'De kiekkas van Wiskobas' (lOWO; september 1975) is een
visie op wiskunde-onderwijs beschreven met de doelstellingen die daarbij passen.
In leerplandeel 2 'Overzicht van wiskunde-onderwijs voor de basisschool' (lOWO; decem-
ber 1975) is in 350 bladzijden een leerplanvoorstel beschreven en uitvoerig toegelicht, dat

beoogt scholen in staat te stellen de in leerplandeel 1 beschreven doelstellingen te
bereiken (met gebruikmaking van allerlei onderwijssuggesties uit vijf jaar Wiskobas-Bulle-
tin, negen onderwijsleerpakketten uit de heroriënteringskursus, volgende leerplandelen,
TV-series etc.).

- kunnen scholen ermee werken na heroriëntering en onder een zekere begeleiding?
(ónze ervaring tot nu toe: ja)

- leren kinderen met zo'n leerplan beter: schematiseren, symboÜseren, deduktief redene-
ren, situaties vereenvoudigen, foute analogieën ontmaskeren, een goed matematisch
model in een bepaalde situatie kiezen.... etc.?

- in hoeverre draagt de deelleergang 'ruimtelijke oriëntatie' uit het Overzicht bij aan het
bereik van deze algemene doelstellingen? etc.

Natuurlijk kun je van één onderwijsleerpakketje of deelleergangetje nagaan of het 'werkt'
en hoe het 'werkt', maar de moeilijkheid zit juist in de samenhang met het gehele leerplan
en met de algemene doelen die in dit leerplan nagestreefd worden.
Maar ook ik ben van mening, dat het mogelijk moet zijn om 'in samenwerking met
vertegenwoordigers van verschillende disciplines' enigszins vat te krijgen op deze proble-
matieken. Of op dit moment in Nederland de mankracht, het geld en de samenwerkings-
struktuur aanwezig zijn, die dit noodzakelijke werk mogelijk moeten maken, betwijfel ik.
Dat de voorwaarden in 1971 niet aanwezig waren, weet ook Warries vanuit zijn deelname
aan de konferentie in Scheveningen (februari/maart 1971), tijdens welke konferentie door
het lOWO met diverse onderzoeksinstituten is overlegd over deze vragen. Dat de voor-
waarden in 1973/1974 onvoldoende vervuld waren, is eveneens gebleken.

Hopehjk wordt de toekomst beter.....er zijn gelukkig tekenen, die daarop wijzen. Eén

Zo'n teken is het groeiend wederzijds begrip voor de eigenaardigheid van de werkzaam-
heden van leerplanontwikkelaar en onderzoeker, dat ook af en toe werd gedemonstreerd
tijdens de ORD'76.

Warries, Egbert. De kwalitatieve evaluatie van WISKOBAS op de ORD '76'. Tijdschrift voor Onderwijs-
research, 1976,1,191-192.

In het 'abstract' van het artikel 'Het derde tentamenmodel met een toepassing' (Tijdschrift voor
Onderwijsresearch 1, 1976, no. 4, p. 161) is een deel van de eerste alinea verminkt gezet. De eerste
^even zinnen moeten luiden:

^e 'examination model' was developed in order to make more rational decisions about critical scores,
number of items, number of tests per year, and the like. The present third model may be a large step
jn the direction of 'acceptability' (De Groot, 1970). The model is simple and in accordance with
•knowledge about curves of learning and forgetting; the parameters can easily be calculated and are
conceptually simple. 'Knowledge' lies between O and 1 and is a linear function of number of items
'ight. Apart from forgetting, knowledge increases proportionally to the 'length' and 'difficulty' of the
®|ibject matter. Part of the knowledge is continually forgotten, however. The loss per small unit of
time is proportional to the knowledge itself, to the isolatedness of the subject matter, and, inversely,
'memory'.

Keter J.D. Drenth, Inleiding in de testtheorie.
Deventer: Van Loghum Slaterus, 1975 (/39,50).

Drenth's 'Inleiding in de testtheorie' is een bewerkte versie van zijn suksesvolle boek 'De psychologi-
sche test' uit 1966, waarvan in 1968 een eerdere bewerking verscheen. Bij het tot stand komen van het
boek zijn in de oorspronkelijke tekst tal van veranderingen aangebracht, doch wie - afgaande op de
nieuwe titel - mocht verwachten dat met name de testtheorie thans uitgebreider aan bod zou komen,
komt bedrogen uit. Afgezien van een enkel woord dat gewijd wordt aan de 'generaliseerbaarheids-
theorie' beperkt het boek zich nog steeds tot enkele hoofdzaken uit de 'klassieke testtheorie'. Het
boek is - evenzeer als 'De psychologische test' - een handboek over tests, hun achtergrond en hun
toepassingsmogelijkheden. De veranderingen die door de auteur zijn aangebracht zijn vooral te vinden
in een algehele 'up-dating' van de tekst en in een verbeterde explicatie. De indeling in hoofdstukken is
hetzelfde gebleven. Wat het uiterlijk betreft valt op dat de tekst gezet is in een moderner lettertype -
dit is er de belangrijkste oorzaak van dat het boek zoveel dikker is dan zijn voorganger - en dat zij
verluchtigd is met tal van illustraties. Voor wie 'De psychologische test' niet kent, zal ik hieronder kort
aangeven welke onderwerpen in het boek aan de orde komen. Voor de lezer die wel met het
oorspronkelijke boek bekend is, zal ik de voornaamste veranderingen aangeven.

Zoals het een goede inleiding betaamt vangt het boek aan met een historisch exposé dat de
ontwikkelingen schetst die zich sedert de grijze oudheid zowel in het buitenland als in ons vaderland
op testgebied hebben voorgedaan. Daarbij wordt de lezer 'en passant' de weg gewezen naar een aantal
belangrijke bronnen, zoals handboeken en tijdschriften, maar bijvoorbeeld ook (Nederlandse) disserta-
ties. Doordat de auteur niet alleen verwijzingen naai recente literatuur heeft toegevoegd, maar ook
talrijke publikaties van ouder datum heeft verwerkt, heeft dit hoofdstuk sterk aan waarde gewonnen.
De grote mate van zorgvuldigheid en volledigheid die het geheel bovendien kenmerkt, maakt dit
hoofdstuk tot een belangrijk stuk dokumentatie.

In het tweede hoofdstuk geeft Drenth een nadere bepaling van het begrip 'test', welke uitmondt in een
definitie: 'een test is een systematische classificatie - of meetprocedure, waarbij het mogelijk wordt
een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de
onderzochte óf over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van
reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde, zorgvuldig
gekozen stimuli'. Andere zaken die in het hoofdstuk aan de orde komen zijn: het begrip 'meten',
benaderd vanuit de zienswijzen die Stevens, Torgerson en Ghiselli hieromtrent huldigen, en een aantal
toepassingsmogelijkheden van tests. In de opzet van het hoofdstuk is weinig veranderd. De belang-
rijkste toevoegingen zijn gelegen in de opmerkingen die gemaakt worden over tussenvormen van de vier
bekende meetschalen (ratio, interval, ordinaal, nominaal) en over ipsatieve scores.

In het derde hoofdstuk bespreekt Drenth een aantal kenmerken waarin tests zich van elkaar onder-
scheiden, nl. testgedrag, wijze van instructie en afname, type testvragen en overeenkomst met
criteriumgedrag. Voorts presenteert hij een indeling van tests, waarin overigens ook andere methoden,
technieken en instrumenten voor de verzameling van psychologisch relevante gegevens een plaats
innemen. Aan de hand van deze indeling wordt vervolgens een groot aantal bmnenlandse en buiten-
landse tests besproken. Het hoofdstuk heeft een aantal wijzigingen ondergaan. De indeling van tests is
op enkele punten gemodificeerd. De passages over fysiologische methoden en over 'culture-free' tests
zijn geheel herschreven en aan de ontwikkelingen aangepast. Voorts is een verhandeling over Guilford's
Sl-model toegevoegd. In de paragraaf over het onderscheid naar antwodrdvormen wordt meer aan-
dacht geschonken aan 'open end' vs 'multiple choice' vragen en aan het gebruik van zekerheidsaandui-
dingen. Hoewel het hoofdstuk op zich een redelijk goed overzicht geeft van wat er op testgebied te
kóóp is, valt te betreuren dat er niet meer aan gewijzigd is, met name wat de gehanteerde indeling van
tests betreft. Ik kom hierop terug.

De beginselen van afname, scoring en interpretatie van tests vormen het onderwerp van het vierde
hoofdstuk. Er wordt onder meer ingegaan op zaken als weging en toevalskorrektie en er wordt een
nieuw opgezet overzicht gegeven van de belangrijkste soorten normschalen.

In het vijfde hoofdstuk komt het onderwerp 'betrouwbaarheid' aan de orde. Drenth serveert hier een
portie klassieke betrouwbaarheidstheorie met een vleugje generaliseerbaarheidstheorie. Zijn bespreking
is gebaseerd op een schema dat acht bronnen van testvariantie onderscheidt. Het betreft hier in feite
een modificatie van het bekende schema van Thomdike (dit onderscheidt 'algemene' vs 'specifieke' en
'blijvende' vs 'tijdelijke' variantie), waaraan de dichotomie 'persoonsgebonden' vs 'toevallige' variantie
is toegevoegd. Jammergenoeg maakt Drenth het de lezer niet duidelijk hoe de afzonderlijke vaiiantie-
componenten geschat kunnen worden. Bij de bespreking van de betrouwbaarheidscoëfficiënten komt
hij niet verder dan de parallel- en de hertestcoëfficiënt en de hiervan afgeleide varianten (waardoor hij
feitelijk weer op Thomdike's schema terugvalt). Het hoofdstuk is, in vergelijking met de vorige versie
van het boek, qua opzet vrij ingrijpend veranderd. De explicatie is duidelijk verbeterd; van de
belangrijkste formules wordt thans een afleiding gegeven. Er is een paragraaf toegevoegd over de relatie
betrouwbaarheid - prestatienivo. Ondanks het feit dat het hoofdstuk niet veel nieuws bevat, verschaft
het een bruikbare inleiding in de betrouwbaarheidstheorie, vooral doordat het goed van opbouw en
presentatie is.

In hoofdstuk zes behandelt Drenth het thema 'validiteit'. Hij gaat ervan uit dat er twee hoofdtypen
van validiteit te onderscheiden zijn, nl. prediktieve en begripsvaliditeit. Andere soorten validiteit die in
de literatuur genoemd worden tracht hij zoveel mogelijk tot één van deze beide hoofdvormen te
herleiden. Inhoudsvaliditeit wordt door hem evenwel als een soort betrouwbaarheid opgevat. Een
belangrijk deel van het hoofdstuk is gewijd aan de bepaling van prediktieve respektievelijk begripsvali-
diteit en aan de problemen die daarbij aan de orde komen. In de uiteenzetting over prediktieve
Validering wordt vrij uitvoerig ingegaan op het criterium begrip. Voorts komen onderwerpen als
'restriction of range' en 'moderator effekten' aan de orde. De verhandeling over begripsvaliditeit is
gebaseerd op een schets van het empirisch theorievormingsproces. Drenth onderscheidt 'betekenis
analyse' als een proces dat hypothesen beoogt te formuleren aangaande het door een test gemeten
begrip en 'begripsvalidering' als een proces van toetsing door middel van de bepaling van 'confirmeren-
de' en 'discriminerende' validiteiten. In dit verband wordt onder andere ingegaan op antwoordtenden-
ties en op de 'multitrait - multimethod' methode. Ook in dit hoofdstuk zijn enkele belangrijke
Verbeteringen aangebracht, vooral wat de explicatie betreft. Zo worden voorbeelden gegeven van
niet-lineake, heteroscedastische verbanden en wordt een toelichting gegeven op 'moderator-variabelen'
en het onderzoek hiervan. Voorts wordt de rol van faktoranalyse bij begripsvalidering verduidelijkt.

In het zevende hoofdstuk introduceert Drenth een aantal besliskundige begrippen en geeft hij in
begrijpelijke taal voorbeelden van de besliskundige benadering in testgebruik. Hij doet dit aan de hand
Van enkele eenvoudige beslissingsmodellen. In dit hoofdstuk zijn weinig veranderingen aangebracht. Er
zijn enkele schema's toegevoegd die helpen het exposé begrijpelijk te maken. Het sluitstuk wordt
gevormd door het achtste hoofdstuk, dat handelt over de ethiek van het testen. In dit hoofdstuk, dat
gebaseerd is op zijn oratie, geeft Drenth eerst een schets van de zogenaamde 'anti-testbeweging',
Waarna hij vervolgens verschillende typen van bezwaren tegen testgebruik bespreekt. De teneur daarbij
is dat ethische aspekten van het testen gepresenteerd worden als ethische aspekten van de psycholo-
gische beroepsuitoefening in het algemeen. Dat zich op dit terrein de afgelopen jaren nieuwe
ontwikkelingen hebben voorgedaan komt tot uitdrukking in een tweetal paragrafen, handelend over
levensbeschouwelijke en sociale bezwaren tegen testen, die aan het hoofdstuk zijn toegevoegd, alsook
in een uitbreiding van de paragraaf over de problematiek van discriminatie door middel van tests.

Wat mijn bezwaren tegen 'Inleiding in de testtheorie' betreft wil ik mij beperken tot enkele algemene
punten, die overigens ook op 'De psychologische test' van toepassmg zijn. Een eerste punt dat de
aandacht verdient is, dat het boek voor een deel handelt over tests die geen tests zijn. Ongeacht of men
nu Drenth's eigen definitie van 'test' hanteert of andere gangbare defmities, een feit blijft dat er een
aantal manieren van dataverzameling overblijven die misschien wel als 'methode', 'techniek' of
'instrument' kunnen gelden, maar niet het predikaat 'test' verdienen. Wanneer men niet de konsekwen-
tie trekt dat dergelijke manieren van doen niet in een boek over tests thuishoren - en dat doet Drenth
niet - zou men op zijn minst de status ervan duidelijk moeten maken. Het echter zonder meer
«opnemen van de Q-sort methode, biografische vragenlijsten, somato-fysiologische technieken en

sommige projectieve technieken e.d. in de indeling en de bespreking van tests, zoals gebeurt in
hoofdstuk 3, kan alleen maar verwarring scheppen.

Dit voert mij naai een tweede punt van kritiek, nl. aangaande de aard van de testindeling die Drenth
presenteert. Hoewel er aan deze in Nederland vrij bekend geworden indeling opnieuw gesleuteld is, is
het resultaat nog vene van bevredigend. Waar het om gaat is dat de mdeling gebaseerd is op een relatief
groot aantal ongelijksoortige kriteria die op inkonsekwente wijze worden gehanteerd. De indeling gaat
in eerste instantie uit van testgedrag (in wezen het onderscheid 'optimal' vs 'typical' performance) en
verloopt dan verder via onder andere het aantal scores dat de test oplevert, de algemeenheid of
specificiteit van het gemeten aspect, individuele vs collectieve afname, gerichtheid op kinderen dan wel
volwassenen, de gebruikte techniek of methode en de aard van de opgaven en dit alles op een zeer
wisselvallige manier. Ik wil niet betogen dat Drenth met zijn indeling niet vrijwel alle tests zou
bestrijken, doch de systematiek waarmee dit gebeurt laat beslist te wensen over. In dit verband valt te
betreuren dat in het boek niet - of nauwelijks - wordt ingegaan op de nieuwe Testdocumentatie van
het N.I.P. (1974) en de, althans op het eerste gezicht, systematischer testindeUng die daarin wordt
geboden.

Een derde punt van kritiek betreft het standpunt dat Drenth inneemt ten aanzien van criteria en
criterium-onderzoek. Hij onderscheidt vier soorten van criteria, nl. doel - conceptueel criterium -
criterummaat (/score) - criteriumgedrag (/prestaties). Het doel is datgene ten behoeve waarvan men
voorspelt, een niet-psychologische aangelegenheid gewoonlijk. Het conceptueel criterium kan men
opvatten als de psychologische pendant van het doel. Het draagt blijkens de gegeven voorbeelden
(sociale aangepastheid, kennis en vaardigheden, etc.) een begripsmatig karakter. Bij criteriummaat
wordt aan een operationalisering gedacht (schoolcijfers, bijvoorbeeld) en criteriumgedrag wordt
omschreven als gedrag dat met het oog op het conceptuele criterium relevant geacht wordt. Ten
aanzien van de formulering en het onderzoek van deze verschillende criteria huldigt Drenth merkwaar-
dige opvattingen. Met name schetst hij het opstellen van conceptuele criteria en het vinden van de
juiste operationele criteria als aktiviteiten die in hoofdzaak aan de schrijftafel van de psycholoog
zouden moeten plaatsvinden. Empirisch onderzoek van criteria beperkt zich in zijn zienswijze tot de
bepaling van de betrouwbaarheid van of correlaties tussen criteriummaten (vgl. pagina 255-6). Van
validiteitsonderzoek, bijvoorbeeld onderzoek van de relatie tussen criteriummaat en conceptueel
criterium kan zijns inziens geen sprake zijn. Het gaat hier om relevantie en deze wordt bepaald door
een rationeel oordeel, eerder dan door onderzoek.

Wat Drenth nalaat aan te geven, is waarom het inductief-deductieve kennisverwervingsproces dat
volgens hem opüeedt ten aanzien van begrippen die met 'tests' gemeten worden, niet van toepassing
zou zijn op begrippen die via 'criteriummaten' geoperationaliseerd worden. Dat criteria een uitzonde-
ringspositie zouden innemen wanneer het om empirisch gefundeerde theorievorming gaat, lijkt mij
onhoudbaar. Zo goed men uit korrelatief onderzoek van tests iets over achterliggende begrippen kan
leien, valt uit koiielatief ondeizoek van criteriummaten iets te leren over conceptuele criteria.
Betekenisanalyse en begripsvalidering zijn voor criteria minstens zo zinvol als zij voor tests zijn. Voor
een nadere toelichting van dit standpunt verwijs ik naar W. Ronan & E. Prien, Perspectives on the
measurement of human performance. New York: Appleton - Century - Crofts, 1971.

'Inleiding in de testtheorie' is, ondanks deze" punten van kritiek, een goede inleiding ovei tests. Het
boek stelt de belangrijkste ondeiweipen op oveizichtelijke, heldere en goed gedocumenteerde wijze
aan de orde. Het is dan ook een aanbevelenswaardig studieboek. Dit geldt ook - en dat moge hiei met
enige nadiuk vermeld woiden - voor hen die vanuit onderwijskundige invalshoek met tests, of met
soortgelijke instrumenten, te maken krijgen. Op tal van plaatsen in het boek komen nl. onderwerpen
aan de orde die voor testgebruik in de onderwijssituatie relevant zijn.

De passages over 'open end' vs 'multiple choice' vragen, toevalskorrektie, 'criterion-referenced
measurement', zekerheidsaanduidingen en de verwijzingen naar-schoolvorderingen tests en publikaties
over 'educational measurement' zijn hier duidelijk voorbeelden van.

Het voorgaande overzicht moge duidelijk hebben gemaakt dat de 'Inleiding in de testtheorie' niet
slechts, mooier en dikkei is dan 'De psychologische test', maar ook betei. Dooi de talloze grote en
kleine wijzigingen die Drenth erin verwerkt heeft, kan men stellen dat de 'Inleiding' zijn voorganger
niet slechts als studieboek, maai ook als naslagwerk obsoleet heeft gemaakt. ^ j^oe

In the Netherlands every year all the 18-year old boys are tested for national service. The
test-battery consists, among others, of a) Raven matrices, b) School achievement tests.
Ruiter (1965) used the data of the 1962 group to answer the question: given a certain score on
the Raven, what is the difference between High-Social Economic Status (SES) and Low-Social
Economic Status (SES) boys that participate in university preparing education? He found that
the group of participators could be doubled if the percentages of the other SES-groups could be
raised to the existing percentages of the highest SES-groups.

In our replication of the foregoing study we used the 1972-group. Our results were that -
compared with those of Ruiter - the reserves of talent were lowered from 104% to 64%. (In
the labour group the percentage of the reserves found was lowered from 371% to 165%).
We further investigated the influence of several factors on the estimated reserves:

- if estimated for a university education, the reserves of talent were larger than when
estimated for lower education.

- if a higher score on the Raven matrices was used, the estimated reserves of talent were
smaller.

- if estimated on the basis of a broader test battery (Raven & school achievement tests), the
reserves of talent were smaller.

I'"inally some suggestions are made for further research: using a broad test battery and varying
the number and kind of tests in order to be able to investigate the influence of these factors on
the reserves of talent.

Na de oorlog, in de 50'er jaren - toen de industrialisering van Nederland snel toenam,
kwam de vraag naar voren of ons land wel over voldoende bekwame en specifiek
geschoolde mensen beschikte. Ter beantwoording van deze vraag wees men op de zeer
verschillende vertegenwoordiging van de diverse sociale milieus aan b.v. de universiteiten
en men stelde dat in de lagere sociale milieus zich nog veel ongeschoold talent moest
bevinden. De vraag naar de grootte van de Intellectuele Reserve kwam in deze tijd vooral
Voort uit een behoefte van de samenleving aan een zo goed mogelijk geschoolde bevol-
king, dus uit een noodzaak van een zo efficiënt mogelijke benutting van het talent. Men
Zou dit het efficiëntie-principe kunnen noemen.

In het verlengde van het efficiëntieprincipe ligt het rechtvaardigheidsprincipe, n.1. dat het
één van de grondbeginselen van een democratische samenleving is dat elk individu zijn
capaciteiten zo volledig mogelijk dient te kunnen ontplooien. Het rechtvaardigheids-
Principe houdt in dat er geen belemmeringen zijn die maken dat iemand, hoewel hij de
Capaciteiten heeft voor het volgen van een bepaalde opleiding, deze opleiding niet kan

volgen.- De uit het rechtvaardigheidsprincipe voortkomende vraag of er 'gelijkheid van
kansen' bestaat, wordt hier opgevat als de vraag of er gelijke scholing is voor gelijkbegaaf-
den.

Eén van de problemen bij de beantwoording van deze vraag is welke opvatting men heeft
van het begrip 'begaafdheid'. Men kan zich beperken tot intellectuele begaafdheid in
engere zin (zie par. 2) of men kan het begrip 'begaafdheid' in bredere zin hanteren
(par. 3). In beide gevallen wordt een mogelijk antwoord op de vraag 'bestaan er gelijke
scholingskansen voor gelijk begaafden?' gegeven door een schatting van de grootte van de
intellectuele reserve.

Bij intellectuele reserve gaat het om de vraag of er veel personen zijn die ondergeschoold
blijven. Zulke ondergeschoolden behoeven niet noodzakelijkerwijs ook personen te zijn
met een onder-ontwikkelde inteUigentie. Integendeel, bij het probleem van de intellec-
tuele reserve is de belangrijkste vraag naar diegenen die wèl de intelligentie en andere
kwaliteiten voor bepaalde middelbare en hogere opleidingen bezitten, maar niettemin niet
naar deze opleidingen toegaan (niet 'door-leren').

Als indicatie voor wie in staat is om een bepaalde schoolopleiding te volgen, wordt een
test gebruikt of een serie tests. Deze (enkelvoudige of samengestelde) predictor bestaat
meestal uit een intelligentietest, al dan niet gecombineerd met andere (schoolseries -
voorspellende) tests en/of vragenlijsten. Wanneer men de reserve schat met een enkelvou-
dige predictor (dus b.v. alleen m.b.v. de matrixtest van Raven) dan spreken wij van reserve
op smalle basis (de Groot en van Peet 1974). Reserveschattingen op smalle basis zijn in
Nederland uitgevoerd door Thoenes (1957), Spitz (1959), De Wolff (1963) en door
Ruiter (1965). Deze onderzoekingen zijn gedaan m.b.v. de legerkeuringsgegevens. Op de
keuring worden o.a. de volgende gegegevens verzameld:

b. scores op een rekentest, taaltest, administratieve opdrachtentest en een technische
• inzichttest

Van de in a en b genoemde tests worden op de keuring behalve de ruwe scores ook zgn.
klassescores bepaald. De ruwe scores worden over 6 klassen verdeeld, waarbij de 10%
hoogst scorenden in klasse I geplaatst worden, de 10% laagst scorenden in klasse VI en de
scores van de overige 80% in 4 tussenÜggende klassen van elk 20%. De onder c genoemde
totaalscore is dan de som van de klassescores. Deze som van de klassescores wordt ook
weer verdeeld in 6 klassen met dezelfde verdeling als hierboven genoemd, waardoor een
totaalklassescore ontstaat.

De schatting van de intellectuele reserve door Ruiter' in 1965 verliep als volgt':

' Ruiter baseerde zijn schatting op de gegevens van de lichting 1962.
' De methoden van Spitz en de Wolff verlopen globaal op dezelfde wijze.

Ruiter nam de matrix-klassescore als predictor en hij stelde dat - wilde men in staat
geacht worden het V.H.M.0. met succes te voltooien, men een klassescore I of II op de
matrixtest moest hebben.

Tabel 1 geeft de door Ruiter gevonden verdeling over de intelligentieklassen I en II per
beroepsgroep (Ruiter gebruikte geen steekproef maar één volledige lichting van ± 80.000
keurlingen.)

Tabel 1 Keurlingen naar intelligentie en beroepsgroep in percentages van het totaal.

Vervolgens geeft Ruiter per beroepsgroep en per intelligentieklasse 1 en II de deelname-
Percentages van het V.H.M.0. (tabel 2).

Aangenomen wordt nu dat het mogelijk is om via stimulerende maatregelen het deelname-
Percentage van de lagere milieus op te trekken tot dat van de hogere milieus (= hogere
employés).

Het verschil tussen het deelnamepercentage van de hogere employés en dat van de overige
beroepsgroepen vormt de reserve. De reserve rekent Ruiter om tot percentages van de
totale V.H.M.O.-deelname per beroepsgroep. Het dan resulterende percentage geeft aan

met welk percentage van de V.H.M.O.-deelname in elk van de beroepsgroepen kan
toenemen.

Wanneer de deelnamepercentages van de andere beroepsgroepen opgetrokken zouden
worden tot het percentage van de hogere employés dan zou de V.H.M.O.-deelname in
inteUigentieklasse 1 stijgen van 35 tot 65% (= toename van 30%) en in intelligentieklasse 11
zou het percentage stijgen van 18% tot 49% (= toename van 31%). De toename was dus
30% van intelligentieklasse I. In deze inteUigentieklasse zit 15% van het aantal gekeurden
(zie tabel 1), dus de toename in intelligentieklasse 1 is 30% van 15% = 4,5% van het toaal
aantal gekeurden. In werkelijkheid gaat er 13% van het totaal aantal keurlingen naar het
V.H.M.0. (zie tabel 2). De toename van 4,5% is dan 36% (100x4,5/13) van het feitelijke
aantal V.H.M.O'-leerlingen.

Deze 36% staat vermeld onder intelligentieklasse 1 in de rij totaal van tabel 3. De andere
percentages zijn op overeenkomstige wijze als hierboven beschreven tot stand gekomen.

Tabel 3 Reserve voor het V.H.M.0. in percentages van de totale deelname V.H.M.0. per
beroepsgroep.

We zien in tabel 3 dat de geschatte reserves in de beroepsgroepen van de agrarische en
niet-agrarische arbeiders zéér groot waren in 1962 (resp. 589% en 371%). Ruiter kwam
tt)t een totaalreserve van 104%, m.a.w. het aantal V.H.M.0. leerhngen zou kunnen
worden verdubbeld.

De keuze van een minimumscore op de matrix-test is een arbitraire keuze. De ondergrens
van intelligentieklasse II scheidt een groep af ter grootte van 45% van de gehele steekproef
(zie tabel 1). Was alleen intelligentieklassé I als criterium genomen dan was de reserve 36%
geweest.

Aan de methode van het schatten van intellectuele reserve zoals hiervoor beschreven
kleven een aantal bezwaren. Deze bezwaren zullen in de volgende paragrafen ter sprake
komen.

Een eerste bezwaar van de in par. 2 beschreven methode van het schatten van intellectuele
reserve is de gebruikte predictor: de matrixtest van Raven. Deze test heeft het voordeel
van relatief onafhankelijk te zijn van milieufactoren (zie in dit verband de Samenvatting

en Discussie), maar lieeft het nadeel slechts één aspect van het intellectueel functioneren
te meten. Bij het behalen van het V.H.M.O.-diploma spelen ook andere intellectuele
factoren een rol die niet door de matrixtest van Raven worden gemeten. Behalve die
andere intellectuele factoren spelen ook persoonlijkheids- en sociale factoren een rol (b.v.
motivatie, interesse, milieufactoren enz). Wanneer men rekening houdt met die andere
intellectuele factoren en met persoonlijkheids- en sociale factoren, kan men spreken van
het schatten van intellectuele reserve op brede basis.

Een voorbeeld van het schatten van intellectuele reserve op brede basis is het onderzoek
van van Weeren in het kader van het Talentenproject van Van Heek (Van Heek c.s.
1968). De geschiktheid voor het V.H.M.0. werd geschat m.b.v. de N.D.T. (nederiandse
onderwijs differentiatie testserie). De N.D.T. scores werden omgewerkt tot een voor-
^Pellingsscore voor het V.H.M.O., waarin behalve testgegevens ook b.v. het oordeel van de
onderwijzer over de capaciteiten van de leerling verwerkt zijn. Uit de voorspellingsscores
berden 4 kansgroepen afgeleid die de kans op het behalen van het einddiploma V.H.M.0.
aangeven:

A. leerlingen met 75% of meer kans om het einddiploma V.H.M.0. te behalen.
B- idem met 45-75% kans

Bekijkt men de percentages doorstromers naar het V.H.M.0. dan zien wij dat bij van
beeren de doorstromingspercentages voor de kansgroepen A en B nauwelijks verschillen
per beroepsgroep: het percentage is 83% voor de hogere milieus en 78% voor de lagere
milieus. De conclusie van van Weeren is dan ook dat '(•••) van een reserve aan begaafde,
goed voor het V.H.M.0. geschikte leerlingen niet kan worden gesproken. Dit geldt voor
alle beroepsgroepen.' (Van Weeren en Van Heek, 1968, blz. 150). Wèl een duidelijk
Verschil in doorstroming wordt gesignaleerd in de kansgroepen C en D.

Een tweede schatting van intellectuele reserves op brede basis is die van van Kemenade en
Kropman (1972). Zij baseerden hun gegevens op dezelfde populatie als Van Weeren, n.1.
generatie 65'. Zij zijn van mening dat in de voorspellingsscores van Van Weeren gegevens
zijn verwerkt die te zeer milieugebonden zijn en daarom de voorspellingsscores ongeschikt
maken als instrument voor het toetsen van milieuinvloed op de doorstroming naar
V.H.M.0. van Kemenade en Kropman maken daarom bezwaar tegen de opname in de
Voorspellingsscores van de interessescores, leeftijd 6e klas, oordeel en advies van de
Onderwijzer en het beroepsniveau van de vader. Deze variabelen vervangen van Kemenade
en Kropman door de som van de rapportcijfers. Zo vervangen zij van Weeren's voor-
spellingsscores door prestatiescores en zij geven de verdeling van deze scores zowel in
kwartielen als in stanines.

Bekijken wij nu het aantal doorstromers per 'beroepsgroep' dan zien we dat bij van
Kemenade en Kropman dat in de hogere beroepen uit het hoogste kwartiel 73% jongens
78% meisjes doorstromen naar het V.H.M.0. Bij de geschoolde arbeiders zijn deze
percentages resp. 43% en 23%. Kijken we vervolgens bij de hoogste stanines (8+9) dan
zien we dat uit de beroepsgroep der middelbare employés en hogere beroepen van de
jongens 87% en van de meisjes 83% doorstroomt. Bij de handarbeiders zijn de overeen-
komstige percentages resp. 52,4% en 30,2%.

Qp de resultaten van Van Heek en van Van Kemenade en Kropman komen wij in de
Volgende paragrafen nog terug.

Kenmerk van een reserveschatting op smalle basis zoals die van Ruiter is dat slechts één
test gebruikt wordt. De matrixtest is relatief onafhankelijk van het milieu, maar heeft het
nadeel van een geringe predictieve validiteit t.o.v. schoolsucces. Ruiter vond een grote
reserve, n.1. 104% voor het totaal en voor de beroepsgroepen van de agrarische en niet
agrarische arbeiders vond hij een reserve van resp. 589% en 371%. Echter een (groot?)
deel van de reserve wordt veroorzaakt door de geringe validiteit van de matrixtest t.a.v.
schoolsucces. Dit houdt in dat een deel van de reserve van Ruiter niet aanhoorbaar is.
Verhoogt men de predictieve validiteit, door meer variabelen in de predictor op te nemen,
dan wordt de geschatte reserve kleiner. Bij van Weeren is er zelfs vrijwel geen reserve meer
aanwezig. Echter, wij nemen aan dat de variabelen die van Weeren in zijn voorspel-
lingsscores opneemt (bv. oordeel van de onderwijzer en beroepsniveau van de vader)
sterker milieugebonden zijn dan de resultaten op de matrixtest. De validiteitswinst gaat
samen met een grote milieugebondenheid van de predictor.

Van Kemenade en Kropman, die bezwaar maken tegen de milieugebondenheid van
sommige variabelen bij van Weeren, vervangen deze variabelen door minder miheu-
gebonden variabelen. Echter met als gevolg dat de predictieve vahditeit t.o.v. schoolsucces
minder wordt. Anders gezegd: zij versmallen de basis vergeleken met die bij van Weeren.
Alzo komen wij tot het volgende dilemma:
reserveschattingen op...

nadeel - slechts één (intellectueel) aspect wordt gemeten,
dus een lage predictieve vahditeit.
brede basis: voordeel — meerdere aspecten worden gemeten,

dus hogere predictieve validheit.
nadeel - grotere afhankelijkheid van de resultaten van
milieufactoren.

Reserveschattingen op smalle basis geven een overschatting van de aanwezige reserve,
maar reserveschattingen op een brede basis geven een onderschatting van de aanwezige
reserve^. In de samenvatting en discussie komen wij hier nog op terug.

Ondanks de bezwaren, die aan een methode als die van Ruiter kleven, meenden wij dat
een replicatie toch zinvol zou zijn. De tests op de legerkeuring zijn niet veranderd, zodat
de resultaten van een nieuwe schatting met die van Ruiter vergeleken kunnen worden.
Ruiter gebruikte de gegevens van de lichting 1962. Ons materiaal bestond uit een
steekproef van 10.000 keurhngen van de hchting 1972.

Voor het meten van schoolopleidingsniveau is gebruik gemaakt van een door van Weeren
ontwikkelde schoolniveauschaal.

Deze (door ons uitgebreide) schaal, loopt van 11 (BLO) tot en met 91 (Universiteit). Op
deze schaal werd een minimumscore gekozen, die zoveel mogelijk overeen kwam met het

In voorbereiding is een publicatie waarin wij een en ander hopen te kunnen kwantificeren.

Tabel 4 Percentages en verschilpercentages keurlingen per beroepsgroep die een oplei-
dingsniveau > 44 hebben van de groep, die > 25 op de matrixtest scoort.

criterium VHMO van Ruiter: 'VHMO + universiteit: ULVO na VHMO (al of niet
Voltooid), universiteit of hogeschool, middelbaar technisch onderwijs na VHMO, middel-
baar vakonderwijs na VHMO.'

Aangezien er geen enkelvoudige grensscore op de schoolopleidingsschaal aan te wijzen is
die exact overeen komt met het criterium VHMO van Ruiter, hebben wij twee codes als
minimumscore genomen nl. code 44: hbs kl. 4A'', diploma ivo-b; ulo/-mavo, deze code
lijkt aan de lage kant, en de code 56: hbs kl.5a/havo kl.5, deze laatste code lijkt iets aan
de hoge kant om het criterium VHMO van Ruiter te 'dekken'.

De gebruikte beroepenindeling was vrijwel dezelfde als die van Ruiter. Alleen de categorie
middelbare en lagere employés hebben wij gesplitst in middelbare employés en lagere
employés (waaronder winkelbedienden enz.) Zoals vermeld in par. 2 schatte Ruiter de
intellectuele reserve voor het VHMO met behulp van de Matrixscore als predictor. De
scoringsklassen I en II beschouwde Ruiter als potentieel capabel voor het voltooien van
een VHMO-opleiding.

De ondergrens van klasse II lag in 1962 op de ruwe matrixscore van 25. Aangezien de
matrixtest sindsdien niet gewijzigd is, hebben wij als ondergrens van onze reserve-
schatting eveneens de ruwe matrixscore van 25 aangehouden.
De vraagstelling is nu als volgt:

Gegeven de groep keurlingen die > 25 scoort op de matrixtest, hoe groot is per beroeps-
groep het percentage dat een schoolopleiding > 44 volgt (of gevolgd heeft).
Het verschil tussen de beroepsgroep der hogere employés en de andere beroepsgroepen
Vormt, per beroepsgroep, de reserve aan intellect. Door dit verschilpercentage uit te

drukken in het percentage van het totaal aantal keurlingen dat > 44 op de schoolniveau-
lijst scoort, kan men de reserve vergelijken met de uitkomsten van Ruiter (zie par. 1).
In tabel 4 worden de percentages per beroepscategorie aangegeven die voldoen aan het
criterium code 44 of hoger als schoolcode van de groep die een score op de inteUigentie-
test heeft die hoger of gelijk is aan 25.

Van de hogere employés gaat 63,9% naar een schoolopleiding hoger of geUjk aan de
code 44.

Van de agrarische bedrijfshoofden gaat 28,8% naar het VHMO. Het verschilpercentage is
dus 63,9 - 28,8 = 35,1 (kolom 3).

Met andere woorden: als het percentage VHMO-gangers van de zoons van agrarische
bedrijfshoofden opgetrokken zou worden tot dat van de hogere employés, kan er 35,1%
van de 'boerenzoons', die > 25 scoren op de matrixtest, meer naar het VHMO.
De reserve bij de 'boerenzoons', die > 25 scoren op de matrixtest is 35,1%. Als men dit
aantal uit wil drukken in een percentage van het werkelijke aantal VHMO-gangers
(ongeacht matrixscore) dan is dat percentage bij de 'boerenzoons' 103 (kolom 4). Kolom
4 kan men dus vergelijken met de reservepercentages, die Ruiter vond in 1965. Deze
percentages staan in kolom 5.

De totale reserve is aanzienlijk teruggelopen, van 104% naar 61%, maar vooral de reserves
bij de agrarische en niet-agrarische arbeiders is, hoewel nog steeds groot, sterk teruggelo-
pen: bij de agrarische arbeiders van 589% naar 153% en bij de niet-agrarische arbeiders
van 371% naar 165%.

Bij het bovenstaande is de aanname gemaakt dat het criterium VHMO van Ruiter
overeenkwam met de code 44 op de hier gebruikte schoolniveauindeling. Neemt men nu
een scherper criterium VHMO nl. de code 56 en hoger, d.w.z. hbs klas 5 A of hoger, dan
ziet de vergelijking met Ruiter er uit als in tabel 5.

Tabel 5 Percentages en verschilpercentages keurUngen per beroepsgroep die een oplei-
dingsniveau > 56 hebben van de groep, die > 25 op de matrixtest scoort.

Hoewel het criterium VHMO veel scherper gesteld is (minimaal HBS klas 5A) toch een
afname van de reserve. Ook hier manifesteert zich de afname van de reserve vooral bij de
beide arbeidersklassen, hoewel bij die arbeidersklassen nog steeds de grootste reserve
gevonden wordt.

De reserve aan intellect berekend volgens de methode Ruiter is dus van 104% gezakt naar
een percentage ergens tussen 61% en 82%. In de volgende paragraaf gaan wij verder in op
de methodische aspecten van reserveschattingen.

Bij het onderzoek van Van Weeren zagen wij, dat er bij de kansgroepen A en B nauwelijks
verschillen in doorstromingspercentages waren. Zou men echter de kansgroepen C en D
toevoegen, dan worden die verschillen groter, (zei par. 3). Bij Ruiter zagen we, dat de
reserve geschat op basis van scoringsklassen I en II een reserve opleverde van 104%, terwijl
de reserve geschat op basis van alleen klasse I 36% zou bedragen. Dit deed ons vermoeden,
dat de grens die men bepaalt op de predictor voor het voorspellen van bv. VHMO succes
van invloed is op de gevonden reserve (of de gevonden verschillen in doorstromingspercen-
tages). Men zou op grond hiervan de volgende verwachting kunnen opstellen:

a. Naarmate men de grens op de predictor, op basis waarvan men de reserve schat,
scherper stelt, wordt de gevonden reserve kleiner.

Wij hebben deze 'hypothese' voorlopig getoetst met behulp van het materiaal van de
legerkeuring.

De hier besproken onderzoekingen schatten de reserve voor het VHMO. Men kan zich
voorstellen, dat er reserve ontstaat bij de overgang van de basisschool naar het voortgezet
onderwijs, maar er zal ook weer reserve ontstaan bij de overgang naar hoger voortgezet
onderwijs, bovendien zal er weer een groep 'uit de boot vallen' (= reserve) bij een
overgang van hoger voortgezet onderwijs naar universiteit en hogeschool. Dit cumulatieve
effect zal van invloed zijn op de gevonden reserve, immers naarmate men de reserve schat
voor een hoger opleidingsniveau zal de reserve (door voornoemd cumulatief effect) groter
Worden. De replicatie van Ruiter in de vorige paragraaf liet reeds dit effect zien, toen wij
twee schoolniveaus gebmikten om het criterium VHMO van Ruiter te concretiseren,
code 44 aan de lage kant, code 56 aan de hoge kant. Onze tweede verwachting luidt dan
ook:

b. Naarmate men de reserve schat voor een hogere schoolopleiding, wordt de gevonden
reserve groter.

Ook deze 'hypothese' hebben wij voorlopig getoetst aan de hand van het legerkeurings-
materiaal.

In par. 3 zagen wij, dat als van Kemenade en Kropman de basis versmallen, waarmee van
Weeren zijn 'reserve' bepaalde, de gevonden reserve groter werd. In par. 4 gingen wij nader
in op dit dilemma van de smalle en brede basis. De replicatie van Ruiter was een
reserveschattig op basis van de Matrixscore, dus smalle basis. Het legerkeuringsmateriaal
bevatte echter behalve deze matrixscore, de scores op een viertal tests, te weten een
rekentest, taaltest, administratieve opdrachtentest en een technisch inzicht test. De vijf
tests tezamen zijn opgenomen in de zgn. Somklassescore (SK score) (zie blz. 243). Men

kan deze SK score als predictor beschouwen, op grond waarvan men een reserve schat met
een bredere basis dan wanneer men deze reserve zou schatten op basis van de matrixscore
alleen, (hoewel wij hier nog niet willen spreken van een echt brede basis) en men kan,
naar analogie van van Weeren en van Kemenade en Kropman de volgende verwachting
opstellen:

c. Naarmate men de testbatterij, op grond waarvan men de reserve schat, breder maakt
(bredere basis) wordt de gevonden reserve kleiner. Ook deze 'hypothese' hebben wij
voorlopig getoetst met behulp van het legerkeuringsmateriaal.

Onze eerste 'hypothese' luidde: Naarmate men de grens op de predictor, op basis waarvan
men de reserve schat, scherper stelt, wordt de gevonden reserve kleiner.
Bij de replicatie van Ruiter hadden wij die grens gelegd bij de ruwe matrixscore van 25.
Wij zullen de reserve berekenen met als grens op de predictorvariabele achtereenvolgens:
>20, >25, >30 en >35.

Onze tweede 'hypothese' was: Naarmate men de reserve schat voor een hogere school-
opleiding, wordt de gevonden reserve groter.

Wij zullen de reserve schatten voor 25 schoolniveaus oplopend van — diploma LTS en
hoger -, via bijv. - ULO diploma en hoger - en - HBS-A diploma en hoger - tot -
Universiteit Ie jaar en hoger -. De wijze van reserve berekenen verloopt in grote lijnen op
dezelfde wijze als die van Ruiter en die van onze replicatie van Ruiter. Het afwijkende is,
dat wij niet zoals Ruiter het verschilpercentage (tussen percentage schoolniveau-x gangers
uit hoogste milieu en percentage schoolniveau-x gangers uit andere milieus) uitdrukken in
een percentage van het totale aantal schoolniveau-x gangers (ongeacht matrixscore).
Deze omrekening was het gevolg van een duidelijke nadruk op het planningsaspect nl.,
met hoeveel procent kan het huidige VHMO bestand stijgen als de geschatte reserve
aangeboord zou worden (het onderzoek van Ruiter was van het C.P.B.). Deze laatste
omrekening heeft als storende consequentie dat men telkens een verschilpercentage,
berekend binnen een groep die potentieel capabel geacht wordt schoolopleiding x te
volgen, gaat uitdmkken als percentage van een groep die daadwerkelijk schoolopleiding x
volgt, maar waarin ook opgenomen zijn: de keurlingen, die lager dan de grensscore op de
predictor gescoord hebben en dus op grond van de aannamen van de predictor niet
capabel zijn schoolopleiding x te volgen. (De oorzaak hiervan is tweeledig, nl. enerzijds is
de predictor — uiteraard — niet 100% valide, anderzijds zijn er door milieufactoren
keurlingen die in werkelijkheid niet capabel zijn voor schoolopleiding x maar die oplei-
ding desondanks toch volgen.)

Om deze problemen te omzeilen berekenen wij het verschilpercentage (zie bijv. kolom 3
uit tabellen 4 en 5) en drukken dat uit in een percentage van het door de predictor
geschatte potentieel aan schoolniveau-x gangers.

Voorbeeld: het percentage keurhngen uit beroepsgroep 3 (hogere employés) met een s.o. =
code >42 (ULO-A diploma of hoger) is 89,1% van het aantd keurhngen uit
beroepsgroep 3 met een matrixscore >35. Het percentage uit de overige beroepsgroepen
tezamen met een s.o. code > 42 is 76,8% van het aantal keurlingen uit de overige
beroepsgroepen met een matrixscore >35. Wanneer men via bepaalde maatregelen het

percentage van de overige beroepsgroepen tezamen optrekt tot dat van de hogere
employés dan stijgt het percentage van 76,8% tot 89,1%, een stijging dus van 12,3%.
Wanneer deze stijging gerealiseerd is, dan kan men stellen dat de reserve in de overige
beroepsgroepen is aangeboord.' Men kan 89,1% zien als het maximum haalbare percen-
tage van de groep keurlingen met een matrixscore >35.

Wanneer 89,1% het maximum haalbare is en de hiervoor nodige stijging is 12,3% dan is de
reserve in de groep keuriingen met een matrixscore > 35 uit de overige beroepen voor het
schoolopleidingsniveau ULO-A diploma of hoger (s.o. code > 42) gelijk aan 13,8% (100 X
12,3/89,1). Anders gezegd: van het aantal keuriingen met een matrixscore >35 dat, op
grond van de veronderstellingen, die aan deze berekeningswijze ten grondslag liggen, een
schoolopleidingsniveau ULO-A diploma of hoger zou kunnen behalen, heeft 86,2% dat
niveau bereikt en 13,8% niet. Deze 13,8% is de reserve.

In figuur 1 zijn 4 grafieken getekend: één voor elke gehanteerde grensscore op de
matrixtest, nl.: >20; >25; >30; >35. Zo kan men uit de grafiek aflezen dat de
geschatte reserve voor ULO-A diploma of hoger - maar nu met grensscore op de
matrixtest > 30 - gelijk is aan 27%; indien met grensscore > 25 is de geschatte reserve
34% en indien met grensscore > 20 is de geschatte reserve 41%.

In figuur 1 zijn alleen de resultaten weergegeven voor de overige beroepsgroepen tezamen.
Uit de grafieken kunnen we aflezen dat de geschatte reserves kleiner worden wanneer men
de grensscore op de matrixtest scherper stelt. Voor het schoolopleidingsniveau HBS-A
diploma en hoger (s.o. code >71) is de reserve gelijk aan 63% wanneer men op de
matrixtest grensscore > 20 hanteert; dit percentage wordt 56%; 49% en 32% wanneer
men als grensscore op de matrixtest resp. > 25; > 30 en > 35 hanteert. Uit bovenstaande
grafiek kunnen we concluderen dat naarmate men de grens op de predictor, op basis
Waarvan men de reserve schat, scherper stelt, de dan gevonden reserve kleiner wordt (onze
eerste hypothese). Een tweede tendens die uit de grafiek is af te lezen, is dat de geschatte
reserves groter worden naarmate men de reserve berekent voor een hoger schooloplei-
dingsniveau. Zo is bijvoorbeeld de reserve voor het opleidingsniveau ULO-A diploma en
hoger gelijk aan 14% (grensscore > 35) is 32%; de reserve voor HBS-A diploma en hoger
(s.o. code >71) is 32%; de reserve voor Gymn.-B diploma en hoger is 43%. Ook nu
mogen we concluderen dat onze tweede 'hypothese': naarmate men de reserve schat voor
een hogere schoolopleiding wordt de gevonden reserve groter, door onze gegevens onder-
steund wordt.

De reserveberekeningen op grond van de Somklassescores veriopen op dezelfde wijze als
de reserveschattingen op grond van de Matrixscore zoals die in figuur 1 zijn weergegeven.
Wij hebben hier niet de reserves berekend voor alle 25 schoolopleidingsniveaus, maar
slechts voor de vier in figuur 2 aangegeven opleidingsniveau's. Wij hebben de reserve
berekeningen wederom uitgevoerd op grond van vier grensscores ditmaal op de SK
predictor.

' Dit onder de aanname dat milieu van de beroepsgroep met het hoogste deelnemerspercentage -
beroepsgroep 3 - ook het meest optimale milieu is.

Figuur 1: Reserves per matrixscore > 20, > 25, > 30, > 35
Voor schoolopleidingsniveau's > xj (i = 26,..., 91)

Figuur 2: Reserves per som der klassescores < 9; < 11; < 13; < 15.
voor schoolopleidingsniveau's > 27; > 42; > 44; > 56.

I^e SK score loopt van 30 (= laag) tot 6 (= hoog). De vier groepen op basis waarvan wij de
Sk reserve berekend hebben zijn:

SK score < 9—12,7% van de keurlingen SK score <13 — 33,4% van de keurlingen
SK score <11— 22,9% van de keurlingen SK score <15 — 44,8% van de keurlingen.

I^e berekening van de SK reserves is op dezelfde wijze verlopen als bij de matrixscores (zie
toelichting figuur 1).

Uit figuur 2 kan men aflezen dat de SK reserves voor het opleidingsniveau HBS kl. 4A en
hoger (s.o. > 44) gelijk is aan 17% wanneer men als grensscore de SK-score < 9 hanteert.
Neemt men als grensscore de SK-score <13 dan is de SK reserve voor HBS-kl. 4A en
hoger (s.o. > 44) gelijk aan 24%. De SK-score < 13 bevat de 33% hoogst scorenden van de
keurlingen.

Vergelijkt men deze SK-reserves van 24% voor HBS kl. 4A en hoger met de reserve voor
Hbs kl. 4A en hoger, berekend op grond van de matrixtest (M-reserve) dan zien wij
Wanneer wij op de matrixtest de grensscore > 30 nemen, dat de M-reserve voor HBS kl.
4A en hoger gelijk is aan 35%. De matrixscore > 30 bevat de 30% hoogst scorenden van
de keurlingen.

Zo kan men ook uit de figuren 1 en 2 aflezen dat de SK-reserve voor HBS kl. 5A en hoger
(s.o. > 56) gelijk is aan 31% wanneer men als grensscore < 13 neemt en de M reserve
gelijk is aan 40% wanneer men als grensscore de matrixscore > 30 neemt, (beide groepen
bevatten ± 30% hoogstscorenden van de keurlingen).

I^e conclusie is, dat de gevonden SK-reserves kleiner zijn dan de gevonden M-reserves,
berekend op basis van een even grote groep van + 30% hoogstscorenden. Onze derde
hypothese wordt hiermee bevestigd, terwijl in figuur 2 eveneens de eerste twee hypothe-
sen nogmaals bevestigd worden. In de volgende paragraaf zullen wij deze resultaten nader
hespreken.

fluiter (1965) vond een totaalreserve van 104% in de scoringsklassen 1 en II van de
matrixtest (= 45% van de gekeurden).

"e totaalreserve was 36% in de scoringsklasse I (= 15% van de gekeurden) zie par. 2.
Van Weeren (1968) vond géén reserve: van de kansgroep A + B stroomde uit de hogere
milieus 83% door naar het VHMO en in de lagere miheus was het percentage 78%. Een
groter verschil werd in de kansgroepen C + D gevonden (par. 3).

^an Kemenade en Kropman vonden in 1972 dat in het hoogste kwartiel 73% jongens en
'8% meisjes uit de hogere miheus naar het VHMO doorstroomde; bij de geschoolde
arbeiders waren deze percentages resp. 43% en 23%. In de staninescores 8 -H 9 stroomde
jongens en 83% meisjes uit de hogere milieus door naar het VHMO; bij de
handarbeiders waren deze percentages resp. 52% en 34% (par. 3).

In onze replicatie van Ruiter vonden wij een totaalreserve van 61% geschat voor de
schoolopleidingscode >44 (HBS kl.4A) en gebaseerd op een grensscore van 25 op de
matrixtest (overeenkomend met de grensscore van Ruiter, op grond waarvan hij zijn
geschatte reserve van 104% vond). De geschatte reserve was 81%, wanneer de totaalreserve
werd berekend voor de s.o. code > 56 (HBS kl. 5A) (zie par. 5).
Een uitbreiding c.q. verfijning van Ruiter was dat wij de reserves geschat hebben:

a) voor verschillende grensscores op de matrixtest: hoe scherper de score hoe kleiner de
reserve (zie fig. 1). Echter ook bij de hoogste door ons gebmikte grensscore (= score
> 35 die 6% van de gekeurden omvat) vonden wij bv. voor s.o. code > 56 (= HBS
kl.5 A en hoger) nog altijd een geschatte reserve van 23% (van het aantal dat zou
kunnen gaan).

b) voor verschillende schoolopleidingen: hoe hoger de schoolopleiding, hoe groter de
geschatte reserve. Dit is een vanzelfsprekend resultaat omdat wij de reserve berekend
hebben voor een bepaald schoolopleidingsniveau èn hoger.

c) ook op grond van de SK-score. De SK-score als predictor is een bredere basis dan alleen
de matrixscore. De reserves geschat op grond van de SK-score zijn kleiner dan op grond
van de matrixscores.

Op grond van het voorgaande concluderen wij dat vergeleken met Ruiter de reserves zijn
afgenomen. Of de door ons geschatte reserves 'aanhoorbaar' zijn, blijft een moeilijk te
beantwoorden vraag.

Een deel van de geschatte reserves wordt veroorzaakt door imperfecte predictieve validi-
teit van de predictor t.o.v. het criterium: de correlatie tussen schoolopleiding en matrix-
score is 0,49, terwijl de correlatie tussen schoolopleiding en SK-score 0,66 is.
De hogere validiteit gaat gepaard met een kleinere reserve, maar gaat ook gepaard met een
grotere milieugebondenheid van de predictor. De SK-scores zijn - gezien de samenstelling
van de test — sterker van milieufactoren afhankelijk dan de matrixscore. Waarmee wij
bepaald niet stellen dat de matrixscore dus een milieuvrije test zou zijn.

Van de lichting 1962 behaalde 45% een ruwe matrixscore > 25, terwijl van de lichting
1972 dit percentage 68% was. Een deel van deze stijging moet naar onze mening worden
toegeschreven aan het verbeterde opleidingsniveau van de gekeurden. De miUeugebonden-
heid van de predictor betekent dat er een (groot?) aantal gekeurden zijn met een
onderontwikkelde intelligentie.

Reserveschattingen zoals door ons uitgevoerd, hebben geen betrekking op voomoemde
groep.

Een deel van de door ons geschatte reserve wordt dus veroorzaakt door imperfecte
predictieve validiteit. Dit deel van de geschatte reserve is niet aanhoorbaar. Voorts is er
ook een verband tussen de grootte van de geschatte reserve en de hoogte van de
grensscore op de predictor. Dit houdt in dat het deel van de reserve dat door imperfecte
predictieve validiteit veroorzaakt wordt, varieert met de hoogte van de grensscore. Wij
hopen in een volgende publicatie een en ander te kunnen kwantificeren.

We hebben gezien dat wanneer de basis versmald wordt, de reserve groter wordt. Dat deel
van de reserve dat erbij komt door versmalling van de basis, kan echter alleen aangeboord
worden wanneer men via maatregelen erin slaagt om de invloed van weggelaten variabelen
op te heffen.

Anders gezegd, als een bepaalde factor uit de testbatterij wordt weggelaten, vanwege een
te grote milieu-afhankelijkheid, dan kan men de daardoor 'ontstane reserve' alleen dèn
aanboren, wanneer men erin slaagt om door maatregelen het effect van de weggelaten
factor op bv. doorstromingspercentages of op schoolvorderingen op te heffen.
Stel dat men de beschikking zou hebben over de ideale predictor. Deze ziet er dan als
volgt uit:

Een volstekt betrouwbare en valide predictor x voor het leervermogen y (dus rxy = 1):
een x die dan uitsluitend aanleg factoren meet. Een dergelijke testbatterij is in werkelijk-
heid niet te realiseren. Zoals wij in par. 4 betoogd hebben, wordt een predictor naarmate
hij beter voorspelt meer van miheufactoren afhankelijk.

Toch lijkt ons dat gestreefd moet worden naar een dergelijk samengestelde predictor.
Wanneer men zo'n testbatterij zou afnemen aan een grote steekproef jongens en meisjes
(de leger keuringsgegevens hebben als nadeel dat ze alleen betrekking hebben op jongens),
kan men door de breedte van de predictor te laten variëren, de invloed schatten van een
onderdeel uit een testbatterij op de grootte van de reserves.

Zo zou het aanbeveling verdienen om de gegevens van de 'generatie 65' opnieuw te
bewerken door de breedte van de testbatterij (de gebruikte subtests) systematisch te laten
variëren. Nog meer aanbeveling verdient het om een dergelijk onderzoek te herhalen ter
beantwoording van de vraag of de reserves zijn afgenomen c.q. of de gelijkheid van kansen
is toegenomen. Men zou door de breedte van een testbatterij te laten variëren een inzicht
kunnen krijgen in de factoren die een rol spelen bij het ontstaan van intellectuele reserves
(ook inzicht in de mate waarin).

Tenslotte verdient het aanbeveling om zolang de keuring in huidige vorm gehandhaafd
blijft, regelmatig een reserveschatting op smalle basis uit te voeren.
Het begrip 'intellectuele reserve' ontstaan in de jaren 1950 uit efficiëntie overwegingen is,
zo hebben wij hopelijk laten zien, nog steeds bruikbaar als indicatie voor de mate waarin
gelijkheid van kansen is gerealiseerd.

Groot, A.D. de en A.A.J. van Peet. De toekomst van de individuele verschillen. Natuur en techniek.
42, 10, 1974,538-551.

Kemenade, J. van en J. Kropman. Verborgen talenten? Kritische kanttekeningen bij een onjuiste

interpretatie. Sociologische Gids, 1972,19, 219-228.
Ruiter, K. Deelname aan V.H.M.O., Intelligentie en Milieu, C.P.B. 1965 (gestencild).
Spitz, J.C. De reserve aan hoger intellect in Nederland. Universiteit en Hogeschool Ae.c. 1959, blz. 78.
Hioenes, P. Begaafdheidsonderzoek en inteüigentiespreiding, deel 11. Den Haag: Demologisch Insti-
tuut, 1957.

Weeren, P. van Uitkomsten van het psychologisch onderzoek omtrent milieu, schoolgeschiktheid in
Amsterdam, Twente Friesland en Noord-Brabant.
In: F. van Heek, Het verborgen talent. Meppel: Boom 1968.
Wolff, p. de Mogelijkheden tot vaststelling van begaafdheidsreserves. Den Haag: Overdrukken nr. 87,
C.P.B., 1963.

Werkgroep Sociale Systemen, Vakgroep Psychologie van Arbeiden Organisatie, K.U. Nijmegen

In two concatenated articles we describe the process of educational innovation or change. In
the first article, in this journal, a general model about goal-directed activity was formulated
using social system theory, and elementary educational processes were mapped by appUcation
of the general model on their evident characteristics.

In this second article the goal-directed change of elementary educational processes by educa-
tional researchers and engineers is modeled. Using this model three basic problems in dutch
educational innovation, namely the implementation problem, aspect-models, and vertical
coordination of innovation, are explained and discussed.

In deel 1 (in dit tijdschrift 1 (1976), nr. 5, 193-214) pasten we concepten uit de
systeemleer toe. voor de beschrijving van onderwijsprocessen. Met name werd daartoe een
theorie over besluitvorming ofwel doelgerichte verandering geïntroduceerd. In dit deel
zullen we daaropvoortbouwend een model over het gedecentraliseerd veranderen van
onderwijsprocessen formuleren en evalueren. We pogen daarmee een raamwerk-beschrij-
ving_ te geven van de activiteit van onderwijsveranderaars of onderwijsprobleemoplossers
in het algemeen, die aangewend zou kunnen worden voor enerzijds analyse van concrete
onderwijsveranderingsprocessen, anderzijds design van te ondernemen onderwijsverande-
ringen inclusief het daarvoor benodigde onderzoekswerk en ontwikkelingswerk.

De paragrafering en figuurnummering van dit deel sluit sequentieel aan bij deel 1 om
cross-referentie te vereenvoudigen en de structurele interdependentie van beide delen tot
zijn recht te laten komen.

We hanteren hier het eenvoudigste model over 'n onderwijsproces (zie figuur 19, en
eventueel'figuur 12, deel 1).

' Dit onderzoek werd financieel ondersteund door de afdeling Analyses van de Directie Rechtsposi-
tiezaken Onderwija, Ministerie van Onderwijs en Wetenschappen, 's-Gravenhage.

en meetgegevens, om dusdanige acties OAt-x
te bepalen dat de doelstelling yt.7 vervuld is
en aan de actienorm NOAt-j voldaan is.
(noot: de doelstelling kan ook in termen van
toestandstrajectoren gegeven zijn i.p.v.
observeerbaar gedrag).

Wat verstaan we onder verandering van dit
onderwijsproces? Onder verandering van dit
proces verstaan we verandering van het be-
sluitvormingsproces dat het Onderwijzend
Individu 01 uitvoert. We spreken van verandering van dit besluitvormingsproces als één of
meer van de volgende gevallen geldt:

(2) een verandering van de door 01 gebruikte meetprocedures (bij het meten van
factoren j en y),

(3) een verandering van de beslissingsprocedure, waarbij we onder dit laatste verstaan het
specifieke proces van het afleiden van optimale acties OA gegeven het model, de
meetgegevens, het doel en de actienorm (zie figuur 2, deel 1).

De belangrijkste oorzaak van deze veranderingen is dezelfde als die voor het optreden van
leerprocessen in het algemeen (zie par. 2.1, fase e) namelijk dat in het licht van de
doelstelling de kennis over het te veranderen systeem als onvoldoende wordt gebrand-
merkt. Dit nu is in het onderwijs nog steeds het geval. De pupil als systeem is uiterst
complex en is ook ingebed in een complexe omgeving (ouders, klasgenoten). Er bestaan in
Paedagogie, psychologie, en sociologie nog geen valide, integrale modellen over dit te
veranderen systeem. Er wordt Ol's op de paedagogische academie een zeker inzicht
verschaft over de wijze waarop pupillen zich ontwikkelen, waarop deze ontwikkelingen
gemeten kunnen worden, en hoe pupillen methodisch kunnen worden beïnvloed. Het
laatste woord is daar echter nog niet over gesproken. Er worden steeds weer nieuwe
inzichten ontwikkeld.

Men kan inzien dat naast deze min of meer constante bron van verandering van de
besluitvorming van het onderwijzend individu, een wijziging van doelen en/of actie-
normen deze veranderingen extra noodzakelijk kan maken, omdat nieuwsoortige oplos-
singen afgeleid moeten worden.

Hoe vinden de veranderingen van de besluitvorming van 01 plaats? Er zijn twee wijzen
van verandering mogelijk:

(1) De eerste wijze is direct impliciet aan elk besluitvormingsproces nl. het leren uit
ervaringsgegevens middels cognitieve processen als abstractie en deductie (zie
figuur 2). Het onderwijzend individu leert steeds beter d.m.v. zijn onderwijsmiddelen

püpillen te veranderen conform zijn doelstellingen. De mate waarin dit leren
optreedt, is mede afhankelijk van de exploratieve ruimte die de omschrijving van OI's
functie hem laat, en van de persoonlijke inzet waarmee hij de functie bekleedt,
hetgeen afhankelijk is van die doelstellingen van 01 in functie waarvan 01 de functie
uitvoert.

(2) De tweede wijze van veranderen vindt plaats in de situatie dat externe onderzoekers/
begeleiders vanuit een analyse van het totale proces tot bepaalde veranderingen
besluiten en deze trachten geïmplementeerd te krijgen in een onderwijsproces. We
noemen dit gedecentraliseerde verandering van onderwijsprocessen. Hierop gaan we
verder in en formuleren daarmee een model over onderwijsveranderingsprocessen of
onderwijsinnovatie (= Vi(Vo(P)), zie Inleiding, deel 1, p. 194)

We interpreteren in het volgende een onderwijsveranderingsproces als een besluitvormings-
proces van een onderwijsveranderaar VI t.a.v. een onderwijsproces.
Een veranderaar of extern onderzoeker VI voert zijn taak als volgt uit (zie figuur 20, we
behandelen het eenvoudigste geval):

(a) Het uiteindelijke doel van VI is een minimalisering van het verschil tussen de
doelstelling y van het onderwijsproces en de output y van het onderwijsproces.

Tevens gelden normen NA t.a.v. de daartoe aan te wenden middelen/regelingen/acties a,.
Doel en actienorm van VI zijn dus: min |y-y|, NA
of algemener:

(b) VI heeft meetmogelijkheden t.a.v. de in- en outputs van elk van de subsystemen in
het onderwijsproces. Door middel van de output y°' kunnen allerlei factoren in 01

(c) VI construeert en hanteert een model over het gehele onderwijsproces (nl. de
interactie tussen 01 en P) of bepaalde aspecten daarvan i.e. VI heeft of verwerft zich
inzicht in de wijze waarop P functioneert, in de wijze waarop 01 functioneert, en in de
onderlinge afhankelijkheden.

De vorm van dit model wordt vooral bepaald door het feit dat VI in dit model de factor
(y-y), welke inhoudelijk te omschrijven is als 'de mate waarin de doelen van het
onderwijsproces bereikt worden' of 'de optimaliteit van het onderwijsproces', zal relate-
ren aan een aantal sleutelvariabelen, welke liefst veranderbaar moeten zijn door VI's acties

Afhankelijk van VI's doelstelling, zijn concrete situatie, en zijn kennistoestand, kan zo'n
model alleriei vormen aannemen. Stel echter dat VI, met ons, OI's activiteiten opvat/
beschrijft als een besluitvormingsproces t.a.v. pupil P. Dan zullen in VI's model over het
onderwijsproces expliciet de beshssingsprocedure van 01, het beeld over de pupil van 01,
en de meetprocedure van 01, als attributen voorkomen binnen een set van uhspraken die
o.a. de verbanden tussen deze attributen en OI's mogelijke acties weergeven.
Een schets van een model in deze vorm, is als volgt:

- In het algemeen geldt dat de mate waarin het doel van het onderwijsproces bereikt
wordt (i.e. (y-y)) op bepaalde wijze (nl. conform de principes van een besluitvormings-
proces) afhankelijk is van de kwaliteit KMO van het door 01 gehanteerde model, van
de kwaliteit KM van de door 01 gebruikte meetprocedures, en van de kwaliteit KBP
van OI's beslissingsprocedure.

Deze uitspraak staat formeler uitgedrukt in vergelijking (1) hieronder (bij de model-
samenvatting).

De kwaUteit KMO van het model van 01 kan beschreven worden als het verschil tussen
de y die OI's model genereert bij een bepaalde input (deze y noteren we met y""), en
de uitkomsten y die de pupil vertoont bij dezelfde input.
Zie vergelijking (2), hieronder.

De uitkomsten y van de pupil zijn een functie gj van de actie-input OA, en de
omgevingsinputs j. Deze functie noemen we de pupilfunctie. In afwijking met eerder
gebruikte pupilfuncties, is dit een gesimplificeerde vorm, doordat in deze functie geen
exphciete toestandsvariabelen voorkomen. Dit is in dit verband geen bezwaar.
Zie vergelijking (3).

De uitkomsten y"" van OI's model zijn een functie gj van de actie-input OA en de
omgevingsinputs. Deze functie is in feite OI's model over de pupil. We noemen g2
daarom de modelfunctie. Deze functie is op zich veranderiijk (Nl. door een wijziging
van het model), en is daarom in vergelijking 4 als tijdsafhankelijk weergegeven.
Zie vergelijking 4.

De modelfunctie g2 kunnen we opvatten als een toestandsvariabele van 01 welks
toekomstige waarden op bepaalde wijze afhankelijk zijn van de huidige waarde,
bepaalde inputs ai (=ai,i=l) (bijv. door VI te verschaffen informatie over de pupilfunc-
tie), en andere factoren (bijv. ervaringsleren, zelfstudie).
Zie vergelijking 5.

De kwaliteit van de meetprocedures van 01 kan beschreven worden als het verschil
tussen door 01 gemeten waarden van j (te noteren als j*), en werkelijke waarden van j.

(noot: optimaler is natuurlijk KM uit te drukken in zowel het verschil tussen j* en j,
als het verschil tussen y* en y. Dit blijft hier impliciet).
Zie vergelijking 6.

De gemeten waarden j* van j kunnen beschreven worden als zijnde afhankelijk van j
volgens een bepaalde meetfunctie (of meetprocedure) M. Deze functie is op zich
veranderlijk (nl. een wijziging van Ol's meetprocedure) en is daarom in vergelijking 7
als tijdsafhankelijk weergegeven.
Zie vergelijking 7.

De meetfunctie M kunnen we opvatten als een toestandsvariabele van 01, welks
toekomstige waarden op bepaalde wijze afhankelijk zijn van de huidige waarde,
bepaalde door VI vast te stellen inputs aj (=ai,i=2) (bijv. informatie over meet-
methoden, tests, etc... zelfs het verschaffen van een bril kan al veel aan M veranderen),
en eventueel andere factoren.
Zie vergelijking 8.

De kwaliteit van de door 01 gehanteerde beslissingsprocedure BP kan uitgedrukt
worden in het verschil tussen BP en een optimale beslissingsprocedure BP°P^ BP°P^ is
die beslissingsprocedure waardoor in een bepaalde toegestane tijd middels OA een
verschil (y - g2(0A,j*)) in absolute zin geminimaliseerd kan worden onder voorwaar-
de dat aan NOA t.a.v. OA voldaan is. Deze factor of parameter BP°P^ moet door VI
zelf gespecificeerd worden.
Zie vergelijking 9.

De beslissingsprocedure BP kunnen we opvatten als een toestandsvariabele van 01
welks toekomstige waarden op bepaalde wijze afhankelijk zijn van de huidige waarde,
bepaalde door VI vast te stellen inputs as (=ai,i=3) (bijv. training in deductief
redeneren), en andere factoren.
Zie vergelijking 10.

Het model van VI over het onderwijsproces heeft dan de volgende vorm:
(nopt: de outputvergelijking voor y"' houden we ter vereenvoudiging impliciet).

(d) Heeft VI een model opgebouwd of geïnventariseerd, dan volgt op grond van dit
model, opgevuld met meetgegevens en verwachtingen (zie par. 2.1), het afleiden van
een actieplan (31,32,33) d3t volgens de responsies van het model de doelstelling (y^)
optimaal bereikbaar maakt, en voldoet aan de actienorm NA. Het intern proces dat VI

daarbij doorloopt, Jcan toegelicht worden door de structuur van doelen, subdoelen,
subsubdoelen, die in dit beslissingsproces door VI stapsgewijs wordt afgeleid, via een
netwerk weer te geven. Zie figuur 21 (eventueel ook figuur 5, deel 1).
Nomenclatuur bij deze figuur:

óf verwachte toekomstige waarden van x,
óf waarde van x extern bepaald (in geval

Doel leidt via oplossing van vergelijking (1), hierboven, tot drie subdoelen nl.
KMO, KM, KBP, of tot meerdere sets van subdoelen.

Vervolgens leidt KMO (als voorbeeld) via vergelijking (2) tot subsubdoel y"", waarbij
tevens gespecificeerd is welke meetwaarde y van y tot dit subsubdoel leidde. Let wel 7
is de meting, dan wel verwachting, van VI. y in vergelijking (2) kan ook via vergelijking
(3) bepaald worden. Dit is zelfs noodzakelijk als het om verwachtingen gaat.
Analoog hieraan kunnen de andere sub- en subsub- en subsubsubdoelen worden
afgeleid, tot een actieplan (aj ,82,33) is vastgesteld.
We zien hier hoe de onderwijsveranderaar VI zijn besHssingsprobleem kan oplossen door
iteraties in een set 'connected' gekoppelde besluitvormingsprocessen, waardoor zijn

complexe beslissingstaak door gecoördineerde oplossing van een set simpeler problemen
uitvoerbaar is.

(f) De teweeggebrachte veranderingen worden geëvalueerd. Dit gebeurt enerzijds om de
noodzaak voor hernieuwde besluitvorming t.a.v. dit onderwijsproces vast te stellen

(i.e. revisie van het plan), anderzijds in functie van leerprocessen (i.e. VI verbetert zijn
model en inzicht over/in onderwijsprocessen).

We hebben met figuur 20 en de daarbij behorende procedurele beschrijving a t/m f, een
algemeen, conceptueel model over Vi(Vo(P)) ofwel de (gedecentraliseerde) verandering
van onderwijsprocessen geformuleerd, waarbij we onder onderwijsprocessen verstaan:

- het micro-proces van het onderwijs (par. 3.1), met allerlei mogelijke uitbreidingen (par.
3.2.1,3.2.2,3.2.3),

Het model heeft in deze vorm een zekere ideaaltypische inslag. Ook worden bepaalde
factoren en relaties sterker benadrukt dan andere, en worden bepaalde extensies geheel
verwaarloosd.

De eigenschappen van het model zijn op de eerste plaats inherent aan het hoge abstractie-
nivo, en op de tweede plaats gevolg van nog niet expliciet geformuleerde doelstellingen of
probleemstellingen t.a.v. onderwijsveranderingsprocessen, van waaruit de keuze van aller-
lei invulhngen beter gerechtvaardigd zou kunnen worden.

Dit raamwerk-model over onderwijsverandering kan evenwel dienstbaar zijn, of gemaakt
worden voor het doelgerichter veranderen van onderwijsveranderingsprocessen m.n. voor
het'verhogen van hun efficiëntie door duidelijker taakstructurering per innovatie-project,
en door verbeterde afstemming/coördinatie van meerdere innovatieprojecten t.a.v. onder-
ling interacterende onderwijsprocessen, of t.a.v. onderling gerelateerde aspecten van
eenzelfde onderwijsproces.

Op dat moment bevindt men zich op de plaats van besluitvormingsfunctie X in figuur 22.
X hanteert een model over een onderwijsvefanderingsproces, en tracht mede op grond van
meetgegevens dusdanige acties (va) vast te stellen dat een doelstelling

bereila wordt. Het doel van X heeft hierbij betrekking op het verschil tussen VI's doel
t.a.v. de mate waarin 01 zijn doel bereikt, en de mate waarin 01 zijn doel bereikt.
De activiteit van X noteerden we in de inleiding (van deel 1, p. 194) met
V2(Vi(Vo(P) ) ). Deze besturingstaak kan men ook beschrijven als onderwijsonderzoeks-
programmering, en onderwijsbegeleidingsprogrammering, welke taken toenemend in de
belangstelling komen te staan, gezien de nota van de Minister (1975), en de rapporten van
de Verkenningscommissie Onderwijsresearch (1976) en S.V.0. (1976).

Het hier behandelde model zou, nadat het onderwerpen is aan, of als theoretisch kader
ingevoerd is in, een empirische cyclus, voor de uitvoering van deze taken een vooral
structurerende functie kunnen vervullen.

Het initiatief tot het toepassen van voorgaande theorie over doelgerichte veranderings-
processen op onderwijsinnovatie, kwam oorspronkelijk voort uit de discussies van de
groep 'innovatiemodellen' bij de eerste Nederlandse Konferentie door Onderwijs-
probleemoplossers (Noordwijkerhout, 1975). Het lijkt ons vruchtbaar gezien de algemene
innovatie- en herstructureringsproblematiek, de kernproblemen van nederlandse onder-
wijsveranderingsprocessen zoals die daar gesignaleerd werden, hier kort in het licht van
het model te rapporteren en te evalueren.

De toenemende kennis op het gebied van de menswetenschappen, het toenemend aantal
meetgegevens over de werkelijke toestand van het onderwijs, en de gewijzigde instelling
t.a.v. de functie van onderwijs voor individu en samenleving, hebben geleid tot het onder
ogen zien van de mogelijkheid en de noodzaak van bepaalde onderwijsveranderingen. Dit
leidde vooral tot bevordering van onderwijsresearch in het algemeen door toenemende
onderzoeksinvesteringen. De onderzoekers werden onvoldoende bij de besluitvorming
betrokken en verbleven min of meer geïsoleerd in hun wetenschappelijke culturen. Daar
ontwikkelden ze echter al explorerend kennis over onderwijsprocessen en leidden zodoen-
de oplossingen af voor vele onderwijsproblemen. Door een onvoldoende relatie tussen
onderzoekers en concrete onderwijsbesluitvormingsprocessen kan nu de situatie ontstaan
dat VI (figuur 20, par. 4.1) een oplossing heeft afgeleid voor een probleem dat voor 01
geen probleem is. Hiermee is het toenaderingsprobleem gedefinieerd.

Stel VI stelt aan 01 voor om een actie OAi aan te wenden om doel yj" t.a.v. het aspect
y 1 van pupil's gedrag y te kunnen bereiken.
Er is een toenaderingsprobleem. Dit betekent dat

- ofwel 01 t.a.v. aspect yi een doel y°' heeft binnen y°', en geldt datyf'f y]''.

VI dient dan eerst die besluitvormingsfunctie te beïnvloeden die y?' als doel kan stellen.
Dit is bijvoorbeeld besluitvormingsfunctie B' in figuur 17, par. 3.2.4, deel 1, als geldt dat
01 = B'*. VI dient binnen het daar (i.e. B') geldend besUssingsprobleem aan te tonen
waarom y)" een betere oplossing is voor dat probleem dan de huidige oplossing, waarin
deze doelstelling niet voorkomt. Als VI dat kan aantonen, dan zal y j in het vervolg zo
gesteld worden dat ze overeenkomt met yi", en is de toenadering gelukt. Vanuit de dan
ontstane relatie kan zich het gedecentraliseerde veranderingsproces verder voltrekken
zoals beschreven.

Stel echter dat de bovengeschikte besluitvormingsfunctie gewoon slecht functioneert en
01 in feite zelf volgens eigen visie zijn doelstellingen y°' in belangrijke mate kan invullen.
Dan moet VI, teneinde zijn toenaderingsprobleem op te lossen, zich met die (boven-
geschikte) besluitvormingsprocessen in 01 (zie 'connected' en 'embedded case', par. 2.2,
2.3, deel 1) gaan bezighouden, die de doelen t.a.v. Ol's onderwijstaak bepalen. Het hangt
hierbij af van de inhoud van VI's doelhiërarchie en Ol's doelhiërarchie of 01 op een
gegeven moment na een interactieperiode yf'= yj'' stelt, en zich bewust wordt van het
probleem (9i-y i). Als dit het geval is, kan pas het oorspronkelijk veranderingsproces van
start gaan. De dynamiek van deze 'game'-achtige situarie is ook beschrijfbaar middels
doelgerichte veranderingsprocessen (Vossen, 1975, en Nijssen, 1975).

Het toenaderingsprobleem is vooral het gevolg van het feit dat de leerfuncties (onder-
zoeksfuncties) onvoldoende geïntegreerd zijn met de besluitvormingsfuncties, waarvan zij
in feite een onderdeel dienen te vormen (immers zie figuur 2, par. 2.1). In de nota 'Naar
een structuur voor de ontwikkeling en vernieuwing van het primair en secundair onder-
wijs' (Minister van O en W, 1975) worden een aantal maatregelen voorgesteld om deze
relatie te verbeteren.

De nederiandse onderwijsverandering hanteert te partiële modellen over het te veranderen
object (i.e. onderwijsprocessen). Partieel in tweeërlei opzicht:

(a) In het licht van ons model is de grootste fout zich slechts te richten op subsysteem P
(bijv. de leer- en keuzeprocessen van een pupil of van een klasse van pupillen), en de
verandering van subsysteem 01 als een bijzaak te beschouwen. De regeling a, bestaat
bij zo'n aanpak inhoudelijk uit voorstellen voor een set onderwijzende activiteiten
O'A, zonder dat het veranderingsproces dat 01 moet doorlopen om deze 0"A perma-
nent te kunnen en te willen uitvoeren, bij de research en implementatie is betrokken.
Het model van VI over het te veranderen object is partieel omdat slechts vergelijking
(3), par. 4.1, expliciet gehanteerd wordt om acties a; vast te stellen.

(b) Pupil P, onderwijzend individu 01, of samenstellingen (groepen) daarvan, zijn
complexe multi-aspect systemen. Dit wil zeggen dat alle aspecten van zo'n systeem
op een of andere manier aan elkaar zijn gerelateerd. De huidige wetenschaps-
beoefening is daarentegen gekenmerkt door specialisatie op aspecten. Een mono-
disciplinaire aanpak van onderwijsproblemen door VI betekent dat de uiteindelijk
voorgestelde oplossing berust op een sterk aspectmatig, partieel model over het
onderwijsproces. Zo'n partiële oplossing kan een verslechtering betekenen voor de
operatie van het geheel, of in ieder geval onverwachte effecten opleveren op andere
niet-beschouwde aspecten. Wie dit onder ogen ziet, wijkt uit naar experimenteer-
situaties om oplossingen uit te testen zonder veel schade aan te richten. Dit is in het
onderwijs in belangrijke mate het geval.

Er zijn ontwikkelingen gaande die voornoemde vormen van partieel veranderen, tegen-
gaan. Het onderzoek naar innovatiemodellen tracht de eerste vorm te verbeteren. Door
middel van multi-disciplinaire Vl-opleidingen, met name onderwijskunde als de bedrijfs-
kunde van het onderwijs, en multi-disciplinair onderzoek probeert men de tweede vorm
van partieel veranderen te ondervangen. Ook toepassing van het door De Wit (1975)
middels betekenis-analyse ontwikkelde begrippenapparaat over onderwijssystemen, kan
tot beter geïntegreerde, beter communiceerbare beschrijvingen van onderwijsprocessen
leiden.

Tevens wijzen we op de betekenis die de interdiscipHne 'systeemtheorie' voor een meer
integrale, dynamische modelaanpak kan hebben. Binnen de systeemtheorie bestaan alge-
mene modellen over n'importe welk concreet systeem (Mesarovic et al, 1975), en
algemene modellen over klassen van concrete systemen (bijv. Windeknecht, 1971, over
dynamische systemen; Kalman et al, 1969, over regelsystemen; Mesarovic et al, 1970,
over sociale systemen; Zypkin, 1971, over lerende systemen). Daarmee onverbrekelijk
verbonden is de uitbouw van een methodologie voor modelbouw van dynamische,
multi-variabele systemen (zie Kleynen, 1974; Young et al, 1972; Mihram, 1972; Klir,
1969; De Zeeuw, 1974; De Leeuw, 1971; Hanken et al, 1973).

Bij zo'n aanpak doen zich verschillende methodologische problemen voor. Vaak is het
onmogelijk het af te beelden systeem 'off-line' in experimenteersituaties te observeren.
Voor de schatting van de parameters in de modelrelaties, en bij de validering van het
model is men daarom aangewezen op statistische analyse (bijv. tijdreeksenanalyse) van
historische data over het af te beelden systeem. Tevens vereist de afwezigheid of
niet-toepasbaarheid van bepaalde historische data speciale methodische acties (als bijv.

respectievelijk sensitiviteitsanalyse en aggregatie of multi-level validatie) om de nadelen
daarvan zo goed mogelijk te ondervangen.

Ondanks deze problemen heeft ook de modelmatige aanpak van micro- en macro-onder-
wi/sproblemen zich sinds de jaren zestig vanuit een econometrische. (Correa, 1963;Correa
et al, 1962), operations research (overzichtsartikel McNamara, 1971), en regeltheoretische
achtergrond (Alper et al, 1967; Benard, 1967) snel ontwikkeld. Ons inziens is evenwel een
grotere inbreng van psycho-sociale theorie in deze modellen vereist, vooral daar het gaat
om afbeelding van puur psychologische en sociale processen (Klabbers et al, 1975).

De verticale taakverdeling in nederlandse veranderingsprocessen is onvoldoende georgani-
seerd.

Langzamerhand is de situatie aan het ontstaan dat aan elk type onderwijssituatie een
leerfunctie of veranderingsfunctie is verbonden die tot taak heeft de zich voordoende
onderwijsproblemen op te lossen. In elk type onderwijssituatie wordt zo een permanente
vernieuwingscapaciteit ingebouwd. Naast deze directe veranderingsfunctie (bijv. school-
begeleidingsdiensten) die zich rechtstreeks op de verandering van bepaalde onderwijs-
microprocessen richt, bestaat een indirecte veranderingsfunctie nl. de meer fundamentele
researchinstituten. Deze trachten oplossingen te vinden voor onderwijsproblemen van
meer algemene en meer complexe aard (bijv. de SVO- en SLO-research).
Een manier om de relaties tussen de getrapte veranderingsfuncties en het onderwijsveld
weer te geven, is als in figuur 23.

Van beneden naar boven stromen problemen, van boven naar beneden oplossingen (in
ruime zin) voor de problemen. De ingetekende F's geven overbrengingsfuncties weer of
filters. F® geeft bijvoorbeeld aan op welke wijze door R opgevatte problemen gerelateerd
zijn aan door het veld geopperde problemen.

Door middel van dit schema geven we de belangrijkste storingen in deze verticale
taakverdeling aan:

(a) De subsystemen verschillen in de taal die zij hanteren om problemen te beschrijven
en oplossingen te genereren of te interpreteren. In elk van de overbrengingsfuncties
geldt daarom een vertalingsprobleem, dat belangrijke distorties veroorzaakt.

(b) De overbrengingsfuncties F', F^, F'*, F® zijn slechts informeel georganiseerd bijv. via
algemene literatuurkanalen, toevallige contacten. Er is bijvoorbeeld geen formeel
kader dat organiseert dat belangrijke voor onderwijsbegeleidingsdiensten onoplosbare
problemen worden geïnventariseerd en vertaald in opdrachten voor de fundamentele
research.

(c) Een bezwaar tegen de rechtstreekse bemoeienis van R met het veld is dat zij daarmee
langs OBD heenwerken en in feite vaak problemen veroorzaken die door OBD
moeten worden opgelost.

Door de functies F^ en F'* beter te formaliseren, de signaleringscapaciteit (qua proble-
men) en de implementatiecapaciteit (qua oplossingen) van de onderwijsbegeleidings-
diensten te benadrukken, zouden de rechtstreekse relaties tussen R en het veld kunnen
vervallen, waarmee de belangrijkste storingen weggewerkt zouden zijn. Hierbij dient dan
te worden opgemerkt dat adequate structurering/afstemming van fundamentele en toege-
paste onderwijsveranderingsfuncties, ter verhoging van hun efficiëntie, niet mogelijk is
zonder duidelijke, inhoudelijke lange termijn onderwijsplannen of onderwijsbeleid. Dan
pas kan men doelgericht veranderen en dit efficient inrichten. Daarom is de Contouren-
nota, en vooral de planningsfilosofie daarachter, ook in dit opzicht van essentieel belang.

Alper, P. and Smith, C.S. An application of control theory to a problem in educational planning. IEEE
Transactions on Automatic Control, 1967,12, 2.

Benard, J. General optimization model for the economy and education, hi: Mathematical models in
educational planning. Paris: OECD, 1967.

Correa, H. The economics of human resources. Amsterdam: North Holland Publ.Co., 1963.

Correa, H. and Tinbergen, J. Quantitative adaptations of education to accelerated growth. Kyklos
1962, 15.

Hanken, A.F.G. en Reuver, H.A. Inleiding tot de systeemleer. Leiden: Stenfert Kroese, 1973.

Kalman, R.E., Falb, P.L., Arbib, M.A. Topics in mathematical system theory. New York: McGraw
HiU, 1969.

Klabbers, J.H.G. en Nijssen, J.B. Planning van het onderwijssysteem middels mathematische modellen.
Nijmegen: Werkgroep Sociale Systemen K.U. Nijmegen, Rapport SSRG-75-00, 1975.

Kleijnen, J.P.C. Statistical techniques in simulation. (In two parts). New York: Marcel Dekker Inc
191411915.

Klir, G.J. An approach to general systems theory. New York: Van Nostrand Reinhold, 1969.

Leeuw, A.C.J, de. On measurement, methodology and systems. Annals of Systems Research, 1971,1.

McNamara, J.F. Mathematical programming models in educational planning. Review of Educational
Research,\91\,41,S.

Mesarovic, M.D., Macko, D., and Takahara, Y. Theory of hierarchical multilevel systems. New York:
Academic Press, 1970.

Mesarovic, M.D. and Takahara, Y. General systems theory: mathematical foundations. New York:
Academic Press, 1975.

Mihram, G.A. The modeling process. IEEE Transactions on Systems, Man, and Cybernetics, 1972, 5.

Minister van Onderwijs en Wetenschappen, Naar een structuur voor de ontwikkeling en vernieuwing
van het primair en secundair onderwijs. Den Haag: Staatsuitgeverij, 1975.

Nijssen, J.B. Het ontstaan van samenwerking. Nijmegen: Werkgroep Sociale Systemen K.U. Nijmegen,
MM-75-35, 1975.

S.V.O. Programmering van onderwijsonderzoek. Den Haag: Stichting voor Onderzoek van het Onder-
wijs, 1976.

Verkenningscommissie Onderwijsresearch, Onderwijsonderzoek in Nederland. Den Haag: Ministerie
van Onderwijs en Wetenschappen, 1976.

Vossen, P.H. Ontstaan van samenwerking. Nijmegen: Werkgroep Sociale Systemen K.U. Nijmegen,
MM-75-15, 1975.

Windeknecht, T.G.A mathematical introduction to general dynamical processes. New York: Academic
Press, 1971.

Wit, H.F. de, Een betekenis-analyse van onderwijspsychologische taalsystemen. Amsterdam: Research
Instituut voor de Toegepaste Psychologie, U. van Amsterdam, 1975.

Young, J.W., Arnold, W.F. and "Brewer, J.W. Parameter identification and dynamic models of
socioeconomic phenomena. IEEE Transactions on Systems, Man, and Cybernetics, 1972,4, 2.

Zeeuw, G. de,Model-denken in de psychologie. Amsterdam: Universiteit van Amsterdam, 1974.

Zypkin, Ya. Z Adaptation and learning in automatic systems. New York: Academic Press, 1971.

Subfaculteit Psychologie, Universiteit van Amsterdam
Discrimination of two- and four-choice tests

Four-choice items can be thought of as constructed of pairs of two-choice items. Lord's
discrimination index D was used to calculate how much longer (n times) two-choice tests have
to be than four-choice tests to discriminate equally well at a chosen ability leveL Given an
ability level, if p is the probability of answering a two-choice item correctly, then n turns out to
be 4p /(1+p). If the construction of two-choice items needs only half the time that four-choice
items require, this is a good reason for teachers to replace self-made four-choice tests by
two-choice tests of double length, especially if p is small.

Enige tijd geleden (van Naerssen, 1970) werd de betrouwbaarheid van vierkeuze-items
vergeleken met die van tweekeuze-items in verband met de vraag: heeft het zin om twee
twee-keuze-items samen te voegen tot één vierkeuze-item, of omgekeerd: als voor een
vierkeuze-item zowel vaardigheid (= kennis) A als vaardigheid B nodig is, kan men dan
niet beter A en B met twee aparte items meten? De conclusie van dat onderzoek luidde
o.a.:

Het gebruik van tweekeuze-items (niet speciaal die van het waar-onwaar-type) moet men niet opvatten
3ls een noodoplossing voor personen, die niet vaardig genoeg zijn om goede vierkeuze-items te
Construeren, maar als de juiste strategie van de docent, die zo efficiënt mogelijk een vaardigheid wil
testen. Tweekeuze-items komen vooral in aanmerking in door docenten zelf gemaakte studietoetsen,
minder in voor publikatie bestemde tests. Er zijn geen principiële bezwaren tegen het gebruik van
twee- en vier-keuze-items in dezelfde toets. Er zijn duidelijk aanwijzingen gegrond op theoretisch
onderzoek dat de betrouwbaarheid verhoogd wordt wanneer vierkeuze-items gesplitst worden in
tweekeuze-items, vooral wanneer de items moeilijk zijn (dit bleek ook empirisch) en de itemintercorre-
laties niet extreem.

Toevallig publiceerde Ebel (1971) even later een warm pleidooi voor 'True-False'-items.
Nu, zes jaar later, is het gebruik van tweekeuze-items in Nederland echter vermoedelijk
nauwelijks toegenomen. Moeizaam gaan docenten voort met het construeren van vier-
keuze-items, of erger: zij schakelen terug op onbetrouwbare essay-vragen.
Bij de berekeningen van '70 werd — evenals bij onderstaande afleidingen — uitgegaan van
één onder alle items liggende vaardigheid en van lokale onafhankelijkheid, d.w.z. bmnen
een subgroep met dezelfde vaardigheid zijn de items statistisch onafhankelijk. Maar voorts
Werd toen aangenomen dat de kans om een item goed te beantwoorden lineair zou
samenhangen met de percentielscore. Hoewel dit bij benadering wel het geval kan zijn, is
deze assumptie nodeloos specifiek. Assumpties over de vorm van de item-karakteristieke
curve zijn overbodig, wanneer niet de totale betrouwbaarheid van de toets wordt be-
schouwd, maar de (lokale) discriminatie-index D van Lord (1952).

Hoewel deze en andere discriminatie-indices later door Bimbaum (1968) vervangen zijn
door veel gecompliceerder maar niet-parametrische informatiematen, wordt hier gebruik
gemaakt van D omdat deze index heel geschikt blijkt voor een simpele oplossing van het
onderhavige probleem.

Daar de D van Lord tegenwoordig weinig meer bekend is zullen we deze D eerst
bespreken. D is een maat voor het discriminerend vermogen van een toets op een bepaalde
plaats van de onderliggende trek. Wanneer de toets gebruikt wordt om een groep personen
in tweeën te splitsen wordt de D bij de cesuur, of althans de daarmee overeenkomende
trek-zóne, door Lord aanbevolen boven elke 'overall-index' (zoals de betrouwbaarheids-
coëfficiënt of de standaardmeetfout). De toets hoeft immers alleen te discrimineren bij de
aftestgrens.

D is, evenals de kans p om het item goed te beantwoorden, een functie van de vaardigheid
(trek) t. En wel is D 'de richtingscoëfficiënt van de testkarakteristieke curve (d.i. de
regressiekromme van scores x op vaardigheid) gedeeld door de standaardafwijking van de
scores gegeven de vaardigheid';
dx

De 'rationale' voor D vindt Lord in de analogie met de significantieberekening van het
verschil tussen twee gemiddelden. Stel dat de trek niet continu was maar discreet. Voor
het discriminatievermogen bij een bepaalde zou men dan kunnen kiezen de mate
waarin de scores behaald door de groep personen met een trek ! significant hoger
liggen dan die met een trek Z^; hoe significanter dit verschil, hoe beter de toets ter plekke
discrimineert. Nu leert de statistiek dat men de significantie van het verschil tussen twee
gemiddelden kan berekenen door eerst dit verschil te delen door de standaardafwijking
van het verschil, maar dit is weer evenredig aan de standaardafwijking van de beide
verdelingen (als die gelijk zijn). Als discriminatiemaat is dus bmikbaar het verschil tussen
de gemiddelde score van de ta+i groep en de t^ groep, gedeeld door de lokale standaard-
afwijking van de scores (de standaardmeetfout ter plaatse). Maar de trek is continu. Dus
vervangt Lord het verschil x^+i -Xa door dx/dt. Tot zover Lord.

.De D van de toets bestaande uit parallelle tweekeuze-items zal nu vergeleken worden met
die van de vierkeuze-toets, die ontstaat door telkens twee van de tweekeuze-items bijeen
te voegen. (Dat hoeft niet te leiden tot items van het type: 1 is waar en II is onwaar, het
kan ook veel subtieler). Laat de vierkeuze-toets uit k items bestaan, en de tweekeuze-toets
uit nk items. Als de vierkeuze-toets inderdaad uit paren tweekeuze-items bestaat, dan is n
= 2. Berekend wordt voor welke waarde van n de index Z?2 van de tweekeuze-toets groter
is dan de D4 van de vierkeuze-toets.

Drukt men scores uit als relatieve scores (delen door het aantal items), dan valt de
testkarakteristieke curve samen met de itemkarakteristieke curve en de standaard-
afwijking van de scores gegeven de vaardigheid wordt de wortel uit p(l-p)l(nk).

Als p de kans (gegeven t) is om een tweekeuze-item goed te beantwoorden, dan is de
kans om een vierkeuze-item goed te beantwoorden (bij dezelfde t). Om Ö4 te vinden
hoeft men slechts in de formule voor D2 overal p te vervangen door , en natuurlijk dp^
door 2pép en nk door k.

Bij moeilijke items is p bijv. 0,6 en volgens (4) hoeft n dan slechts 1,5 te zijn om gelijke
discriminatie op te leveren van twee- en vier-keuzetoets.

Bij een 'normale' p van 0,75 moet n blijkbaar Up zijn en bij p = 0,9 zelfs 1,9. Maar
steeds is deze kritische n kleiner dan 2, m.a.w. splitsen van vierkeuze-items in tweekeuze-
items is altijd voordelig, en des te meer naarmate de items moeilijker zijn of de aftestgrens
lager is geplaatst. Of, generaliserend, als de constructie van een tweekeuze-item minder
dan de halve tijd vergt van die van een vierkeuze-item, dan kan men als docent beter
tweekeuze-items toepassen, zoals reeds in '70 werd aanbevolen.

Men kan aantonen dat deze resultaten goed overeenkomen met die van tabel 1 uit het
artikel van 1970, als de aftestgrens (cesuur) juist in het midden van de verdeling ligt. Bijv.
komt een p van 0,6 dan overeen met een m van 0,2 en een n van 1,5 (zie boven) betekent
in het artikel van 1970 een 'equivalente testverlenging' van 2/1,5 - 1 = 0,33, precies als in
tabel 1.

De aanpak met de discriminatie-index heeft echter, zoals reeds werd opgemerkt, de
voordelen van minder assumpties en toespitsing op discriminatie bij de aftestgrens. Men
hoeft alleen de kans p om een tweekeuze-item goed te beantwoorden te weten, of te
schatten, van de subgroep op de grens van voldoende en onvoldoende, en direct volgt uit
(4) het getal waarmee de lengte van de vierkeuze-toets moet worden vermenigvuldigd om
de lengte van de tweekeuze-toets te verkrijgen die op het punt van de cesuur even goed
discrimineert.

In de artikelen van 1970 en 1971 vindt men nog een groot aantal niet-psychometrische
argumenten en validiteitsredenen ten gunste van tweekeuze-items en waar-onwaar-items.

Hoewel kritiek kan worden uitgeoefend op de assumptie dat een vierkeuze-item gedacht
kan worden als een combinatie van twee tweekeuze-items, en gemakshalve de p-waarden
Van deze twee-keuze-items gelijk gedacht worden, wijzen de berekeningen er toch op dat
de in handboeken gebruikelijke aanbevelingen van vier- of vijf-keuze-items voor 'teacher-
made' tests moeten worden herzien.

Voor gepubliceerde tests liggen de kaarten anders, zoals in het genoemde artikel van 1970
reeds werd vermeld en eerder (van Naerssen 1967, par. 5) uitvoeriger werd uiteengezet.
Doordat gepubliceerde tests door duizenden leeriingen worden gemaakt loont het däär de
moeite om elk item afzonderlijk door toevoeging van een derde en vierde alternatief zo

betrouwbaar mogelijk te maken, terwijl de minder betrouwbare items moeten worden
weggelaten omdat deze de afnamekosten enorm kunnen verhogen zonder veel betrouw-
baarheidsbijdrage. Het gaat bij deze beslissing om de verhouding tussen afnamekosten en
produktiekosten van de items.

De conclusies zijn ruwweg in overeenstemming met de empirische bevindingen van
Schmidt en Wijnen (1975). Zij transponeerden de bij 60 studietoetsen gevonden betrouw-
baarheidscoëfficiënten met de Spearman-Brown-formule tot die van vergelijkbare toetsen
van dezelfde lengte en vonden dat vierkeuzetoetsen met 30 vragen gemiddeld een be-
trouwbaarheid hadden van 0,6066 en tweekeuzetoetsen met 60 vragen een hogere be-
trouwbaarheid, namelijk gemiddeld 0,6667. (Zij onderzochten ook in verband met het
informatietheoretische artikel van Tversky (1964) driekeuzetests en vonden dat een drie-
keuzetoets van 40 items gemiddeld een betrouwbaarheid had van 0,6490; ons gaat het
hier alleen om een vergelijking van twee- en vierkeuze-items.)

De bevindingen zijn ook ongeveer in overeenstemming met die van Mattson (1965), uit
wiens tabel men kan berekenen dat een vierkeuzetoets effectief niet twee maal zo lang zal
zijn als een tweekeuzetoets, maar 1,8 maal. Zijn berekening van de standaardmeetfout uit
de gemiddelde ware score van de groep is echter bekritiseerbaar.

Het belangrijkste verschil met bovengenoemde artikelen is evenwel dat bij het onderhavige
theoretische onderzoek rekening wordt gehouden met de aftestgrens: het gaat om de
vereiste lengte bij gelijke discriminatie bij een bepaalde aftestgrens, niet om de 'overall'-
betrouwbaarheid.

Birnbaum, A. Some latent trait models and their use in inferring an examinee's ability. In; Lord F.M.
and M.R. Novick. Statistical theories of mental test scores. Reading, Mass.: Addison - Wesley,
1968.

Lord, F.M. A theory of test scores. Psychometric Monograph, No. 7. Psychometric Society, 1952.

Mattson, D. The effects of guessing on the standard error of measurement and the reliability of test
scores. Educ. PsychoL Meas. 1965,25, 727-730.

Naerssen, R.F. van. Itemselectie bij studietoetsen. Ned. T. PsychoL 1967,22, 345-359.

Naerssen, R.F. van. Tweekeuze-items in studietoetsen. A^erf. T. PsychoL 1970,25, 393403.

Schmidt, H. & Wijnen, W.H.F.W. Aantal alternatieven en testlengte bij keuzevragen. In: Werkgroep
Onderwijsresearch, Onderwijsresearch - dagen 1975. Auteur, 1975, 247-253.

Tversky, A. On the optimal number of alternatives at a choice point. J. Math. Psychol 1964, 1,
386-391.

Een reactie uit de kring van onderzoekers op deze voorstudie, verricht door de Vooriopige
Wetenschappelijke Raad voor het Regeringsbeleid, is om twee redenen van belang. Ten
eerste worden in dit rapport resultaten van Nederlandse onderzoekers samengevat over
een politiek omstreden onderwerp. Een zekere controle op de kwahteit van de samenvat-
ting is in dat geval ook een taak van de onderzoekers. Ten tweede is dit rapport
geschreven in opdracht van de (voorlopige) Wetenschappelijke Raad voor het Regerings-
beleid. Dit kan bij de buitenwacht de indruk wekken dat deze samenvatting namens de
onderzoekers geschreven zou zijn.

In deze reactie wil ik het rapport becommentariëren en van daaruit een kanttekening
plaatsen bij de werkwijze van een wetenschappelijke raad voor het regeringsbeleid.

In de slotparagraaf concludeert de schrijver dat een 'verdere (en betere) operationalisering
van begrippen als gelijkheid van kansen en democratisering nodig is'. Dat is inderdaad
nodig, maar dit rapport biedt deze betere begripsomschrijving niet. In paragraaf 1.2.2.
onderscheidt de schrijver drie concepties van 'gelijkheid van kansen' in het onderwijs: 1.
gelijke kansen voor gelijk begaafden; 2. gelijkheid van onderwijsresultaten; 3. vrijheid van
ontplooiing.

De term 'democratisering' wordt pas in het slothoofdstuk ten tonele gevoerd. De schrijver
klaagt daar dat men in de hteratuur zo zelden een definitie van democratisering aantreft.
Als enige bijdrage tot deze definiëring biedt hij dan het volgende aan: 'een benadering van
het definitieprobleem is het begrip 'gelijke kansen' als kenmerk van gedemocratiseerd
onderwijs op te vatten'. Deze gebrekkige begripsomschrijving vinden wij terug bij de drie
concepties van gelijkheid van kansen.

Twee van de drie concepties zijn min of meer in de publieke en wetenschappelijke
discussie terug te vinden. 'Gelijke kansen voor gelijk begaafden' komt bijvoorbeeld in het
overzichtsartikel van Matthijssen (1975) - beter omschreven - vOor als 'gelijke kansen
naar intellectueel begaafdheidsniveau'. Vanuit dit concept van gelijke kansen is tot en met
het Talentenproject (Van Heek, 1968), maar ook nog daarna (bijv. recent door Peschar,
1975) onderzoek verricht. Centrale vraag daarbij is het bestaan van een parate én
potentiële reserve aan talent.

Ook het derde concept 'vrijheid van ontplooiing' komt bij Matthijssen (1975) - opnieuw
heter gekarakteriseerd - voor als 'gelijkwaardigheid van verschillendsoortige begaafd-
heden en interessen'.

Het tweede concept dat Van Walstijn noemt 'gelijkheid van onderwijsresultaten' lijkt mij
een slechte karakterisering van datgene wat met compensatie- en activeringsprogramma's
wordt nagestreefd. Als enige niet nader gespecificeerde bewijsplaats noemt Van Walstijn
de principes van Bloom, die hij verbindt met bovengenoemde programma's. Een van die
principes zou zijn 'dat een leerling niet verder gaat naar een volgend leerstofonderdeel eer
al zijn medeleerlingen het voorafgaande goed beheersen' (cursivering van mij). Bestaande
Nederlanse hteratuur over activerings- en compensatieprogramma's (Brands, 1973; Van
der Kley, 1973) rechtvaardigen in 't geheel niet deze begripsomschrijving en het centraal
stellen van deze aan Bloom toegeschreven principes. Veel beter kan het doel van de
activerings- en compensatieprogramma's omschreven worden als het bieden van 'gelijke
startmogelijkheden door positieve discriminatie' (Matthijssen, 1975).
De tweede door Van Walstijn gemaakte begripsomschrijving sluit in het geheel niet aan bij
de richting van de theorievorming en het onderzoek, zoals die na het Talentenproject zich
ontwikkelden. Het overzichtsartikel van Vervoort (1972) ontbreekt dan ook pijnlijk in
deze voorstudie. Hetzelfde geldt voor een ander artikel van Vervoort over onderwijs en
sociale ongelijkheid (1973). Raadpleging zou weUicht bijgedragen hebben tot een betere
begripsomschrijving (vgl. Van der Kley en Wesselingh, 1975).

Terzijde wil ik nog opmerken, dat - zoals hierboven reeds bleek en in de volgende
paragraaf nogmaals zal blijken - deze voorstudie (en ook de daaraan verbonden litera-
tuurlijst) een slecht overzicht biedt van de belangrijkste literatuur. De verspreide informa-
tie over het onderwerp is onvoldoende bij elkaar gebracht. Ik wil dit illustreren aan de
hand van een citaat uit paragraaf 6.4., waar de studie Jencks c.s. (1972) besproken wordt.

De studie van Jencks is echter - vooral in Amerika - heftig bekritiseerd. Zo zou in de studie met
name gelet zijn op individuele verschillen en niet op verschillen tussen groepen. Toch is de politieke
invloed van deze studie groot geweest; in veel schooldistricten heeft men de resultaten gebruikt om
onderwijsbegrotingen af te stemmen

Nergens wordt een bron genoemd, waarin geïnteresseerden deze kritiek zouden kunnen
terugvinden (de themanummers van 'Harvard Educational Review' van februari 1973 en
van 'Sociology of Education' van herfst 1973). Slechts één (en niet het belangrijkste)
punt van kritiek wordt in een zin genoemd, zonder dat de betekenis ervan voor de lezer
die Jencks zelf niet gelezen heeft, duidelijk kan zijn. De kroon spant echter wel de laatste
zin uit het citaat. Wat bedoelt Van Walstijrt hier? Bewijst het gebruik van deze studie om
onderwijsbegrotingen af te stemmen (bepaald niet de bedoeling van Jencks) dat Jencks
gelijk zou hebben, ondanks de heftige kritiek? De lezer stelle zich een soortgelijk
argument voor, dat betrekking zou hebben op de Contourennota.

De gebrekkige begripsomschrijving van 'gelijkheid van kansen' in Van Walstijn's voor-
studie zou met meer voorbeelden geïllustreerd kunnen worden (bijv. de relatie die hij legt
tussen de drie onderwijsmodellen, die hij ontleent aan Matthijssen en zijn drie concepties
van 'gelijkheid van kansen').

In de volgende paragraaf wil ik ingaan op consequenties van deze gebrekkige begrips-
omschrijving.

De gebrekkige omschrijving van de verschillende gelijkheidsconcepties heeft consequenties
voor de kwaliteit van het literatuuroverzicht. Daardoor mist de schrijver de pointe van de
discussie. Daarvan wil ik twee voorbeelden geven.

Het eerste is de discussie tussen Van Heek (1968) enerzijds en Van Kemenade en
Kropman (1972) anderzijds over één van de meest opzienbarende conclusies van het
Talentenproject, die Van Walstijn in paragraaf 6.2. weergeeft. Het gaat om de conclusie
dat

'van een reserve aan begaafde, goed voor VHMO geschikte leerlingen, niet kan worden gesproken. Dit
geldt voor alle beroepsgroepen. In de groep goed tot zeer goed voor VHMO geschikte leerlingen (...)
bestaat tussen de beroepsgroepen geen of nauwelijks verschil in doorstroming naar het VHMO'.

Van Kemenade en Kropman (1972) vechten deze conclusie aan door erop te wijzen dat
de 'predictiescore' voor de bepaling van de schoolgeschiktheid een onzuivere maatstaf is,
omdat naast prestatiegegevens ook milieugegevens daarin zijn opgenomen. Van Kemenade
en Kropman werken daarom de predictiescore door verwijdering van de milieuvariabelen
om tot een zogenaamde 'prestatiescore'. Wanneer schoolkeuze in verband wordt gebracht
met deze prestatiescore, blijkt het beroepsniveau van de vader wel degelijk van invloed te
zijn op de doorstroming naar het VHMO. Van Walstijn merkt dan op dat 'het maar de
vraag is of Van Kemenade en Kropman de milieuvariabelen terecht hebben weggelaten.
Dit zou niet kunnen zonder aanzienlijk veriies in de voorspelbaarheid van schoolsucces'.
Omdat Van Walstijn een gebrekkige begripsomschrijving hanteert mist hij hier de kern van
de discussie. Dit kan geïllustreerd worden aan het antwoord van Van Heek et al. (1973)
op de kritiek van Van Kemenade en Kropman, en aan de slotreactie van Kropman (1973),
die Van Walstijn ten onrechte niet noemt en die ook in zijn literatuurlijst niet voorkomen.
In het Talentenproject ging het aldus Van Heek et al. uitsluitend om de parate school-
geschiktheid (waarom vermeldt Van Walstijn dit belangrijke begrip niet?): Dit is de mate
van schoolgeschiktheid die op het moment van onderzoek bij de betreffende scholier
aanwezig is; deze wordt uitgedrukt in de kans om een volgende onderwijsfase met succes
te doodopen. Deze kans blijkt niet alleen samen te hangen met het prestatieniveau van de
leeriing, zoals dat in de testgegevens tot uitdrukking komt, maar ook met de school- en
milieugegevens. In het Talentenproject lag de nadruk op deze parate schoolgeschiktheid,
daar in het begin van de zestiger jaren gesuggereerd werd dat onder de bestaande
pedagogische en didactische omstandi^eden een zeer groot percentage van de intelligente
arbeiderszoons, die het lager onderwijs veriieten wel het VHMO had kunnen verwerken,
maar dit onderwijs niet ging volgen. Voor Van Walstijn's eerste concept 'gelijke kansen
voor gelijkbegaafden' is echter het begrip 'potentiële schoolgeschi'uneid' van groot
belang. Dit is de kans op schoolsucces van een scholier onder optimale pedagogische en
didactische omstandigheden. Van Heek c.s. stemmen in met de procedure van Van
Kemenade en Kropman die onderzoeken in hoeverre milieufactoren de succesvolle over-
gang naar het VHMO beïnvloeden bij leeriingen met een vrijwel gelijk prestatieniveau in
het lager onderwijs (d.w.z. met een gelijke potentiële schoolgeschiktheid).
Van Kemenade en Kropman hebben volgens Van Heek c.s. overtuigend aangetoond dat
bij een succesvolle overgang LO-VHMO milieufactoren een niet onbelangrijke rol spelen.
Waardoor met name arbeiderskinderen met goede lagere schoolcapaciteiten niet op het
VHMO terechtkomen.

Van Walstijn's opmerking over het verües in voorspelbaarheid van schoolsucces is dus
naast de roos, als het gaat om na te gaan of potentieel gelijk begaafde leerlingen
(uitgedrukt in prestatiegegevens uit het lager onderwijs) uit verschillende milieus gelijke
kansen hebben om succesvol het VHMO te volgen. Dat milieufactoren naast prestatiescores
ook nog de prestaties in het voortgezet onderwijs beïnvloeden (en dus in een predictie-
score ter bepaling van parate schoolgeschiktheid opgenomen moeten worden) maakt de
ongelijkheid van gelijkbegaafde leerlingen uit verschillende milieus alleen maar groter.
Een tweede voorbeeld van de consequenties van de gebrekkige begripsomschrijving komt
uit hoofdstuk 2. In paragraaf 2.2. wordt gesteld dat het door de geldigheid van twee
doelstellingen in de huidige maatschappij (functie van het onderwijs voor het arbeids-
bestel; de socialiserende functie van het onderwijs) op voorhand kan worden uitgesloten,
dat het onderwijsbestel volledige gelijkheid van kansen zal kunnen bieden aan iedereen,
ongeacht welke van de drie concepties van dit begrip als uitgangspunt wordt genomen
(cursivering van mij). Ten aanzien van de functie van het onderwijs voor het arbeidsbestel
wordt dit als volgt beargumenteerd:

'Waar de beroepenstructuur een hiërarchie vertoont, zal het onderwijs geneigd zijn die hiërarchie over
te nemen. Op zich impliceert dit al ongelijkheid'.

Het bestaan van een hiërarchie in de beroepsstructuur en in het onderwijs behoeft echter
geen belemmering te zijn om gelijk begaafden gelijke kansen (eerste concept van Van
Walstijn) te geven op de verschillende sporten van deze hiërarchie. Zelfs als er voor een
bepaald onderwijstype met een hoog prestige (bijv. een universitaire opleiding) meer
belangstellenden zijn dan onderwijsplaatsen, blijven 'gelijke kansen voor gelijk begaafden'
mogelijk. De toelatingsregeling moet dan zo ingericht zijn dat gelijk begaafden (hoe dan
ook gemeten) gelijke kansen (hoe klein dan ook) hebben om een onderwijsplaats te
verwerven. Alleen Van Walstijn's eigen tweede conceptie 'gelijkheid van onderwijsresulta-
ten' kan in zijn uitente consequentie in conflict komen met de beroeps- en onderwijs-
hiërarchie.

Ik hbop met deze twee voorbeelden te hebben aangegeven dat Van Walstijn door de
gebrekkige omschrijving van zijn gelijkheidsconcepties hetzij de pointe van belangrijke
discussies mist, hetzij zijn begrippen zeer slordig hanteert.

De kwaliteit van deze voorstudie, die de Vooriopige Wetenschappelijke Raad voor het
Regeringsbeleid belangrijk genoeg vond om te publiceren, doet vragen rijzen omtrent de
werkwijze van de Raad. Het rapport van Van Walstijn is weliswaar een voorstudie,
waarvan de verantwoordelijkheid voor de inhoud bij de auteur ligt. In de publiciteit, die
dit rapport kreeg, werd het echter begrijpelijkerwijs toegeschreven aan de Wetenschappe-
lijke Raad.

Gedurende de discussie in de Staten-Generaal over de Wetenschappelijke Raad is er van
vele zijden op gewezen, dat de Raad niet een klein college van bij uitstek deskundige
lieden zou zijn dat, voor eens en altijd, voor alle problemen oplossingen aan kan dragen.
Zijn taak is veel meer informatieverschaffing, tijdige waarschuwing voor problemen en
bewustmaking van alternatieve keuzemogelijkheden. De politieke discussie en besHssing

moeten echter worden overgelaten aan anderen dan de Raad (Memorie van Antwoord,
zitting 1974-1975, nr. 12668, nr. 5).

Dh betekent dat de Raad zijn adviezen niet los van de verschillende wetenschappelijke
forums mag formuleren. Sterker: zijn adviezen moeten juist voortvloeien uit de publieke
discussie binnen en tussen deze forums. Anders wordt de Raad slechts een onderdeel van
de overheidsbureaucratie. Een en ander heeft consequenties voor de begeleiding van het
opstellen van voorstudies en adviezen. Tijdens het opstellen van dergelijke voorstudies en
adviezen behoort de Raad er voor te zorgen dat 'leden' van de verschillende wetenschap-
pelijke forums erbij betrokken worden. Nahet uitbrengen van de voorstudie of het advies
behoort de Raad te zorgen voor een pubHeke discussie over de voorstudie of het advies
binnen en tussen de forums. Deze taak mag hij niet overlaten aan anderen.
Door de publieke discussie in de verschillende wetenschappelijke fomms kan de weten-
schappelijke kwaliteit en het belang van een voorstudie of een advies vastgesteld worden.
Uitsluitend deze publieke discussie tussen de betrokken wetenschappers met verschillende
achtergronden en disciplines 'legitimeert' het wetenschappelijke karakter van zijn infor-
matie, waarschuwing of bewustmaking.

De voorstudie 'Kansen op Onderwijs' is tijdens het opstellen onvoldoende begeleid door
leden uit de verschillende forums. Bepaalde, hierboven gesignaleerde gebreken waren bij
een bredere begeleiding niet voorgekomen (bijv. de discussie tussen Van Heek en Van
Kemenade en Kropman).

Het is te hopen dat de Wetenschappelijke Raad voor het Regeringsbeleid de publieke
discussie over deze voorstudie en latere adviezen (bijv. Contourennota) beter organiseert.
Mocht dit onverhoopt niet gebeuren, dan ligt hier een taak voor de Vereniging voor
Onderwijsresearch.

Heek, F. van, e.a. Het verborgen talent, milieu, schoolkeuze en schoolgeschiktheid. Meppel: Boom,
1968.

Heek, F. van, Vervoort, C.E., en Weeren, P. van. Nogmaals: Verborgen talenten? Sociologische Gids,
1973,20 309-315.

Jeneks, Christopher, c.s. Inequality, a reassesment of the effect of family and schooling in America.

New York: Basic Books, 1972.
Kemenade, J.A. van en Kropman, J.A. Verborgen talenten? Kritische kanttekeningen bij een onjuiste

Kley, P. van der. Effecten van compensatieprogramma's. In J.A. van Kemenade (red.), Bijdragen uit de

onderwijswetenschappen. Alphen aan de Rijn: Samson, 1973.
Kley, P. van der en Wesselingh, A. (red.). Onderwijs en maatschappelijke ongelijkheid. Boekaflevering

1975 Mens en Maatschappij. Rotterdam: Universitaire Pers, 1975.
Kropman, J.A. Verborgen konklusies? Repliek. Sociologische Gids, 1973,20, 315-316.
Matthijssen, M. Sociale ongelijkheid van onderwijskansen; vijf interpretaties van sociale werkelijkheid

Sociologische Gids, 1915,22, 427-445.
Peschar, J.L. Milieu, school en beroep. Groningen: Tjeenk Willink, 1975.

Vervoort, C.E. Het talentenproject - en daarna. Mens en Maatschappij, boekaflevering, 1972
239-261.

Vervoort, C.E. Onderwijs en sociale ongelijkheid. In J.A. van Kemenade (red.), Bijdragen uit de

onderwijswetenschappen. Alphen aan de Rijn: Samson, 1973.
Walstijn, W.A.W. van, Kansen op onderwijs, een literatuurstudie over ongelijkheid in het nederlandse
onderwijs. Den Haag: Voorlopige Wetenschappelijke Raad voor het Regeringsbeleid, 1975.

Er is mij meermalen gevraagd waarom ik mij zoveel moeite heb getroost om zogenaamde
tentamenmodellen te ontwikkelen waarmee ik nog maar weinig (hoger) onderwijs-proble-
men heb kunnen aanraken, laat staan oplossen*. Het antwoord kan kort zijn: die moeite
spruit ten eerste voort uit het inzicht dat de problemen waar het hier om gaat belangrijk
zijn maar tot nog toe slechts intuïtief worden aangepakt, om niet te zeggen irrationeel;
ten tweede uit het gevoel dat het soms erg inefficient kan toegaan bij het hoger raderwijs
maar dat verbeteringen mogelijk zijn; ten derde uit de overtuiging dat een systeembenade-
ring uitkomst kan brengen en ten vierde uit het inzicht dat een volledige oplossing heel
ver weg hgt en slechts stap voor stap bereikt kan worden. Ik hoop dat mijn berekeningen
anderen er toe zullen brengen ook in deze richting verder te zoeken want er moet veel
werk verricht worden; op dit gebied bestaat er nog practisch niets. Wel is de systeembena-
dering bij het onderwijs theoretisch al ver gevorderd, maar de toepassing hgt dan meer op
economisch-organisatorisch of micro-didaktisch terrein. Ons interesseert echter in het
bijzonder het probleem hoe een bepaalde verzameling van doelen (eindtermen) optimaal
kan worden bereikt, en wel niet (alleen) door variëren van het gegeven onderwijs, maar
vooral door een optimale plaatsing van de metingen (tentamens) in de tijd en het variëren
van die tentamens zelf.

In deze Notitie valt de nadruk op het onderkennen van enkele belangrijke gebreken van
het huidige tentamensysteem op de universiteit.

Systeemtheoretisch zou men moeten beginnen met een volledige inventarisering van de
eindtermen in observeerbaar gedrag. Dit komt neer op de constructie van vragen- of
item-verzamehngen, waarvan een bepaald percentage goed moet kunnen worden beant-
woord. Ik wil het hier niet hebben over het euvel dat veel van de huidige eindtermen vaag
zijn' of zelfs niet te achterhalen, of onbetrouwbaar gemeten worden met mondelinge
tentamens, of met moeilijk te scoren en daardoor uit tijdgebrek soms minder goed
gescoorde essayvragen. Neen, zelfs als de eindtermen vast liggen in de vorm van itemverza-
melingen, dan nog is er een opvallend gebrek aan rationahteit.

Een van de belangrijkste ommissies is misschien wel dat men zich niet realiseert of wil
reaÜseren wanneer de eindtermen bereikfmoeten zijn. In het normale geval heeft de
student de kennis later nodig bij de uitoefening van zijn beroep. Dan is de kennis echter
niet meer door de universiteit te meten en het ligt dus voor de hand het intermediaire
doel te accepteren van een tweede meting op het laatste moment van de studie, bij het
doktoraalexamen. Er zijn andere mogelijkheden denkbaar, die echter wel op ée'n rij
geplaatst kunnen worden. Aan de ene kant bevinden zich de vakken die na de studie nodig
zijn m het beroep, aan de andere kant zijn er vakkeif die alléén van nut zijn als
ondergrond voor het bestuderen van de eerste groep vakken. Die vakken die alleen als
ondergrond nuttig zijn kan men vóór in de studie plaatsen: en dat wordt natuurlijk ook
overal gedaan. Maar men kan zich wel afvragen in hoeverre deze - laten we het noemen

♦ Zie "Het derde tentamenmodel met een toepassing", Tijdschrift voor Onderwijsresearch, 1976, 1,
nr. 4, 161-171, waarin verdere verwijzingen.

propedeutische - vakken toch óók niet nodig zijn bij de beroepsuitoefening. In de mate
Waarin dat het geval is worden deze propedeutische vakken gewoonlijk in het huidige
systeem verwaarloosd, want gevreesd moet worden dat vele studenten er bij het afstuderen
Weinig of niets meer van weten. Nogmaals, als die vakken alleen maar dienen om aan
andere vakken te kunnen beginnen, dan is daar geen bezwaar tegen. Maar als bijvoorbeeld
een psychologiestudent bij zijn afstuderen practisch niets meer van statistiek of testleer
afweet, dan is er kennelijk iets mis in het systeem.

Het euvel is al heel oud en wellicht ontstaan bij de invoering van vrijstellende tentamens,
die een aanmerkelijke verkorting van de studieduur mogelijk schenen te maken. Ongetwij-
feld realiseerde men zich toen ook wel de gevaren van deze tentamens: de student weet
Weinig meer van dè stof tegen de tijd dat hij afstudeert. Maar men had geen keus: alles
alléén meten bij het eindexamen kost te veel tijd voor de student. De fout ligt in de
rigiditeit van het oude systeem. Het is daar allemaal een kwestie van alles of niets, een
gedachte die men terugvindt in het modewoord 'mastery'. Beheersing is een nuttig begrip
bij basis-vakken, maar als men overal een rigide grens trekt tussen beheersing of niet dan
Wordt het onderwijs nodeloos inefficient. Juist bij de vakken die men later nodig heeft in
het beroep moet de vaardigheid gezien worden als een continue variabele, waarbij ook
flexibele aftestgrenzen gehanteerd moeten worden.

De oplossing die sommige docenten reeds jaar en dag toepassen, maar dan intuitief en uit
de vrije hand, is in principe waarschijnlijk juist: Men moet dezelfde stof twee maal (of nog
Vaker) examineren: éénmaal als (eventueel propedeutisch) tentamen met een hoge aftest-
grens - mastery - en later nogmaals bij het eindexamen, maar dan met een meestal veel
lagere grens. Alleen bij de weinige echte propedeutische vakken is dat niet nodig.
Hoewel deze oplossing waarbij getracht wordt door herhaald tentamineren meer blijvende
kennis bij te brengen, voor de hand ligt en door velen wel beaamd zal worden, is het
moeilijk om het geheel te realiseren. De gebruikelijke 'oplossingen' uit de losse hand
kunnen natuurlijk niet optimaal zijn. Een échte oplossing veronderstelt in de eerste plaats
dat de prestaties gekwantificeerd worden, maar dat is niet voldoende. Men moet vooral
Weten wat men precies wil, welke som van vaardigheden precies vereist wordt, en wat men
precies wil optimaliseren. Bij vele systeembenaderingen minimaliseert men bijvoorbeeld
de kosten in geld uitgedrukt. Maar hier zou een vruchtbaarder aanpak zijn om, gegeven de
eisen, de tijd van de student te minimaliseren. Dat kan dan gebeuren door een uitgekiend
systeem van tentamens en examens te ontwerpen waarbij de vakken in de beste volgorde
liggen, met de optimale perioden tussen de tentamens en een optimale aftestgrens bij elk
tentamen. Voorts moet er voor gezorgd worden dat het totaal van technisch mogelijk te
construeren items optimaal over alle tentamens verdeeld wordt. En er moet bijvoorbeeld
ook worden nagegaan of en hoe tentamens gecombineerd kunnen worden, conjunctief of
compensatorisch, en in hoeverre tentamens beter in delen gesplitst kunnen worden. Wat
dit laatste betreft is duidelijk dat hoe meer een tentamen gesplitst wordt in delen die
afzonderlijk worden afgelegd, hoe minder moeite het voor de student kost, maar ook, hoe
minder hij nog van de totale stof weet aan het einde van zijn studie. Er moet een optimale
oplossing zijn bij gegeven eisen op het doktoraalexamen.

Het spreekt vanzelf dat een dergelijke systeembenadering niet denkbaar is zonder een
model omtrent leren en vergeten van tentamenvaardigheden; het spreekt eveneens vanzelf
dat dergelijke modellen empirische steun behoeven. Men zal echter èrgens moeten
beginnen, met een min of meer plausibel model en bij de eenvoudigste problemen. Doet
men dat, dan merkt men al spoedig dat de problemen mathematisch en programma-tech-

nisch niet eenvoudig zijn, maar anderzijds toch wel oplosbaar. De gecompliceerdheid
betekent echter dat men slechts langzaam opschiet, tenzij eindelijk vele deskundigen zich
over deze problematiek buigen.

Tenslotte de vraag of de ontwikkeUng van een uitgebreid en empirisch getoetst examen-
model veel zal kunnen veranderen aan het (hoger)-onderwijs. Daar ben ik wel van
overtuigd. Heeft men eenmaal de eindtermen en het optimalisatieprincipe dan wordt
immers onvermijdeUjk het hele onderwijsproces in het probleem betrokken.
Het zou bijvoorbeeld kunnen blijken dat men het vastgestelde percentage bij het afstude-
ren te kennen items met een andere onderwijsmethode veel sneller kan bereiken; bijvoor-
beeld met korte syllabi in plaats van uitvoerig uitleggende en uitwerkende boeken, of juist
omgekeerd. Men heeft dan in het tentamenmodel de 'geïsoleerdheid' en de moeilijkheid
van de stof gevarieerd. Het zou ook kunnen blijken, dat, wil men bij het afstuderen in een
bepaalde tijd een bepaalde kennis als eis stellen, men grote hoeveelheden stof beter kan
laten vervallen en dat men beter minder stof intensief kan laten bestuderen. In andere
gevallen zou het omgekeerde kunnen blijken. Eén hypothese luidt dat de omvang van de
stof in de sociale wetenschappen drastisch moet worden verminderd om de kennis bij het
afstuderen juist te kunnen verhogen; die kennis is nu immers grotendeels schijn omdat de
student het meeste weer vergeten is daar hij er op rekent die kennis alleen nodig te
hebben bij het vrijstellend tentamen. Maar misschien is het tegenovergestelde juist en is
het heel heilzaam om, zoals nu de gewoonte is, de student duizenden bladzijden weinig
samenhangende stof te laten consumeren en daarvan weinig te vragen. Dat moet juist
blijken uit empirisch onderzoek, maar dan steeds uitgaande van een dynamische onder-
wijstheorie, d.w.z. dat rekening gehouden wordt met leer- en vergeet-curven. Het 'tenta-
menmodel' zou hiertoe welUcht een eerste bijdrage kunnen leveren.

Statistical Methods for Educational and Psychological Research
New York: McGraw-HÜl, 1974.

Dit boek, uitgegeven in de McGraw-Hill Series in Psychology, geeft een inleiding tot een aantal
praktische methoden van de Bayesiaanse statistiek. Het omvat 456 pagina's, verdeeld over 10
hoofdstukken, gevolgd door 23 tabellen. De hoofdstukken zijn verdeeld over drie delen waarvan nu
eerst een korte beschrijving.

In deel Een (problems, data and probability models) wordt het basisgereedschap voor de verdere
theorievorming ontwikkeld. Aan de hand van konkrete voorbeelden worden eerst de problemen
aangegeven waarvoor de statistiek een oplossing moet bieden. Vervolgens worden -zeer in het kort- de
axioma's en de elementaire definities van de waarschijnlijkheidsrekening ontwikkeld. In het laatste
hoofdstuk van dit deel wordt het regressieprobleem, dat in hoofdstuk 1 al is aangegeven, nader
toegelicht met behulp van het begrip voorwaardelijke verwachting; aansluitend worden een aantal
aspekten van de klassieke psychometrische testtheorie besproken in dezelfde terminologie.
Deel Twee (elementary Bayesian methods) is op analoge wijze opgebouwd: na een uitvoerige uiteen-
zetting over de Bayesiaanse schattingsmethoden voor het binomiale model aan de hand van konkrete
gegevens volgt een hoofdstuk waarin de theorie en methodologische achtergronden van de Bayesiaanse
aanpak worden besproken. Dit deel wordt afgesloten met een eveneens uitvoerige uiteenzetting over
Bayesiaanse schattingsmethoden voor normale verdelingen.

Deel Drie (Bayesian methods for comparing parameters) behandelt de vergeUjking van twee normaal
Verdeelde populaties, nogmaals het regressieprobleem -nu vanuit de normale verdehngstheorie- en de
analyse van kategorische gegevens. Dit laatste onderwerp is vooral op een aantrekkelijke wijze
behandeld door een aantal verschillende benaderingen naast elkaar te zetten (direkte methode,
arcsinus- en logaritmische transformaties, normale en Poisson benadering).

Voor werkers en studenten in het gebied van onderwijskunde en psychologie heeft het boek twee
prettige eigenschappen. In de eerste plaats wordt door de hele tekst een aansluiting gevonden bij de
testtheorie, de kunstmatige scheiding die wel wordt aangebracht tussen de zuivere statistiek en de
psychometrische testtheorie komt daarmee voor een groot deel te vervallen. In de tweede plaats de
reeds gesignaleerde opzet waarbij steeds uitvoerig een praktisch voorbeeld met 'real data' wordt
behandeld voordat de theorie verder wordt ontwikkeld. Deze opzet wordt ook gereflekteerd in de stijl
Waarin het boek geschreven is: de lezer wordt meegevoerd langs empirische problemen, terwijl
mathematische obstakels waar mogelijk handig worden omzeild.

Een diskussie over de voor- en nadelen van de Bayesiaanse methode in vergeUjking tot ander
statistische methoden is hier niet op zijn plaats. Over dit onderwerp zijn uitgebreide werken geschreven
(zie bijvoorbeeld Barnett, 1973). Een opmerking over de geestdrift waarmee deze diskussie vaak
gevoerd wordt moet mij echter wel van het hart. MogeUjk komt het door de professie van Bayes zelf
dat de stijl waarmee het Bayesianisme verdedigd wordt vaak zo buitengewoon domineesachtig is. Al
Wordt verkettering juist ontkend, de terminologie blijft vaak hetzelfde: 'The authors wish the
principles (...) to be understood as usefuU guides rather than as touchstones for excommunication'
(P.l51). Dit verschijnsel is des te merkwaardiger omdat een weerwoord van de 'klassieke' statistiek in
feite ontbreekt. Binnen het kader van een algemene mathematische beslissingstheorie kan nameüjk
Worden aangetoond dat onder tameUjk algemene omstandigheden zowel de Bayesiaanse als de
klassieke besUssingsregels tot de klasse van optimale besUssingsregels behoren (zie bijvoorbeeld
Ferguson, 1967). Dit neemt niet weg dat in de praktijk van de data-analyse een Bayesiaanse benadering
zowel wat betreft aansprekeUjkheid als qua uitvoerbaarheid erg handig kan zijn.

Een van de onderwerpen die men bij Novick en Jackson zal aantreffen en niet in een klassiek
statistiekboek is het begrip 'natuurUjk gekonjugeerde verdeUng'. Dit is een krachtig hulpmiddel van de
Bayesiaan dat het mogeUjk maakt zijn mathematische problemen op te lossen.

Een natuurüjk gekonjugeerde is een famiüe van a priori verdelingen van de parameters, die zo gekozen

is dat de a posteriori verdeling via standaard integraalrekening kan worden gevonden. De natuurlijk
gekönjugeerde is daarom tegelijkertijd een hulpmiddel en een keurslijf waar het de keuze van a priori
verdelingen aangaat. Om deze beknelling enigszins kwijt te raken kan de computer ingeschakeld
worden. Novick en Jackson hebben, met andere medewerkers, een interaktief computerprogramma
pakket ontwikkeld, CADA genaamd, dat aansluit bij het boek. Dit programma maakt het de gebruiker
mogelijk aan de hand van eenvoudige eigenschappen die hij voor de a priori verdeling kan specificeren
de meest geschikte uit de familie van natuurlijk gekonjugeerden te kiezen. De computer berekent
daarna op verzoek de a posteriori verdeling en een aantal statistische grootheden. Het CADA pakket is
daarom tegelijkertijd een didaktisch hulpmiddel om de stof van het boek eigen te maken en een zeer
bruikbaar programma bij de praktische toepassing van Bayesiaanse methoden op eenvoudige proble-
men in het onderzoek. Aan de universiteiten van Amsterdam en Groningen worden sinds enige tijd
kursussen gegeven waarbij boek en CADA-pakket tegelijkertijd behandeld worden.

Zoals ieder leerboek heeft ook het boek van Novick en Jackson duidelijk beperkingen. Omdat gekozen
is voor een maximale aansluiting bij praktische problemen blijft weinig ruimte over voor algemene
theorievorming die de lezer in staat zou stellen zelf verder zijn weg te vinden binnen de Bayesiaanse
statistiek. Verder ontbreekt, zoals gezegd, de konfrontatie met klassieke statistische methoden.

Samenvattend meen ik te mogen konkluderen dat dit boek aanbevolen moet worden voor onderzoe-
kers op het gebied van psychologie en onderwijskunde, en degene die daarvoor opgeleid worden, als
eerste kennismaking met de Bayesiaanse methoden. De schrijvers vermelden zelf dat het niet de
bedoeling is om met dit werk alle' statistiekkursussen binnen de opleiding te vervangen, zelfs is een
elementaire (klassieke?) statistiek kursus noodzakelijk als voorkennis.

Bamett, V. Comparative Statistical Inference. London, etc. Wiley, 1973.
Ferguson, Th. S. Mathematical Statistics. New York: Academic Press, 1967.

Multivariate Statistical Methods in Behavioral Research.
New York: McGraw-Hill, 1975. Pp. XIII + 623.

Er is de laatste paar jaar een hausse te bespeuren in het aanbod van boeken over multivariate analyse.
Zo verschenen in 1975 o.a. R.J. Harris: A Primer of Multivariate Statistics; M.G. Kendall: Multivariate
Analysis; N.H. Timm: Multivariate Analysis with Applications in Education and Psychology D J
Amick & H.J. Walberg: Introductory Multivariate Analysis, terwijl P.A. Lachenbruch een monografie
publiceerde getiteld: Discriminant Analysis en Y.M.M. Bishop, S.E. Fienberg & P.W. HoUand: Discrete
Multivariate Analysis: Theory and Practice. De belangrijkste pubUkatie op dit terrein dit jaar is de
herziene druk van D.F. Morrison: Multivariate Statistical Methods.

Bij het zien van deze lijst en in aanmerking genomen dat in voorgaande jaren tal van boeken over
multivariate analyse het licht zagen, kan men zich afvragen of er nog wel een dringende behoefte
bestaat aan weer een boek over multivariate analyse. Deze vraag is niet zonder meer te beantwoorden
omdat dit sterk afhankelijk is van het doel waar het betreffende boek voor gebruikt wordt, terwijl aan
goede boeken altijd wel behoefte bestaat. En Bock's Multivariate Statistical Methods is zo'n goed
boek; sterker nog, het is een uitstekende inleiding in de multivariate variantie-analytische methoden
voor gedragswetenschappers. Met inleiding wordt hier niet bedoeld dat dit werk zonder statistische
voorkennis te gebruiken zou zijn. De schrijver zegt zelf dat het werk bestemd is voor 'an advanced
course in behavioral statistics', waarbij uitgegaan kan worden van voorkennis betreffende elementaire
statistiek, significantie-toetsing, regressie- en correlatierekening, kleinste kwadraten schattingsmethode
en de methode van de grootste aannemelijkheid, variantie-analyse en multiple regressie-analyse. Naast
deze statistische voorkennis is een elementaire wiskundekennis (algebra, meetkunde en analyse)
onontbeerlijk.

De hoofdstukkenindeling van dit boek is als volgt. In hoofdstuk 1 komt beknopt de rol van de
multivariate statistische methoden in het gedragswetenschappelijk onderzoek aan de orde; hoofdstuk 2
behandelt de matrixalgebra in 80 bladzijden (naar mijn mening het beste overzicht van de matrix-
algebra dat in de boeken over multivariate analyse te vinden is), terwijl in hoofdstuk 3 de multivariate
normale verdeling aan de orde komt (63 blzn.).

Principes en methoden van de multivariate kleinste-kwadraten-schatting worden in hoofdstuk 4
uitgelegd (69 blzn.), lineaire modellen voor experimentele studies worden behandeld in hoofdstuk 5
(40 blzn.) en in hoofdstuk 6 die voor niet-experimentele studies, zoals modellen ten behoeve van
voorspeUing, klassifikatie, vergeüjkende studies en surveys (74 blzn.). Hoofdstuk 8 gaat over de analyse
van herhaalde metingen (59 blzn.) en het laatste hoofdstuk schenkt aandacht aan de multivariate
analyse van kwalitatieve gegevens (54 blzn.). Twee appendices zijn opgenomen, een tabel met de
gegeneraliseerde F en één voor orthogonale polynomen tot n = 10. De lijst van aangehaalde werken telt
360 items; twee keurige registers (een personen- en een zakenregister) completeren het boek.

Een vraag die men in praktische onderzoeksituaties dikwijls hoort stellen is, wat men aan statistische
toetsing met behulp van multivariate technieken nu eigenlijk heeft. Valt immers een toetsing statistisch
significant uit, dan hoeft dit resultaat noodzakelijkerwijs nog geen praktische significantie te hebben
Dit zal in het algemeen het geval zijn wanneer het aantal vrijheidsgraden (zeer) groot is, en wanneer is
dat niet het geval bij het merendeel van toegepast gedragswetenschappelijk onderzoek? Van de andere
kant zal bij een groot aantal vrijheidsgraden het nauwkeutigheidsgebied klein zijn. Moet men in een
dergelijke situatie beslissingen nemen, en zijn de kosten verbonden aan het accepteren van de
nulhypothese - gegeven dat de alternatieve hypothese waar is - groot, dan zijn dergelijke toetsen voor
de praktijk niet bruikbaar. Dit is echter nog geen reden om multivariate statistische toetsing voortaan
maar te laten. Multivariate statistische toetsing kan zeker informatief zijn met name bij de interpretatie
van onderzoeksresultaten verkregen uit goed opgezette experimenten.

Belangrijker en dikwijls informatiever dan hypothesetoetsing zijn multivariate schattingsprocedures.
Deze hebben nog zeer wemig toepassing gevonden in onderzoek waarbij gebruik gemaakt wordt van
multivariate variantie-analyse. Twijfels aan het nut van multivariate analyse (met uitzondering van
principale componenten-analyse) voor empirisch wetenschappelijk onderzoek in het algemeen heeft
Kempthorne als volgt onder woorden gebracht. 'I have never used or suggested the procedure of
statistical analysis based on the theory presented so excellently by Dr. Anderson (T.W. Anderson: An
Introduction to Multivariate Statistical Analysis. 1958). Also I have yet to see convincing examples of

experimental data in which standard techniques of multivariate analysis have led to scientific insight'
(Kempthorne, 1966). Naar de mening van deze auteur worden onderzoeksvariabelen om hun intrin-
sieke waarde gemeten en dient de onderzoeker daarom ook een univariate analyse voor elk van de
onderzoeksvariabelen afzonderlijk uit te voeren, wanneer hij geïnteresseerd is in verschillen tussen
gemiddelden. Kempthorne gaat hierbij van de veronderstelling uit dat de onderzoeker inzicht heeft in
hetgeen de afzonderlijke variabelen meten. Dat dit zou gelden voor de onderzoeker uit de gedrags-
wetenschappen blijkt maar al te vaak een illusie te zijn. Of deze onderzoeker door toepassing van
multivariate technieken uit het probleem komt, is natuurlijk maar de vraag.

Een assumptie die een centrale plaats inneemt in de ontwikkeling van multivariate statistische
technieken is die van de multivariate normaliteit. Een boek over multivariate statistische analyse zal
dan ook aan dit onderwerp ruime aandacht moeten besteden. Bock tracht dit in het derde hoofdstuk
te doen, maar verzuimt daarbij het belangrijke werk van Mardia (1970, 1971) en van Andrews et al.
(1973) te noemen. Onvoldoende is ook de uiteenzetting over de robuustheid van multivariate
technieken bij schending van de andere assumpties. Zijn multivariate statistische procedures relatief
ongevoelig voor afwijking van normaliteit wanneer het gaat om toetsing van gemiddelden, dit geldt niet
noodzakeüjkerwijs voor toetsing van hypothesen die betrekking hebben op variantie-covariantie
matrices (Ito, 1969). Heteroscedasticiteit vormt eveneens een probleem voor multivariate toetsing. Ito
(1969) heeft alternatieve toetsingsprocedures ontwikkeld voor gevallen waarin heteroscedasticiteit
duidelijk optreedt. Korin (1972) echter laat zien dat een aantal multivariate toetsingsprocedures wel
degelijk robuust zijn voor afwijkingen van homoscedasticiteit. Eerder had HoUoway (1967) dit
aangetoond voor Hotellings T^.

Zeer spaarzaam is Bock met zijn informatie over exakte verdelingen van verschillende multivariate
toetsingsgrootheden, terwijl dit onderwerp toch ruime aandacht krijgt in tijdschriften als Biometrika,
Journal of Multivariate Analysis, Sankhya en het Journal of Computational Statistics. Eveneens
ontbreken verwijzingen naar tabellenverzamelingen. Zelf geeft Bock in Appendix A een uitgebreide
tabel van de gegeneraliseerde F, die uit Roy's grootste-wortel-kriterium (de wortel van S^Sj') te
berekenen is. Had Bock de bekende nomogrammen van Heek overgenomen, dan zou dat een
aanzienlijke ruimtebesparing gegeven hebben. Deze ruimte zou dan gebruikt kunnen worden voor
andere tabellen. Nu zal de gebruiker die de behoefte heeft aan andere toetsingsgrootheden zijn
toevlucht moeten nemen tot b.v. Roy et al. (1971) of de nieuwe druk moeten raadplegen van
Morrison, die een sterk uitgebreide verzameling van de nomogrammen van Heek heeft opgenomen.
Het lag oorspronkelijk in de bedoeling van Bock een hoofdstuk op te nemen over de analyse van
covariantie-structuren, afgekort ACOVS. Dit blijkt uit de voorlopige en gestencilde versies van dit boek
die sinds 1972 in omloop zijn. Het is niet helemaal duidelijk waarom de auteur van dit voornemen
heeft afgezien. Het lijkt niet onaannemelijk dat de reden gezocht moet worden in het feit dat ACOVS
niet alleen voor toetsing van gemiddelden geschikt is, maar ook gebruikt kan worden als algemeen
model voor factor-analyse en andere multivariate technieken. Bock heeft zich echter willen beperken
tot het algemene probleem van toetsing van gemiddelden (van vectoren) en de daarmee verband
houdende problemen. Een bijkomende reden is waarschijnlijk dat in de tijd dat Bock zijn manuscript
persklaar maakte, ACOVS volop in ontwikkeling was (Jöreskog, 1973).

In het hoofdstuk over multivariate analyse van kwalitatieve data ontbreekt ook het een en ander.
Ondanks het feit dat Bock een leerling is van Roy (het boek is aan hem opgedragen), wordt het werk
van Roy c.s. op het gebied van kategorische data niet genoemd (Roy, 1957; Bose et al., 1970).
Evenmin maakt de auteur melding van de belangrijkste Europese ontwikkeling op dit gebied (Fischer,
1974).

Het gedeelte over multiple vergelijking is eveneens onvolledig. Natuurlijk kan geen enkel boek over
multivariate statistiek volledig zijn. Maar Bock had naast de door hem behandelde (conservatieve)
betrouwbaarheidsintervallen van Roy, aandacht moeten besteden aan Krishnaiahs (1969) procedures
die kortere intervallen opleveren.

Wat men in dit boek van Bock vergeefs zal zoeken zijn nonparametriSche multivariate technieken en
multivariate data-analytische procedures. Zelfs verwijzingen naar relevante literatuur ontbreken. Of de
ontwikkeling van de nonparametrische multivariate analyse een sterke invloed zal hebben op het doen
en laten van de onderzoeker uit de empirische wetenschappen valt te betwijfelen. De winst die
toepassing van deze procedures oplevert in vergelijking met de parametrische aanpak lijkt gering.
Weliswaar wordt van veel zwakkere assumpties uitgegaan, maar daar staat tegenover dat het merendeel
der schattingsproblemen theoretisch nog niet opgelost is. Overigens laat de literatuur over nonparame-
trische multivariate analyse zich niet gemakkelijk lezen (zie b.v. Puri en Sen, 1971). Minder technische

overzichten, waarin eveneens toepassingen worden gegeven ontbreken vooralsnog. Meer belovend zijn
de multivariate data-analytische procedures. In tegenstelling tot de mathematisch-statistici nemen
data-analytici een flexibeler houding aan tegenover de klassieke schattingsproblematiek en hypothese-
toetsing. Data-analytici houden zich meer bezig met heuristieken en algorithmen voor data-reductie
expositie van structuren, verkenning van nonlineariteiten en nonsingulariteiten (Gnandesikan & Wilk,
1969; Tukey, 1976; Benzécri, 1973; zie voor een overzicht Van der Kamp en Veldhuijzen, 1976).

Het is duidelijk dat degene die een boek over multivariate analyse wenst te schrijven een keuze moet
maken uit een veelheid van onderwerpen die van belang zijn. Ook Bock heeft een keuze moeten doen
en niet overal lijkt deze keuze optimaal geweest te zijn. (Of de keuze al dan niet optimaal is, kan over
getwist worden. Niet voor iedereen zijn in een dergelijke keuze-situatie de te optimaliseren kriteria
gelijk.) Het is geen boek als dat van T.W. Anderson geworden; mathematisch-statistici zullen dan ook in
Multivariate Statistical Methods weinig van hun gading vinden. Dit boek is eerder bestemd voor
studenten en onderzoekers uit de gedragswetenschappen. Voor deze kategorie lezers is dit op het
ogenbhk het beste werk dat beschikbaar is over multivariate toetsing en schatting. De materie wordt
helder en overzichteüjk gepresenteerd, de voorbeelden die alle betrekking hebben op konkrete
onderzoeken zijn goed uitgewerkt, de onderlinge relaties tussen de behandelde methoden komen goed
tot hun recht en de opgaven zijn in hoge mate instruktief. Wordt dit werk als 'textbook' gebruikt aan
o.a. de School of Education, UCLA en aan de University of Chicago, het ziet er niet naar uit dat dit
boek een verplicht studiewerk zal worden in ons hoger onderwijs. Daarvoor zal over het algemeen te
weinig tijd in het onderwijsprogramma beschikbaar zijn, terwijl het gros van de studenten de nodige
ondergrond mist. Wie weet, is het iets voor het post-academisch onderwijs, zo dat ooit van de grond
komt.

Tot slot een goede raad aan degenen die in hun onderzoek op een verantwoorde wijze gebruik willen
maken van multivariate statistiek. Doe aUe boeken die pretenderen multivariate statistische methoden
te behandelen van de hand (maak een uitzondering voor de nieuwe druk van Morrison). Gebruik c.q.
raadpleeg Bocks Multivariate Statistical Methods for Behavioral Research en hou het ACOVS-werk van
Jöreskog in de gaten.

Amick D J & Walberg, H.J. Introductory Multivariate Analysis. Berkeley, Calif.: McCutchan, 1975.
AnHrpw« D F Gnadadeslkan, R. & Warner, J.L. Methods for assessing multivariate normaUty. In:

P R iüisnaiah (Ed.) Multivariate Analysis III. New York: Academic Press, 1973, Pp. 95-116.
Benz'écri J P et al. L Analyse des Données. Tome I, La Taxinomie; tome II, L'Analyse des correspon-
dances Paris: Dunod, 1973.
Bishop Y M M., Fienberg, S.E. & Holland, P.W. Discrete Multivariate Analysis: Theory and Practice.

Cambridge, Mass.: MIT-Press, 1975.
Bose R C Chakravarti, I.M. Mahalanobis, P.C., Rao, C.R. and Smith, H. (Eds.) Probability and

Statistics. Chapel Hiü, N.C.: Univ. of North Carolina Press, 1970.
Fischer G.H. Einführung in die Theorie psychologischer Tests. Bern, Stuttgart, Wien: Hans Huber
Verlag, 1974.

Gnanadesikan, R. & Wilk, M.B. Data analytic methods in multivariate statistical analysis. In: P.R.

]^[\shi\a\d:h('Eà.')MultivariateAnalysisII. New York: Academic Press, 1969. Pp. 593-638.
Harris A Primer of Multivariate Statistics. New York: Academic Press, 1975.
HoUoway, L.N. The robustness of Hotelling's T'. Journal of the American Statistical Association,
1967,(52, 124-136.

Ito K On the effect of heteroscedasticity and non-normality upon some multivariate test procedures.
In- P R. Krishnaiah (Ed.) Multivariate Analysis II. New York: Academic Press, 1969. Pp. 87-110.

K G Analysis of covariance structures. In: P.R. Krishnaiah (Ed.) Multivariate Analysis III.
New York: Academic Press, 1973. Pp. 263-285.
Kempthorne O. Multivariate responses in comparative experiments. In: P.R. Krishnaiah (Ed.) Multi-
variate Analysis I. New York: Academic Press, 1966. Pp. 521-540.
Kendall U G. Multivariate Analysis. London: Griffin, 1975.

Korin, B.P. Some comments on the homoscedasticity criterion M and the multivariate analysis of
variance tests T^, W, and R. Biometrika, 1972, 59, 215-216.

Kiishnaiah, P.R. Simultaneous test procedure under general MANOVA models. In: P.R. Krishnaiah
(EA.) Multivariate Analysis II. New York: Academic Press, 1969. Pp. 121-144.

Mardia, K.V. Measures of multivariate skewness and kurtosis with appUcations. 5iomem'AMi, 1970,57, »

Mardia, K.W. The effect of nonnormality on some multivariate tests and robustness to nonnormality
in the linear model. Biometrika, 1971, 58, 105-121.

Morrison, D.?. Multivariate Statistical Methods (2n Ed.). New York: McGraw-Hill, 1976.

Puri, M.L. & Sen, V.Yi. Nonparametric Methods in Multivariate Analysis. New York: Wiley, 1971.

Roy, S.N. Gnanadesikan, R. & Srivastava, J.N. Analysis and Design of certain Quantitative Multi-
response Experiments. Oxford: Pergamon, 1971.

Timm, N.H. Multivariate Analysis with Applications in Education and Psychology. Monterey: Brooks/
Cole, 1975.

Van der Kamp, L.J.Th. & Veldhuijzen, N.H. Data-analyse en het jaapmes. Gedrag, 1976,4, 65-79.

Als vervolg op de Onderwijsresearchdagen in Amsterdam (1974) Enschede figTSI p r
(1976) organiseert de Stichting Onderwijsresearch in 1977 twee Onderwijsresearchdagen in ZX"
dam.

Plaats: Hoofdgebouw VU, De Boelelaan 1105, Amsterdam
Data: woensdag 6 en donderdag 7 april 1977

Deelname: De kosten van deelname aan het kongres bedragen ƒ70,- p.p. (excl. overnachting ontbijt
en diner)

Aanmelding: Kan geschieden vanaf 1 december 1976 door storting van de kosten op bankrekeninpnr
548144923 bij de A.B.N. te Amsterdam t.g.v. ORD'77 onder vermelding van naam en Xs va„ de
deelnemer(s). (Postgirorekening A.B.N. Amsterdam is 6269). "

Voor studenten geldt een reduktieregeling, zij kunnen zich schriftelijk aanmelden bij het sekretariaat

Onderzoekers worden opgeroepen aan de Onderwijsresearchdagen 1977 een bijdrage te leveren donr-

a. een paper in te brengen over eigen onderzoek en/of reflekties over dat onderzoek (vóór 15 decem-
ber a.s.)

c. opgave te doen aan het sekretariaat )vóór 15 december a.s.) dat men materialen wil oresenteren in
de te vormen stands op de ORD'77. H>"ciKcren m

Sekretariaat: ORD'77, Kohnstamm Instituut, Keizersgracht 119-121, Amsterdam (tel,: 020 - 229471)
Discussiebijeenkomst ovei T.O.R.-artikelen

Zoals in het verleden gebruikeUjk was t.a.v. D.P.O.-nummers, houdt de Werkgroep Meetmethoden/
Stichting D.P.O. i.o. op donderdag 16 december a.s. een discussiemiddag n.a.v. de inhoud van recente
nummers van het Tijdschrift voor Onderwijsresearch.

De betrokken auteurs zullen daarbij aanwezig zijn. Alle belangstellenden zijn van harte welkom
Tijd: 16 december 1976

Plaats: Psychologisch Laboratorium, Un.v.Amsterdam, Weesperplein 8, Amsterdam, zaal 257
Reisverslagenkollektie VOR

De VOR is begonnen met de aanleg van een reisverslagenkoUektie, die voorlopig berust bii de
Vakgroep Onderwijskunde in de T.H. Twente. Het is de bedoeUng dat de vaak in zeer kleine oplaae
verschijnende rapporten van 'reizigers' op deze manier toegankelijk worden vooralle onderwijskundi
gen. Er wordt gestart met een klein aantal rapporten en reisbrieven over onderwijs en onderwijs
research, afkomstig van Nederlandse onderzoekers die in de V.S. zijn geweest. In het voorjaar van 1977
zal een eente, op auteursnaam gerangschikte, Ujst van titels verkrijgbaar zijn bij
Secretariaat Vakgroep Onderwijskunde
Technische Hogeschool Twente
Postbus 217 ENSCHEDE teL 053 - 892750
Deze Ujst wordt regelmatig aangevuld.

Uitlening: uitsluitend via bestaande bibliotheken, aUeen als er meer dan één exemplaar van het rapport
aanwezig is in de koUektie. ^^

Opname van rapporten: toezending van verslagen en reisbrieven van 'onderwijskundige reizigers' wordt
zeer op prijs gesteld. Zo mogelijk m drievoud. Ook oude verslagen of overdrukken van artikelen ziin
welkom. '

Berghs W.A.H. & Verhoeven A.F.M. Beschrijvings-vragenlijsten: Vragenlijsten DB, OGD en Att uit het
doceerstijlenonderzoek met terugkoppelingsprocedure. SVO-projekt-0256. Nijmegen: NIVOR,
1976.

De Groot, A.D. Een werk-model voor de 'normstudent'. Deel 1 Algemeen Model, Deel II Verdelingen
en parameter-keuzen. RITP-memorandum nr. 063 en nr. 070. Amsterdam: RITP, 1976.

Dronkers, J. Studenten en hun onderwijs: Een onderzoek naar de wisselwerking tussen universitair
onderwijs en studenten. Groningen: H.D. Tjeenk Willink, 1976 (= Empirische Studies over
Onderwijs no. 20).

Elzinga, C.H. Methodologisch-statistische aanbevelingen voor het afstemmingsprojekt S. V.O.-projekt
0256. Nijmegen: NIVOR, 1976.

Good, Thomas L., Biddle Bruce J. & Brophy Jere E. Teachers make a difference. New York: Holt,
Rinehart & Winston, 1975.

Soudijn, Karel. Dilemma's in sociaal-wetenschappelijk onderzoek. Meppel: Boom, 1976.

Stemerdink G.J. Regrati: Een computer-programma voor het aantonen en zkhtbaar maken van
Aptitude-Treatment-Interacties volgens regressieanalytische technieken. S.V.O.-projekt 0256.
Nijmegen: NIVOR, 1975.

Van der Krogt, Ferd. J. Bibliografie Scholen Datafeedback en Innovatie. Nijmegen: NIVOR, 1976.

Van der Krogt, Ferd. J. Datafeedback Scholen en Innovatie. Nijmegen: NIVOR, 1976.

V.O.R., Onderwijsonderzoek en de Contouren-nota. Verslag van VOR-bijeenkomsten op 24 januari en
11 juni 1976.

	schaal- breedte	verschil	geschatte invloed regressie	percentage van het gevonden verschil
schoolkeuze	2-7	2.1	.13	6%
bereikt opleidings- niveau	1-9	2.6	.18	7%
beroeps- niveau	1-6	1.1	.13	11%
opleidings- eis laatste beroep	1-9	1.8	.11	11%

Table 3
The numbers of children, who attempted all items of the test.
test	5th graders	6th graders
Synonyms	156	213
Cut figures	107	131
Contrasts	325	435
Rotation	330	405
Word analogies	343	408
I'igure analogies	230	333
The total number of children in each sample is equal to 1000.

			RESPONSE
			mondeling	schriftelijk		plaatjes
			vrij	vrij	1 keuze	keuze
	•O		een g.w. nazeggen	een gedikteerd g.w.	een gedikteerd g.w.	bij een gedikteerd
	n			opschrijven	uit een reeks	g.w. de juiste
				CA2	kiezen	afbeelding kiezen
'S					GA3	GAl
0 1			een g.w. lezen	een g.w. over-	uit een reeks g.w.	bij een voorgelegd
	CA			schrijven	hot voorgelegde	g.w. de juiste af-
a .O					g.w. kiezen	beelding uit een
O			GV2			reeks lezen GVl
			de afbeelding	bij een afbeelding	uit een reeks hot
	"c.		van een g.w.	het passend g.w.	bij een afbeelding
			benoemen	schrijven	passend g.w. kiezen
				GBl	GB2
	-a		een letter nazeg-	een gedikteerde	een gedikteerde
	ea		gen	letter opschrij-	letter uit een
				ven LAl	reeks kiezen LA2
O			een letter lezen	een letter over-	een voorgelegde
				schrijven	letter uit een
			LVl		reeks kiezen
			een passend g.w.	een woord op-	uit een reeks het
		•O	bij een gedikteer-	scluijven met	g.w. kiezen met
			dc letter noemen	bepaalde letter	een bepaalde
	c CJ			op een aange-	letter op een aan-
	"3 T)			geven plaats	gegeven plaats	g.w.=
				SAS	SA6	globaalwoorden
	c O		een passend g.w.	aanvullen tot een	uit een reeks aan-	w.w. =
•5			bij een voorgeleg-	g.w.	vullingen bij een	wisselwoorden
s			de letter noemen		inkompleet g.w. de
8					juiste kiezen
				SV2-SV4	SV3
<D			een bepaalde letter	uit een gedikteerd	uit een reeks de
s 3		•O	een gedikteerd	g.w. een bepaalde	letter kiezen die bij
V)		s co	g.w. noemen	Jetter opschrijven	een gedikteerd g.w.
	•a				op een aangegeven
	O O				plaats staat
				SA4	SA2
			een bepaalde letter	uit een gedikteerd	uit een reeks de
			uit een voorgelegd	g.w. een bepaalde	letter kiezen die bij
			g.w. nomeen	letter aangeven	een voorgelegde
					g.w. op een aange-
				SVJ	geven plaats staat
	T3		een w.w. nazeggen	een gedikteerd	een gedikteerd w.w.
S	TO			w.w. opschrijven	uit een reeks kiezen
1				WAl	WA2
			een w.w. lezen	een w.w. over-	uit een reeks w.w.
	f		WVl	schrijven	het voorgelegde
			WVl		w.w. kiezen

= 0.9836	1.934
= 0.9050	12.173
= 0.9493	6.192
= 0.8696	17.396

^44	= 8.4484	tt44 ttl4 tt24 t.34	= 9.0597
	= 6.0208		= 5.1576
-24	= 5.9288		= 4.5287
	= 7.1893		= 7.4731

Aanleiding	aantal	%
geen of nauwelijks	31	17
rest niet aantrekkelijk	19	10
aansluiting op opleiding of beroep	11	6
tweede keuze (m.n. medicijnen)	20	11
interesse in menselijk gedrag	62	34
mensen helpen, jezelf kennen, maatschappij veranderen	16	9
door anderen bewogen, onvrede met beroep e.d.	14	8
overige	10	5
totaal	183	100

vooropleiding	x	s	n
bèta	47.70	5.81	54
alpha	42.55	6.50	47
HBS-B	42.52	7.46	62
HBS-A	37.82	7.05	65

G	M	SD	Ni	Nl	KR20	MAKS
12.2	14	2.26	14	257	.76	.96
13.6	14	1.54	14	308	.91	.99
13.8	14	1.02	14	288	.80	.94
11.5	13	2.38	13	298	.84	.94
14.8	15	.72	15	301	.74	.91
13.5	14	1.49	14	279	.85	.96
13.7	15	2.26	15	433	.83	.94
11.7	13	3.07	15	304	.79	.97
14.1	15	1.64	15	294	.75	.96
13.1	15	2.74	15	432	.85	.96
14.0	15	2.14	15	298	.86	.97
13.3	15	2.61	15	286	.84	.98
11.7	14	3.19	15	296	.81	.97
14.1	15	1.63	15	293	.75	.96
14.5	15	1.44	15	294	.84	.98
13.2	15	2.17	15	279	.73	.96
13.1	15	2.86	15	285	.86	.96
13.8	15	1.85	15	306	.73	.97
9.2	13	4.59	15	277	.91	.98
14.0	15	1.66	15	298	.73	.94
8.6	15	5.41	15	432	.94	.98
2.8				314
21.1		8.13		327
6.5		.59		394
6.4		.62		338
33.3		14.60		363

1				10		8		7					4			2J		7			S	5
2^					4															2			5	3		2			2
3																				4	■3)	1
4	4			6											5			4										5
5		4	3		2'		9	5	1	1		10			8	6		6	4		5		6	6	4		8	8
		1	1	1	1		1	1				2	1		1 '			1	1		1		1		1		2	1	7
		2	2	7								8			6	5		5				3						6
		3l		9			8		4		4	9		5	7							4	4		5	7	7	7	5
	1						2	2									1
																					4
															3				2	6							4
															4	4	3	3	3	7				5	3		6		4
																				3						'3
—																						'z				5
—																								4				'3'
																										6
																											3		3
						3														1			3					2
						4								4
						7																		7				9
						10						4		1										1		8	1
							4																			4
							7																	2		9	10		6
									3
											'1 '	3
												7

	2			5		5	5	4		5		5			2	1	2	[2'										4
	3*						6				3	6															5
	5				5					4										8
	6		4		3	6	10	6				T;		6						9							9
	7												2							10
	8		5	11		9	11	8	2	3	5	11			9	3	4	8	5	11		6						10
—				f2'
—				3				3												5
				4
				8					5
						2					2			2							2			6	2	1			1
5 6		4	5	11	5	10	11	8	5	5	5	11	4	6	9	6	4	8	5	11	6	6	6	8	5	9	10	10 7

			Fi	dfb	dfe
4 lang.	C4	= 0.8696	17.396	1	116	0.02
2 arith.	C2.4	= 0.6296	67.644	1	115	0.02
1 read.	C1.4,2	= 0.9431	6.885	1	114	0.005
3 spell.	^3.4,2,1	= 0.9901	1.135	1	113	0.005

""P variabele	gestand, regressie- coëfficiënt P	P03o=0)	multiple R'	toename van R'
(.kriteriumtoets 2 Samenstelling van globaal aangeleerde woorden-V	.786	.000	.789	.789
	.091	.000	.797	.008
	.062	.000	.808	.011
'' Aanleren van begrippen-V	-.042	.061	.835*	.001
P(R) <.025
prestaties op criteriumtoets 4	- individueel (N = 499).
variabele	gestand, regressie- coëfficient (3	Ptfo)=0	multiple R'	toename van R'
^ Criteriumtoets 3	.671	.000	.649	.649
^ Analyse-oefening-V	-.122	.001	.657	.008
Bijbrengen begrip over relatie tussen woorden	-.075	.000	.667	.010
	.081	.143	.701*	.001
P(R)<.025
Verklaring prestaties op criteriumtoets 4	- klassikaal (N = 499)
'''P variabele	gestand, regressie coëfficiënt	P(/3o=o)	multiple R'	toename van R^
Criteriumtoets 3	.427	.000	.397	.397
Criteriumtoets 2	.207	.001	.427	.030
Vertellen-leerUng	-.133	.000	.441	.014
^ IQ	.072	.029	.459	.018
	.048	.155	.498*	.002

Hoog soc. milieu	IQ	Laag soc. milieu
Studie : Economie -	101	- Timmerman
„ Wiskunde -	107	— Verkoopster
„ Tandheelkunde -	114	- Tegelzetter
„ Psychologie -	108	— Bankcontroleur
„ Rechten —	108	— Scheepstekenaar
„ Advocate —	112	- Machinestikster
Pedagogie	108	- Démonstratrice
„ Notariaat -	96	— Verwarmingsmonteur

keurlingen	perc. dat	verschil	reserve als	reserve van
die > 25	s.o. heeft > 44	perc. met	perc. van feiteUjk	Ruiter perc.
scoren op		hogere empl.	aantal dat een	van feitelijk
matrixtest			s.o. heeft > 44	vhmo
			ongeacht matrix score
	(2)	(3)	(4)	(5)
Agrarische
bedrijfshoofden	28,8	35,1	103	172
Niet-agrarische
bedrijfshoofden	49,6	14,3	23	46
Hogere employés	63,9	0,0	0	0
Middelbare	63,9
employés	47,8	16,1	271	51
Lagere	47,8
employés	36,3	27,6	59	86
Zelfstandige	36,3
middenstanders	30,3	33,6	87	118
Agrarische	30,3
arbeiders	22,1	41,8	153	589
Niet-agrarische	22,1
arbeiders	20,6	43,3	165	371
Totaal	36,7	27,2	61	104

(1)	(y-y)t	= f(KMOt,KMt,KBPt)	(6)	KM,	=jr-jt
(2)	KMOt	= yt"-yt	(7)	j.*	= Mt(jt)
(3)	Yt	= git(OAt,j,)	(8)		= m(M,,a2j,...)
(4)	ym	= g2t (OA„j,)	(9)	KBPt	= BPt - BP°Pt
(5)	g2t+l	= h(g2,,ai,,...)	(10)	BPt+,	= n(BP„a3j,...)

O			CO	00		V£>	ON	00	O	00	VI
ON		»-t	ON	ON	ON	ON	in	■<1;		p
	CO		•<t	<N		--	CO			rn	CNl