Kun je ook anders toetsen?

Ja, dat kan. Sterker nog: Nederland is een van de weinige beschaafde landen waarin zo vroeg, zo veel en zo excessief wordt getoetst. Een goed alternatief is criteriumgericht beoordelen. Meer weten over het verschil tussen normreferencing en criteriumgericht beoordelen en over betrouwbaarheid en validiteit: lees hieronder verder.

Relatief of absoluut beoordelen van leerprestaties

Om individuele prestaties of kenmerken te kunnen beoordelen is een beoordelingsnorm nodig. Er zijn grofweg twee manieren tegenover elkaar te zetten die daar totaal anders mee omgaan. Bij normreferencing bepaalt de (gemiddelde) prestatie van de populatie de normering van individuele prestaties en bij criteriumgericht beoordelen bepaalt een externe, absolute norm die normering.

Normreferencing

Bij kenmerken die door een gestandaardiseerde test (een multiple-choicevragenlijst, bijvoorbeeld) gemeten kunnen worden en die aan (zeer) grote populaties kunnen worden afgenomen, worden de individuele prestaties genormeerd door een rangorde te maken van alle leden van de populatie. De prestaties worden vervolgens verdeeld over een scorereeks. De deelnemers aan de test krijgen zo een score toegekend, waaraan ze kunnen aflezen hoe zij presteren ten opzichte van de andere leden van de populatie. De (gemiddelde) prestaties van de hele groep vormen zo dus de beoordelingsnorm voor de individuele prestaties.

Een bekend voorbeeld zijn IQ-tests (zie afbeelding), waarbij een IQ van 100 staat voor een gemiddelde intelligentie. Scores lager dan 100 duiden op een ondergemiddelde intelligentie en boven de 100 op een bovengemiddelde.

Ook de door de overheid voorgeschreven leerlingvolgsystemen normeren op basis van de prestaties van de gehele deelnemende populatie en sorteren de kinderen in niveaugroepen op basis van de normaalverdeling.

Belangrijke kenmerken van deze vorm van testen zijn:

De norm is altijd relatief: de test meet de prestatie van één individu ten opzichte van de (gemiddelde) prestaties van allen.
De opgaven zijn gemaakt om te discrimineren: een opgave die iedereen goed maakt draagt niet bij aan de rangordeverdeling.
Voor de gehele populatie is de “uitslag” altijd hetzelfde; je kunt dus geen conclusies trekken over het beheersingsniveau van de gemeten vaardigheid in de gehele populatie.
De verdeling over bovengemiddeld – gemiddeld – ondergemiddeld is altijd stabiel binnen de gemeten populatie: dezelfde prestatie kan binnen een sterkere populatie ondergemiddeld zijn en binnen een zwakkere populatie bovengemiddeld.
Deze vorm van testen leent zich niet goed voor formatieve beoordeling, omdat de populatie als het ware “meegroeit” met het individu, zoals bij goedgekeurde leerlingvolgsystemen gebeurt. Een leerling die ondergemiddeld scoort in groep 4 doet dat vermoedelijk ook in groep 7.
Normreferencing is ongeschikt om te gebruiken bij praktijkopdrachten.

Criteriumgericht beoordelen

Een alternatief is criteriumgericht beoordelen. Bij criteriumgericht beoordelen bepalen we eerst wat we willen beoordelen en aan welke criteria de te meten prestatie moet voldoen. In het geval van het meten van leerprestaties worden op basis van de leerdoelen niveaucriteria bepaald die gebruikt worden om de leerprestaties te beoordelen. Vaak zijn dat criteriumreeksen in oplopende graad van moeilijkheid, waartegen de prestatie wordt afgezet (zie onderstaand voorbeeld voor natuurwetenschappelijke proeven in de onderbouw van het VO).

De norm voor de niveaubepaling wordt hier bepaald op basis van de criteria (descriptoren). De individuele prestatie is dus geheel onafhankelijk van de prestatie van andere deelnemers aan de meting. De vorm van de meting wordt ook gerelateerd aan wat er gemeten moet worden. De vaardigheid in het uitvoeren van experimenten, bijvoorbeeld, zul je moeten meten aan de hand van een experimentopdracht en dat kan niet met een multiple-choice-test.

De belangrijke kenmerken van deze vorm van beoordelen zijn:

De norm is absoluut: de beoordeling van de prestatie van één individu staat los van de prestaties van anderen.
De opgaven zijn gemaakt om te bepalen of de criteria worden gehaald: opgaven kunnen dus ook door alle deelnemers aan de toets goed gemaakt worden.
Voor de gehele deelnemende populatie kan de uitslag variëren, al naar gelang het beheersingsniveau van de populatie. In die zin is deze vorm van meten ook bruikbaar om iets te zeggen over het “niveau” van de hele groep.
De individuele prestatie wordt steeds op dezelfde manier gewaardeerd, ongeacht de prestaties van anderen. Criteriumgericht beoordelen leent zich dan ook veel beter voor formatief beoordelen dan normreferencing. De criteriumreeks is (zie het voorbeeld hierboven) een stabiele norm, terwijl het gemiddelde van de populatie “meegroeit” met die populatie.
Criteriumboordeling kan zowel formatief (waar sta ik in de ontwikkeling?) als summatief (heb ik aan de criteria voldaan?) worden gebruikt.
Criteriumbeoordeling is (ook) geschikt voor het “meten” van complexere vaardigheden en te gebruiken bij praktijkopdrachten.

Over betrouwbaarheid en validiteit

Het beoordelen van leerprestaties is nog niet zo gemakkelijk als het lijkt. Een belangrijk principe is dat je eigenlijk eerst moet bepalen wat je precies wilt meten/weten, voordat je bepaalt hoe je dat gaat doen. Hele eenvoudige leeractiviteiten (correct spellen bijvoorbeeld) zijn veel gemakkelijker te meten dan complexe (het schrijven van een betoog, bijvoorbeeld).

Bij het beoordelen van prestaties kun je langs twee dimensies kijken. De eerste dimensie is de validiteit van de beoordeling: gaat de beoordeling echt over de gemeten vaardigheid? De tweede dimensie is de betrouwbaarheid van de beoordeling: is de meting onafhankelijk van de beoordelaar en is pakt de beoordeling bij gelijke prestaties steeds hetzelfde uit?

Als je leerprestaties gaat beoordelen met een toets, dan dien je met deze twee dimensies rekening te houden. Ten eerste moet de toets meten wat je wilt weten en ten tweede moet de toets dat op een betrouwbare manier doen. En nu komt het dilemma. Als je heel erg de nadruk legt op betrouwbaarheid, dan zijn de dingen die je kunt meten met een enkele toets maar heel beperkt. Vandaar ook dat de doorstroomtoets alleen tekstbegrip, spelling en rekenen meet. Ingewikkelder vaardigheden (zoals schrijven, kritisch lezen, samenvatten, deelnemen aan een gesprek, argumenteren met cijfers enz.) zijn zo niet te meten. Om je daar een betrouwbaar beeld van te vormen zijn ingewikkelde open opgaven nodig, meer meetmomenten en het oog van de expert.

In zijn algemeenheid kun je zeggen: hoe groter het belang dat gehecht wordt aan betrouwbaarheid, hoe moeilijker het is om met behulp van één toets een valide meting te doen van een complexere vaardigheid.

Omdat de Nederlandse overheid leraren niet vertrouwt als beoordelaar worden er vaak toetsen gebruikt die volkomen beoordelaarsonafhankelijk zijn. Helaas kunnen die lang niet alles meten wat ertoe doet. Bij de eindexamens bijvoorbeeld wordt er gewerkt met antwoordmodellen en tweede correctoren om de rol van de leraar als beoordelaar in te perken. Vanwege de belangrijke rol die betrouwbare toetsen in het Nederlandse onderwijs hebben gekregen richt het onderwijs zich vaak op het voorbereiden op toetsen (“teaching-to-the-test”), met als akelige bijwerking dat er steeds meer les wordt gegeven in onzinnige, maar meetbare vaardigheden (tekstbegrip is een goed voorbeeld). Echt belangrijke vaardigheden, zoals bijvoorbeeld schrijven, zijn steeds meer naar de achtergrond verdwenen, doordat zij niet betrouwbaar gemeten kunnen worden.

Kun je ook anders toetsen?

Relatief of absoluut beoordelen van leerprestaties

Normreferencing

Criteriumgericht beoordelen

Over betrouwbaarheid en validiteit

Blijf op de hoogte van het initiatief ‘leve het onderwijs’

Wat is leve het Onderwijs?