Interbeoordelaarsbetrouwbaarheid van vaardighedentoetsen in de bachelor Geneeskunde: een analyse van beoordelingsdata en studentperceptie

Informatie
Auteurs
Martin Gerhardus
Mies van den Biggelaar
Organisatie
Radboudumc
Congres
Toekomstbestendig onderwijs: op naar een duurzame planeet - Congres 2026
Context / probleemstelling of aanleiding

Probleemstelling (inclusief theoretische onderbouwing en onderzoeksvraag/vragen):
Toetsing van klinische vaardigheden in de opleiding geneeskunde vereist niet alleen psychometrische betrouwbaarheid, zoals interbeoordelaarsbetrouwbaarheid (IRR), maar ook acceptatie door studenten van het toetsproces en de beoordeling. Terwijl interbeoordelaarsbetrouwbaarheid cruciaal is voor formele toetsvaliditeit, is er echter minder bekend over hoe studenten de eerlijkheid, objectiviteit en transparantie van beoordelingen van vaardighedentoetsen ervaren. De studentperceptie is echter medebepalend voor de geloofwaardigheid en acceptatie van toetsresultaten. Recente literatuur benadrukt dat deze percepties niet losstaan van toetsvaliditeit maar deel uitmaken van een complex adaptief systeem waarin beoordelingspraktijken, context en interactie samen de ervaren toetskwaliteit bepalen (Valentine et al., 2023). Subjectiviteit in beoordeling wordt niet langer uitsluitend gezien als een bedreiging, maar als een functioneel en professioneel element binnen summatieve toetsing (Norcini, 2025).
Methode:
Een sequentiële mixed methods-studie met convergente interpretatie onderzocht de IRR op basis van 125 duplo-beoordelingen van vaardighedentoetsen, afgenomen in de bachelor Geneeskunde van het Radboudumc én verzamelde perceptiegegevens met behulp van een enquête onder 158 tweedejaarsstudenten. Statistische analyses omvatten berekeningen van de intraclass correlation coefficient (ICC), regressieanalyses en exploratieve ANOVA’s. Open antwoorden uit de enquête zijn geanalyseerd op basis van een thematische benadering.
Aanvullend werd exploratief onderzocht of beoordelaarsovereenstemming varieerde per prestatieniveau. Beoordelingsscores (1-10) werden gehercodeerd in vier categorieën: zeer laag (≤4), laag (5-6), midden (7) en hoog (≥8). De mate van exacte overeenstemming tussen beoordelaars per categorie werd vastgesteld en geanalyseerd met chi-kwadraattoetsen en lineaire trendanalyse.
Resultaten (en conclusie):
De IRR was matig voor individuele beoordelaars (ICCsingle = 0,55-0,60), maar substantieel hoger bij gemiddelde scores van beoordelaarskoppels (ICCavg = 0,71-0,75).
De mate van overeenstemming tussen beoordelaars varieerde per scorecategorie. Voor het toetsonderdeel waarin vaardigheden op het gebied van lichamelijk onderzoek aan bod kwamen was de overeenstemming het hoogst in de lage scoregroep (5-6; 74,2%), die de cesuur rond de normering weerspiegelt, en lager bij hogere scores (43,8% bij ≥8). Een lineaire trendanalyse bevestigde dit patroon (χ²(1) = 4,76, p = 0,029).
Studenten beoordeelden transparantie en objectiviteit gemiddeld positief maar rapporteerden een lagere ervaren eerlijkheid, vooral indien zij een lagere beoordeling ontvingen of herkansingen hadden afgelegd. Regressieanalyses toonden het aantal keer dat de betreffende toets is afgelegd en het eindcijfer als significante voorspellers van ervaren eerlijkheid.
Discussie (beschouwing resultaten en conclusie in het kader van de theorie):
Hoewel de formele beoordelaarsovereenstemming acceptabel is, ervaren studenten de beoordeling niet altijd als eerlijk. Toetsomstandigheden, normering en feedbackkwaliteit blijken belangrijke factoren voor de studentperceptie van vaardighedentoetsing. De verhoogde overeenstemming rond de cesuur wijst erop dat beoordelaars juist bij beslissingen over slagen of zakken meer consensus bereiken, mogelijk door gedeeld normbewustzijn. Dit onderstreept het belang van kalibratie en een gedeeld referentiekader, juist op kritieke beoordelingsmomenten. Deze bevindingen sluiten aan bij recente inzichten waarin subjectiviteit, mits professioneel ingebed, wordt erkend als een waardevol element in beoordelingspraktijken en niet per definitie als een bedreiging voor eerlijkheid. Om het vertrouwen van studenten in de beoordeling te versterken, is het van belang om beoordelaars regelmatig te kalibreren en expliciet te communiceren over beoordelingscriteria, normering en feedback.
Referenties:
<i>Norcini, J. (2025). The trope of ‘subjectivity’ versus ‘objectivity’ in summative assessment. Medical Education, 59(4), 360-362.</i> https://doi.org/10.1111/medu.15606
<i>Valentine, N., Durning, S. J., Shanahan, E. M., & Schuwirth, L. (2023). Fairness in Assessment: Identifying a Complex Adaptive System. Perspect Med Educ, 12(1), 315-326.</i> https://doi.org/10.5334/pme.993

Banner
Banner
Banner

‘Zie de mens’ – ontmoet, leer en inspireer tijdens het NVMO Congres 2027 in Groningen.

19, 20 en 21 mei in Martiniplaza Groningen