Van leerdoel naar AI-toetsvraag: hoe AI docenten kan ondersteunen in het maken van toetsvragen

Abstract

Van leerdoel naar AI-toetsvraag: hoe AI docenten kan ondersteunen in het maken van toetsvragen

Informatie

Auteurs

de Broens

de Pagter–Zoutman

Floor van der Steijle

Hodzic

Pet

Remco Jongkind

Sarah Otto

Organisatie

Amsterdam UMC

Congres

Toekomstbestendig onderwijs: op naar een duurzame planeet - Congres 2026

Context / probleemstelling of aanleiding

Context/probleemstelling of aanleiding:
Jaarlijks moeten er nieuwe toetsvragen worden opgesteld. Het opstellen van toetsvragen vereist expertise, tijd en moeite. Dit, terwijl het hoger onderwijs wordt geconfronteerd met kleinere budgetten en een stijgende werkdruk. Onderzoek heeft aangetoond dat Large Language Models (LLMs) meerkeuzevragen van een hoge kwaliteit kunnen genereren (Artsi et al., 2024). Bestaand onderzoek heeft zich nog niet gericht op de combinatie van het ontwikkelen van een AI-tool, de effectiviteit en de implementatiemogelijkheden. Deze studie introduceert daarom (nieuwe) inzichten in de ontwikkeling, uitkomsten en praktische toepassing van de AI-toetsvraaggenerator in het medisch onderwijs.
Beschrijving van de interventie/innovatie:
De AI-toetsvraaggenerator is ontwikkeld met prompt-engineeringstrategieën waarbij LLMs zijn ingezet. De AI-toetsvraaggenerator genereert meerkeuzevragen op basis van de opgegeven leerdoelen, in lijn met Blooms taxonomie, en de lesstof. Tijdens de uitgevoerde pilot zijn de AI-toetsvragen aan docenten voorgelegd als een concept, waarna ze, indien nodig, zijn herzien. Studenten waren niet op de hoogte van het integreren van de AI-toetsvragen in hun toets (een tussentoets voor tweedejaars bachelorstudenten Geneeskunde-UvA). De AI-toetsvraaggenerator dient docenten en coördinatoren te ondersteunen bij het maken van toetsvragen, maar niet te vervangen. De menselijke controle, middels een vierogen-principe, blijft essentieel om de kwaliteit en relevantie van de (AI-)toetsvragen te waarborgen.
Ervaringen/analyse van de implementatie:
Uit de pilot is gebleken op welke manier de AI-toetsvraaggenerator ondersteuning kan bieden bij het creëren van toetsvragen. De AI-toetsvraaggenerator is geëvalueerd op basis van hoe de studenten scoorden op de toetsvragen (AI- en mens-toetsvragen). Er is geanalyseerd wat de moeilijkheid (p-waarde) en het onderscheidend vermogen (Rit) van de AI- en mens-toetsvragen is. Deze uitkomsten zijn met elkaar vergeleken, om te onderzoeken of er een verschil in psychometrische kwaliteit tussen AI- en mens-toetsvragen is. Daarnaast is gekeken naar het verschil in aantal bezwaren op toetsvragen, redenen voor bezwaren en of experts de AI-toetsvragen als zodanig herkennen.
Lessons learned (implicaties voor de praktijk):
Aan de hand van de resultaten zullen we bespreken hoe de AI-toetsvraaggenerator docenten, coördinatoren en andere vraagmakers kan ondersteunen bij het opstellen van toetsvragen. We zullen daarbij de ervaringen in de ontwikkeling van de AI-toetsvraaggenerator delen. Daarnaast wordt gedeeld hoe studenten gepresteerd hebben op de AI-vragen en worden zowel de kansen als de limitaties van de AI-toetsvraaggenerator besproken.
Referenties (max. 2):
Artsi, Y., Sorin, V., Konen, E., Glicksberg, B. S., Nadkarni, G., & Klang, E. (2024). Large language models for generating medical examinations: Systematic review. <i>BMC Medical Education</i>, <i>24</i>(1), 354. https://doi.org/10.1186/s12909-024-05239-y

Terug naar het overzicht

NVMO Congres 2027

‘Zie de mens’ – ontmoet, leer en inspireer tijdens het NVMO Congres 2027 in Groningen.

19, 20 en 21 mei in Martiniplaza Groningen

Lees meer

Meer NVMO

Zie de Mens

19, 20 en 21 mei in Groningen

Meer over het NVMO congres