Van leerdoel naar AI-toetsvraag: hoe AI docenten kan ondersteunen in het maken van toetsvragen

Informatie
Auteurs
de Broens
de Pagter–Zoutman
Floor van der Steijle
Hodzic
Pet
Remco Jongkind
Sarah Otto
Organisatie
Amsterdam UMC
Congres
Toekomstbestendig onderwijs: op naar een duurzame planeet - Congres 2026
Context / probleemstelling of aanleiding

Context/probleemstelling of aanleiding:
Jaarlijks moeten er nieuwe toetsvragen worden opgesteld. Het opstellen van toetsvragen vereist expertise, tijd en moeite. Dit, terwijl het hoger onderwijs wordt geconfronteerd met kleinere budgetten en een stijgende werkdruk. Onderzoek heeft aangetoond dat Large Language Models (LLMs) meerkeuzevragen van een hoge kwaliteit kunnen genereren (Artsi et al., 2024). Bestaand onderzoek heeft zich nog niet gericht op de combinatie van het ontwikkelen van een AI-tool, de effectiviteit en de implementatiemogelijkheden. Deze studie introduceert daarom (nieuwe) inzichten in de ontwikkeling, uitkomsten en praktische toepassing van de AI-toetsvraaggenerator in het medisch onderwijs.
Beschrijving van de interventie/innovatie:
De AI-toetsvraaggenerator is ontwikkeld met prompt-engineeringstrategieën waarbij LLMs zijn ingezet. De AI-toetsvraaggenerator genereert meerkeuzevragen op basis van de opgegeven leerdoelen, in lijn met Blooms taxonomie, en de lesstof. Tijdens de uitgevoerde pilot zijn de AI-toetsvragen aan docenten voorgelegd als een concept, waarna ze, indien nodig, zijn herzien. Studenten waren niet op de hoogte van het integreren van de AI-toetsvragen in hun toets (een tussentoets voor tweedejaars bachelorstudenten Geneeskunde-UvA). De AI-toetsvraaggenerator dient docenten en coördinatoren te ondersteunen bij het maken van toetsvragen, maar niet te vervangen. De menselijke controle, middels een vierogen-principe, blijft essentieel om de kwaliteit en relevantie van de (AI-)toetsvragen te waarborgen.
Ervaringen/analyse van de implementatie:
Uit de pilot is gebleken op welke manier de AI-toetsvraaggenerator ondersteuning kan bieden bij het creëren van toetsvragen. De AI-toetsvraaggenerator is geëvalueerd op basis van hoe de studenten scoorden op de toetsvragen (AI- en mens-toetsvragen). Er is geanalyseerd wat de moeilijkheid (p-waarde) en het onderscheidend vermogen (Rit) van de AI- en mens-toetsvragen is. Deze uitkomsten zijn met elkaar vergeleken, om te onderzoeken of er een verschil in psychometrische kwaliteit tussen AI- en mens-toetsvragen is. Daarnaast is gekeken naar het verschil in aantal bezwaren op toetsvragen, redenen voor bezwaren en of experts de AI-toetsvragen als zodanig herkennen.
Lessons learned (implicaties voor de praktijk):
Aan de hand van de resultaten zullen we bespreken hoe de AI-toetsvraaggenerator docenten, coördinatoren en andere vraagmakers kan ondersteunen bij het opstellen van toetsvragen. We zullen daarbij de ervaringen in de ontwikkeling van de AI-toetsvraaggenerator delen. Daarnaast wordt gedeeld hoe studenten gepresteerd hebben op de AI-vragen en worden zowel de kansen als de limitaties van de AI-toetsvraaggenerator besproken.
Referenties (max. 2):
Artsi, Y., Sorin, V., Konen, E., Glicksberg, B. S., Nadkarni, G., & Klang, E. (2024). Large language models for generating medical examinations: Systematic review. <i>BMC Medical Education</i>, <i>24</i>(1), 354. https://doi.org/10.1186/s12909-024-05239-y

Banner
Banner
Banner

‘Zie de mens’ – ontmoet, leer en inspireer tijdens het NVMO Congres 2027 in Groningen.

19, 20 en 21 mei in Martiniplaza Groningen