Bewertung von Mehrfachauswahlaufgaben

Autor: Immo Schulz-Gerlach, ZMI, FeU-Softwaretechnik
Version: 1.2 — 24. November 2017
[PDF-Version] [ePub-Version]

Überblick

Der Standardbewerter des Online-Übungssystems unterstützt verschiedene Bewertungsmodi für Mehrfachauswahl-Aufgaben („X aus N“). Der Aufgabenautor entscheidet über die zur Aufgabe passende und für den Einsatzzweck angemessene Bewertung.

Bei diesen Aufgaben werden zu einer Frage eine bestimmte Anzahl N von Antwortalternativen angeboten, von denen beliebig viele zutreffen können. Sie1 entscheiden zu jeder Antwortalternative, ob Sie diese für zutreffend halten oder nicht, und kreuzen die Ihrer Meinung nach zutreffenden Alternativen an2. Wenn Sie bei einer Antwortalternative nicht sicher sind, geben Sie dennoch in jedem Fall – mit Ausnahme von Aufgaben mit 3 Antwortmöglichkeiten – eine Antwort (angekreuzt oder nicht – d.h. auch nicht angekreuzte Checkboxen sind eine Antwort, nämlich, dass die Alternative nicht zutreffend sei). Dabei haben Sie allein durch Raten eine „Trefferchance“ von 50%, diese Alternative richtig markiert zu haben.

Worin sich nun die verschiedenen Bewertungsmodi unterscheiden, ist in erster Linie die Frage, wie sich diese allein durch Raten erreichbare 50%-Trefferquote pro Alternative auf die vergebene Gesamtpunktzahl zur X-aus-N-Frage auswirken soll.

Eine Bewertung ohne sog. Ratekorrektur vergibt einfach Pluspunkte für jede richtig markierte Alternative. Damit können jedoch allein durch Raten statistisch gesehen bereits 50% der Gesamtpunkte erreicht werden, weshalb die Einsatzmöglichkeiten dieser Bewertung eher limitiert sind bzw. das Ergebnis anders zu lesen ist. Eine typische Bestehensgrenze für Einsendearbeiten (oder Klausuren) aus Mehrfachauswahlaufgaben ohne Ratekorrektur wäre z.B. 75%: 50% der möglichen Punkte werden im Schnitt bereits durch Raten erreicht, und mindestens die Hälfte der darüber hinaus möglichen Punkte, also weitere 25%, sollten erreicht werden, um hinreichendes Wissen nachzuweisen.

Eine Ratekorrektur dagegen bewirkt, dass allein durch Raten im Schnitt gar keine oder nur sehr wenige Punkte erreicht werden. Die beiden verschiedenen Ratekorrektur-Modi unterscheiden sich in ihrer Rigorosität: Bei der neueren Ratekorrektur (V2) werden wirklich nur dann 0 Punkte vergeben, wenn alle Antworten falsch sind, bei der klassischen Ratekorrektur (V1) muss mehr als die Hälfte der gegebenen Antworten richtig sein, um mehr als 0 Punkte zu erreichen.

Als Sonderform gibt es nun auch einen Aufgabentyp mit 3 Antwortmöglichkeiten, bei dem Sie selbst pro Alternative, bei der Sie nicht sicher sind, entscheiden müssen, ob Sie eine Antwort raten (was zu Punktabzug führt, falls Sie falsch raten) oder lieber gar keine Antwort geben (was sicherstellt, dass Sie keinen Punktabzug für eine falsche geratene Antwort bekommen können, aber natürlich auch Pluspunkte durch korrektes Raten ausschließt).

Weiterhin gibt es neben den „X aus N“-Aufgaben (mit den oben genannten verschiedenen Bewertermodi) noch die Variante „1 bis X aus N“: Bei diesen Aufgaben ist immer mindestens eine Antwortalternative korrekt (während es bei „X aus N“ prinzipiell auch sein kann, dass alle Antwortalternativen falsch sind). Bei diesen Aufgaben muss mindestens eine Antwort gegeben (als richtig markiert) werden, um überhaupt Punkte erreichen zu können – kreuzen Sie nichts an, gelten diese Aufgaben als nicht bearbeitet.

Vereinbarungen

Es bezeichne in den folgenden Abschnitten stets N die Anzahl der Antwortalternativen, P die bei der Aufgabe maximal erreichbare Punktzahl.

Mit „richtiger Antwort“ zu einer Antwortalternative sei im Folgenden jeweils gemeint, dass eine laut Lösung richtige Antwortalternative genannt (bzw. angekreuzt) oder eine laut Lösung falsche Antwortalternative nicht genannt/angekreuzt wurde. Entsprechend wird das Nennen einer falschen Alternative ebenso wie das Nicht-Nennen einer richtigen Alternative als „falsche Antwort“ gewertet.


Bewertungsmodi

Mehrfachauswahlaufgabe ohne Ratekorrektur (X aus N +)

In diesem Modus vergibt der Bewerter ausschließlich Pluspunkte: Jede richtige Antwort wird mit \(\frac{1}{N} P\) Punkten bewertet jede falsche mit 0 Punkten.

Wie im Überblick bereits gesagt, werden damit allein durch Raten im Schnitt 50% der Punkte erreicht, erst Ergebnisse ab rund 75% sind typischerweise als ausreichend zu interpretieren.

Die Punktevergabe selbst ist zwar einerseits besonders einfach zu nachzuvollziehen, andererseits jedoch ist es nicht sehr intuitiv, dass ein Ergebnis von z.B. 50%, 60% oder gar 70% zwar „nach viel klingt“, tatsächlich aber kein gutes Ergebnis ist.

Die nachfolgenden Bewertungsverfahren liefern „sprechendere“ Punktzahlen, dafür ist jedoch die Punktevergabe komplexer und erklärungsbedürftiger.

Mehrfachauswahlaufgabe mit klassischer Ratekorrektur (X aus N)

Die Bewertung erfolgt in diesem Modus nach dem klassischen Lotse-Schema: Bei N Antwortalternativen ist jede Alternative \(\frac{1}{N} P\) Punkte „wert“, und diese werden bei richtiger Antwort zur Gesamtpunktzahl addiert, bei falscher Antwort von der Gesamtpunktzahl abgezogen (als so genannte Ratekorrektur, s.o.). Negative Gesamtpunkte werden nicht vergeben, bei mehr falschen als richtigen Antworten werden 0 Punkte vergeben.

Sei also P die erreichbare Punktzahl, N die Anzahl der Antwortalternativen und geben Sie davon r viele richtige und f viele falsche Antworten (wobei r + f = N gilt), so berechnet sich Ihre Gesamtpunktzahl G wie folgt:

\[ G = max\left(0, \frac{r - f}{N} P\right) = max\left(0, \frac{2r - N}{N} P\right) \]

Beispiel: Es gebe vier Antwortalternativen A bis D. Die Musterlösung laute „A,D“, d.h. man muss genau die Antworten A und D geben, darf jedoch weder B noch C antworten, um die volle Punktzahl zu erhalten. Antworten Sie nun z.B. „A,B“, so ist die Antwort „A“ korrekt, die Antwort „B“ falsch, das Nicht-Geben der Antwort „C“ korrekt, das Nicht-Geben der Antwort „D“ wiederum falsch, so dass Sie insgesamt r = 2 richtige und f = 2 falsche Antworten gegeben hätten und somit \(\frac{2-2}{4} P\) = 0 Punkte erhielten. Die Antwort „A,B,D“ dagegen bestünde aus r = 3 richtigen und f = 1 falschen Antworten und würde mit \(\frac{3-1}{4} P = \frac{1}{2} P\), also der Hälfte der erreichbaren Punktzahl bewertet.

Auswirkung dieser Bewertung bei typischen x-aus-5-Aufgaben

Der folgende Text stammt von den Erläuterungen zum Lotse-System, ist aber allgemein auf diesen Bewertermodus des Online-Übungssystems übertragbar. Er geht exemplarisch von den bei Lotse typischen 5 Antwortalternativen aus (N = 5) und der Einfachheit halber auch von genau 5 erreichbaren Punkten (P = 5):

»Wenn Sie alles richtig wissen, erhalten Sie 5 Punkte.

Wenn Sie 4 Antworten wissen und eine Antwort raten erhalten Sie 3 oder 5 Punkte, je nachdem ob Sie richtig raten oder nicht. Im Durchschnitt werden Sie 4 Punkte erhalten.

Wenn Sie 3 Antworten wissen und 2 Antworten raten, gibt es vier Möglichkeiten: Sie haben beide Antworten richtig (5 Punkte), beide falsch (1 Punkt) oder eine von beiden richtig (3 Punkte) geraten. Im Durchschnitt erhalten Sie 3 Punkte.

Wenn Sie 2 Antworten wissen, gibt es acht Möglichkeiten, die verbleibenden 3 Antworten zu raten: 3 richtig (1 Möglichkeit mit 5 Punkten), 2 richtig (3 Möglichkeiten mit 3 Punkten), 1 richtig (3 Möglichkeiten mit 1 Punkt) oder keine richtig (1 Möglichkeit mit 0 Punkten). Sie erreichen also im Durchschnitt 17/8= 2,125 Punkte.

Wenn Sie eine Antwort wissen, raten Sie 4 Antworten mit 16 Möglichkeiten: 5 Punkte (1 Möglichkeit), 3 Punkte (4 Möglichkeiten) 1 Punkt (6 Möglichkeiten). Die anderen 5 Möglichkeiten ergeben 0 Punkte. Sie erreichen im Durchschnitt 23/16=1,4375 Punkte.

Wenn Sie nur raten, gibt es 1 Möglichkeit mit 5 Punkten, 5 Möglichkeiten mit 3 Punkten, 10 Möglichkeiten mit 1 Punkt und 16 Möglichkeiten ohne Punkte, im Durchschnitt 30/32= 0,9375 Punkte (18,75 %).

Ergebnis dieser Veranschaulichung soll sein, dass Sie erkennen, dass Sie statistisch etwa die Punkte bekommen, die Ihrem Wissensstand entsprechen. Erst wenn Sie weniger als die Hälfte wissen, profitieren Sie leicht vom Raten.

Folgen für die Benotung bei Klausuren: Wie bei Einfach-Auswahlaufgaben mit 5 Alternativen erreichen Sie bei diesem Aufgabentyp etwa 20 % der Gesamtpunkte durch Raten. Wenn die Hälfte der nicht durch Raten erreichbaren Punkte (80%) erzielt werden muss, ergibt sich eine Bestehensgrenze von 60%: 20% + (80% ÷ 2).«

Mehrfachauswahlaufgabe mit gewichteter Bewertung (X aus N (V2))

Auch bei diesem Verfahren handelt es sich um eine Bewertung mit „Ratekorrektur“, jedoch nach einem anderen Schema (Lotse-Bewertung Version 2), welches wirklich nur dann 0 Punkte vergibt, wenn alle Alternativen falsch beantwortet wurden. Für noch genau eine richtige Antwort wird noch 1% der erreichbaren Punkte vergeben (gerundet), und für mehr richtige Antworten werden auch anteilig mehr Punkte vergeben, jedoch in immer größeren Stufen, so dass auch hier durch Raten nicht im Schnitt 50% der Punkte erreicht werden können. Bei keinem Fehler oder genau einem Fehler stimmt die Bewertung noch mit der klassischen Lotse-Bewertung überein, bei mehr als einem Fehler werden etwas mehr Punkte als bei der klassischen Bewertung vergeben.

Genauer sieht die Punktevergabe in diesem Modus wie folgt aus: Sei wieder N die Anzahl der Antwortalternativen und P die erreichbare Punktzahl, so wird für die Anzahl r der von Ihnen gegebenen richtigen Antworten (0 ≤ rN) folgende Gesamtpunktzahl G(r) vergeben:

r G(r)
N P (also 100%)
N – 1 \( \frac{N-2}{N} P \)
N – 2 \( \frac{N-3}{N-1} G(N-1) \)
N – 3 \( \frac{N-4}{N-2} G(N-2) \)
u.s.w., d.h. \( \frac{r-1}{r+1} G(r+1) \) für 1 < r < N
1 \( \frac{P}{100} \) (also 1%)
0 0

Oder kurz und ohne Rekursion zusammengefasst:

\[ G(r) = \left\{\begin{array}{ll} \frac{r}{100} P & , falls \quad 0 \le r \le 1 \\ \left( \prod\limits^N_{i=r+1}{\frac{i-2}{i}} \right) P & , falls \quad 1 < r \le N \end{array} \right. \]

Hat eine Frage z.B. genau N = 5 Antwortalternativen, so werden bei einem Fehler (r = 4) noch \(\frac{3}{5} P\), also 60% der erreichbaren Punkte vergeben, bei zwei Fehlern (r = 3) noch 30% (\(\frac{2}{4} 60\% \)), bei drei Fehlern (r = 2) noch 10% (\(\frac{1}{3} 30\%\)) der erreichbaren Punkte, bei vier Fehlern noch 1% und erst bei fünf Fehlern, also gar keiner richtigen Antwort, 0 Punkte. Sollte sich bei der Berechnung keine ganze Zahl ergeben, so wird diese gerundet.

Direkter Vergleich obiger drei Bewertungsmodi

Vergleich der Bewertungen für N = 6 Antwortalternativen:

Richtige Antworten (aus 6) X aus N X aus N (V2) X aus N +
6 100,00% 100,00% 100,00%
5 ⅔ ≈ 66,67% ⅔ ≈ 66,67% ⁵⁄₆ ≈ 83,33%
4 ⅓ ≈ 33,33% 40,00% ⅔ ≈ 66,67%
3 0 20,00% 50,00%
2 0 ²⁄₃₀ ≈ 6,67% ⅓ ≈ 33,33%
1 0 1,00% ¹⁄₆ ≈ 16,67%
0 0 0 0

Vergleich der Bewertungen für N = 5 Antwortalternativen:

Richtige Antworten (aus 5) X aus N X aus N (V2) X aus N +
5 100,00% 100,00% 100,00%
4 60,00% 60,00% 80,00%
3 20,00% 30,00% 60,00%
2 0 10,00% 40,00%
1 0 1,00% 20,00%
0 0 0 0

Vergleich der Bewertungen für N = 4 Antwortalternativen:

Richtige Antworten (aus 4) X aus N X aus N (V2) X aus N +
4 100,00% 100,00% 100,00%
3 50,00% 50,00% 75,00%
2 0 ⅙ ≈ 16,67% 50,00%
1 0 1,00% 25,00%
0 0 0 0

Hinweis: Die Verfahren liefern offensichtlich für gleiche Antworten unterschiedliche Ergebnisse. Entscheidend ist daher, wie die erreichten Punkte anschließend zu bewerten/interpretieren sind. Falls die Aufgaben nicht nur zur Selbstkontrolle dienen, sondern z.B. relevant für eine Klausurzulassung oder Prüfungsleistung sind, werden die entsprechenden von Ihnen zu erreichenden Mindestpunktzahlen von den Aufgabenanbietern mit dem jeweils gewählten Bewertungsverfahren abgestimmt.

Mehrfachauswahlaufgaben mit min. einer korrekten Antwort (1 bis X aus N …)

Dieser Aufgabentyp entspricht weitgehen dem „X aus N“-Aufgabentyp, nur mit folgenden beiden Besonderheiten:

Für bearbeitete Aufgaben, d.h. wenn Sie mindestens eine Antwort als korrekt markiert haben, entspricht die Bewertung aber genau den „X aus N“-Aufgaben im jeweiligen Modus (mit oder ohne Ratekorrektur) wie oben beschrieben.

Mehrfachauswahlaufgabe mit 3 Antwortmöglichkeiten (X aus N (3 Antw.))

Dieser Aufgabentyp stellt eine besondere Alternative zu den drei oben genannten dar. Der Grund für deren Unterschiede war ja die Behandlung des Einflusses von Raten auf das Gesamtergebnis durch Ratekorrektur. Alle obigen Aufgabentypen haben dabei gemein, dass Sie zu jeder Antwortalternative eine von zwei möglichen Antworten geben müssen: „richtig“ oder „falsch“ (bei Checkboxen: angekreuzt oder nicht angekreuzt). Sind Sie sich bei einer Antwort nicht sicher, müssen Sie raten.

Dieser Modus dagegen bietet Ihnen zu jeder Antwort drei Antwortmöglichkeiten: „korrekt“, „falsch“, „keine Antwort / weiß ich nicht“. Sie können also bei Antwortalternativen, bei denen Sie sich nicht sicher sind, selbst entscheiden, ob Sie die Alternative unbeantwortet lassen wollen (dann erhalten Sie auf diese nicht gegebene Antwort 0 Punkte) oder ob Sie raten wollen – mit der Chance auf Pluspunkte bei korrekter Antwort, aber auf Minuspunkte bei falscher Antwort.

Sei wieder N die Anzahl der Antwortalternativen und P die maximal erreichbare Gesamtpunktzahl, dann ist analog zum klassischen „X aus N“ jede Antwortalternative \(\frac{1}{N} P\) Punkte „wert“. Für jede richtige Antwort werden dann \(\frac{1}{N} P\) Punkte gutgeschrieben, für jede falsche Antwort abgezogen, für unbeantwortete Alternativen gibt es 0 Punkte.

Bei r richtigen Antworten und f falschen Antworten (wobei hier im Unterschied zu obigen Modi 0 ≤ r + fN gilt, also insgesamt weniger als N Antworten gegeben werden können) errechnet sich also die Gesamtpunkzahl G als:

\[ G(r,f) = max\left(0, \frac{r - f}{N} P\right) \]

(Im Prinzip ist das die gleiche Formel wie oben unter „X aus N“ angegeben, nur ohne die Nebenbedingung, dass r + f = N gilt und entsprechend ohne die Umformungsmöglichkeit in eine nur von r abhängige Gleichung.)

Für N = 5 Alternativen sieht die Bewertung z.B. wie folgt aus:

r f G (in Prozent von P)
5 0 100%
4 0 80%
4 1 60%
3 0 60%
3 1 40%
3 2 20%
2 0 40%
2 1 20%
2 2-3 0
1 0 20%
1 1-4 0
0 0-5 0

Hinweise zur Bewerterausgabe

Die Musterlösung (siehe auch folgenden Abschnitt) zählt nur die korrekten Antworten auf. Unter „Ihre Lösung“ stehen Ihre Antworten wie folgt:


Hinweise zu den Musterlösungen

Die Bewertung, welche Ihrer Antworten richtig oder falsch ist, richtet sich nach der hinterlegten Musterlösung. In der Regel handelt es sich dabei schlicht um die Aufzählung der richtigen Antworten (z.B: A,C,E).

In gewissen Spezialfällen können folgende Besonderheiten vorkommen:


  1. Adressaten dieses Dokuments sind die Studentinnen und Studenten, die solche Mehrfachauswahlaufgaben bearbeiten. Sollten Angehörige anderer Personengruppen dieses Dokument lesen, ist die persönliche Anrede „Sie“ entsprechend zu interpretieren.  ↩

  2. Zumindest ist das der Normalfall, dass sich vor jeder Antwortalternative eine Checkbox befindet, die Sie ankreuzen, wenn Sie die Alternative für korrekt halten, oder nicht ankreuzen, wenn Sie sie für falsch halten. Technisch sind jedoch durchaus auch andere Eingabeformen denkbar.  ↩