ETH entwickelt KI-Tutor TutorRL für mehr eigenständiges Denken statt fertiger Lösungen

Viele KI-Systeme beantworten Fragen in Sekunden – und verhindern dabei oft genau das, was Lernen ausmacht: eigenes Denken. Der Machine-Learning-Experte Jakub Mačina entwickelt deshalb Modelle, die Schülerinnen und Schüler nicht mit fertigen Lösungen abspeisen, sondern sie Schritt für Schritt zum Verständnis führen.

Gute KI-Tutoren stellen Fragen, anstatt die Lösung zu verraten. Screenshot des von TutorRL, dem Lehr-Modell, das von ETH-Forschenden entwickelt wurde.

Noch vor fünf Jahren war es undenkbar, dass Gymnasialschüler regelmässig mit einer KI lernen. Heute ist das für viele Alltag. Laut einer repräsentativen Umfrage aus dem Jahr 2024 nutzen in der Schweiz über zwei Drittel der 12- bis 19-Jährigen regelmässig KI für die Schule. Dafür gibt es mittlerweile spezialisierte Modelle, wie LearnLM von Gemini oder „Study mode“ von OpenAI. Hinzu kommt eine Reihe kleiner Anbieter, die sich auf die Entwicklung von KI-Tutoren spezialisiert haben, wie etwa Khanmigo, „Synthesis Tutor“ oder „Squirrel AI“. Ersetzt KI also bald die Lehrer?

Lernen anleiten, statt Fragen zu beantworten

Jakub Mačina erforscht, wie sich grosse Sprachmodelle (englisch: large language models, LLMs) für das Lehren und Lernen nutzen lassen. Als Postdoc bewegt er sich an der Schnittstelle von Künstlicher Intelligenz und Lernwissenschaften und arbeitet dabei mit dem Informatikprofessor Mrinmaya Sachan und dem Lernwissenschaftler Manu Kapur zusammen.

Mačina will herausfinden, wie grosse Sprachmodelle zu pädagogisch wertvollen Lern-Coaches werden. „Unser Ziel ist es nicht, Lehrpersonen zu ersetzen, sondern KI in der Lehre so einzusetzen, dass jene ihre Arbeit effizienter gestalten können“, sagt der Forscher. Die meisten LLMs eigneten sich nach wie vor schlecht zum Lernen. „Sie sind darauf getrimmt, Antworten und Lösungen zu generieren und nicht, die Nutzenden beim Lernprozess zu unterstützen.“ Das widerspricht jedoch dem Ziel, dass Schüler selbst denken und sich aktiv mit einer bestimmten Materie auseinandersetzen. Selbst wenn man in den Prompts zur Steuerung der LLMs explizit eine Lernunterstützung anstatt einer fertigen Lösung verlange, sei das Ergebnis meist unbefriedigend, so der Forscher.

Gute Lehrer haben laut Mačina vor allem drei Fähigkeiten: „Sie haben Expertise in ihrem Fach, sie erkennen, wo Schüler anstehen und wo Lernprobleme auftreten – und sie haben die pädagogischen Fähigkeiten, um die Schüler anzuleiten, diese Probleme zu lösen.“ Um anhand solcher Kriterien verschiedene LLMs auf ihre Lehrtauglichkeit zu testen, hat Mačina gemeinsam mit Forschenden der TU Darmstadt einen Benchmark für den Mathematikunterricht entwickelt, den MathTutorBench. Basierend auf Gesprächen mit Lehrern und weiteren Daten zum Lehrprozess hat das Team für spezifische Lehrfähigkeiten ein Punktesystem entwickelt, mithilfe dessen LLMs verglichen werden können. MathTutorBench analysiert und vergleicht die Antworten der LLMs mit den Reaktionen von Lehrern und bewertet diese entsprechend. Es steht allen als Open Source-Datei zum Download zur Verfügung und wird von Forschern und Lehrentwicklern genutzt, um die Qualität verschiedener Modelle zu vergleichen.


Machine-Learning-Experte Jakub Mačina

„Was wir ja wirklich wollen, ist eine befriedigende Zusammenarbeit zwischen Menschen und den LLMs – und nicht, dass die Modelle uns das Denken abnehmen.“ – Machine-Learning-Experte Jakub Mačina

Mačina hat mit MathTutorBench unter anderem die Lern-LLMs von Open AI und Google getestet. Dabei zeigten sich grosse Unterschiede. „Wir sehen oft, dass es zu einem Trade-off der verschiedenen Kriterien kommt: Ein Modell schneidet sehr gut ab bei der Mathematik-Expertise, nicht aber bei den pädagogischen Fähigkeiten. Bei einem anderen Modell ist es genau umgekehrt. Meist fehlt die Balance.“ Auffällig sei auch, dass die meisten Modelle bei mehrstufigen Antworten irgendwann den Faden verlören und abschweiften.

„Bessere Balance zwischen Expertise und Lehrfähigkeiten als herkömmlichen LLMs“

In einem zweiten Projekt mit demselben Team hat Mačina ein eigenes LLM entwickelt, welches die Balance zwischen Pädagogik und Didaktik auf der einen und Fachexpertise auf der anderen Seite besser beherrschen soll. Trainiert hat er es, in dem er einen virtuellen Schüler mit einer virtuellen Lehrerin über mehrere Schritte interagieren lässt. Dabei verzichtet er auf teure Trainingsdaten. Das Modell lernt aus der simulierten Interaktion und mit den Rückmeldungen eines zweiten Modells. Dieses überwacht den Lehr-Lernprozess und bewertet die Reaktionen der virtuellen Lehrerin. Dadurch lernt das LLM kontinuierlich hinzu, was von den Forschenden „reinforcement learning“ genannt wird.

„Der grosse Vorteil ist, dass wir dafür keine riesigen Datenmengen benötigen und mit sehr viel kleineren Sprachmodellen auskommen“, erklärt Mačina. Zum Vergleich: Neuste LLMs von Open AI oder Google verfügen über mehrere hundert Milliarden bis Billionen Parameter. Etwas vereinfacht erklärt, sind Parameter ein Mass für die Denkleistung eines LLM. Mačinas Modell kommt mit lediglich sieben Milliarden Parameter aus.

„Wir sehen, dass mit unserem Modell eine bessere Balance zwischen fachlicher Expertise und Lehrfähigkeiten entsteht als bei herkömmlichen LLMs.“ Zudem drifte das Modell weniger ab. Selbst bei einer Lerninteraktion mit 20 Schritten verliere sich das Modell nicht. Während des Lernprozesses kann das Modell zudem nach den Gründen für bestimmte Antworten und Entscheidungen befragt werden. „Lehrpersonen können so den Lehrprozess nachvollziehen und überwachen“, sagt der Forscher.

Bald KI-Tutor für Masterstudierende?

Mačinas LLM ist mittlerweile unter dem Namen TutorRL frei verfügbar und wurde bereits über tausend Mal heruntergeladen. „TutorRL ist bis heute eine der wenigen LLMs, die fürs Lernen optimiert und frei zugänglich sind.“ Er räumt jedoch ein, dass das Modell noch nicht mit Lernenden im Klassenzimmer getestet und evaluiert wurde. Dafür sucht er aktuell nach Kooperationspartnern in Schulen. Zudem funktioniere das System bisher lediglich für den Mathematikunterricht auf Stufe Gymnasium und Anfang Bachelorstudium. Mačina kann sich aber durchaus vorstellen, dass das Modell längerfristig auch in weiteren sogenannten MINT-Fächern (Mathematik, Informatik, Naturwissenschaften und Technik) eingesetzt wird, und genügend leistungsfähig wird, dass es auch im Masterstudium zum Einsatz kommt.

Für den Forscher sind die Ergebnisse aber nicht allein für die Lehre relevant, sondern von grundsätzlichem Nutzen für die weitere Entwicklung von Künstlicher Intelligenz. Die kollaborative Problemlösung, entsprechend derjenigen von TutorRL, werde für viele zukünftige Arbeitsfelder essenziell sein, denn das menschliche Urteilsvermögen werde zentral bleiben. „Was wir ja wirklich wollen, ist eine befriedigende Zusammenarbeit zwischen Menschen und den LLMs – und nicht, dass die Modelle uns das Denken abnehmen“, so Mačina.

Literaturhinweise

Macina J, Daheim N, Hakimi I, Kapur M, Gurevych I, Sachan M: MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.

Dinucu-Jianu D, Macina J, Daheim N, Hakimi I, Gurevych I, Sachan M: From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.

 

Quelle: ETH Zürich
Bildquelle: Adobe Stock / Montage ETH Zürich

Publireportagen

Empfehlungen

Gott.ch
haushaltsapparate.net
gourmetnews.ch
moebeltipps.ch