Laufend

auditissimo

KI-gestützte Interne Revision von IRBA-Ratingverfahren

Bereich

Generative KI / Audit

Partner

Hochschule Reutlingen, msg for banking ag

Stand

März 2026

Wie gut kann Generative KI die Interne Revision bei der Prüfung komplexer Ratingmodelle unterstützen? Im Forschungsprojekt auditissimo haben wir gemeinsam mit der Hochschule Reutlingen und der msg for banking ag genau dieser Frage nachgespürt — und einen modularen KI-Prototyp entwickelt, der den gesamten Prüfprozess von IRBA-Ratingsystemen Schritt für Schritt begleitet.

auditissimo Dashboard — Das auditissimo-Dashboard zeigt alle sechs Prüfmodule auf einen Blick — von der Regulatorischen Basis bis zur Dokumentation.

Hintergrund: Eine anspruchsvolle Prüfaufgabe

Kreditinstitute, die den Internal Ratings-Based Approach (IRBA) nutzen, schätzen ihre regulatorischen Kapitalparameter — Ausfallwahrscheinlichkeit (PD), Verlustquote bei Ausfall (LGD) und Forderungshöhe bei Ausfall (EAD) — auf Basis eigener statistischer Modelle. Art. 191 der Capital Requirements Regulation (CRR) verpflichtet die Interne Revision dazu, diese Ratingverfahren mindestens einmal jährlich vollständig zu prüfen.

Das klingt beherrschbar — ist es in der Praxis aber alles andere als das. Ein typischer Validierungsbericht für ein mittelgroßes Institut referenziert über vierzig regulatorische Einzelanforderungen aus CRR, EBA-Leitlinien, EBA-RTS und dem ECB Guide to Internal Models. Jede Anforderung muss mit spezifischen quantitativen Nachweisen belegt sein: Gini-Koeffizient ≥ 0,40, PSI-Schwellenwerte, Hosmer-Lemeshow-Tests, Migrationsmatrizen — die Liste ist lang. Solche Expertise ist in einem einzelnen Auditteam selten vollständig vorhanden.

Genau hier setzt auditissimo an.

Die auditissimo-Architektur: Sechs Module, ein durchgängiger Prüfprozess

auditissimo ist kein generisches Chat-Tool. Das System bildet die tatsächliche Logik eines IRBA-Audits ab — Schritt für Schritt, Modul für Modul.

M1 — Regulatorische Basis

Eine einzige Quelle der Wahrheit

Regulatorische Anforderungen an IRBA-Modelle sind über viele Dokumente verstreut — CRR, EBA-RTS, EBA-Guidelines, ECB-Leitfäden, interne Richtlinien. Modul 1 liest alle relevanten Quelldokumente ein und zerlegt sie in atomare, testbare Einzelanforderungen. Jede Anforderung erhält eine eindeutige ID, eine Kurzbeschreibung, einen Wortlaut und die genaue regulatorische Herkunft. In der aktuellen Implementierung erzeugt das System durchschnittlich 31 Anforderungen pro regulatorischem Abschnitt — mit einer von menschlichen Prüfern bestätigten Präzision von über 90 %.

Modul 1: Anforderungsextraktion — Modul 1 in der Praxis: Aus Textziffer 20 der EBA/GL/2017/16 extrahiert auditissimo zwei eigenständige, testbare Anforderungen — jeweils mit eindeutiger ID, Prüfauftrag und konkreter Revisionsfrage.

M2 — Risikobeurteilung

Nicht alle Anforderungen wiegen gleich schwer. Modul 2 bewertet jede Anforderung anhand von Modellmetadaten (Asset-Klasse, Vintage, regulatorische Vorgeschichte) und weist ihr einen Risiko-Score zu. Prüfressourcen werden so gezielt auf die kritischsten Bereiche gelenkt — ganz im Sinne des ECB-Risikobeurteilungsrahmens.

M3 — Arbeitspapier-Initialisierung

Modul 3 generiert vorausgefüllte Audit-Arbeitspapiere für jede ausgewählte Anforderung. Der administrative Aufwand für die Prüfungsvorbereitung sinkt spürbar — das Auditteam kann sich auf die inhaltliche Bewertung konzentrieren statt auf Dokumentenerstellung.

M4 — Gap-Analyse

Das Herzstück der Prüfung

Modul 4 vergleicht das Validierungskonzept (was muss geprüft werden?) mit dem Validierungsbericht (was wurde tatsächlich geprüft?). Für jede Anforderung wird ein dreistufiges Erfüllungsgrad-Urteil generiert:

Erfüllt (80–100): Klare, vollständige Dokumentationsnachweise vorhanden
Teilweise erfüllt (30–79): Partielle Nachweise, aber Lücken oder Unklarheiten
Nicht erfüllt (0–29): Kein oder unzureichender Nachweis

Entscheidend: Jede KI-Bewertung ist mit Belegpassagen aus dem Prüfdokument verknüpft, sodass der Prüfer die Reasoning-Kette der KI nachvollziehen und bei Bedarf übersteuern kann. Die Temperatur der LLM-Aufrufe ist bewusst auf T = 0,1 gesetzt — Gap-Analyse ist eine Evidenz-Retrieval-Aufgabe, keine kreative Aufgabe.

Modul 4: Auswahl des Prüfdokuments — Schritt 2: Auswahl des Prüfdokuments

Modul 4: Anforderungsauswahl — Schritt 3: Auswahl der Soll-Anforderungen

M5 — Deep Dive

Anforderungen, die in M4 als „teilweise erfüllt" oder „nicht erfüllt" eingestuft wurden, werden in Modul 5 vertieft untersucht. Das Modul bohrt in spezifische Modelloutputs, Datensätze und Berechnungen — zum Beispiel: Ist der berichtete Gini-Koeffizient von 0,46 für das Retail-PD-Modell mit der im Validierungskonzept spezifizierten Methodik konsistent?

M6 — Report und Finding-Synthese

Modul 6 aggregiert die Befunde aus M4 und M5 zu strukturierten Prüfungsfeststellungen im Format des institutseigenen Audit-Managementsystems. Alle Outputs werden explizit als Erstentwurf deklariert — die abschließende Bewertung liegt immer beim verantwortlichen Prüfer.

Human-in-the-Loop: Wo KI Grenzen haben muss

auditissimo ist konsequent darauf ausgelegt, Prüferurteil zu unterstützen — nicht zu ersetzen. Wir identifizieren vier Aufgabenkategorien, bei denen menschliche Entscheidungshoheit nicht verhandelbar ist:

H1 — Wesentlichkeitsbeurteilung: Ob eine festgestellte Lücke als Prüfungsfeststellung materiell ist, erfordert professionelles Urteilsvermögen.
H2 — Regulatorische Interpretation: Bei mehrdeutigen Regulierungstexten kann die KI eine plausible, aber falsche Interpretation liefern. Das institutionelle Kontextwissen des Prüfers ist unverzichtbar.
H3 — Modellmethodologische Beurteilung: Die Angemessenheit spezifischer Modellierungsentscheidungen liegt jenseits der aktuellen Fähigkeiten von General-Purpose-LLMs.
H4 — Prüfungsurteil: Das Gesamturteil über die regulatorische Eignung des Ratingverfahrens ist eine rechtliche und professionelle Entscheidung, die beim qualifizierten Prüfer verbleibt.

Empirische Validierung: Die Steinbeis Bank als Testumgebung

Ein zentrales methodisches Problem bei der Evaluation von GenAI-Prüfwerkzeugen: Es gibt keine öffentlich verfügbaren, annotierten Datensätze von IRBA-Compliance-Beurteilungen — solche Daten sind institutionsvertraulich. auditissimo löst dieses Problem durch eine eigens entwickelte synthetische Testumgebung: die Steinbeis Bank.

Die Steinbeis Bank ist eine vollständig parametrisierbare, synthetische Kreditinstitution mit vier produktionsnahen IRBA-Modellen (Corporate PD/LGD, Retail PD/LGD), trainiert auf 10 Jahren synthetischer Daten (2015–2024) mit realistischen makroökonomischen Zyklen.

Steinbeis Bank Portfolio-Dashboard — Die synthetische Steinbeis Bank: Das Portfolio-Dashboard zeigt 4.080 Kreditnehmer (600 Corporate, 3.480 Retail), historische Ausfallraten über 10 Jahre sowie die Rating- und PD-Verteilungen der Corporate- und Retail-Modelle.

Erste Ergebnisse: Was die KI kann — und was nicht

Im Pilotversuch wurden 24 Anforderungen aus dem Retail-PD-Validierungskontext und vier Ablationsszenarien getestet:

Ergebnisse der Gap-Analyse — Gap-Analyse in Aktion: Von 12 gezeigten Anforderungen werden 6 als erfüllt, 4 als teilweise erfüllt und 2 als nicht erfüllt bewertet. Jede Einschätzung ist mit Begründung und konkreten Fundstellen im Prüfdokument belegt.

Das Muster ist eindeutig: Die KI erkennt vollständige Auslassungen fast fehlerfrei (F1 = 0,92). Die Leistung sinkt systematisch, je subtiler die Nicht-Compliance wird. Am schwierigsten zu erkennen sind Fälle, in denen der Bericht eine Methodik narrativ beschreibt, ohne quantitative Ergebnisse zu liefern — genau die Fälle, bei denen auch erfahrene Prüfer die meiste Aufmerksamkeit aufwenden würden.

Besonders aufschlussreich: Ein generischer Prompt erreicht nur einen F1-Score von 0,59. Durch schrittweise Verfeinerung — Rollenspezifikation als Bankprüfer, strukturiertes Ausgabe-Schema und Einbettung konkreter regulatorischer Schwellenwerte (AUC ≥ 0,70, PSI < 0,10) — steigt der Score auf 0,78. Domänenwissen muss in die Systemarchitektur eingebaut werden, nicht nur im Prompt angedeutet sein.

Was auditissimo zeigt

Process Proximity entscheidet: Generische Dokumenten-Chat-Tools liefern für IRBA-Auditarbeit keine operationalisierbaren Ergebnisse. Die KI muss die sequenzielle Logik des Prüfprozesses selbst abbilden.
Atomic Auditability ist Pflicht: Jede KI-Aussage muss auf eine spezifische Belegpassage rückführbar sein — für die Nachvollziehbarkeit, für den Prüfer-Override und für den regulatorischen Audit-Trail.
Governed Human Primacy: Auditschlussfolgerungen müssen das professionelle Urteil eines qualifizierten Prüfers widerspiegeln. KI-Unterstützung ist wertvoll; KI-Substitution ist unzulässig.

Für ein mittelgroßes Institut mit zehn IRBA-Modellen bedeutet das konkret: 300 bis 400 Einzelanforderungsprüfungen pro Jahreszyklus. auditissimos Streaming-Gap-Analyse kann diese Analyse in Stunden statt Wochen abschließen — mit dem Prüfer konzentriert auf die wesentlichen Befunde statt auf mechanisches Dokumentenmatching.

Jetzt ansehen

auditissimo ist online verfügbar unter auditissimo.com. Bei Interesse an einer persönlichen Vorführung oder einem Gespräch über den Einsatz in Ihrem Haus freuen wir uns über Ihre Nachricht.

Termin vereinbaren

Kontakt und Live-Demo

Sie möchten auditissimo in Aktion erleben oder mehr über die Anwendungsmöglichkeiten für Ihr Haus erfahren? Sprechen Sie uns gerne an.

Prof. Dr. Dirk Schieborn

Steinbeis-Transferzentrum Data Analytics und Predictive Modelling

dirk.schieborn@steinbeis-analytics.de

Das Working Paper „Generative Artificial Intelligence in Internal Audit: A Process-Integrated Framework for AI-Assisted Review of IRBA Rating Procedures under Art. 191 CRR" entstand in Zusammenarbeit von Prof. Dr. Dirk Schieborn (Hochschule Reutlingen), Prof. Dr. Volker Reichenberger (Hochschule Reutlingen) und Tim S. Körwers (msg for banking ag). Draft-Version März 2026.