Im Artikel #4 dieser Serie haben wir uns angeschaut, wie sich die bekannte Welt des Testers mit KI-gesteuerter Software (nicht) verändern wird. In diesem Artikel bleiben wir grundsätzlich beim Thema «Testing von KI-gesteuerten Systemen». Mit «Bias» und «Drift» betrachten wir zwei KI-spezifische Faktoren, die fatalen Einfluss auf das Rechenmodell der «Künstlichen Intelligenz» haben können und daher regelmässig getestet werden müssen.
Auch die «Künstliche Intelligenz» ist nur ein Mensch
Der englische Begriff «Bias» heisst auf Deutsch «Vorurteil», laut Wikipedia «… ein Urteil, das einer Person, einer Gruppe, einem Sachverhalt oder einer Situation vor einer gründlichen und umfassenden Untersuchung, Abklärung und Abwägung zuteilwird»[i] ist.
Fälle von «biased» KI-gesteuerten Systemen tauchen immer mal wieder in den Schlagzeilen auf, wenn es sich um ein publikumswirksames Thema handelt. Welche Wörter finden Sie positiv in einem Bewerber-Profil? Werden diese Wörter in gleicher Art, Weise und Menge von Frauen und Männern benutzt? Nein? Und schon haben wir eine KI mit Vorurteilen. Amazon lernte dieses im Jahre 2015, als es seine KI-unterstützte HR-Software für Personalauswahl genau deshalb eingemottet hat[ii].
Bias kann verschiedene Ursachen haben. Im simpelsten Fall fliessen Unwissenheit oder unbewusste Vorurteile des Data Scientists bei der Entwicklung des Modelles in die KI ein.
Schlechte oder unzureichende Trainingsdaten sind ein weiterer Grund für Bias. Sprich, fehlende Erfahrung und dadurch falsche Schlussfolgerungen von Seiten der KI: Wird bei einer Bilderkennung für Tiere wirklich das Pferd erkannt oder sind es die regelmässig wiederkehrenden Halfter am Pferdekopf oder gar die Reitstiefel des Menschen, der das Pferd hält?
Von besonders seltenen Tieren gibt es meistens vergleichsweise wenig Fotos = weniger Trainingsdaten = geringere Wahrscheinlichkeit auf korrekte Identifikation.
Diese Form von Bias haben den Ursprung oft in der Projektphase. Nur die sehr genaue Prüfung der Trainingsdaten und der Testergebnisse kann hier helfen. Je nach Aufgabe der Software reicht es nicht aus nur Experten aus der Fachabteilung dabei zu haben, die in einem bestimmten Kontext denken. Test Consultants mit Erfahrung in der Erstellung von funktionalen Testfällen und ihrem etwas «anderen Mindset» für Testergebnisse können noch einmal einen weiteren Blickwinkel liefern (und die Frage, welche zusätzliche Expertise für die funktionalen Tests gebraucht wird).
Die Betreiber der KIs unterstützen Projekte mit Tools und Best Practises, um Bias möglichst gering zu halten. IBMs KI «Watson» hat inzwischen sogar ein Modul, welches Bias in KI-Modellen prüft und erkennen soll - nur könnte dieses nicht auch selbst «biased» sein?[iii]
Bias kann aber auch durch bewussten Dateninput entstehen, wie Microsoft mit seinem Chatbot «Tay» 2016 erfuhr. Tay wurde gezielt von Anwendern, innerhalb von Stunden, von einem freundlichen Chatbot zu einem Rassisten umerzogen[iv].
Während man diesen Fall noch als sehr bösen Scherz auffassen kann, hat die gezielte Umerziehung einer KI für ein «Security Information and Event Management» (SIEM)-System oder einer Bankenanwendung für «Fraud Detection» durch Hacker eine ganz andere Dimension. Bisher hat dieses (vermutlich) noch nicht stattgefunden, aber praktisch die gesamte Security Community erwartet etwas in dieser Art in den nächsten Monaten bis zwei Jahren.[v]
Die Folgen des Bias treten vielleicht erst nach einer längeren Zeit zu Tage, aber je nachdem, wer sie entdeckt und welches Feature «biased» ist, kann es vom Marketing-GAU bis hin zu fehlerhaften Geschäftsentscheidungen und modernem Bankraub viele Folgen haben. Die Betreiber von KIs raten deshalb zu regelmässigen Bias-Audits der KI-unterstützten Software.
Im Gegensatz zum Regressionstestfall kann man bei einem Bias-Audit nicht einfach die Testfälle vom letzten Monat noch einmal durchlaufen lassen, sondern man muss die aktuellen Ausgabewerte umfänglich analysieren.
Beispiel: Wie kommt es, dass die Kreditanträge mit Adressen in einem bestimmten Quartier mit einer steigenden Prozentzahl abgelehnt werden? Sind in diesem Quartier Betreibungen analog gestiegen oder wurden vielleicht vermehrt Anträge von Frauen oder Menschen mit fremdländischen Namen gestellt?
Um vom Mysterium der KI-Entscheidung in der Blackbox wegzukommen und mehr Transparenz für den Einzelentscheid zu schaffen, erklärt das o. g. Modul von «Watson» auch, auf welcher Basis eine bestimmte Entscheidung getroffen wurde[vi].
Die «Künstliche Intelligenz» ist eine Maschine
Das Rechenmodell der KI verändert sich mit der Zeit durch konstantes Training nicht nur selber, die Umwelt um die KI herum ist natürlich auch nicht statisch. Oder verkaufen Sie in Ihrem Geschäft ganzjährig die gleichen Artikel oder Dienstleistungen in gleicher Menge? Fast in jedem Business gibt es saisonale Schwankungen. Vermutlich ändern sich die Top-5 der meistverkauften Artikel in den meisten grösseren Shops in Zyklen. Andererseits gibt es beim hochspezialisierten Verkäufer oder Dienstleister, mit einem engen Leistungsportfolio, sehr wahrscheinlich das Sommer- oder das Feiertagsloch im Dezember.
Weihnachten kommt zwar für viele Menschen immer wieder überraschend und sie haben am 20. Dezember noch immer keine Geschenke, aber grundsätzlich haben sie es «auf dem Schirm». Bei der «Künstlichen Intelligenz» ist es anders. Nachdem die Vertriebs-KI im Dezember sehr erfolgreich vielen Kunden noch etwas Passendes mit einem Weihnachtsthema vorgeschlagen hat, ändert sich über Nacht das Kundenverhalten und am 25.12. haben diese für die gleichen Vorschläge kein Interesse mehr. Das Rechenmodell ist plötzlich nicht mehr für die aktuelle Situation optimiert. Diesen Zustand nennt man «Drift». (Selbst wenn Sie dem Rechenmodell einen Kalender einprogrammieren, weiss es nur, dass am 25.12. alles anders ist, aber was ist anders?)
Die grösste Drift in der Geschichte von KIs gab es wahrscheinlich im April 2020. All die weltweit gut eingespielten Marketing- und Logistik-KIs lernten die Folgen von Corona in ihrer jeweiligen Domain kennen. Innerhalb von Tagen rutschten die KIs vom Superverkäufer/-planer/-makler auf das Niveau eines Lehrlings im 1. Lehrjahr ab.
Innerhalb von Tagen änderte sich zum Beispiel die Top Ten bei Amazon.com von Telefonhüllen, Telefonladegeräten und Lego zu WC-Papier, Gesichtsmasken und verschiedenen Desinfektionsmitteln.[vii]Dinge des täglichen Bedarfs, die kurz vorher noch als Nachgedanke beim Einkauf im Supermarkt mit eingeladen wurden, wurden plötzlich Quotenhits auf Online-Plattformen.
Ein zweiter Grund für Drift – «Concept Drift», um genau zu sein – basiert auf dem eigentlich positiven Fakt, dass das Rechenmodell ständig on-the-job weiter trainiert. In der Projektphase trainiert der Data Scientist das Rechenmodell. Nachdem die Genauigkeit für den Kunden akzeptabel ist, geht die KI produktiv und lernt immer weiter und wird immer akkurater. Nur woher weiss die KI, dass sie zu einem bestimmten Zeitpunkt das beste Ergebnis im Sinne des Kundenauftrages liefert?
«Nach fest kommt kaputt», sagt eine alte Handwerker-Weisheit. Unser Rechenmodell hat eine sehr hohe Genauigkeit erreicht. Es adaptiert aber immer weiter zu allen Transaktionen. Es adaptiert zu Transaktionen, die eine wirkliche Veränderung im Kundenverhalten darstellen, zum Beispiel das veränderte Nachfrageverhalten zu wärmerer Kleidung im Herbst. Es adaptiert aber auch zu Transaktionen, deren Veränderungen statistisch gesehen unter «Zufall» laufen oder weil in einer Woche die Nachfrage nach einer bestimmten Jacke durch die Kleidung einer Filmfigur hervorgerufen wird. In allen Fällen werden die Transaktionen analysiert, die Daten verarbeitet und im Rahmen des ewigen Trainings wird das Rechenmodell angepasst.
Um sich als Betreiber eines KI-gesteuerten Systems gegen Drift zu schützen, muss ich sie als erstes feststellen. Regelmässige, zeitgesteuerte Regressionstests sind hier das Mittel, wobei dieses Monitoring, je nach Anwendung, teilweise auch per Script durchgeführt werden kann.
Nachdem ich festgestellt habe, dass meine KI nicht mehr ganz rund läuft, gibt es zwei Möglichkeiten: a) Nachtrainieren des Rechenmodells oder b) Austausch des Rechenmodells.
Beim «Nachtrainieren» füttere ich das vorhandene Rechenmodell so lange mit aktuellen Trainingsdaten, bis es «die Welt wieder versteht». Zusätzlich ist es vielleicht möglich, das Modell etwas zu tunen, indem bestimmte Inputparameter eine höhere Gewichtung bekommen als andere.
Wenn die Drift bereits sehr gross ist oder mein Shop sehr stark auf Saisonware fokussiert, macht der Austausch wohl eher Sinn. Stopp! Nicht gleich die Delete-Taste drücken. Das alte Modell ist Experte für Sommerkleidung und der nächste Sommer kommt bestimmt. Heben Sie es auf, für nächstes Jahr. Etwas Training und es ist wieder voll einsatzfähig.
Andererseits, vielleicht kann man das Rechenmodell um einen saisonalen Parameter erweitern und es doch noch zu einem All-Round-Verkäufer machen. Bei unserem Weihnachtsbeispiel hat die KI im Kalender stehen, dass sich am 25. Dezember vieles schlagartig ändert. Im nächsten Schritt folgt eine Trainingsphase, in der die KI lernt, welche Umsätze der letzten Wochen weihnachtsspezifisch waren und welche nicht. Schon haben wir wieder ein Rechenmodell mit einer guten Genauigkeit, welches die Kunden auch am 27.12. kompetent beraten kann.
Zusammenfassend kann man also sagen, dass sich mit Bias-Audits mittelfristig ein neuer Geschäftsbereich für Tester entwickeln könnte, wobei man, aufgrund der Komplexität der Tests, wahrscheinlich stark auf einen Themenbereich fokussiert sein muss. Mit Drift-Testing ist andererseits vermutlich nicht viel für den Tester zu gewinnen.
Damit kommen wir zum Abschluss unserer fünfteiligen Serie zum Thema «Künstliche Intelligenz in der Anwendung». Wir hoffen, wir konnten Ihnen das Thema in verständlicher Art und Weise etwas näherbringen.
Werden in Ihrem Arbeitsumfeld bereits KI-gesteuerte Systeme eingesetzt, bereiten Sie gerade Ihr erstes Projekt zu dieser Thematik vor oder ist für Sie «das Thema KI» noch ganz weit weg? Unter diesem Link finden Sie einen sehr kurzen Fragebogen. SwissQ würde sich freuen, wenn Sie sich fünf Minuten Zeit nehmen könnten diesen auszufüllen. Bei genügend Rückläufern werden wir das Ergebnis als «Nachschlag» zu dieser Serie in einem weiteren Artikel veröffentlichen.
Dieser Artikel ist, wie diese gesamte Serie, eine Gemeinschaftsarbeit von Olaf Lipinski, Dejan Husrefovic und Wilhelm Kapp, SwissQ Consulting, März 2021.
Quellen:
[i] https://de.wikipedia.org/wiki/Vorurteil, geprüft am 23.03.2021
[ii] https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G, geprüft am 17.07.2020
[iii] https://mediacenter.ibm.com/media/1_1shu3261, geprüft am 17.07.2020
[iv] https://www.bbc.com/news/technology-35902104, geprüft am 17.07.2020
[v]https://www.information-age.com/war-ai-algorithms-next-evolution-cyber-attacks-123491934/, geprüft am 23.03.2021
[vi] https://mediacenter.ibm.com/media/1_fvsfm0fo, geprüft am 17.07.2020
[vii] https://www.technologyreview.com/2020/05/11/1001563/covid-pandemic-broken-ai-machine-learning-amazon-retail-fraud-humans-in-the-loop/, geprüft am 05.02.2021