Künstliche Intelligenz: wie lange dauert es noch bis zur digitalen Revolution?
Seit zwischenzeitlich einem Jahr macht Chat GPT von sich reden und das Thema künstliche Intelligenz ist in der Breite der Bevölkerung angekommen. Wer Chat GPT schon einmal benutzt hat, staunt über die erzielten Ergebnisse. Ein Arbeitszeugnis, eine Geburtstagsrede oder Erstinformationen zu dem einen oder anderen Thema - der Output ist beachtlich. Geht es in die Tiefe, zeigen sich aber durchaus noch inhaltliche Schwächen, wie der Eigenversuch zu steuerrechtlichen Themen ergeben hat. Jenseits des Outputs von Chat GPT werden auch zweifelnde Stimmen laut, die etwa Verstöße gegen das Urheber- oder Datenschutzrecht geltend machen.
Chat GPT ist nur die Spitze der Fahnenstange. Wir sprechen mit Sven Giesselbach, Team Lead Natural Language Understanding beim Fraunhofer IAIS in Sankt Augustin, darüber, wo uns die Reise in Sachen Künstliche Intelligenz hinführen wird, was jetzt schon möglich ist und wie insbesondere Unternehmen Künstliche Intelligenz für sich nutzen können.
Bill Gates soll gesagt haben, dass Chat GPT und der Einsatz künstlicher Intelligenz unsere Welt verändern wird. Herr Giesselbach, wie konkret macht sich das heute schon bemerkbar?
Zunächst zu der Präsenz in den Medien: Das Thema KI hat das letzte Jahr völlig dominiert. Auch Personen, die bisher nicht direkt damit in Berührung gekommen sind, kennen nun Chat GPT oder haben es sogar schon benutzt. In meinem Umfeld sehe ich auch eine Vielzahl von Personen aus anderen Branchen, die Chat GPT regelmäßig privat oder beruflich nutzen. Durch die Steuerung über natürliche Sprache und das unglaublich gute Sprachverständnis bietet Chat GPT eine sehr niedrige Einstiegshürde. Ich muss mir z. B. nicht mehr genau überlegen, welche Stichworte in einer Suchmaschine zum richtigen Ergebnis führen, sondern lasse Chat GPT meine Aussage interpretieren und es dann z. B. eigenständig eine Anfrage an Suchmaschinen formulieren.
Als Nächstes sehen wir ein starkes Interesse an Assistenzsystemen, die auf großen Sprachmodellen basieren, oder wie Microsoft sie nennt, die sog. Co-Pilots. Das automatisierte Generieren von Dokumenten, Bildern, Präsentationen oder sogar Programmcodes steigert nachweislich die Produktivität von Arbeitskräften. Zwar ist die Qualität oft noch nicht so gut, dass die Ergebnisse ohne Überarbeitung oder Korrekturen verwenden können, aber das Erstellen eines ersten Entwurfs geht deutlich schneller.
Konkret sehen wir auch ein enormes Interesse in der Industrie, Künstliche Intelligenz zur Automatisierung eigener Prozesse und Workflows einzusetzen. Durch die Vielseitigkeit von Foundation Models ergeben sich Anwendungsmöglichkeiten in den unterschiedlichsten Unternehmensabteilungen und -Branchen.
Wenn wir von Künstlicher Intelligenz reden, sprechen wir genauer gesagt über sog. Foundation Models, also durch maschinelles Lernen für eine bestimmte Anwendung trainierte Computermodelle. Wie ist deren grundlegende Funktionsweise?
Das spannende an Foundation Models ist, dass sie nicht für eine bestimmte Anwendung trainiert werden, sondern im ersten Schritt möglichst generell und danach sehr adaptierbar auf spezielle Anwendungen sind. Die Vielseitigkeit der Foundation Models zeigt sich zum einen darin, dass sie in vielen Fällen mehr als eine Art von Daten verarbeiten können, z.B. Text und Bilder, das nennen wir Multimodalität, zum anderen, dass sie auf verschiedene Aufgaben adaptiert werden können. Dies geschieht entweder durch spezielles Training („fine-tuning“) oder durch gezielte sprachliche Anweisungen, sog. Prompts.
Grundlegend werden diese Modelle darauf trainiert, Kontext zu verstehen. Dazu entfernt man meistens Teile aus Daten, z. B. Bildausschnitte oder Wörter, und lässt die Modelle diese fehlenden Bestandteile wieder rekonstruieren. Das macht man dann auf unzähligen, aus dem Internet verfügbaren, Daten. Diesen ersten Trainingsschritt nennen wir „Pre-Training“.
Danach beginnt die Adaptierung der Modelle auf bestimmte Domänen oder Aufgaben. Das kann z. B. durch fine-tuning mit entsprechend spezifischeren Daten gemacht werden. Alternativ kann die Adaption im Falle von großen Sprachmodellen auch durch natürlichsprachige Anweisungen („Prompts“) geschehen.
Hier liegt gleichzeitig auch einer der spannendsten Aspekte der Foundation Models. Durch die unzähligen Daten, die das Modell im Pre-Training gesehen hat, entwickelt es ein sehr gutes kontextuelles Verständnis von Daten. Beim Adaptieren brauchen wir dann im Vergleich zu früheren Modellarten wesentlich weniger Daten. Erste Prototypen von Anwendungen können so in kürzester Zeit erstellt werden, in dem man auf frei erhältliche oder kommerzielle Foundation Models zurückgreift. Gleichzeitig ermöglicht das Adaptieren durch natürliche Sprache, dass auch Personen ohne Machine Learning Hintergrund diese Modelle auf ihre Zwecke anpassen können.
Allerdings gibt es hier viel zu beachten. Ohne spezielles Fine-Tuning und Absicherung erreichen die Modelle in vielen Anwendungen nicht die Qualität, die für eine Automatisierung geeignet ist. Einen Prototyp kann man also zügig erstellen, zur vollständigen Lösung benötigt man weiterhin spezielle Kompetenzen zum Fine-tunen und Absichern der Modelle.
Wo liegen die Risiken allgemein zugänglicher KI? Oder ist gar deren Vertrauenswürdigkeit zu hinterfragen?
Allgemein zugängliche KI bietet uns erstmal viele Chancen, das möchte ich hier ganz stark betonen. Wir sollten auf diese Ressourcen zugreifen und sie nutzen. Ein hohes Risiko liegt darin, dass Unternehmen das Potential nicht erkennen. Wir wirken dem mit Schulungen und Workshops entgegen und stellen dann auch immer schnell fest, dass in jedem Unternehmen große Potentiale durch KI gehoben werden können.
Natürlich gibt es auch Risiken bei der Anwendung, die wir beachten müssen. Im Hinblick auf die Vertrauenswürdigkeit der Modelle gibt es eine Vielzahl von Herausforderungen:
- Wir müssen sicherstellen, dass die Modelle fair sind, d. h., dass z. B. Personen mit bestimmter Herkunft nicht benachteiligt werden.
- Wir müssen für Verlässlichkeit sorgen, also gewährleisten, dass die Antworten nicht halluziniert, sondern faktisch korrekt sind.
- Wir müssen den Datenschutz beachten, d. h. wir dürfen besonders generative Modelle nicht einfach mit sensitiven Modellen füttern, da diese möglicherweise leicht zu rekonstruieren sind. Google hat erst neulich gezeigt, dass aus OpenAI-Modellen Gigabytes an Trainingsdaten extrahiert werden können, indem sie diese gebeten haben, bestimmte Zeichenfolgen besonders oft zu wiederholen.
- In Anwendungen muss genau definiert sein, wie autonom diese Modelle agieren, bzw. an welchen Stellen und wie oft Menschen in Prozesse eingreifen.
- Wir müssen die Modelle gegen Angriffe absichern – was passiert z. B., wenn jemand unsere Prompts auf dem Weg zum Sprachmodell manipuliert und wir plötzlich falsche Antworten oder schädliche Antworten bekommen?
- Ein weiterer wichtiger Aspekt ist die Transparenz: Wie kommt ein Foundation Model zu einer Antwort? Das ist bei diesen Modellen schwer nachvollziehbar, aber gerade in kritischen Anwendungsbereichen ein extrem wichtiger Faktor.
Es gibt also genügend Herausforderungen und Aspekte der Vertrauenswürdigkeit, die wir beachten sollten – allerdings gibt es auch genügend Maßnahmen, um diese Aspekte zu sichern.
Natürlich ist auch der Missbrauch solcher Modelle möglich, Deshalb ist es gut, dass die Anwendungsbereiche reguliert werden. Ich befürchte dennoch, dass wir in Zukunft immer häufiger von Betrugsfällen auf Basis generativer Modelle hören werden. Wir müssen uns darauf einstellen, dass wir von Fällen hören werden, in denen eine täuschend echte Kopie einer Person zu sehen sein wird, vielleicht sogar mit nahezu perfekt imitierter Stimme. Erst kürzlich gab es einen Betrugsfall, bei dem sogar mehrere Personen imitiert und so eine Summe von 24 Millionen Euro gestohlen wurde. Hier brauchen wir schnell Lösungen, um Unternehmen und Privatpersonen zu schützen. Wir entwickeln beispielsweise Prüfverfahren, um KI zu zertifizieren.
Vielen Dank, lieber Herr Giesselbach für das Gespräch, das wir in der nächsten Ausgabe unserer novus Mandanteninformation fortsetzen.