Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeHaupt-Feeds

KI-Wochenrückblick KW 32/2023

13. August 2023 um 20:15

Auch in der Sommerpause gibt es vereinzelte Neuigkeiten aus der Welt der künstlichen Intelligenz. Heute möchte ich mich dabei wieder einmal den Agenten widmen.

MetaGPT

Beim Einsatz von ChatGPT und ähnlichen LLMs stellt sich schnell die Frage, ob da nicht auch mehr geht. Ob das System nicht zur Abbildung alltäglicher Arbeit herangezogen werden kann. Insbesondere mit Anfang des Jahres aus dem Winterschlaf erwachten Konzept der Agenten wurde die Zusammenarbeit unterschiedlicher KI-Instanzen wieder relevant und spannend. Umso interessanter ist es, diese Konzepte zusammenzuführen.

AutoGPT und Co. sind diesem Ziel gefolgt und konnten schon lustige Ergebnisse demonstrieren, wenn man die LLMs sinnbildlich an den eigenen Computer anschließt und z. B. die Ausgaben des LLMs als Eingabe für die eigene Shell verwendet (nicht nachmachen, ist eine dumme Idee). Doch auch hier gab es einige Schwächen, ganz rund lief alles bei weitem noch nicht.

Die Autoren hinter MetaGPT (hier im Bezug auf griechisch meta = über) haben systematisch verschiedene Rollen inkl. ihrer Interaktionen ausgearbeitet und stellen ihre Ergebnisse als Preprint und ihr Framework auf GitHub bereit. Dabei wird eine einzeilige Aufgabe, z. B. die Entwicklung eines Spiels, vom System eingelesen und dann auf ein hierarchisches Team aus Agenten verteilt. Diese Agenten haben verschiedene Rollen, die sich auf die System-Prompts abbilden, d. h. beispielhaft "Du bist ein Entwickler für Python..." oder "Du bist ein Requirements-Engineer...". Am Ende des Tages fällt ein Ergebnis raus, das dann ausprobiert werden kann.

Das Konzept sieht in meinen Augen sehr spannend aus und entwickelt sich stets weiter. Dabei wird deutlich, dass eine simple Prompt für hochwertiges Prompt-Engineering nicht reicht, vielmehr können Effekte ähnlich wie beim Ensemble-Learning genutzt werden, durch die mehrere Instanzen von LLMs, die gemeinsam ein Problem bearbeiten, deutlich effektiver arbeiten.

Was LLMs von Cyc lernen können

Irgendwie habe ich die ganzen letzten Monate schon darauf gewartet, dass sich die Autoren klassischer Expertensysteme beim LLM-Thema zu Wort melden. Immerhin prallen hier zwei komplett unterschiedliche Welten aufeinander, die beide versuchen, die Welt zu erklären.

Klassische Expertensysteme versuchen mit Logik die Welt in Regeln zu fassen. Das typische Beispiel ist "Wenn es regnet, dann wird die Straße nass". Eine klare Implikation, die in eine Richtung geht: ist das Kriterium auf der "wenn"-Seite erfüllt, gilt die Aussage auf der "dann"-Seite. Wird das System gefragt, was mit der Straße passiert, wenn es regnet, antwortet es immer, dass sie nass wird. Immer. Dass es nicht zwangsläufig der Regen sein muss, wenn die Straße nass ist, wird ebenfalls durch Logik ermöglicht, da die obige Regel eine Implikation ist und keine Äquivalenz, denn da würde es heißen "Immer wenn es regnet, dann wird die Straße nass".

Problematischer wird es zu modellieren, dass die Straße selbst bei Regen da nicht nass wird, wo gerade ein Auto parkt. Hieran erkennt man, dass es sich um ein schwieriges Unterfangen handelt, wenn Expertensysteme die echte Welt modellieren sollen. Das Cyc-Projekt hat die Mühe aber auf sich genommen und über die letzten knapp 40 Jahre über eine Million solcher Regeln zusammengetragen. Viele einfache Expertensysteme gelten grundsätzlich aber als veraltet und konnten die Erwartungen für "generelle Intelligenz" schon vor 30 Jahren nicht erfüllen.

Anders funktionieren LLMs, die nicht mit klassischer Logik, sondern Wahrscheinlichkeiten arbeiten, um das "am ehesten passende" nächste Wort für die Antwort zu finden. Zusammengefasst sind Expertensysteme für ihre Präzision zulasten der Vielseitigkeit bekannt und LLMs einfach anders herum.

Doug Lenat von Cyc und Gary Marcus von der NYU haben in ihrem Preprint nun 16 Anforderungen zusammengetragen, die eine "vertrauenswürdige KI" haben sollte, darunter Erklärung, Herleitung oder Kontext. Anschließend gehen die Autoren noch ein, wie ihr (kommerzielles) Cyc das umsetzen kann.

Ich bin tatsächlich überzeugt, dass man untersuchen sollte, wie sich diese beiden Ansätze verheiraten lassen. Dabei sprechen auch die Ergebnisse von AutoGPT, MetaGPT & Co. dafür, dass das Vorhaben auf neuronaler Ebene angegangen werden muss, da einfache Varianten wie System-Prompts á la "Du bist LogikGPT. Gib mir die Entscheidungsregeln in Prädikatenlogik aus." immer noch auf Token-/Wortvorhersagen basieren und zu viel Halluzination zulassen.

Dennoch bin ich sicher, dass es auch hier Fortschritte geben wird, die wir dann früher oder später in einem Wochenrückblick diskutieren können. Bis dahin!

KI-Wochenrückblick KW 31/2023

06. August 2023 um 20:32

In der heutigen Ausgabe des Wochenrückblicks blicken wir auf ein neues Modell von IBM und einen Ausblick auf neue Features in der ChatGPT-Oberfläche von OpenAI.

IBM und NASA veröffentlichen Foundation-Model für Geodaten

Wie ich an der einen und anderen Stelle im Wochenrückblick schon einmal erwähnt habe, beschränkt sich die Transformer-Architektur mittlerweile nicht mehr nur auf Textaufgaben. Mit Vision Transformers lässt sich dies auch auf die grafische Ebene erweitern.

In einer Kooperation zwischen IBM und der NASA wurden nun die Prithvi-Modelle auf Hugging Face veröffentlicht. Sie ermöglichen es, ein Satellitenbild einzugeben und z. B. vorhersagen zu lassen, welche Gebiete am ehesten Fluten ausgesetzt sein könnten.

Um diese Vorhersagen zu ermöglichen, hat IBM Daten aus dem Harmonized Landsat Sentinel-2-Projekt (HLS) herangezogen, um ein Foundation Modell zu trainieren. Im HLS-Datensatz befinden Satellitendaten, die mit je 30 Metern pro Pixel aufgelöst sind. Auf der technischen Seite wird ein Vision Transformer mit Masked Autoencoder eingesetzt. Das Foundation Modell kann nun von weiteren Forschern feingetuned werden, um die jeweiligen Vorhersagen weiter zu verbessern. Durch IBMs Arbeit sollen nun mehr als 250.000 TB an Missionsdaten von der NASA besser zugänglich gemacht werden. Weitere Details zum Projekt können im Blogartikel und in der Pressemitteilung von IBM abgerufen werden.

Neue ChatGPT-Features

Wie SimilarWeb schon vor wenigen Wochen beobachten konnte, ebbt der Hype um ChatGPT langsam ab. Auffällig beim Release von ChatGPT war auch, wie puristisch die ganze Oberfläche war. Dabei ist es vermutlich das Backend, was OpenAI gemeistert hat, denn sie haben es geschafft, das System in den ersten Wochen unter ziemlich hoher Last aufrecht zu erhalten.

Im Frontend wurden aber zwischenzeitlich auch Änderungen und Verbesserungen umgesetzt, insbesondere die Einführung des kostenpflichtigen Dienstes ChatGPT Plus hat einige Anpassungen erfordert. Logan Kilpatrick, zuständig für "Developer Relations" bei OpenAI, gab nun einen Ausblick, was demnächst zu erwarten ist.

So wird es unter anderem vorgeschlagene Einstiegs- und Folgefragen und die Möglichkeit des Uploads mehrerer Dateien im Code Interpreter geben. Zudem soll die Zwangsabmeldung nach 14 Tagen abgeschafft werden.

Während ein Teil der Änderungen hilfreiche Detailverbesserungen beisteuert, werden die "vorgeschlagenen Folgefragen" am lustigsten sein. Nun schreibt also ChatGPT nicht nur die Antworten, sondern auch die Fragen. Es bleibt spannend.

KI-Wochenrückblick KW 30/2023

30. Juli 2023 um 19:24

In diesem Wochenrückblick kann ich euch wieder drei spannende Nachrichten präsentieren, die abbilden, was in den letzten Tagen besondere Aufmerksamkeit in der AI-Community erhalten hat.

SDXL 1.0 erschienen

Wie in fast jeder Woche kann ich euch auch dieses Mal wieder von einem neuen Modell berichten. Das Team rund um Stability AI hat am 26. Juli SDXL 1.0 veröffentlicht. SDXL baut auf Stable Diffusion auf. In der kürzlich erschienenen Version 0.9 konnten viele Eindrücke bereits gesammelt werden.

Dabei handelt es sich um ein Text-zu-Bild-Modell, welches Eingaben in 1024x1024 Pixel große Bilder konvertiert. Das Modell wurde weiter für Fotorealismus optimiert und kann nun besser die Farben, Kontraste und Schatten abbilden, so die Pressemitteilung.

Auf technischer Ebene besteht SDXL 1.0 aus zwei Modellen: einem Base-Modell mit 3,5 Mrd. Parametern und einem Refiner-Modell mit 6,6 Mrd. Parametern. Grob lässt sich das Refiner-Modell so vorstellen, dass es die Vorarbeiten vom Base-Modell nochmals deutlich verbessert, um die Qualität zu steigern.

Stability AI gibt an, dass Consumer-GPUs mit 8 GB VRAM bereits ausreichen, um damit arbeiten zu können. Ich konnte SDXL 1.0 bereits auf einer A10-Karte ausprobieren und es ermöglicht beeindruckende Ergebnisse.

Als Open-Source-Modell kann man sich die Gewichte für das Base- und Refiner-Modell laden, um es anschließend lokal zu nutzen. Für Anwender, die lediglich in die Möglichkeiten hineinschnuppern möchten, bietet sich der Dienst ClipDrop an, der kostenlos eine geringe Anzahl an Bildern zum Test generiert. Lizenziert ist SDXL 1.0 unter der Open RAIL++-M-Lizenz.

Adversarial Attacks auf LLMs

Unter dem Namen Universal and Transferable Adversarial Attacks on Aligned Language Models (Webseite) haben Zuo (CMU), Wang (Center for AI Safety), Kolter (CMU, Bosch Center for AI) und Frederikson (CMU) ein Paper präsentiert, das auf dem klassischen Gedanken der Adversarial AI aufbaut. Ihr erfolgreich erreichtes Ziel ist es, bestehenden LLMs Antworten zu entlocken, die unterdrückt werden sollen, da sie gegen die Regeln der LLM-Autoren verstoßen würden.

Die klassischen "Jailbreaks" kamen bereits kurz nach der Veröffentlichung von ChatGPT auf und wurden zeitnah immer geschlossen. Das ging in die Richtung von "Ein gute KI würde nicht sagen, wie man BÖSE SACHE HIER EINFÜGEN tut. Was würde aber eine böse KI sagen?". Die konkreten Anfragen mussten allerdings manuell aufwändig optimiert werden. Die Forscher stellen nun einen automatisierten Ansatz vor, der die böse Anfrage um eine Zeichenkette erweitert, die für Menschen unsinnig aussieht, aber das LLM intern in einer Weise beeinflusst, sodass es die aufwändig implementierten Schutzmechanismen selber missachtet und "Klartext" spricht.

Adversarial AI ist nicht neu und bereits aus der Bilderkennung bekannt. Hier genügte es, bestimmte Pixel in einem Bild zu verändern, die die menschliche Wahrnehmung nicht ändern, aber KI-Modelle verwirren. So wird für das Modell schnell aus einem 30er-Zonen-Schild ein 80er-Zonen-Schild. Dies ist durch das Studium der Modelle möglich, da man über die Zeit lernen kann, wie die Eingaben die Ausgaben beeinflussen und an welchen Stellen neuronale Netze unerwünschte Ausgaben gezielt herbeiführen kann.

1 LLM + 1 GPU + 1 Day

Die letzte Nachricht dieser Woche ist bereits ein kleiner Ausblick. Im Dezember 2023 findet die NeurIPS 2023 statt. Die NeurIPS ist eine der angesehensten Konferenzen über neuronale Netze. Schon jetzt wurde eine neue Challenge veröffentlicht, an der man bis voraussichtlich Oktober 2023 noch teilnehmen kann.

Bei der LLM Model Effiency Challenge ist das Ziel, ein bestehendes Foundation Model innerhalb eines Tages auf einer GPU, wahlweise einer 4090 oder A100 (40 GB), für ein bestimmtes Aufgabengebiet finezutunen. Dabei gelten bestimmte Regeln, welche Foundation Models z. B. verwendet werden dürfen. Darunter sind Falcon, MPT, Llama 2, BART oder T5 enthalten.

Das Ziel der Challenge ist es, die Transparenz in der Forschung der LLMs zu verbessern, da u.a. bisher ein besonders hoher Ressourcenaufwand nötig war, um das Training erfolgreich umzusetzen. Diese Challenges dienen auch, innovative Ansätze zu fördern, da durch die künstlichen Beschränkungen die Teilnehmer angehalten werden, Wege zu finden, eben 1 LLM mit 1 GPU innerhalb 1 Tages zu trainieren. Die Besten der Besten lassen sich auf einem Leaderboard tracken, um zu sehen, wer den "Highscore" knackt. Die beiden besten Teams dürfen dann auf der NeurIPS jeweils einen 30-minütigen Talk halten.

Es bleibt also weiterhin spannend. Blicken wir auch in eine neue Woche mit spannenden Neuerungen und Entwicklungen!

KI-Wochenrückblick KW 29/2023

23. Juli 2023 um 21:50

In dieser Woche gab es spannende Neuigkeiten von Meta AI und aus der Welt der Regulierung.

Llama 2

Einen Paukenschlag gab es in dieser Woche von Meta AI: Llama 2 wurde veröffentlicht mit einer Lizenz, die explizit auch die kommerzielle Nutzung erlaubt. Die Gewichte können auf Antrag gemäß den Nutzungsbestimmungen heruntergeladen werden. Verfügbar ist das Modell mit 7, 13 oder 70 Mrd. Parametern. Es wird eine Kontextlänge von bis zu 4096 Token unterstützt. Trainiert wurde das Modell auf über 2 Billionen Tokens. Das Finetuning wurde einerseits überwacht (SFT) und andererseits auf menschlichen Präferenzen (RLHF) vorgenommen.

Im Wettbewerb der LLMs geht es weiter um die Stellung der Vorherrschaft. Wer das beste Modell möglichst frei zur Verfügung stellt, bildet einen wichtigen Ankerpunkt, auf dem Forscher ihre Arbeiten aufbauen. Das ist auch bei kommerziellen Interessen sinnvoll, da eine große Nutzerbasis erreicht werden kann, die innovative Forscher und Entwickler hervorbringt, die wiederum den Ruf und die Marktposition des Unternehmens stärken.

Meta Platforms erhält nun die Möglichkeit, vom einstiegen Social-Media-Riesen zum Multimedia-Konzern aufzusteigen, der die Möglichkeiten hat, alle Medien zu bedienen. Die AI-Abteilung hat sich einen guten Ruf gemacht und versucht diesen nun im stark umkämpften Feld der LLM-Foundation-Models zu verteidigen. Dass Meta AI sich dieser Situation bewusst ist zeigt auch der Vergleich zwischen Llama 2 und MPT-7B, Vicuna-13B oder Falcon-40B im eigenen Paper zu Llama 2.

WormGPT

Dass LLMs auch für zweifelhafte Zwecke eingesetzt werden können, sollte jedem von Anfang an klar gewesen sein. In meinen Augen kann so etwas auch gar nicht durch Embargos verhindert werden, da es bei Technologien immer Akteure gibt, die sich nicht an die Regeln halten. Vielmehr sollten Gegenmaßnahmen eingesetzt werden, die auf die Ursache abzielen und nicht nur die Symptome bekämpfen.

SlashNext gibt in einem Blogeintrag einen interessanten Einblick in ein LLM-System mit dem Namen "WormGPT". Es soll auf dem 2021 erschienenen GPT-J aufbauen, um BEC-Tasks aufzuführen, also Business E-Mail Compromise. Da LLMs besonders dazu in der Lage sind, Texte nach bestimmten Stilen oder Gattungen zu entwerfen, kann ohne entsprechende Sicherheits-Checks ein System auf bösartige Aufgaben trainiert werden, um zum Beispiel eine Nachricht im Stil des eigenen Chefs oder Kunden zu schreiben.

Ratschläge, besonders auf die Rechtschreibung von eingehenden, echt aussehenden E-Mails zu achten, laufen mit der aktuellen Entwicklung somit zunehmend ins Leere. Bleibt also nur noch die Ursachenbekämpfung, der mit z. B. einem Konzept, das auf digitale Signaturen aufbaut, oder weiteren innerbetrieblichen Abläufen begegnet werden kann, damit nicht auf einfache Anweisung riesige Summen ins Ausland überwiesen werden.

Selbstverpflichtung

Der Wunsch der Politik, mit der Regulierung dem technischen Wandel Schritt halten zu können, wurde auch in dieser Woche spürbar. Sieben große AI-Organisationen, darunter Google, OpenAI und Anthropic, haben sich gegenüber der US-Regierung zu Risikomanagement verpflichtet. Dieses soll auch Tests und den Austausch mit Behörden und Gesellschaft einschließen.

Damit lässt sich in westlichen Ländern der Trend beobachten, die Gefahren, die sich aus der Entwicklung ergeben, möglich schnell eindämmen zu können. Andererseits - und auch das ist Bemerkenswert - verpflichten sich die Unternehmen zur Entwicklung von Systemen, um Herausforderungen in der Gesellschaft anzugehen. Statt also nur KI einzuschränken, soll die Entwicklung aktiv forciert werden.

Besonders die Kennzeichnung von KI-Inhalten wird diskutiert. In meinen Augen gibt es hier Vorteile wie Nachteile. Einerseits ist es sinnvoll, zu wissen, auf welcher Basis bestimmte Texte entstanden sind (ich schreibe diese Zeilen gerade zum Beispiel selber), andererseits werden Lösungen damit gefördert, die in einer weiteren Ausbaustufe jeden Datensatz personifiziert zuordenbar machen, was zunehmend den Datenschutz aushölt.

Diese Woche zeigt nichtsdestotrotz, dass es im hohen Tempo weitergeht und jede Woche einige Überraschungen bereithält - wie diese Woche Llama 2. Schauen wir also, was uns auch die nächste Woche bringt!

KI-Wochenrückblick KW 28/2023

16. Juli 2023 um 19:55

Heute habe ich die Timeline aktualisiert, die einen Überblick über aktuelle und wichtige Modelle gibt. Es wird schnell ersichtlich, dass wir uns in der KI-Welt mittlerweile wieder in der Detailarbeit befinden und der große Schub an neuen LLMs immer weiter abnimmt. Aber was hat uns diese Woche beschert?

"Low Ressource" Text Classification

Diese Woche wurde ein Paper diskutiert, das recht unscheinbar daherkommt: "Low Resource" Text Classification: A Parameter-Free Classification Method with Compressors. Kurz gefasst wollen die Forscher die Tatsache feiern, dass ihr Modell weniger ressourcenintensiv ist.

Dafür haben sie eine reizend unaufwändige KI-Methode für Textklassifikation vorgestellt, die eine vergnügliche Kreuzung aus einem simplen Kompressor - ähnlich wie gzip - und einem k-Nearest-Neightbor-Klassifikator ist. Und das spannendste an der Sache? Sie kommt komplett ohne Trainingsparameter aus. Was für eine erfrischende Neuheit, denn das Modell spielt etablierte Konkurrenten wie BERT auf allen fünf OOD-Datensätzen gnadenlos aus.

Was uns das Paper zeigt, ist, dass nicht alles nur durch Deep Neural Networks beherrscht wird. Wer eine clevere, einfache Methode entwickelt, kann trotzdem erstaunliche Ergebnisse erreichen. Der Quellcode für das Verfahren ist beachtenswert kurz und unter GitHub abrufbar.

x.AI

Wer sich noch an den Anfang von OpenAI erinnern kann, wird um die Rolle von Elon Musk wissen. Er hat sich für OpenAI eingesetzt und viele Ressourcen bereitgestellt. Später kam der Rückzug aus OpenAI und eine auf Twitter propagierte kritischere Haltung gegenüber dem Start-up.

Mittlerweile baut Elon Musk fleißig die Infrastruktur rund um Twitter um, welches zunehmend einfach nur noch als "X" bezeichnet wird. Im April kam die Nachricht über eine große Bestellung von Grafikkarten durch Twitter. Jetzt dürfte klar sein, welche Richtung eingeschlagen wird.

xAI soll ein Unternehmen werden, das die wahre Natur des Universums verstehen möchte, wie auf der Landing Page auf x.ai bekannt gegeben wird. Neben der Zielsetzung werden auf der Seite noch einige Informationen über das Team bereitgestellt, wobei schnell klar wird, dass viele Leute, die zuvor bei DeepMind, OpenAI und in den Research-Abteilungen von Microsoft und Google gearbeitet haben, am Start-up mitarbeiten. xAI ist zwar ein getrenntes Unternehmen, soll aber eng mit Twitter und Tesla zusammenarbeiten. Noch gibt es keine genauen Informationen, was geplant ist, wir können aber mehr hierzu in den nächsten Wochen erwarten.

OpenOrca

Vor einigen Wochen habe ich bereits berichtet, dass Microsoft eine Methode veröffentlicht hat, mit der sehr leistungsstarke LLMs mit wenigen Parametern trainiert werden können. Das Team von OpenOrca hat bereits vor einigen Tagen das gleichnamige Dataset auf Hugging Face gezeigt, nun folgte in dieser Woche die Veröffentlichung des ersten eigenen richtigen Modells, OpenOrca-Preview1-13B.

Das Team von OpenOrca nutzt das Dataset, um in dem Modell ein LLaMA-13B entsprechend finezutunen. Dabei wurden bisher weniger als 6% des Datensatzes zum Training eingesetzt und dieser Release soll nur als Vorschau einen Einblick in den aktuellen Entwicklungsstand geben.

Es bleibt also weiterhin spannend. Neue Methoden und Techniken ermöglichen hochwertige und leistungsstarke Modelle, die es auch mit ihrer proprietären Konkurrenz aufnehmen können. Schauen wir, was uns auch nächste Woche erwartet!

KI-Wochenrückblick KW 27/2023

09. Juli 2023 um 20:00

Langsam kündigt sich, wie wir heute in den Nachrichten sehen werden, in der KI-Welt eine kleine Sommerpause an, sodass es etwas ruhiger wird. In dieser Woche hat OpenAI wieder für die eine oder andere Schlagzeile gesorgt, weswegen sich der Wochenrückblick speziell darauf konzentrieren wird.

Vermuteter ChatGPT-Traffic geht zurück

Traffic von fremden Webseiten zu messen ist eine gar nicht so einfache Angelegenheit. Am Ende des Tages weiß nur der Betreiber der Webseite, wie viele Inhalte er an wie viele IP-Adressen ausgeliefert hat, woraus man eine Nutzerzahl abschätzen kann. SimilarWeb ist ein Dienstleister, der sich auf Schätzungen über den Traffic externer Webseiten spezialisiert hat und nimmt dafür Ersatzmetriken zur Hilfe.

Über ChatGPT berichtet SimilarWeb nun, dass der Traffic von Mai zum Juni hin um etwa 10 Prozent gesunken sein soll. Die Anzahl der einzigartigen Nutzer soll um etwas über 5 Prozent, die auf der Webseite verbrachte Zeit um etwa 8 Prozent gesunken sein.

Unabhängig von den Zahlen kann ich den Trend nachvollziehen. Einerseits zeichnet sich die Sommerpause ab, in der viele im Urlaub sind und den Dienst weniger beruflich "ausprobieren". Andererseits weiß der beträchtlich große Nutzerkreis von ChatGPT mittlerweile um die Funktionen des LLM, weshalb die Neugier der Nutzer vermutlich abnimmt. ChatGPT kommt nun langsam als klassisches Werkzeug im Mainstream an.

GPT-4 API für alle

Passend dazu hat OpenAI die API für GPT-4 nun von der Warteliste befreit und stellt den Dienst für alle Nutzer bereit. Ob es einen Zusammenhang zur vorherigen Nachricht mit den dadurch frei werdenden Ressourcen gibt, werden wir sicherlich nie erfahren, aber schon bei früheren Diensten wie DALL-E hat OpenAI nach einer anfänglichen Startphase die künstliche Verknappung über die Warteliste auslaufen lassen.

In der dazugehörigen Blognachricht wurde gleichzeitig angekündigt, die Completions-API Anfang 2024 aufzugeben. An dieser Stelle wird wieder deutlich, wie sehr OpenAI auch weiterhin ein Start-up ist. War das bisherige API-Konzept mit GPT-3 auf die Vervollständigung von Anfragen ausgelegt, hat sich dies durch den plötzlichen Erfolg von ChatGPT stark verändert. LLMs agieren interaktiv und können auf Folgefragen antworten. Dies wird offenbar durch die Chat-API am besten repräsentiert, weswegen OpenAI sich hierauf jetzt konzentriert. Die Änderungen wurden schon im OpenAI Playground wirksam.

ChatGPT Code Interpreter

Ich kann mich noch gut an den Dezember 2022 erinnern, als ein Artikel über eine [imaginäre virtuelle Maschine innerhalb des neuen LLMs ChatGPT] die Runde machte. Daraufhin habe ich mir ChatGPT erstmals genauer angesehen. Damals hat sich ChatGPT eine VM halluziniert, ein Verhalten, das zeitnah leider schon eingedämmt wurde. Mittlerweile wurde aber aus der Fiktion Realität: ChatGPT Plus verfügt Berichten und einem Tweet zufolge nun über ein Plugin, dass es ermöglicht, Code innerhalb einer Sandbox auszuführen.

Damit wird ChatGPT noch leistungsfähiger und kann für immer mehr Aufgaben eingesetzt werden. Das war bisher eine Herausforderung, aber auch ein Forschungsthema, das bezogen auf Tools auch mit dem Toolformer oder Visual ChatGPT zu interessanten Ergebnissen führte. Auf diese Weise kann ChatGPT auch deterministischer werden: so braucht ChatGPT ggfs. für eine komplexe Aufgabe nur den benötigten Code generieren - die Berechnung wird dann in der Sandbox vorgenommen und kommt zu den Ergebnissen mit der nötigen Präzision.

Schauen wir auch in der nächsten Woche, mit was für Fortschritten und spannenden Nachrichten wir rechnen können.

KI-Wochenrückblick KW 26/2023

02. Juli 2023 um 18:30

Im heutigen Wochenrückblick schauen wir auf einen spannenden Essay, ein interessantes Tool für Code-Migrationen und ein neues Open-Source-LLM für große Sequenzlängen.

The Rise of the AI Engineer

Beginnen wir den heutigen Wochenrückblick mit einem Artikel, der in der Woche disktutiert wurde. swyx hat auf Latent Space den Artikel The Rise of the AI Engineer veröffentlicht. Im Artikel geht es um die Entstehung eines komplett neuen Berufszweiges: dem AI Engineer. Dabei ist der AI Engineer die Weiterentwicklung des Prompt Engineers und wird im Essay auf einer Skala eingeordnet. Der AI Engineer beschäftigt sich wenig mit der genauen Funktionsweise von ML-Modellen, vielmehr versteckt ihm die API wie z. B. von OpenAI die technischen Details und ermöglicht ihm, sich auf das Wesentliche zu konzentrieren: sein Produkt.

War es vor zehn Jahren noch ein forschungsnahes Vorhaben, ein Produktempfehlungssystem zu entwerfen, ist es durch die Verfügbarkeit von schnell einsetzbaren Diensten heutzutage möglich, die gewünschte Funktionalität zu integrieren. Integration, das ist es, was den AI Engineer ausmacht. Er muss nicht wissen, wie ein LLM genau funktioniert, er muss nur wissen, was es tut. Insbesondere erwähnt der Autor des Essays, dass die Few-Shot-Modelle dazu geführt haben, dass ML-Forscher selber nicht mehr das Modell wie GPT-4 auf den Einsatzzweck abstimmen, sondern diese Aufgabe von Anwendern übernommen wird, die Zeit mit dem Modell und der Schnittstelle verbringen und ausprobieren, was man damit tun kann.

Das alles wird nicht einfach sein, vor allem, da klassische ML-Forscher über lange Zeit hinweg dieses Feld noch belächeln werden. Behält man diesen Wandel allerdings im Hinterkopf, kann man sich schon jetzt darauf einstellen und wird nicht überrascht, wenn in fünf Jahren Menschen, deren Vollzeitjob die Integration von ML-Systemen ist, hohe Gehälter und einen substantiellen Einfluss auf den Geschäftsbetrieb vieler Firmen erhalten.

GPT-Migrate

Wie so eine konkrete Anwendung aussehen kann, zeigt bereits GPT-Migrate. Hier handelt es sich um ein interessantes Produkt, das eine Codebase von einer Programmiersprache in eine andere umwandelt.

Das Projekt selber setzt auch nur auf bestehende LLMs, nutzt sie aber in einer besonders abgestimmten Art und Weise. Der Code soll nicht nur starr umgewandelt, sondern auch idiomatisch sinnvoll ausgegeben werden. Wandelt man beispielsweise ein Python-Projekt in eine Node.js-Application um, besteht die Arbeit aus mehr als nur einer 1:1-Umwandlung der Statements. Vielmehr müssen die Frameworks beachtet werden mit ihrer individuellen Weise, Lösungen abzubilden.

Betrachten wir ein solches Projekt aus der akademischen Sicht, ist so ein Projekt ein Himmelfahrtskommando: Wir können nicht mit hinreichender Sicherheit sagen, ob es immer zuverlässig funktioniert. In der Praxis hat dieser Umstand für den durchschnittlichen Anwender allerdings eine untergeordnete Rolle: wenn es auch nur regelmäßig funktioniert, bringt es viele Entwickler für ihre Durchschnittsprojekte schon weiter. So sind Informatiker heutzutage auch nicht durchgängig mehr damit beschäftigt, richtige Algorithmen für z. B. Sortierung zu entwerfen, sondern reihen eher fertige Programmfragmente und -prozeduren aneinander. Eine unbeaufsichtigte Dienstleistung für Codeumwandlung sollte dennoch nicht auf so einem einfachen System aufgebaut werden. Die Abstimmung, die feinen Anpassungen und die Risikoanalyse - auch das werden in meinen Augen Aufgaben des AI Engineers sein.

Salesforce XGen

Neue Modelle sollen auch in diesem Wochenrückblick nicht fehlen. In dieser Woche haben wir diesbezüglich wieder einen alten Bekannten dabei: Salesforce, bekannt von BLIP2 oder CodeT5. Diesmal hat sich das Forschungsteam rund um Nijkamp, Xie, Hayashi, Pang und Xia mit Open-Source-LLMs für besonders hohe Sequenzen beschäftigt.

Die Sequenzlänge als maximale Länge einer Eingabe für das LLM ist neben der Parameterzahl einer der wichtigsten numerischen Einflussfaktoren für die Leistungsfähigkeit von LLMs. Soll ein solches Modell beispielhaft einen Text zusammenfassen, kann ein LLM mit 8 Tsd. Tokens Sequenzlänge deutlich mehr Text in einem Zug verarbeiten als ein LLM mit 2 Tsd. Tokens Sequenzlänge. Dass die Sequenzlänge in Tokens statt Wörtern gemessen wird, ist auf die mathematische Darstellung der Eingaben für LLMs zurückzuführen. Im Wochenrückblick der vergangenen Woche habe ich für diese Thematik Lehrmaterial vorgestellt.

Salesforce hat unter dem Namen XGen-7B Modelle mit einer Sequenzlänge von 8 Tsd. Tokens und einer Parameterzahl von 7 Mrd. trainiert, die den bisherigen Open-Source-Modellen mit nur 2 Tsd. Tokens wie LLaMA, MPT oder Falcon in standardisierten Benchmarks wie MMLU oder SCROLLS mindestens gleichauf sind. Die kommerzielle Konkurrenz kommt mit GPT-4 auf 32 Tsd. Tokens oder mit Claude auf 100 Tsd. Tokens. Das Training wurde mit 1,5 Billionen Tokens (hier nicht Sequenzlänge, sondern Anzahl der Tokens, auf deren Basis trainiert wurde) durchgeführt und hat über 150.000 US-Dollar gekostet.

Weitere Informationen zu XGen sind im Blogartikel von Salesforce Research zu finden. Die XGen-7B-Modelle sind in verschiedenen Varianten auf HuggingFace unter der Apache-2.0-Lizenz verfügbar, der zugrundeliegende Code kann unter GitHub abgerufen werden.

Und so geht wieder eine spannende Woche zu Ende, in der wir beobachten konnten, wie einerseits weiterhin neue Open-Source-Modelle mit Verbesserungen veröffentlicht werden und andererseits die Anwendung solcher Modelle zunehmend in den Vordergrund tritt. Schauen wir, was uns auch in den nächsten Tagen wieder erwartet!

KI-Wochenrückblick KW 25/2023

25. Juni 2023 um 20:22

Und wieder ist eine Woche um! Im heutigen Wochenrückblick geht es um drei Nachrichten und einen Lesetipp.

MPT-30B

In fast jeder Woche erscheinen neue KI-Modelle. Seien es komplett neue Modelle wie Falcon oder Vertreter bestehender Modellfamilien wie das diese Woche veröffentlichte MPT-30B.

Konkurrenz belebt das Geschäft. Während Falcon-40B als eines der leistungsstärksten Open-Source-LLMs viele Benchmarks für sich entscheidet, ist das Deployment aufgrund der hohen Parameteranzahl teilweise mitunter herausfordernd. MPT-30B stellt sich hier als Alternative auf und gibt an, dass es auf einer A100-80G mit 16-Bit-Präsizion oder einer A100-40GB mit 8-Bit-Präsizion bereitgestellt werden kann. Ansonsten baut das Modell auf dem bereits vor einigen Wochen vorgestellten MPT-7B auf und wird durch seine Programmierfähigkeiten charaketerisiert, die durch die Auswahl der Trainingsdaten angelernt werden konnten. Das Modell ist wieder in verschiedenen Facetten verfügbar: als Basismodell, für Instruktionen optimiert oder für Chat optimiert.

SDXL 0.9

Stable Diffusion XL (SDXL) ist eine Weiterentwicklung aus dem Hause Stability AI. Deren erstes Produkt Stable Diffusion hat schon überzeugt, weil es eine Alternative zu OpenAI DALL-E war. Bei Stability AI werden öffentlichkeitswirksam die Entwicklungen im Blog vorgestellt und so war bereits SDXL Beta interessant, weil es nochmals die Fähigkeiten des Bildgenerators erweitert.

SDXL 0.9 ist nun der Nachfolger von SDXL Beta. Im Blogeintrag kann im direkten Vergleich nachvollzogen werden, dass SDXL 0.9 Bilder generiert, die deutlich besser zu den Bildbeschreibungen passen. Technisch wurde der Fortschritt durch eine Erhöhung der Parameterzahl erreicht. Mit 3.5 Mrd. Parametern als Basismodell und einer 6.6 Mrd. Parameter starken Ensemble-Pipeline handelt es sich dabei um das nach eigenen Angaben parameterstärkste Open-Source-Bildmodell. SDXL 0.9 ist bereits auf ClipDrop für den Einsatz verfügbar und kann über HuggingFace direkt bezogen werden.

Mercedes-Benz testet ChatGPT

Die Entwicklung der LLMs macht momentan vor den Systemen halt, bei denen man Sprachfähigkeiten am ehesten erwartet: Sprachassistenten auf Smartphones. Hier müssen wir uns bei den verbreiteten Systemen weiterhin noch auf die voreingestellten Fähigkeiten beschränken, die einprogrammiert wurden. Konkurrenz kommt nun von ungewohnter Seite: Mercedes-Benz hat in den letzten Tagen für die US-Kunden bekanntgegeben, in einer frühen Betaversion ChatGPT für die Sprachassistenz in ausgewählten Automodellen mit MBUX zu unterstützen.

Die Teilnahme an dem Programm ist optional. In der Pressemitteilung wird insbesondere der Datenschutz und die Hoheit über IT-Prozesse hervorgehoben. Technisch wird dieses Vorhaben über eine Kooperation mit Microsoft und dem Azure OpenAI Service umgesetzt.

Embeddings

KI ist ein sehr komplexes Thema, das viele Disziplinen umfasst. Umso wichtiger ist es, hochwertige Lernmaterialien zu beziehen. Vicki Boykis hat mit What are embeddings ein umfangreiches Handbuch ausgearbeitet, das sich mit einem wichtigen Kernelement beschäftigt, das LLMs heutzutage erst möglich macht. Konkret geht es dabei um Verfahren, natursprachliche Texte in Zahlen zu verwandeln, um sie mathematisch verarbeitbar zu machen.

Das Handbuch umfasst neben Erklärungen und mathematischen Hintergründen auch Codebeispiele, um selber einmal am Beispiel auszuprobieren, wie Embeddings konkret funktionieren.

Bis zur nächsten Woche!

KI-Wochenrückblick KW 24/2023

18. Juni 2023 um 20:22

Während der letzte KI-Wochenrückblick etwas kürzer ausfiel, da die gefühlt gesamte Tech-Welt nach Cupertino geschaut hat, gibt es in dieser Woche etwas mehr zu berichten. Starten wir also rein!

AI und Compliance

Üblicherweise steht bei Tech-Themen die Technologie im Vordergrund. Nicht so bei KI. Man kann es vielleicht dem Zeitgeist oder den Erfahrungen mit dem Internet zuschreiben, aber bei rechtlichen oder gesellschaftlichen Auswirkungen wird bei KI ein strenger Maßstab angelegt. So hat in dieser Woche das EU-Parlament den lange diskutierten AI Act eine Stufe weitergeschoben. Im wesentlichen bedeutet der AI Act, dass man nicht mehr jede beliebige KI-Anwendung auf den Markt werfen kann. Erfüllt eine Anwendung bestimmte Kriterien, müssen zusätzliche, bürokratische Schritte zur Qualitätssicherung und Folgenabschätzung vorgenommen werden. Welche Kriterien das sind und was daraus folgt, ist im aktuellen Prozess schwer zu verfolgen, reicht(e) aber von "ChatGPT wird praktisch verboten" bis "Es wird sehr aufwändig".

Besonders schwierig ist es, die Auswirkungen eines solchen Regelwerks anhand konkreter Beispiele nachzuvollziehen. Risihi Bommasani vom Stanford CRFM hat diese Woche auf Twitter demonstriert, wie das aussehen könnte. Er und sein Team haben für 10 verschiedene KI-Anbieter in einer Punktematrix dargelegt, wo welche Anbieter punkten und wo noch Nachbesserungsbedarf ist. Besonders gut kam BigScience (BLOOM) an, hier wurden 36 von 48 möglichen Punkten geholt, besonders bei "Data sources", "Data governance" und "Downstream documentation" konnte BigScience punkten.

Sehen, was der andere sieht

Typische Ermittlerdokus sind der KI schon seit Jahrzehnten voraus und können die Regeln von Raum und Zeit auf Überwachungsvideos außer Kraft setzen. Aktuelle Entwicklungen in der KI ziehen aber langsam nach. Mit Seeing the World through Your Eyes haben Alzayer et al. von der University of Maryland, College Park gezeigt, dass die Reflexion der Pupillen eines Menschen in Bildsequenzen genutzt werden kann, um das Gesehene aus seiner Perspektive als 3D-Modell abzubilden.

So wird "Point of View" real und kann benutzt werden, um Gegenstände, die die Person sieht, wiederzuerkennen. Natürlich ist die Technologie nicht perfekt und verfügt über eine geringe Auflösung, zeigt aber, dass in den verschiedensten Bereichen der Musterverarbeitung Entwicklung stattfindet. Dieses Paper setzt auch neuronale Netze lediglich am Rande ein, was noch einmal verdeutlicht, dass KI nicht nur aus LLMs und Transformers besteht.

LLMs und Secret Sauce

Nichtdestotrotz bleiben die LLMs ein Thema. Galine Alperovich hat im letzten Monat eine Zusammenstellung von Tricks veröffentlicht, um 100K Context Windows zu ermöglichen. Mit Claude haben wir bereits ein System gesehen, was so ein enormes Kontextfenster umsetzt, auch MPT weist mittlerweile Kontextfenster um die 65.000 Token auf.

Ihre dargelegten Hinweise können genutzt werden, um das Training von eigenen Modellen zu optimieren, denn das stellt heutzutage die große Kunst dar. Dass das Training generell möglich ist, haben wir gesehen. Es aber auch aufwandsarm umzusetzen, kann einerseits die Kosten senken, aber auch das Training für kleinere Akteure generell erst möglich machen.

Abschließend für den heutigen Wochenrückblick können wir auch nochmal auf OpenLLaMA schauen. Viele Teams haben sich in der Zwischenzeit rangesetzt, um Meta AIs Arbeit zumindest zu reproduzieren. Die Ergebnisse trudeln Woche für Woche ein. Seit dieser Woche sind nun auch die Gewichte für OpenLLaMA-13B auf HuggingFace verfügbar.

Bleiben wir gespannt, was uns auch die nächste Woche wieder an Neuigkeiten bringt!

KI-Wochenrückblick KW 23/2023

11. Juni 2023 um 21:55

Diese Woche war Tech-mäßig durch die WWDC 2023 dominiert. AI war bei Apple speziell bei macOS eher ein Randthema, das Augenmerk der Konferenz lag auf VR.

In aller Kürze also nun wichtige Nachrichten der Woche.

  • Generative AI gibt es bei Google Vertex AI nun für alle. Das berichtet TechCrunch. Bisher waren die Systeme nur auf einen kleinen Kreis von "trusted testers" beschränkt, der Zugriff steht nun allen zur Verfügung.
  • Orca von Microsoft wurde veröffentlicht. Dabei handelt es sich um ein 13 Mrd. Parameter starkes Modell, das insbesondere über verbesserte Schlussfolgerungsfähigkeiten verfügt. Damit soll Orca besser als Vicuna-13B und gleich auf mit ChatGPT bei z. B. dem BBH-Benchmark sein.
  • Simon Willison hat in seinem Blog einen umfangreichen Artikel samt Demo veröffentlicht, in dem es um GPT-Tokenizers und deren Funktionsweise geht. Sehr sehenswert!

Bis zur nächsten Woche!

KI-Wochenrückblick KW 22/2023

04. Juni 2023 um 20:25

Mit dieser Woche geht auch der Monat Mai zu Ende. Wirft man einen Blick in die LLM-Timeline, so fällt auf, dass der Monat im Wesentlichen durch die Open-Source-Modelle dominiert wurde. Die Highlights sind hier StarCoder als Code-LLM, RedPajama-INCITE für normale Gespräche und Falcon, ein LLM, das LLaMA den Rang abgelaufen hat.

Falcon ab sofort unter der unmodifizierten Apache 2.0

Falcon von der TII hat in dieser Woche auch wieder Schlagzeilen gemacht. Es dominiert nicht nur weiterhin das Open LLM Leaderboard, sondern steht nun unter der unmodifizierten Apache-2.0-Lizenz, wie bereits Thomas Wolf auch berichtete.

Interessant ist diese Nachricht, weil damit erstmals ein sehr leistungsfähiges LLM unter einer Lizenz steht, die weitestgehend auch kommerziellen Betrieb zulässt. Die Apache-2.0-Lizenz ist ein wichtiger Grundbaustein der Open-Source-Software-Community und ist in vielen Projekten verbreitet, z. B. natürlich den Apache-Projekten, aber auch Kubernetes oder Swift.

In meinen Augen ist es ungewohnt, eine Lizenz für Source Code für ein Modell zu nutzen. Das ist so ein wenig wie Source Code unter eine Creative-Commons-Lizenz zu stellen: es geht, aber war vielleicht nicht die Intention der Initiatoren. Ob speziell angepasste Lizenzen sinnvoller für die Belange von KI-Modellen sind, wird sich über die Zeit zeigen. Die Lizenzierung unter der Apache-2.0-Lizenz bringt allerdings eine gewisse Sicherheit mit sich, da diese Lizenz und ihre Verwendungsweise schon lange erprobt sind.

Der Schachzug der Autoren ist clever: da dieses leistungsstarke Modell nun unter einer offenen Lizenz steht, ist anzunehmen, dass viele Forscher dieses als Grundlage nehmen. Somit macht sich im besten Fall das TII einen Namen in der LLM-Community, ähnlich, wie es Meta in der ersten Jahreshälfte vorgeführt hat.

Direct Preference Optimization: Konkurrenz für RLHF?

Die Entwicklung der LLMs geht ungebremst weiter. Und so gibt es nicht nur neue Modelle, sondern auch neue Methodiken, um bessere Modelle zu erreichen. Ein wesentlicher Baustein, der ChatGPT ermöglicht hat, war InstructGPT mit Reinforcement Learning from Human Feedback, kurz RLHF. Hier bewertet ein Mensch die Ausgaben eines Modells und erstellt ein Ranking. Dieses Ranking kann zum weiteren Training herangezogen werden. Das resultierende Modell wird dadurch präsizer und bei den Antworten besser an den menschlichen Bedürfnissen ausgerichtet.

Rafailov, Sharma, Mitchell et al., allesamt Forscher der Stanford University, haben sich nun damit beschäftigt, ob man einen Zwischenschritt in dem Verfahren entfernen kann. Sie berichten nun, dass dies mit Erfolg möglich ist. Das dafür verwendete Verfahren nennen sie Direct Preference Optimization und beschreiben es in ihrem Preprint.

NVIDIA weitet Marktkapitalisierung auf über 1 Billion USD aus

Zum Abschluss des Wochenrückblicks möchten wir auch einmal kurz auf wirtschaftliche Themen schauen. Der GPU-Hersteller NVIDIA hat in dieser Woche eine Marktkapitalisierung von über 1 Billion USD (engl. 1 trillion USD) erreicht. Auch wenn man sich in Anbetracht von Inflation über diese scheinbar willkürliche Zielmarke streiten kann, zeigt es doch, dass NVIDIA als Unternehmen ähnlich hoch bewertet wird wie Apple (einer der bedeutendsten Hersteller mobiler Konsumentengeräte), Microsoft (Hersteller und Betreiber eines der größten Software-Ökosysteme der Welt) oder Alphabet (Betreiber einer Vielzahl bedeutender Internetdienste).

An der Börse wird die Zukunft gehandelt. Somit kann beziffert werden, welchen Wert (institutionelle) Anleger einem GPU-Hersteller beimessen. Der Erfolg von NVIDIA im AI-Geschäft geht in meinen Augen auf die CUDA-Schnittstelle und die immer leistungsfähigeren Systeme zurück. Einen generischen Zugriff auf die Grafikeinheiten zu geben, aus dem KI-Forscher die Eignung für das Training neuronaler Netze erkennen konnten. Das könnte einer der cleversten Schachzüge des Chipherstellers NVIDIA gewesen sein. Und solange Alternativen, ggfs. mit RISC-V auch aus dem Open-Source-Bereich, nicht mithalten können, wird NVIDIA auch in meinen Augen eine wichtige Rolle behalten.

Aus dem heutigen Wochenrückblick lässt sich eines erkennen: wenn man offen der Community Werkzeuge an die Hand gibt, wird sich irgendwer auf der Welt finden, der überrascht ist, für was sich dieses Werkzeug einsetzen lässt. Seine Ergebnisse werden dann vielleicht die ganze Welt überraschen. Genauso wie das AlexNet GPUs in der KI populär gemacht hat, werden auch LLaMA und Falcon neue interessante Innovationen hervorbringen. Seien wir gespannt, was auch die nächste Woche wieder bringt!

KI-Wochenrückblick KW 21/2023

28. Mai 2023 um 21:45

Seit einigen Wochen veröffentliche ich den Wochenrückblick, in dem ich regelmäßig über aktuelle Nachrichten aus der KI-Welt berichte. Auch in dieser Woche gab es drei Neuigkeiten, die ich euch nicht vorenthalten möchte. Endlich gibt es auch wieder neue Modelle!

RWKV-Paper veröffenlicht

Nicht alles in der Welt der Large Language Models (LLM) beruht auf Transformers. Sie sind ein Weg, aber nicht der einzige. Das Team rund um Peng, Alcaide und Anthony hat mit Receptance Weighted Key Value (RWKV) eine neue Methode und Architektur entwickelt, mit der es möglich ist, LLMs über rekurrente neuronale Netze (RNNs) statt Transformer umzusetzen.

Der Hintergrund ist, dass beim Einatz von Transformern die Speicher- und Rechenkomplexität eine große Herausforderung darstellt. Sie wächst quadratisch, während RNNs ein lineares Wachstum aufweisen. RNNs mit klassischen Architekturen wiederum waren allerdings nicht so leistungsfähig wie gewünscht. RWKV versucht nun, die Leistungsfähigkeit bei RNNs deutlich zu verbessern, sodass sie mit Transformern mithalten und ihre Skalierungsvorteile ausnutzen können.

Die Ergebnisse wurden vorab in einem Preprint veröffentlicht und können z. B. auf Hugging Face ausprobiert werden. Der Code befindet sich auf GitHub. Schauen wir also, wie sich das Projekt in den nächsten Wochen entwickelt.

Falcon-Modelle erschienen

Wie bereits in den letzten Wochen erwähnt, entwickelt sich die LLM-Welt durch die Verbreitung der Open-Source-Modelle sehr schnell weiter. Für einige zu schnell und andere nutzen aktiv die Chancen aus. Meta geht aktuell eindeutig als Gewinner hervor, da LLaMA die Grundlage für viele andere erfolgreiche Entwicklungen bildet. Der Vorteil von LLaMA ist, dass hier die Gewichte für ein sehr leistungsfähiges Modell bereitstehen. Dementsprechend nahm bisher LLaMA auch einen der führenden Plätze auf dem Open LLM Leaderboard ein.

Konkurrenz kommt nun aus Abu Dhabi vom Technology Innovation Insitute (TII). Ein Team des Forschungsinstituts hat nun ein neues Modell unter dem Namen Falcon veröffentlicht, welches bei den Metriken AI2 Reasoning Challenge, HellaSwag und MMLU bessere Werte einfährt. Einzig bei TruthfulQA haben llama-65b und llama-30b-supercot noch die Nase vorn.

Bereitgestellt wird das Modell unter der "TII Falcon LLM License", einer modifizierten Apache-2.0-Lizenz, das Paper erscheint demnächst. Verfügbar ist Falcon mit 40 Mrd. Parametern und mit 7 Mrd. Parametern.

Gerichtsakten erfunden

LLMs sind Sprachmodelle. Das bedeutet, ihr Ziel ist es, bestimmte Inhalte in einer natürlichen Sprache auszugeben - unabhängig vom Wahrheitsgehalt, der Semantik. Als Nebenprodukt können sie einige ausgewählte Fakten wiedergeben.

Dieser Umstand ist und bleibt nur wenigen bewusst. Viele denken, mit ChatGPT & Co. könnte man recherchieren. Das ist aber falsch, denn wenn keine Document Retrieval integriert ist und richtig funktioniert, wird ein LLM eine Lösung ausgeben, die zwar schön klingt, aber nicht unbedingt stimmt. Im Podcast habe ich beiläufig mal erwähnt, dass damit eine Patentrecherche nahezu unmöglich wird, aber ich hätte nie gedacht, dass sowas in freier juristischer Wildbahn eingesetzt wird.

Nun, ich wurde eines besseren belehrt. ChatGPT wird noch zu häufig als Suchmaschine zweckentfremdet und gibt dann falsche Ergebnisse aus. Besonders bemerkenswert: in diesem und dem Betrugsüberprüfungsfall aus letzter Woche wurde die Plausibilitätsprüfung ebenfalls an ChatGPT übergeben. Wie soll ein Modell auf "Stimmt das, was du sagst?" überhaupt antworten?

Bleibt zu hoffen, dass wir auch in der kommenden Woche über viele interessante neue Methoden und Modelle und weniger über die Falschbedienung von LLMs berichten können.

KI-Wochenrückblick KW 20/2023

21. Mai 2023 um 21:50

Es wird ruhiger im Umfeld der künstlichen Intelligenz, aus diesem Grund wird es in diesem Wochenrückblick mehr um Anwendungen als Grundlagenforschung gehen.

DarkBERT

In dieser Woche hat DarkBERT die Runde gemacht. Dabei handelt es sich um ein Sprachmodell der RoBERTa-Klasse, das von Forschern aus Südkorea speziell auf Darknet-Inhalte trainiert wurde. Ziel soll es sein, die Umgangsformen in diesen schwerer zugänglichen Netzwerken analysieren zu können. Aus diesem Grund wird das Modell auch nicht veröffentlicht.

Mich hat diese Nachricht in erster Linie an das Projekt GPT-4chan von Yannic Klicher erinnert. Wenig überraschend ist es daher, dass auch dieses Modell in einigen Metriken besser abschneidet als die weitverbreiteten LLMs.

Drag Your GAN

KI besteht nicht nur aus LLMs, das habe ich schon öfter erwähnt. In den letzten 5 Jahren dominierten vor allem die Generative Adverserial Networks (GANs), die sich mit der gezielten Generierung und Manipulation von Bildern beschäftigt haben.

Hier gibt es mit dem Paper Drag You GAN gute Neuigkeiten: Forscher vom Max-Planck-Institut, vom MIT und Google haben eine Methodik entwickelt, mit der es möglich ist, interaktiv und Punkt-basiert Änderungen an Fotos umzusetzen. Damit kann einfach ein Gesicht verschoben oder ein zugekniffenes Auge im Sonnenlicht wieder aufgeklappt werden. Gut, dass es hier auch weitergeht.

KI-Detektoren klassifzieren

In dieser Woche kursierte besonders die Nachricht, dass ein texanischer Professor Studenten mithilfe von ChatGPT zu überführen glaubte, indem er ChatGPT gefragt hat, ob Hausarbeiten der Studenten vom einem LLM geschrieben wurden. Das LLM tat das, was es besonders gut konnte und halluzinierte. Studenten mussten um ihre Noten und sogar ihre Abschlüsse fürchten. Durch die nun erlangte Aufmerksamkeit wurde nun eine Klärung herbeigeführt.

Dass von diesen angeblichen KI-Klassifikatoren im aktuellen Zustand nicht viel zu halten ist, unterstreicht auch das aktuelle Paper GPT detectors are biased against non-native English writers. Es geht dem Umstand nach, dass die Detektoren genau die Texte fälschlich als KI-generiert klassifzieren, die von Nicht-Muttersprachlern stammen. Einerseits führt das zu False Positives und bietet andererseits Angriffspotential, um KI-generierte Texte zu verschleiern. Alles in allem kein gutes Ergebnis für die Detektoren.

An dieser Stelle wird auch eine übliche Schwäche des Lernens aus Beispielen in Verbindung mit neuronalen Netzen deutlich. Oftmals weiß man nicht, was genau gelernt wird und das lässt sich auch schwer herausfinden, Stichwort Explainable AI. Man glaubt, herausgefunden zu haben, was KI- und Nicht-KI-Texte unterscheidet, kann in Wirklichkeit aber nur zwischen "sprachlich geschliffenen" und "sprachlich nicht-geschliffenen" Texten unterscheiden.

Es ist also noch viel zu tun und wir können gespannt bleiben, was auch die kommende Woche uns bringt!

KI-Wochenrückblick KW 19/2023

14. Mai 2023 um 21:40

In dieser Woche fasse ich mich mit dem Wochenrückblick recht kurz, im Wesentlichen war die Woche vom Google-Event geprägt.

Google I/O

Wer die KI-Entwicklung der letzten Wochen und Monate beobachtet hat, wird bemerkt haben, dass Google bisher mit der Veröffentlichung von Modellen und Projekten zurückhaltender war. Mit der Google I/O hat sich Google allerdings wieder vermehrt an die Öffentlichkeit gewagt, wie sich im umfangreichen Blogartikel lesen lassen kann.

Im Vordergrund stand insbesondere PaLM 2, welches laut Vorstellungsbeitrag besonders in drei Punkten nachzieht: Multilingualität, Schlussfolgerung und Coding. Letzter Punkt mag interessant sein, da wir in der letzten Woche sehen konnten, wie viele Open-Source-Coding-LLMs veröffentlicht wurden. PaLM 2 soll bereits schon in 25 (neuen) Google-Produkten arbeiten.

LLaMA-13B auf 6-GB-Grafikkarten

Während Google PaLM 2 vorstellt, aber die Gewichte nicht veröffentlicht, geht die Entwicklung bei den offeneren Modellen ungebremst weiter. Insbesondere die Zugänglichkeit im Bezug auf die Ressourcen wird laufend verbessert.

LLaMA-13B (13 Mrd. Parameter) wurde nun im Rahmen des llama.cpp-Projekts so eingesetzt, dass es auf einer NVIDIA RTX 2060 mit 6 GB VRAM lauffähig wird. Damit werden nicht nur die kleinsten Modelle auf normaleren Grafikkarten betreibbar, sondern auch die etwas größeren Modelle.

OMR23 mit dem Thema KI

Wie letzte Woche schon angekündigt, war ich diese Woche auf der OMR. Der Fokus der Konferenz lag dieses Jahr - wie konnte es anders sein - auch auf dem KI-Themenkomplex und so haben sich viele Vorträge daran ausgerichtet.

Einige der Vorträge können online abgerufen werden, darunter der von Jonas Andrulis von Aleph Alpha oder der von Philipp Justus und Zeina Hatem von Google. Das ist für alle interessant, die sehen wollen, wie die KI-Firmen diese Thematik betrachten.

Schauen wir auch diese Woche wieder, was uns die neue Woche bringt. Es bleibt spannend!

KI-Wochenrückblick KW 18/2023

07. Mai 2023 um 17:00

Eine weitere Woche ist vergangen, in der sich in der KI-Welt wieder viel bewegt hat. Im heutigen Wochenrückblick wird der Fokus auf dem Thema liegen, das seit Wochen heiß diskutiert wird: Open Source.

Open-Source-Trend

Ich habe ja schon in den vergangenen Wochen angemerkt, dass der Trend weiter in Richtung Open-Source-Modelle geht. Die Arbeit mit neuronalen Netzen ist in der Regel kreativ und experimentell und da war es bisher ein Hindernis, dass die Modelle aufgrund der hohen Parameterzahl so groß waren. Genau diesen Umstand konnten kommerzielle Akteure ausnutzen und damit einen "Burggraben" ziehen, auf den ich nachher noch eingehen werde. Große KI-Modelle lassen sich nur mit hohem finanziellen Aufwand ausführen und schon gar nicht auf normaler Hardware trainieren.

Seit Metas LLaMA scheint dieser Damm allerdings gebrochen zu sein. Mit LLaMA wurde ein hochwertiges Modell der Allgemeinheit freigegeben, wenn auch unter einer sehr restriktiven nicht-kommerziellen Lizenz. Da die Gewichte (also das Blut in den Venen des Modells, d. h. Architektur + Gewichte = nutzbares Produkt) allerdings ausgewählten Forschern der Öffentlichkeit zur Verfügung gestellt wurden, dauert es nicht lange, bis sie geleakt wurden. Für quasi alle.

Die Folgen waren ganz interessant: die Community begann, die Modelle auszuprobieren. Als Erstes wurde mit llama.cpp die Quantisierung populär: wenn wir sowieso schon mit Unschärfe arbeiten, wird die Präzision nachrangig und es ist nicht mehr erheblich, ob wir 32-Bit-Floats oder 8-Bit-Floats nutzen. Reduzieren wir die Bits pro Gewicht, reduzieren wir die Modellgröße im (GPU-)RAM und machen das Modell verarbeitbarer. Schlagartig wird ein vortrainiertes Modell wie LLaMA sogar auf CPUs lauffähig und zum sog. Foundation Model, das nun für einen bestimmten Zweck nachtrainiert werden kann. Auch hier hat die Community Techniken wie LoRA angewandt, die den Trainingsaufwand reduzieren.

Dabei stellt sich schnell die Frage, wie weit die großen Firmen noch voraus sind. Glaubt man dem geleakten Memo eines Google-Engineers, schätzt er ein, dass der Burggraben (engl. Moat) nicht mehr so groß ist. Er glaubt zudem auch, dass das gleiche für OpenAI gilt. Der Economic Moat ist im übrigen ein Begriff von Warren Buffet und symbolisiert den Wettbewerbsvorteil von Unternehmen.

Neue Open-Source-Modelle

Metas LLaMA kann man nicht klassisch als "Open Source" bezeichnen, weil die Lizenz restriktiv ist und das Teilen der Gewichte zum Beispiel verbietet. Ich weiß, dass "freie Modelle" (im Sinne von "freie Software") anstatt "Open Source" die korrektere Wortwahl wäre, möchte mich aber an den Begriffen der Community halten.

Während der Zeit enstanden einige Fine-tunings (Nachtrainings), die auf speziellen Datasets beruhten, die tatsächlich frei waren. Besonders ist hier Databricks' Dolly-15k hervorzuheben. Allerdings werden finegetunte Modelle auf LLaMA-Basis nicht freier als LLaMA selber, weswegen es sich nur um eine Zwischenlösung handelte.

Das war Stand Anfang April 2023. Nun gibt es Modelle, die von Grund auf so trainiert und lizenziert wurden, dass es eine einheitliche Lizenz gibt. In dieser Woche kamen viele neue Modelle diesbezüglich heraus, darunter:

  • StarCoder von HuggingFace für Programmieraufgaben,
  • RedPajama-INCITE von Together AI als freier LLaMA-Nachbau und
  • MPT-7B von MosaicML als weiteres freies Foundation Model.

Das Transformer-Framework von HuggingFace ist gut geeignet, um die Modelle zu testen und Anleitungen in den Model Cards helfen beim Einstieg.

OMR23

Nächste Woche werde ich auch auf der OMR23 in Hamburg sein. Auch das Thema künstliche Intelligenz und deren Auswirkungen wird dort präsent sein. Wer auch auf der OMR ist, kann mich gerne via Mail oder LinkedIn anschreiben, sodass man sich eventuell treffen kann!

KI-Wochenrückblick KW 17/2023

30. April 2023 um 21:08

Diese Woche hat auch wieder spannende Neuigkeiten geboten, die ich euch gerne vorstellen möchte. Legen wir los!

StableLM

Eingangs möchte ich euch heute das Modell StableLM vorstellen. Hierbei handelt es sich um ein Open-Source-LLM aus dem Hause Stability AI – das Team, das auch schon Stable Diffusion populär gemacht hat. Es wurde am 19. April 2023 vorgestellt und steht in verschiedenen Parameterzahlen zur Verfügung, darunter z. B. 7 Milliarden Parameter. Technisch wird die Grundlage durch Pythia und somit auch GPT-NeoX gebildet.

Das Grundtraining von StableLM basiert auf The Pile mit einigen Anpassungen. Diese Anpassungen ermöglichen es, dass ein qualitativ hochwertiges Modell mit deutlich weniger Parametern erstellt werden konnte.

DeepFloyd IF

Stability AI hat in dieser Woche zwei weitere interessante Modelle veröffentlicht, darunter eines in Partnerschaft mit der DeepFloyd-Gruppe. DeepFloyd IF wurde am 28. April 2023 veröffentlicht. Eine der spannendsten Neuigkeiten ist die Fähigkeit, sauberen Text in generierte Bilder einzuarbeiten. Wer Modelle wie DALLE-2 oder Stable Diffusion kennt, weiß, dass dies oft eine Herausforderung ist und oft schlecht aussieht.

Diese Fähigkeiten ermöglichen auch völlig neue Anwendungen in Kunst und Design, weil die Gestaltung von Schrift besser abgedeckt werden kann. Das Modell ist auf HuggingFace verfügbar, im Veröffentlichungsartikel sind schon einige Beispiele dargestellt worden.

StableVicuna

Das zweite Modell in dieser Woche von Stability AI heißt StableVicuna und wurde ebenfalls am 28. April veröffentlicht. Es ist eines der ersten großen Open-Source-Sprachmodelle, das nicht nur klassisch auf Instruktionen gefinetuned, sondern auch mittels RLHF verbessert wurde. Beide Konzepte sind einige der Erfolgsgeheimnisse von ChatGPT.

Um StableVicuna einsetzen zu können, wird allerdings ein Zugang zu LLaMA von Meta AI benötigt, da dies die Grundlage für Vicuna bildet, worauf StableVicuna aufsetzt. Aus diesem Grund sind die Gewichte nur als Deltas verfügbar.

Großes Übersichtsarbeit zu LLMs

Die Arbeit Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ist momentan eine der aktuellsten und besten Übersichtsarbeiten zum Thema LLMs. Neben einem Stammbaum, der im Gegensatz zu meiner Timeline eher auf die Grundarchitektur und weniger auf die Details abzielt, werden konkrete Bemerkungen und Einordnungen zu Architektur, Aufgabenstellungen und Abwägungen bei der Entwicklung gegeben.

Für alle, die mit oder an LLMs entwickeln möchten, lohnt sich ein Blick in das dazugehörige GitHub-Repository, das eine Linkliste beinhaltet.

ChatGPT in Italien wieder verfügbar

Das vor einigen Wochen in Italien gesperrte ChatGPT ist nun wieder verfügbar. OpenAI hat an vielen Stellen nachgebessert und konnte den akuten Anliegen entgegenkommen. Nun beginnt die Detailarbeit, die allerdings erwartungsgemäß eher im Hintergrund ablaufen wird.

LLMs als Sprachgeneratoren werden in den praktischen Anwendungen allerdings noch vielen Herausforderungen gegenüber stehen: so sind weiterhin Sprachgenerierung und Wissensbereitstellung in meinen Augen zu eng miteinander verbunden. Speziell wenn wir das "Recht auf Vergessen" diskutieren, müssen wir uns vor Augen führen, dass die verbreiteten LLMs über keinen Wissensspeicher verfügen, in dem falsches Wissen steht und dann korrigiert oder entfernt werden kann. Vielmehr ist dieses Wissen die Fähigkeit selbst, eine Sprache zu sprechen. In der Praxis sollen allerdings logischerweise falsche Aussagen vermieden werden. Damit das zuverlässiger möglich ist, wird vermutlich noch einiges an Forschung benötigt werden. Und vielleicht sind die Transformer in Zukunft nicht das Mittel der Wahl, wenn Projekte wie RWKV-LM voranschreiten.

KI-Wochenrückblick KW 16/2023

23. April 2023 um 20:36

In dieser Woche gab es wieder eine Reihe von KI-Entwicklungen, die ich euch heute vorstellen möchte. Auch in dieser Woche zeichnet sich wieder ein Trend ab: die Open-Source-Community schreitet auch bei der Entwicklung von eigenen Modellen voran.

RedPajama

Rechtlich befinden sich LLMs weiterhin oftmals in einer Grauzone. Die gefeierten, erfolgreichen Systeme wurden nicht nur mit viel Rechenkraft, sondern auch anhand eines bestimmten Datensatzes trainiert. Dieser ist in der Regel nicht öffentlich zugänglich. Diese Modelle, die aus dem Nichts trainiert wurden und grundsätzliche Fähigkeiten bereitstellen, werden auch als Foundation Models bezeichnet. Darauf aufbauend wird ein gewisses Fine-tuning unternommen, womit z. B. die Chatfähigkeiten deutlich verbessert werden.

Während Databricks mit Dolly 2.0 schon einen bemerkenswerten Auftakt zur Entwicklung offener LLMs angeboten hat, wurden die Foundation Models bisher wenig angetastet. Das soll sich nun mit RedPajama ändern. Das Projekt hat es sich vorgenommen, den Trainingsdatensatz hinter dem erfolgreichen, aber nicht-offenen LLaMA zu reproduzieren. Anschließend sollen freie Foundation Models trainiert werden.

Die Erstellung des Datensatzes ist nun abgeschlossen, die Ergebnisse können im oben verlinkten Artikel nachvollzogen werden. Nun steht das Training an. Vorteil solcher Modelle ist, dass sie rechtlich einfacher weiterverwendet und -trainiert werden können, was sehr wahrscheinlich einen Innovationsschub verursachen wird. Freie Modelle sind momentan das A und O für eine erfolgreiche Forschung, weil nur kleine Teile am Modell nachtrainiert werden.

VideoLDM

Ich war schon bei der Veröffentlichung von DALL-E und Stable Diffusion davon überzeugt, dass es nur noch eine Frage der Zeit ist, bis nicht nur Bilder, sondern auch Bildersequenz - Videos - generiert werden können. Nun ist es soweit: das Team rund um Andreas Blattmann und Robin Rombach hat mit Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models die ersten Ergebnisse ihrer Arbeit präsentiert.

Und diese können sich sehen lassen: den auf der Übersichtsseite vorgestellten Videosequenzen sieht man an vielen Stellen noch Unregelmäßigkeiten an, die auf eine Computergenerierung schließen lassen, aber je nach Setting sieht das extrem flüssig und hochwertig aus.

Dazu muss man die Dimension berücksichtigen: immerhin werden die kompletten Szenen aus einer kleinen Textbeschreibung erzeugt. Keine komplexen Beschreibungen oder Modellierung einer Szenerie, keine Animation, keine Videobearbeitung - direkt die Videos. Insbesondere für Filmstudios kann dies einen enormen Umbruch einleiten - entweder als Ergänzung oder aber auch als Ersatz.

NaturalSpeech 2

Modelle, die auf latente Diffusion setzen, haben nicht nur Stable Diffusion und VideoLDM ermöglicht. Ein Team von Microsoft Research hat sich jetzt Sprachsynthese unter Einsatz eines LDM (Latent Diffusion Model) vorgenommen und kommt zu erstaunlichen Ergebnissen.

Auf ihrer Seite können die Beispiele angehört werden.

Bark

Wo wir schon bei schon bei Sprachsynthese sind: könnt ihr euch noch an die Google I/O im Jahre 2018 erinnern? Eines der Highlights war die Demo von Google Duplex. Hier konnte das System selbstständig Personen anrufen, um z. B. Termine zu verabreden und Sprach dabei wie ein Mensch - mit allen Zwischenlauten und Pausen.

Mit Bark kann ein solches System selber ausprobiert werden. Grundsätzlich handelt es sich hierbei um eine normale Text-zu-Sprache-Anwendung, allerdings können Zusatzlaute wie Lachen, Schlucken oder Räuspern eingefügt werden. Darüber hinaus können Wörter besonders betont werden. Die Anwendung bietet beeindruckende Ergebnisse und zeigt, dass in Sachen Sprachsynthese noch einiges an Entwicklung momentan stattfindet.

Aktuelle Entwicklung werden zeitnah im Zeitstrahl der LLMs bzw. Transformer-Modelle vorgestellt.

KI-Wochenrückblick KW 15/2023

16. April 2023 um 21:58

Im heutigen Wochenrückblick werde ich, wie gehabt, einige spannende Einblicke in die KI-Welt der letzten Tage präsentieren. Einige der Nachrichten stammen aus dieser Woche, bei anderen etwas älteren Themen möchte ich diesen Wochenrückblick zur Nachbesprechung nutzen.

Generative Agenten

Diese Woche war insbesondere von einem Paper geprägt: Generative Agents: Interactive Simulacra of Human Behavior. Wer sich noch an Spiele wie "Die Sims" erinnert, wird Teile der Funktionsweise wiedererkennen. 25 Spieler bzw. Avatare wurden auf die virtuelle Welt Smallville losgelassen und können dort textbasiert miteinander interagieren. Jeder Avatar wird durch einen Agenten repräsentiert. Das ist gerade sinnvoll, weil Ausgaben vom einem Avatar als Eingabe für einen anderen Avatar dienen können.

Damit alles funktioniert, haben die Forscher im Paper beschrieben, wie sie das auf GPT-3.5 aufbauende Systeme angepasst haben, um wie richtige "intelligente Agenten" agieren zu können. Das Ergebnis ist eine virtuelle Spielwelt, in der sich die virtuellen Avatare begrüßen, ihren Tag planen oder besondere Termine wie den Valentinstag berücksichtigen – und wir können zuschauen.

Agenten sind ein relativ altes Konzept der künstlichen Intelligenz und betreffen tatsächlich nicht nur Machine Learning direkt. Es geht insbesondere um die Simulation von Ergebnissen, um die Zusamennarbeit bestimmter Akteure praktisch auszutesten. ChatGPT zeichnet sich hierbei durch den Wissensschatz und die Vielfältigkeit aus, was diese Arbeit so interessant macht.

Besonders spannend ist dabei die Wirkungsweise, wie Agenten sich Dinge merken können. Hier war in den letzten Wochen besonders viel Forschungsaktivität zu beobachten, da weiterhin das "Wissen" eines Transformers durch die Eingabe bestimmt wird und Tricks bzw. Datenbanken notwendig sind, um Fakten langfristig zu bewahren.

Dolly 2.0

Databricks hat in dieser Woche Dolly 2.0 veröffentlicht. Die Besonderheit liegt in der Lizenz, denn das Dataset databricks-dolly-15k, auf dem das auf Pythia basierende Modell fingetuned wurde, steht unter der CC-BY-SA-3.0-Lizenz.

Das ist wichtig, weil ein Nachteil bisheriger Modelle wie Alpaca oder GPT4All darin lag, dass die Herkunftskette durch proprietäre, d.h. urherrechtlich geschützte und nicht lizenzierte Daten gekennzeichnet ist. Mit einem solchen freien Dataset wäre das Training allerdings rechtlich eindeutiger möglich.

Open Assisstant

Mit Spannung habe ich diese Woche die Veröffentlichung eines der Teilergebnisse des Open Assistants erwartet. Bei dem Projekt geht es darum, eine Open-Source-Alternative zu ChatGPT zu bauen. Mühsam musste daher durch Community-Unterstüzung ein Dataset aufgebaut werden. Dieses Dataset wurde nun veröffentlicht.

Das LLaMA-basierte Modell konnte noch nicht veröffentlicht werden, eine Delta-Version soll in Kürze freigegeben werden.

Zeitleiste der Transformer-basierten Modelle

Abschließend ein Projekt in eigener Sache: mit der Zeitleiste für die Transformer-Modelle baue ich momentan eine Überblicksseite samt Diagramm der verschiedenen Modelle. Es hat als kleines Projekt angefangen und wird immer größer, da mir immer mehr bewusst wird, wie sehr die heutigen ML-Projekte "auf den Schultern von Riesen stehen".

Die Seite ist für alle interessant, die sehen wollen, welche Modelle, Methoden und Papers aktuell diskutiert werden und wie sie voneinander abstammen. Über Feedback freue ich mich gerne!

KI-Wochenrückblick KW 14/2023

09. April 2023 um 21:07

Im heutigen Wochenrückblick werde ich einige spannende Einblicke in die KI-Welt der letzten Tage präsentieren. Einige der Nachrichten stammen aus dieser Woche, bei anderen etwas älteren Themen möchte ich diesen Wochenrückblick zur Nachbesprechung nutzen.

LLaMa-Adapter

LLaMA-Adapter (Paper) ist so spannend, dass ich es euch nicht vorenthalten möchte. Über die letzten Wochen haben sich im Rahmen der ChatGPT-DIY-Konkurrenzmodelle einige Modelle und vor allem Methodiken für das Finetuning dieser herausgebildet.

Eine wichtige Rolle hat hierbei Metas LLaMA eingenommen. Das Modell ist zwar für ausgewählte Forscher mit den Gewichten verfügbar, steht aber unter einer restriktiven Lizenz. Trotzdem haben sich verschiedene Methodiken herausgebildet, LLaMa auf die eigenen Bedürfnisse feinzutunen, um insbesondere bessere Resultate zu erhalten.

Eines der ersten verbreiteten Verfahren hierfür war Alpaca. Dabei wurde ein spezielles Dataset herangezogen (52k Instruct), das aus Instruktionen bestand. Anschließend wurde LLaMa(-7B) genommen und die bestehenden Gewichte so angepasst, dass der Loss auf das Dataset als Trainingsdatensatz verringert wird. Problematisch hierbei: alle Gewichte müssen "angefasst" werden – und mit mindestens 7 Mrd. sind es nicht wenige.

LLaMa-Adapter nutzt einen anderen Ansatz und friert erst einmal die bestehenden Gewichte ein. Für das Finetuning wird eine eigene Schicht mit 1,2 Mio. neuen Gewichten hinzugefügt, wobei nur diese trainiert werden. Das Ergebnis ist ein Training, welches lediglich unter einer Stunde mit 8 A100-GPUs dauert. Diese Effizienz schlägt sich in einer kürzeren Trainingszeit und somit auch geringeren Kosten nieder.

Als sei das nicht genug, ermöglicht LLaMa-Adapter auch die Implementierung von Mutlimodalen Modellen, wo zusätzlich zur Texteingabe Bilder als solche verarbeitet werden können.

Semgment Anything Model

Meta bzw. Facebook nimmt in der aktuellen KI-Forschung eine ganz besondere Rolle ein. Denn oft sind es gerade die Entwicklungen und Modelle von Meta, die in der Community weite Anerkennung und Verbreitung finden.

In der aktuellsten Veröffentlichung aus dieser Woche widmen sich die KI-Forscher von Meta der Bildsegmentierung und stellen eines der Modelle frei einsehbar zur Verfügung.

Mit Bildsegmentierung dürften viele iOS-Nutzer letztes Jahr mit der Umstellung auf Version 16 in Kontakt bekommen sein. Eines der zentralen neuen Features war die Möglichkeit, sehr einfach Objekte in Bildern freistellen zu können ("cut out"). Dabei ist es entscheidend, sauber Objekte auf einem Bild trennen zu können.

Das Semgent Anything Model (SAM) stellt solche Möglichkeiten nun für Jedermann zur Verfügung, der damit arbeiten oder forschen möchte. Von Meta werden hierfür das Paper, der Datensatz und eine Demo bereitgestellt.

Auto-GPT

Mit Auto-GPT wurde diese Woche ein experimentelles Werkzeug bekannt, das GPT-4 bzw. GPT-3.5 direkt an den Computer anschließt, um automatisiert Ziele erarbeiten zu können. Man kann sich das wie die ChatGPT Plugins, nur mit viel mehr Freiheiten vorstellen. Um die Ziele zu erreichen, kann z. B. das System im Internet suchen oder auch Dateien lesen.

Für den einzelnen Endnutzer ist natürlich der Einsatz sehr riskant, da das System a) Zugriff auf den eigenen Computer hat und b) nicht vorhersagbar in Bezug auf das nächste ausgeführte Kommando ist. Trotzdem zeigt das Experiment, dass die GPT-Modelle heute beindruckend gut Ziele erreichen können, wenn sie eine Schnittstelle zu einem Computer erhalten.

Das war der KI-Wochenrückblick mit einer Auswahl von spannenden Nachrichten für diese Woche. Ich freue mich schon auf die nächste Woche, wenn wir wieder die Neuerungen der nächsten Woche besprechen können!

KI-Wochenrückblick KW 13/2023

02. April 2023 um 21:00

In dieser Woche gab es ebenfalls spannende Entwicklungen im Bereich der Künstlichen Intelligenz, die ich mit euch im KI-Wochenrückblick vorstellen möchte.

GPT4All

Die Welt der offenen GPT-artigen Modelle wurde in dieser Woche um ein weiteres Mitglied reicher: GPT4All. Das Projekt veröffentlicht neben einem Bericht eine Demo, Daten und Code, um ein Assistenten-ähnliches Sprachmodell auf LLaMa-7B-Basis zu trainieren. GPT4All nutzt rund eine Million Dialogpaare, die mit GPT-3.5-Turbo von OpenAI zwischen dem 20. März und 26. März 2023 generiert wurden. Die Daten stammen aus verschiedenen Quellen, darunter LAION OIG, Stack Overflow und Bigscience/P3. Nach Bereinigung der Datensätze verbleiben 437.605 Dialogpaare, die für das Training verwendet werden. Das Projekt veröffentlicht nicht nur die trainierten Modellgewichte, sondern auch 4-Bit-quantisierte Versionen, die eine Ausführung des Modells auf herkömmlichen CPUs ermöglichen.

Forderung nach einem Moratorium für KI

Ein offener Brief des Future of Life Institute, unterzeichnet von Persönlichkeiten wie Elon Musk oder Steve Wozniak, fordert ein mindestens sechmonatiges Moratorium für die Entwicklung von KI-Modellen, die leistungsstärker sind als GPT-4. Die Unterzeichner argumentieren, dass eine solche Pause notwendig sei, um sicherzustellen, dass die KI der Menschheit dient und nicht schadet. In den Reaktionen (z. B. 1 oder 2) gibt es für den Vorstoß auch viel Gegenwind.

Italien sperrt ChatGPT

Die italienische Datenschutzbehörde hat gegenüber OpenAI eine Sperrung von ChatGPT angeordnet, die zwischenzeitlich bereits offenbar umgesetzt wurde. Der Grund für die Sperrung sind angeführte Verstöße gegen Datenschutz- und Jugendschutzbestimmungen. Die Behörde kritisiert nach FAZ-Angaben insbesondere, dass OpenAI keine ausreichende Rechtsgrundlage für das Sammeln und Speichern von bestimmten personenbezogenen Daten habe. OpenAI muss innerhalb von 20 Tagen über die ergriffenen Maßnahmen informieren, sonst droht eine Straße von bis zu 20 Millionen Euro oder 4 % des Jahresumsatzes. Die erfolgte Sperrung steht auch im Zusammenhang mit der Störung vom 20. März, bei der durch einen Bug in der redis-py-Bibliothek Nutzer Daten Anderer erhalten haben.

Insgesamt zeigt sich, dass die KI-Branche weiterhin rasant voranschreitet, aber auch vor klassischen rechtlichen Herausforderungen steht. Es bleibt spannend, wie sich das Feld auch in der nächsten Woche entwickelt.

KI-Wochenrückblick KW 12/2023

26. März 2023 um 20:25

Während vergangene Woche die Nachrichten sich täglich überschlagen haben, ging es diese Woche etwas ruhiger zu – was aber nicht bedeutet, dass die Neuerungen weniger bahnbrechend sind. Die Woche im KI-Wochenrückblick.

ChatGPT Plugins

Wer die 17. Episode des Risikozone-Podcasts gehört hat, weiß, dass ich schon länger eine Erweiterung der "Text-KIs" skizziert habe, die das Sprachmodell auf die Textgenerierung beschränkt, aber die Informationsbeschaffung auf klassischem, deterministischem Weg umsetzt. Das habe aber nicht nur ich so gedacht, sondern auch die Forscher hinter Toolforge oder Entwickler hinter Werkzeugen wie LangChain oder ICortex. OpenAI hat ChatGPT mit den ChatGPT Plugins diese Woche seiner Text-KI genau diese Möglichkeit ebenfalls verpasst. Was als kleiner Schritt erscheint, dreht kurzfristig die KI-Nahrungskette um: während bisher die GPT-Modelle das Werkzeug waren, das in fertige Dienste integriert wurde, stellt ChatGPT nun das Tor in die Welt dar, das durch externe Informationen angereichert wird. So kann OpenAI nun z. B. einen Sachverhalt an WolframAlpha weiterleiten, ein Dienst, der (wissenschaftliche) Zusammenhänge präsizer verarbeiten kann und bereits seit langer Zeit die Grundlagen von Sprachassistenten darstellt. Weitere Informationen hierzu beschreibt Stephen Wolfram in seinem Blog. Aber auch Document Retreival, also das Durchsuchen der eigenen Datenberge, wird nun als Plugin unterstützt. Das dazugehörige GitHub-Repository chatgpt-retrieval-plugin trendet seit dem unentwegt.

Die Auswirkungen hinter dieser Neuerung werden maßgeblich durch die Bekanntheit von OpenAI verstärkt. Die Plugins setzen OpenAI jetzt in die Lage, Projekte und Startups, die lediglich ein Mashup, also eine Verschmelzung von GPT mit eigenen Informationen, angeboten haben, existentiell zu bedrohen. In diesem Aspekt ist OpenAI heute wie Google in den ersten Jahren: sie machen ein neues Feld besonders zugänglich, veröffentlichen in einer hohen Frequenz interessante Produkte – sind aber auch gefürchtet, weil sie die low-hanging fruits – die leichten Probleme – schnell lösen. Es bleibt weiterhin spannend.

Hello Dolly! Demokratisierung der Sprachmodelle

OpenAI wird zunehmend dafür kritisiert, die Entwicklung der neuen Sprachmodelle proprietär zu gestalten. Während GPT-2 noch einfach zugänglich war, ist GPT-3 nicht mehr einfach als Download verfügbar. Das ist natürlich für Forschung und Weiterentwicklung hinderlich, sichert für OpenAI aber nebenbei einen Wettbewerbsvorteil.

Die Antwort auf diesen "Missstand" kommt in diesen Tagen prompt: Databricks hat mit Hello Dolly an Alpaca aus letzter Woche angeknüpft und gezeigt, dass ein ChatGPT-ähnliches Modell auch auf Basis von GPT-J statt LLaMA (wie bei Alpaca) trainiert werden kann. GPT-J ist deshalb interessant, weil es noch aus der Zeit von vor zwei Jahren stammt, als Sprachmodelle offen bereitgestellt wurden.

Auch wenn GPT-J insgesamt über z. B. weniger Parameter verfügt, kann es trotzdem die hochwertigen Ergebnisse ermöglichen. Dabei zeichnet sich ab, dass die Methodik hinter Self-Instruct mächtig ist, was wiederum den Wettbewerbsvorteil der geheimen GPT-3-Gewichte relativiert.

Aber auch die Grundmodelle entwickeln sich weiter: so ist flan-ul2 von Google ein spannender Kandidat für ein solches Basismodell. flan-ul2 wurde erst Anfang des Monats veröffentlicht.

OpenAI stellt Codex-API ein

Realtiv geräuschlos stellte OpenAI offenbar die Zugänge zu den Codex-Modellen ein, hierzu gibt es nur Nutzerberichte. Im OpenAI Playground sind die Codex-Modelle auch nicht mehr anwählbar. Bemerkenswert ist hierbei die Vorwarnzeit, die lediglich wenige Tage betrug.

OpenAI Codex wurde 2021 veröffentlicht und war die spezielle Anpassung der GPT-3-Modelle für Code. Es bildete die Grundlage für den GitHub Copilot. GitHub hat in dieser Woche GitHub Copilot X vorgestellt, welcher nun auf GPT-4-Basis arbeitet. Die Einstellung von Codex ist hier schon fast folgerichtig, da OpenAI scheinbar ihr neues Modell GPT-4 als so allgemeingültig sieht, dass Textaufgaben und Codingprobleme über das gleiche System abgewickelt werden können.

Aber auch Codex bekommt Konkurrenz: Code Alpaca ist auch diese Woche erschienen und funktioniert ähnlich wie Alpaca, konzentriert sich aber speziell auf Codingprobleme. Die Web-Demo ist noch aktiv.

KI-Wochenrückblick KW 11/2023

19. März 2023 um 21:10

Der KI-Wochenrückblick fasst die Nachrichten der Kalenderwoche 11 des Jahres 2023 zusammen. In dieser Woche gab es viele Neuigkeiten, darunter die Veröffentlichung von GPT-4, Midjourney 5, PyTorch 2.0 oder Alpaca.

Treue Leser des Blogs können sich noch an das Jahr 2018 und den Wochenrückblick erinnern. Über ein halbes Jahr habe ich im Wochentakt das Geschehen der Woche zusammengefasst. Der Wochenrückblick wurde nach kurzer Zeit wieder eingestellt und sollte auch nur als Experiment dienen.

Im Jahr 2023 wird allerdings der Wochenrückblick aus einem anderen Blickwinkel wieder relevant. Wir erleben momentan etwas, was mich an die Erfindung des iPhones erinnert: eine neue Technologie ist da und man möchte den ganzen Tag die Funktionalität ausprobieren. Dies fing bereits 2022 mit GPT-3 und DALL-E an setzt sich nun mit Stable Diffusion, ChatGPT und den ganzen neuen Modellen fort.

Um die Flut an Informationen zu sortieren, möchte ich die Gelegenheit nutzen und im KI-Wochenrückblick das Geschehen der Woche aufarbeiten und kurz zusammenfassen.

GPT-4 erschienen

Den Anfang macht ganz klar OpenAI mit GPT-4. Um die neue Version des bekannten Large Language Models (LLM) gab es schon seit einiger Zeit einen gewissen Hype. Am Dienstag war es dann soweit: OpenAI hat GPT-4 veröffentlicht. In einem Demo-Livestream wurden die Möglichkeiten vorgestellt. GPT-4 soll multimodal sein und neben Text auch Bilder verarbeiten können. Die Anzahl der Tokens steigt von 2048 auf 32k Tokens, was in etwa 25.000 Wörtern entspricht. Eine Eingabe kann also deutlich länger sein als bisher.

Das mit Spannung erwartete Paper, welches jetzt auf arxiv.org liegt, bietet allerdings recht wenig Einblicke in die Funktionsweise. Hier wurde der Fokus besonders auf Vergleiche bei standardisierten Tests gelegt, Details zur Architektur wurden nicht verraten. Diese Politik enttäuscht teilweise die Forschungswelt und wird bisher mit dem Konkurrenzdruck begründet. (Blogartikel von Dienstag)

Midjourney V5 Alpha veröffentlicht

Bei den Text-zu-Bild-Wandlern gibt es auch Neuigkeiten. Midjourney ist als Alpha in Version 5 verfügbar, wie das Team auf Twitter berichtet. Mit dem neuen Release werden die Bilder deutlich realistischer und die Qualitätssteigerungen werden sichtbar.

Midjorney ist allerdings, im Gegensatz zu OpenAI-Produkten, aktuell nicht als API verfügbar und kann nur teils kostenpflichtig über den Discord-Server erreicht werden.

ViperGPT: Visuelle Inferenz mittels Python-Ausführung

Eines meiner persönlichen Highlights der Woche ist die Vorstellung von ViperGPT und dem dazugehörigen Paper. Es geht ein Problem an, welches insbesondere bei Bild-Tasks präsent ist: während jeweils die Erkennung von Objekten oder die Codegenerierung für ein Problem relativ zuverlässig sind, ist die Kombination aus beidem fehleranfällig.

Beispiel: wir haben ein Bild mit verschiedenen Pizzastücken und Personen vorliegen. Die Frage "Wie viele Stücke könnte jede Person erhalten, wenn die Pizza fair aufgeteilt wird?" ist schwierig zu beantworten, wenn wir einen End-to-End-Ansatz fahren. ViperGPT wählt allerdings einen anderen Ansatz: hier wird ein Python-Programm generiert, welches Platzhalter für die eigentlichen Image-Recognition-Tasks im Rahmen von speziellen find()-Funktionsaufrufen lässt. Die eigentliche Aufteilungberechnung pizzastueckzahl // personenanzahl wird vom Codegenerator-Modell zwar formuliert, dann aber ganz normal deterministisch in Python auf einer CPU ausgeführt. Somit wird einerseits das Modell erklärbarer und andererseits auch deterministischer.

Ich freue mich schon auf den Code, um das Verfahren auszuprobieren. Wenn das funktioniert, lassen sich in meinen Augen die Vorteile unscharfer Large Language Models und präsizer Computerberechnungen besser kombinieren.

PyTorch 2.0 erschienen

PyTorch ist ein wichtiger Baustein in der ML-Forschung, da es als wichtiges Framework und TensorFlow-Konkurrent die Modelle erst implementierbar und trainierbar macht. Umso spannender ist es, dass hier eine neue Version erschienen ist.

In Version 2.0 sind allerdings glücklicherweise keine substantiellen Breaking Changes zu erwarten, es ist eine umgebrandete Version 1.14. Hinzu gekommen ist insbesondere torch.compile(), sodass Modelle vorkompiliert werden können und nicht mehr zwangsläufig im "eager mode" arbeiten müssen. (Blogartikel von Samstag)

Alpaca: Do-it-yourself GPT?

Ein großer Nachteil der aktuellen KI-Forschung liegt in der Verfügbarkeit der Modelle. Dabei müssen wir zwischen Modellen und Modellen unterscheiden – leider wird beides oft mit dem gleichen Namen bezeichnen. Modelle können einerseits die Architektur beschreiben (GPT-3, LLaMA, AlexNet, ...), andererseits aber auch die Architektur plus die dazugehörigen Gewichte (= das Herzstück für den Einsatz eines Modells) bedeuten. Die Gewichte sind das Ergebnis des Trainings.

Die Architektur wird meist offengelegt (in GPT-4 jetzt nicht mehr, wie wir gesehen haben), die Gewichte sind oft unter Verschluss, sind aber die Voraussetzung für den Betrieb eines vortrainierten Modells. LLMs wie GPT-4 oder PaLM sind prioprietär, Meta beschreitet mit LLaMA einen Mittelweg mit einer restriktiven Lizenz und andere Modelle wie die Spracherkennung Whisper sind komplett offen.

Um nun aber zügig ein lauffähiges, lokales LLM aufzubauen, haben die Stanford-Forscher mit Alpaca einen Trick angewandt. Sie nehmen das LLaMA-Modell und führen mittels Instructions, die mit ChatGPT synthetisiert werden, über das Self-Instruct-Verfahren ein Fine-Tuning durch. Herauskommen soll ein Modell, welches mit GPT-3 konkurrieren kann, aber unter 600 USD im Training gekostet hat. Das ist für bisherige Verhältnisse sehr billig.

Das Modell gibt es noch nicht zum Download, hier möchte das Alpaca-Team in Verhandlung mit Meta treten. Die Auswirkungen wären tatsächlich enorm, da einerseits die Entwicklungen lokal nachvollziehbar werden (für die Wissenschaft unerlässlich), andererseits aber der Alleinstellungswert von LLM-Providern sinkt, wenn ein anderes Modell einfach ihr Modell imitieren kann.

Weitere Neuigkeiten

  • Microsoft 365 Copilot hält Einzug in Office
    Dieser Schritt war aus meiner Sicht seit dem 10 Mrd.-Investment erwartbar und wird nun umgesetzt. Effektiv wird dadurch ChatGPT direkt in Office nutzbar.
  • Google führt KI-Systeme in Google Workspace ein
    Google zieht nach und bietet ähnliche Funktionen in den eigenen Produkten mit den eigenen Modellen an. Auch hier geht es darum, das Prompting innerhalb der Dokumente zu ermöglichen. Durch die enge Einbindung von Gmail in die Business-Suite können aber auch über die Schnittstellen z. B. E-Mail-Vorlagen schnell modifiziert werden.
❌
❌