Mozilla stellt Erweiterungs-Schnittstelle für Lokale KI in Firefox vor
Mozilla hat eine neue Erweiterungs-Schnittstelle vorgestellt, welche Entwickler von Firefox-Erweiterungen nutzen können, um Anwendungsfälle für Maschinelles Lernen und Künstliche Intelligenz lokal auszuführen.
Nutzer einer Nightly-Version von Firefox können ab sofort eine neue experimentelle Erweiterungs-Schnittstelle nutzen. Diese hat Mozilla auf seinem Blog vorgestellt.
Die Schnittstelle erlaubt die Nutzung jedes maschinellen Lernmodells, welches mit Transformers.js kompatibel ist, im Browser auszuführen, ohne dass dabei Anfragen an externe Server gesendet werden. Lediglich das verwendete Modell muss bei der ersten Nutzung heruntergeladen werden, ansonsten geschieht die Arbeit vollständig lokal.
Zwar können Webanwendungen bereits Transformers.js in JavaScript nutzen. Die Ausführung über Mozillas Erweiterungsschnittstelle bietet aber mehrere Vorteile: So wird die Inferenz-Runtime in einem eigenen isolierten Firefox-Prozess ausgeführt, was die Sicherheit und Robustheit verbessert. Die Modell-Dateien werden in einer IndexedDB gespeichert und über verschiedene Ursprünge hinweg gemeinsam genutzt. Außerdem erlauben Firefox-spezifische Leistungsverbesserungen eine verbesserte Performance.
Transformers.js verwendet „Aufgaben“, um Implementierungsdetails für die Ausführung bestimmter Arten von ML-Workloads zu abstrahieren. Für die erste Iteration stellt Firefox die folgenden Aufgaben zur Verfügung:
text-classification
– Zuweisung eines Labels oder einer Klasse zu einem gegebenen Texttoken-classification
– Zuweisung eines Labels zu jedem Token in einem Textquestion-answering
– Abrufen der Antwort auf eine Frage aus einem gegebenen Textfill-mask
– Maskierung einiger Wörter in einem Satz und Vorhersage, welche Wörter diese Masken ersetzen sollensummarization
– Erstellung einer kürzeren Version eines Dokuments unter Beibehaltung der wichtigen Informationen.translation
– Konvertierung von Text von einer Sprache in eine anderetext2text-generation
– Konvertierung einer Textfolge in eine andere Textfolgetext-generation
– Erzeugen von neuem Text durch Vorhersage des nächsten Wortes in einer Sequenzzero-shot-classification
– Klassifizierung von Text in Klassen, die während des Trainings nicht gesehen werdenimage-to-text
– Ausgabe von Text aus einem gegebenen Bildimage-classification
– Zuweisung eines Labels oder einer Klasse für ein ganzes Bildimage-segmentation
– Unterteilung eines Bildes in Segmente, in denen jedes Pixel einem Objekt zugeordnet istzero-shot-image-classification
– Klassifizierung von Bildern in Klassen, die beim Training nicht gesehen werdenobject-detection
– Identifizierung von Objekten bestimmter definierter Klassen in einem Bildzero-shot-object-detection
– Identifizierung von Objekten von Klassen, die beim Training nicht gesehen werdendocument-question-answering
– Beantwortung von Fragen zu Dokumentenbildernimage-to-image
– Umwandlung eines Quellbildes, damit es den Merkmalen eines Zielbildes oder eines Zielbildbereichs entsprichtdepth-estimation
– Vorhersage der Tiefe von Objekten in einem Bildfeature-extraction
– Umwandlung von Rohdaten in numerische Merkmale, die verarbeitet werden können, wobei die Informationen im Originaldatensatz erhalten bleibenimage-feature-extraction
– Umwandlung von Rohdaten in numerische Merkmale, die unter Beibehaltung der Informationen im Originalbild verarbeitet werden können
Für jede Aufgabe hat Mozilla ein Standard-Modell ausgewählt. Der Erweiterungs-Entwickler kann aber auf jedes Modell zurückgreifen, welches auf Hugging Face entweder von Mozilla oder Xenova veröffentlicht worden ist. Derzeit können nur Modelle dieser zwei Organisationen genutzt werden. Dass diese Einschränkung gelockert wird, ist für die Zukunft denkbar.
So einfach könnte beispielsweise Code zur Zusammenfassung von Text mit dem entsprechenden Standard-Modell aussehen:
async function summarize (text) { await browser.trial.ml.createEngine({ taskName: 'summarization' }); const result = await browser.trial.ml.runEngine({ args: [text] }); return result[0]['summary_text']; }
Im Vergleich mit anderen WebExtension-Schnittstellen gibt es zwei wichtige Unterschiede: Zum einen kann die notwendige Berechtigung erst nach der Installation einer Erweiterung durch den Benutzer erteilt werden. Außerdem werden Änderungen der Schnittstelle in der Zukunt erwartet. Aus diesem Grund nutzt die Schnittstelle den browser.trial
-Namespace, statt die Funktionen direkt in browser
bereitzustellen. Damit wird die Erwartungshaltung entsprechend gesetzt, dass es sich hierbei um eine Art „Vorschau“ handelt und in Zukunft eher Anpassungen der Erweiterungen notwendig werden, als es bei WebExtensions normalerweise üblich ist.
Die KI-unterstützte Generierung eines Beschreibungstextes für Bilder in PDF-Dateien ist ein in Firefox von Haus aus integriertes Feature, welches unter der Haube aber auf genau die gleiche Weise funktioniert. Mozilla hat diesen Anwendungsfall zusätzlich auch noch in Form einer Erweiterung implementiert, um Entwicklern ein praktisches Beispiel zu geben, welches auch andere relevante Themen wie die Abfrage der Berechtigung behandelt.
Der Beitrag Mozilla stellt Erweiterungs-Schnittstelle für Lokale KI in Firefox vor erschien zuerst auf soeren-hentzschel.at.