Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeLinux-Magazin

Laion: Riesiges Sprachmodell für Deutsch trainiert

04. Oktober 2023 um 08:51

Die KI-Forschungsgruppe Laion hat das freie Llama-Modell für Deutsch angepasst. Das soll vor allem die englischsprachige Dominanz brechen.

Zahlreiche große Sprachemodelle (LLMs) wie etwa GPT-4 oder das intern von Google eingesetzte Palm sind zwar mehrsprachig, offene und frei verfügbare Sprachmodelle sind in den allermeisten Fällen jedoch ausschließlich in Englisch verfügbar. Die in Deutschland initiierte offene KI-Forschungsgruppe Laion setzt dem mit LeoLM (Linguistically Enhanced Open Language Model) nun ein deutschsprachiges Modell entgegen.

Das Modell basiert auf dem frei verfügbaren Llama-2-Modell und ist derzeit mit 7 oder 13 Milliarden Parametern nutzbar. Diese Größen dürften sich dank einiger Optimierungen dafür eignen, auch auf heimischen Rechnern und Grafikkarten ausgeführt zu werden, statt ausschließlich im Rechenzentrum. Darüber hinaus heißt es in der Ankündigung, dass ein Modell mit 70 Milliarden Parametern bereits in Arbeit sei. Trainiert wird das Modell mit Unterstützung von HessianAI, einem Forschungsverbund mehrerer hessischer Universitäten, und dessen Supercomputer 42, der mehr als 600 Nvidia A100 Karten nutzt.

Als Grund für die Arbeiten nennen die Beteiligten, dass die Qualität von Llama 2 inzwischen zwar an kommerzielle und proprietäre Modelle heranreiche. Da das Training dafür aber hauptsächlich mit englischsprachigen Daten durchgeführt worden sei, enthalte das Modell zahlreiche Verzerrungen, die etwa auf die US-Kultur oder die Sprache selbst zurückzuführen seien. “Wir versuchen, diese Probleme in der Fallstudie für deutsche Sprache zu lindern, indem wir viele der modernen Techniken anwenden, um ein wirklich fähiges, lokalisiertes und zweisprachiges LLM zu entwickeln”, schreibt Laion dazu.

Das Team passt Llama für Deutsch mit einer zweiten sogenannten Pre-Training-Phase an. Dabei wird das bestehende Llama-Modell auf Grundlage eines weiteren deutschen Text-Korpus weiter trainiert. Dazu wird Oscar genutzt. Zum Überprüfen der Ergebnisse des so trainierten Modells haben die Beteiligten darüber hinaus bisher nur in Englisch verfügbare Benchmarks ins Deutsche übersetzt. Wie zu erwarten liefert LeoLM dabei dann auf Deutsch leicht bessere Ergebnisse, schneidet aber auf Englisch leicht schlechter ab als Llama 2. Dabei seien die Vorteile durch die Verbesserungen für Deutsch aber deutlich wichtiger als die leichten Verschlechterungen für Englisch, was zeige, dass auch bereits gelernte Inhalte mit der genutzten Vorgehensweise erhalten bleiben können.

Der Beitrag Laion: Riesiges Sprachmodell für Deutsch trainiert erschien zuerst auf Linux-Magazin.

Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0

17. April 2023 um 14:11

Databricks, Spezialist für Data-Engineering auf Basis von Apache Spark, hat mit Dolly 2.0 eine ChatGPT-ähnliches Large Language Model (LLM) unter Open-Source-Lizenz veröffentlicht.

Dolly 2.0 sei ein 12-Milliarden-Parameter-Sprachmodell, das auf der EleutherAI-Pythia-Modellfamilie basiere und das erste quelloffene LLM, das mit einem von Menschen generierten Anweisungsdatensatz trainiert worden sei, teilt Databricks mit.. Es sei auf einem qualitativ hochwertigen, von Menschen generierten Datensatz für die Verfolgung von Anweisungen abgestimmt worden. Den Datensatz hätten Databricks-Mitarbeiter per Crowdsourcing erstellt. Zum Vergleich: ChatGPT kann auf rund 175 Milliarden Parameter zurückgreifen, um Texte zu interpretieren und zu generieren.

Man stelle Dolly 2.0 in seiner Gesamtheit als freie Software unter der Creative Commons Attribution-ShareAlike 3.0 Unported License zur Verfügung, einschließlich des Trainingscodes und des Datensatzes und der Modellgewichtung. Alle Komponenten seien für die kommerzielle Nutzung geeignet, berichtet Databricks weiter. Das bedeutet, dass jede Organisation damit LLMs erstellen, besitzen und anpassen könne, die mit Menschen sprechen können, ohne für den API-Zugang zu bezahlen oder Daten mit Dritten zu teilen.

Der Datensatz databricks-dolly-15k enthalte 15.000 qualitativ hochwertige, von Menschen erstellte Prompt/Response-Paare, die speziell für die Abstimmung großer Sprachmodelle entwickelt worden seien. Gemäß den Lizenzbedingungen für databricks-dolly-15k könne jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, verwenden, verändern oder erweitern, heißt es weiter.

Databricks-Dolly-15k sei von mehr als 5000 Databricks-Mitarbeitern im März und April 2023 aufgebaut. Die Trainingsdatensätze seien deshalb natürlich und ausdrucksstark und so konzipiert, dass sie ein breites Spektrum an Verhaltensweisen abbilden, von Brainstorming und Inhaltsgenerierung bis hin zu Informationsextraktion und Zusammenfassung, berichten die Entwickler von Databricks.

Auf der Databricks Hugging Face Seite lasse sich das auf dem Datensatz aufbauende Sprachmodell Dolly-v2-12b herunterladen. Der Datensatz Databricks-Dolly-15k liege im Dolly-Repo bei Databricks Labs. Außerdem biete man ein Webinar als Einführung von LLMs für Unternehmen an.

Der Beitrag Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0 erschien zuerst auf Linux-Magazin.

Europol warnt vor kriminellem Missbrauch von ChatGPT

28. März 2023 um 07:59

Das Europäische Polizeiamt Europol sieht Kriminelle die Fähigkeiten des Large Language Models (LLM) ChatGPT für ihre Zwecke missbrauchen.  Die von ChatGPT erzeugten realistisch wirkenden Texte etwa, seien ideal für Phishing und Social Engineering einzusetzen, teilt Europol mit.

Sorgen macht der europäischen Polizei besonders der Einsatz von ChatGPT in den drei Kriminalitätsbereiche Betrug und Social Engineering; Desinformation und Cybercrime. Im Fall des Social Engineering seien die Fähigkeit von ChatGPT, sehr realistische Texte zu verfassen sehr nützlich für Phishing-Zwecke. Zudem lasse sich die Fähigkeit von LLMs, Sprachmuster nachzubilden, nutzen, um den Sprachstil bestimmter Personen oder Gruppen zu imitieren. Diese Fähigkeit lasse sich im großen Stil missbrauchen, um potenzielle Opfer zu verleiten, kriminellen Akteuren zu vertrauen.

Dass ChatGPT authentisch klingende Texte produzieren könne, macht das Modell auch ideal für Propaganda- und Desinformationszwecke, da es mit relativ geringem Aufwand Nachrichten erstellen könne, die ein bestimmtes Narrativ widerspiegeln.

Nicht zuletzt sei ChatGPT in der Lage auch Code in einer Reihe verschiedener Programmiersprachen zu erzeugen. Für einen potenziellen Kriminellen mit geringen technischen Kenntnissen sei dies eine unschätzbare Ressource, um bösartigen Code für Angriff zu generieren.

Als Reaktion auf die wachsende öffentliche Aufmerksamkeit, die ChatGPT erregt, hat das Europol Innovation Lab eine Reihe von Workshops mit Fachleuten veranstaltet um zu untersuchen, wie Kriminelle LLMs missbrauchen können und wie sie Ermittler bei ihrer täglichen Arbeit unterstützen können. In einem Report zu ChatGPT sind die Ergebnisse dieser Sitzungen enthalten und zudem wichtige Informationen für Strafverfolgungsbehörden, die weiterhin nach neuen und aufkommenden Technologien Ausschau halten, die ihre Arbeit beeinflussen, teilt Europol mit.

Der Beitrag Europol warnt vor kriminellem Missbrauch von ChatGPT erschien zuerst auf Linux-Magazin.

❌
❌