Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeLinux-Magazin

Laion: Riesiges Sprachmodell für Deutsch trainiert

04. Oktober 2023 um 08:51

Die KI-Forschungsgruppe Laion hat das freie Llama-Modell für Deutsch angepasst. Das soll vor allem die englischsprachige Dominanz brechen.

Zahlreiche große Sprachemodelle (LLMs) wie etwa GPT-4 oder das intern von Google eingesetzte Palm sind zwar mehrsprachig, offene und frei verfügbare Sprachmodelle sind in den allermeisten Fällen jedoch ausschließlich in Englisch verfügbar. Die in Deutschland initiierte offene KI-Forschungsgruppe Laion setzt dem mit LeoLM (Linguistically Enhanced Open Language Model) nun ein deutschsprachiges Modell entgegen.

Das Modell basiert auf dem frei verfügbaren Llama-2-Modell und ist derzeit mit 7 oder 13 Milliarden Parametern nutzbar. Diese Größen dürften sich dank einiger Optimierungen dafür eignen, auch auf heimischen Rechnern und Grafikkarten ausgeführt zu werden, statt ausschließlich im Rechenzentrum. Darüber hinaus heißt es in der Ankündigung, dass ein Modell mit 70 Milliarden Parametern bereits in Arbeit sei. Trainiert wird das Modell mit Unterstützung von HessianAI, einem Forschungsverbund mehrerer hessischer Universitäten, und dessen Supercomputer 42, der mehr als 600 Nvidia A100 Karten nutzt.

Als Grund für die Arbeiten nennen die Beteiligten, dass die Qualität von Llama 2 inzwischen zwar an kommerzielle und proprietäre Modelle heranreiche. Da das Training dafür aber hauptsächlich mit englischsprachigen Daten durchgeführt worden sei, enthalte das Modell zahlreiche Verzerrungen, die etwa auf die US-Kultur oder die Sprache selbst zurückzuführen seien. “Wir versuchen, diese Probleme in der Fallstudie für deutsche Sprache zu lindern, indem wir viele der modernen Techniken anwenden, um ein wirklich fähiges, lokalisiertes und zweisprachiges LLM zu entwickeln”, schreibt Laion dazu.

Das Team passt Llama für Deutsch mit einer zweiten sogenannten Pre-Training-Phase an. Dabei wird das bestehende Llama-Modell auf Grundlage eines weiteren deutschen Text-Korpus weiter trainiert. Dazu wird Oscar genutzt. Zum Überprüfen der Ergebnisse des so trainierten Modells haben die Beteiligten darüber hinaus bisher nur in Englisch verfügbare Benchmarks ins Deutsche übersetzt. Wie zu erwarten liefert LeoLM dabei dann auf Deutsch leicht bessere Ergebnisse, schneidet aber auf Englisch leicht schlechter ab als Llama 2. Dabei seien die Vorteile durch die Verbesserungen für Deutsch aber deutlich wichtiger als die leichten Verschlechterungen für Englisch, was zeige, dass auch bereits gelernte Inhalte mit der genutzten Vorgehensweise erhalten bleiben können.

Der Beitrag Laion: Riesiges Sprachmodell für Deutsch trainiert erschien zuerst auf Linux-Magazin.

KI: Meta macht LLama 2 kostenlos für Geschäftskunden

19. Juli 2023 um 07:48

Meta veröffentlicht sein generatives Sprachmodell LLama 2 kostenlos für Geschäftskunden und Forscher. Llama 2 sei zudem Open Source, teilt Meta mit.Daneben stelle man auch die Modellgewichte und den Startcode für das vortrainierte Modell und die fein abgestimmten Versionen der Konversation zur Verfügung, heißt es weiter.

Ab sofort sei Llama 2 im Azure-KI-Modellkatalog verfügbar. Entwickler könnten damit arbeiten und ihre cloud-native Tools für Contenfilterung und Sicherheitsfunktionen nutzen. Llama 2 sei auch für die lokale Ausführung unter Windows optimiert. Zudem sei Llama 2 auch über Amazon Web Services (AWS), Hugging Face und andere Anbieter verfügbar, teilt Meta mit. Llama ist ein Multi-Modal-Modell, das Bilder, Text und Code generieren kann.

Mehr Informationen und den Download gibt es hier. Auf Github ist eine kurze Anleitung zum Download und der Lizenz verfügbar.

Der Beitrag KI: Meta macht LLama 2 kostenlos für Geschäftskunden erschien zuerst auf Linux-Magazin.

❌
❌