Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeHaupt-Feeds

Brave Leo – KI-Browserassistent nun mit Mixtral per Standard

Von: jdo
26. Januar 2024 um 09:09

Die Desktop-Version von Brave wurde auf Version 1.62 aktualisiert. Ab sofort benutzt der Browser Mixtral 8x7B als Standard-Language Model (LLM) im eigenen KI-Browserassistenten Leo. Mixtral 8x7B ist ein Open-Source-LLM, das von Mistral AI im vergangenen Dezember veröffentlicht wurde. Es ist schnell und dank der hohen Leistung hat es sich schnell verbreitet. Ferner haben die Entwickler die Benutzerfreundlichkeit von Leo verbessert, indem sie das Onboarding, die Kontextsteuerung, die Formatierung von Eingaben und Antworten und die allgemeine Benutzeroberfläche verbessert haben. Mixtral ab […]

Der Beitrag Brave Leo – KI-Browserassistent nun mit Mixtral per Standard ist von bitblokes.de.

Mistral veröffentlicht freies Sparse-Mixture-of-Experts-LLM

11. Dezember 2023 um 11:22

Das Interessante an den Open-Source-Modellen ist ja, dass sie das umsetzen, was bei den proprietären Modellen gemunkelt wird, aber nicht nachgewiesen werden kann. Mein aktuelles Highlight: Mixture of Experts (MoE).

Im Sommer kamen Behauptungen auf, dass OpenAIs GPT-4 eigentlich aus acht kleineren Modellen besteht, die zusammengeschaltet werden. Dieses Verfahren nennt man auch Ensemble Learning.

Das klassische Beispiel dafür ist Random Forest, wo mehrere Decision Trees parallel zu so einem Ensemble zusammengeschaltet werden. Soll das Ensemble dann eine Klassifikation vornehmen, nimmt jeder Decision Tree mit seinen eigenen Gewichten die Klassifikation vor. Anschließend entscheidet die Mehrheit der Decision Trees im Ensemble, wie das Gesamtmodell nun klassifizieren soll. Analog würde auch eine Regression umgesetzt werden können, als Aggregierungsfunktion kommt dann statt Mehrheitswahl eben sowas wie Mittelwert o. ä. zum Einsatz. Das besondere ist, dass mit Random Forest üblicherweise bessere Vorhersagen erzielt werden können, als mit einem einfachen Decision Tree.

MoE funktioniert in den groben Zügen ähnlich. Es gibt "Experten" (ähnlich wie die Decision Trees bei Random Forest), die dann gewichtet aggregiert werden (Gating). Die Technik ist eigentlich recht alt und viele waren überrascht, dass OpenAI genau so etwas einsetzen soll.

Umso besser, dass Mistral als das europäische LLM-Startup sich der Sache angenommen hat. Anfang des Wochenendes schwirrte schon ein Torrent durchs Netz, heute gibt es dann auch eine offizielle Pressemitteilung zu Mixtral 8x7B. Hierbei handelt es sich um ein "Sparse Mixture of Experts"-Modell (SMoE). Die Gewichte sind wieder offen und unter der Apache 2.0 lizenziert.

Kurz zu den Eckdaten: 32k Token Kontextlänge können verarbeitet werden. Dabei spricht das Modell Englisch, Französisch, Italienisch, Deutsch und Spanisch und wurde auch auf Codegenerierung optimiert. Fine-tuning ist ebenfalls möglich - so wurde bereits eine instruction-following-Variante trainiert.

Im Vergleich zu Llama 2 70B soll es in einer Vielzahl von Benchmarks bessere Ergebnisse abliefern und dabei schneller arbeiten. Die einzelnen Ergebnisse können der Pressemitteilung entnommen werden.

Einen klassischen Downloadlink konnte ich auf die schnelle nicht finden, das Twitter-Profil verweist nur auf die Torrents. Parallel kündigt das Start-up an, einen eigenen Dienst für API-Endpoints anzubieten, sodass ein Deployment auf eigener Infrastruktur nicht mehr zwangsläufig notwendig ist.

Laion: Riesiges Sprachmodell für Deutsch trainiert

04. Oktober 2023 um 08:51

Die KI-Forschungsgruppe Laion hat das freie Llama-Modell für Deutsch angepasst. Das soll vor allem die englischsprachige Dominanz brechen.

Zahlreiche große Sprachemodelle (LLMs) wie etwa GPT-4 oder das intern von Google eingesetzte Palm sind zwar mehrsprachig, offene und frei verfügbare Sprachmodelle sind in den allermeisten Fällen jedoch ausschließlich in Englisch verfügbar. Die in Deutschland initiierte offene KI-Forschungsgruppe Laion setzt dem mit LeoLM (Linguistically Enhanced Open Language Model) nun ein deutschsprachiges Modell entgegen.

Das Modell basiert auf dem frei verfügbaren Llama-2-Modell und ist derzeit mit 7 oder 13 Milliarden Parametern nutzbar. Diese Größen dürften sich dank einiger Optimierungen dafür eignen, auch auf heimischen Rechnern und Grafikkarten ausgeführt zu werden, statt ausschließlich im Rechenzentrum. Darüber hinaus heißt es in der Ankündigung, dass ein Modell mit 70 Milliarden Parametern bereits in Arbeit sei. Trainiert wird das Modell mit Unterstützung von HessianAI, einem Forschungsverbund mehrerer hessischer Universitäten, und dessen Supercomputer 42, der mehr als 600 Nvidia A100 Karten nutzt.

Als Grund für die Arbeiten nennen die Beteiligten, dass die Qualität von Llama 2 inzwischen zwar an kommerzielle und proprietäre Modelle heranreiche. Da das Training dafür aber hauptsächlich mit englischsprachigen Daten durchgeführt worden sei, enthalte das Modell zahlreiche Verzerrungen, die etwa auf die US-Kultur oder die Sprache selbst zurückzuführen seien. “Wir versuchen, diese Probleme in der Fallstudie für deutsche Sprache zu lindern, indem wir viele der modernen Techniken anwenden, um ein wirklich fähiges, lokalisiertes und zweisprachiges LLM zu entwickeln”, schreibt Laion dazu.

Das Team passt Llama für Deutsch mit einer zweiten sogenannten Pre-Training-Phase an. Dabei wird das bestehende Llama-Modell auf Grundlage eines weiteren deutschen Text-Korpus weiter trainiert. Dazu wird Oscar genutzt. Zum Überprüfen der Ergebnisse des so trainierten Modells haben die Beteiligten darüber hinaus bisher nur in Englisch verfügbare Benchmarks ins Deutsche übersetzt. Wie zu erwarten liefert LeoLM dabei dann auf Deutsch leicht bessere Ergebnisse, schneidet aber auf Englisch leicht schlechter ab als Llama 2. Dabei seien die Vorteile durch die Verbesserungen für Deutsch aber deutlich wichtiger als die leichten Verschlechterungen für Englisch, was zeige, dass auch bereits gelernte Inhalte mit der genutzten Vorgehensweise erhalten bleiben können.

Der Beitrag Laion: Riesiges Sprachmodell für Deutsch trainiert erschien zuerst auf Linux-Magazin.

Mistral 7B: Fortschrittliches Open-Source-LLM aus Europa

30. September 2023 um 21:20

Das Wettrennen um die Technologieführerschaft der Large Language Models lief größtenteils bisher auf dem amerikanischen Kontinent ab. OpenAI hat das Produkt populär gemacht und Meta AI veröffentlicht den Konkurrenten mit den freien Gewichten. Mit Falcon 40B und 180B gab es allerdings schon Konkurrenz aus Abu Dhabi, zumal mit der gewählten Apache-2.0-Lizenz ein deutlich offenerer Ansatz gewählt wurde.

Als kurz vor dem Sommer das Start-up Mistral aus Paris 105 Millionen Euro eingesammelt hat, waren die Medienberichte zumindest leicht kritisch, da nicht nur das Start-up mit einer gigantischen Finanzierungssumme aus der Taufe gehoben wurde, sondern das Produkt auch noch gar nicht fertig war. Aus der LLM-Sicht ist dies allerdings verständlich, da solche großen Summen schlicht die Voraussetzung sind, um an den Start zu gehen. Schließlich benötigt Training leistungsfähige GPUs und die sind teuer.

Mit dem veröffentlichten Modell Mistral 7B zeigt das Start-up, was es kann. Dabei handelt es sich um ein LLM, das über 7 Mrd. Parameter verfügt und Llama 2 13B in allen und LLaMa 34B in vielen üblichen Benchmarks überbietet: Commonsense Reasoning, World Knowledge, Reading Comprehension, Math, Code, Popular aggregated results. In Codingaufgaben kann die Leistung von CodeLlama 7B erreicht werden.

Das Beste am LLM ist, dass es unter der Apache-2.0-Lizenz steht. Als klassische Open-Source-Lizenz gibt es nicht nur den Forschern und Entwicklern viele Freiheiten, sondern auch eine gewisse Lizenzsicherheit, dass das Modell in freier Software verwendet werden kann.

Ich hatte bereits vor Wochen geschrieben, dass freie Modelle eine gute Möglichkeit sind, um sich als neuer Player auf dem Markt zu profilieren. Diesen Plan verfolgt nicht nur Falcon, sondern nun auch offenbar Mistral. Es ist trotzdem davon auszugehen, dass die 105 Millionen Euro keine "Forschungsspende" waren und kommerzielle Produkte zeitnah folgen werden.

Für die Forscher und Entwickler von LLMs hat die aktuelle Veröffentlichung nichtsdestotrotz Vorteile. Meta AI hat mit der Lizenzgebung von Llama 2 auf die Open-Source-Bewegung in der LLM-Welt reagiert und sein aktuelles Modell unter eine permissive, aber trotzdem proprietäre Lizenz gestellt. Mistral geht allerdings noch einen Schritt weiter und setzt eine "klassische" Open-Source-Lizenz ein. Das hat nicht nur Signalwirkung, sondern ermöglicht, dass Unternehmen ihre LLM-Lösungen zunehmend privat hosten können, da die Parameteranzahl mit 7 Mrd. so dimensioniert ist, dass auch kleinere Datacenter-GPUs für die Ausführung bzw. Inferenz ausreichen. Es bleibt also weiterhin spannend im Umfeld der LLMs.

Die Mistral-7B-Modelle sind in Version 0.1 auf HuggingFace als normales Modell und als auf Chats spezialisiertes Modell (Instruct) verfügbar.

Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0

17. April 2023 um 14:11

Databricks, Spezialist für Data-Engineering auf Basis von Apache Spark, hat mit Dolly 2.0 eine ChatGPT-ähnliches Large Language Model (LLM) unter Open-Source-Lizenz veröffentlicht.

Dolly 2.0 sei ein 12-Milliarden-Parameter-Sprachmodell, das auf der EleutherAI-Pythia-Modellfamilie basiere und das erste quelloffene LLM, das mit einem von Menschen generierten Anweisungsdatensatz trainiert worden sei, teilt Databricks mit.. Es sei auf einem qualitativ hochwertigen, von Menschen generierten Datensatz für die Verfolgung von Anweisungen abgestimmt worden. Den Datensatz hätten Databricks-Mitarbeiter per Crowdsourcing erstellt. Zum Vergleich: ChatGPT kann auf rund 175 Milliarden Parameter zurückgreifen, um Texte zu interpretieren und zu generieren.

Man stelle Dolly 2.0 in seiner Gesamtheit als freie Software unter der Creative Commons Attribution-ShareAlike 3.0 Unported License zur Verfügung, einschließlich des Trainingscodes und des Datensatzes und der Modellgewichtung. Alle Komponenten seien für die kommerzielle Nutzung geeignet, berichtet Databricks weiter. Das bedeutet, dass jede Organisation damit LLMs erstellen, besitzen und anpassen könne, die mit Menschen sprechen können, ohne für den API-Zugang zu bezahlen oder Daten mit Dritten zu teilen.

Der Datensatz databricks-dolly-15k enthalte 15.000 qualitativ hochwertige, von Menschen erstellte Prompt/Response-Paare, die speziell für die Abstimmung großer Sprachmodelle entwickelt worden seien. Gemäß den Lizenzbedingungen für databricks-dolly-15k könne jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, verwenden, verändern oder erweitern, heißt es weiter.

Databricks-Dolly-15k sei von mehr als 5000 Databricks-Mitarbeitern im März und April 2023 aufgebaut. Die Trainingsdatensätze seien deshalb natürlich und ausdrucksstark und so konzipiert, dass sie ein breites Spektrum an Verhaltensweisen abbilden, von Brainstorming und Inhaltsgenerierung bis hin zu Informationsextraktion und Zusammenfassung, berichten die Entwickler von Databricks.

Auf der Databricks Hugging Face Seite lasse sich das auf dem Datensatz aufbauende Sprachmodell Dolly-v2-12b herunterladen. Der Datensatz Databricks-Dolly-15k liege im Dolly-Repo bei Databricks Labs. Außerdem biete man ein Webinar als Einführung von LLMs für Unternehmen an.

Der Beitrag Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0 erschien zuerst auf Linux-Magazin.

Europol warnt vor kriminellem Missbrauch von ChatGPT

28. März 2023 um 07:59

Das Europäische Polizeiamt Europol sieht Kriminelle die Fähigkeiten des Large Language Models (LLM) ChatGPT für ihre Zwecke missbrauchen.  Die von ChatGPT erzeugten realistisch wirkenden Texte etwa, seien ideal für Phishing und Social Engineering einzusetzen, teilt Europol mit.

Sorgen macht der europäischen Polizei besonders der Einsatz von ChatGPT in den drei Kriminalitätsbereiche Betrug und Social Engineering; Desinformation und Cybercrime. Im Fall des Social Engineering seien die Fähigkeit von ChatGPT, sehr realistische Texte zu verfassen sehr nützlich für Phishing-Zwecke. Zudem lasse sich die Fähigkeit von LLMs, Sprachmuster nachzubilden, nutzen, um den Sprachstil bestimmter Personen oder Gruppen zu imitieren. Diese Fähigkeit lasse sich im großen Stil missbrauchen, um potenzielle Opfer zu verleiten, kriminellen Akteuren zu vertrauen.

Dass ChatGPT authentisch klingende Texte produzieren könne, macht das Modell auch ideal für Propaganda- und Desinformationszwecke, da es mit relativ geringem Aufwand Nachrichten erstellen könne, die ein bestimmtes Narrativ widerspiegeln.

Nicht zuletzt sei ChatGPT in der Lage auch Code in einer Reihe verschiedener Programmiersprachen zu erzeugen. Für einen potenziellen Kriminellen mit geringen technischen Kenntnissen sei dies eine unschätzbare Ressource, um bösartigen Code für Angriff zu generieren.

Als Reaktion auf die wachsende öffentliche Aufmerksamkeit, die ChatGPT erregt, hat das Europol Innovation Lab eine Reihe von Workshops mit Fachleuten veranstaltet um zu untersuchen, wie Kriminelle LLMs missbrauchen können und wie sie Ermittler bei ihrer täglichen Arbeit unterstützen können. In einem Report zu ChatGPT sind die Ergebnisse dieser Sitzungen enthalten und zudem wichtige Informationen für Strafverfolgungsbehörden, die weiterhin nach neuen und aufkommenden Technologien Ausschau halten, die ihre Arbeit beeinflussen, teilt Europol mit.

Der Beitrag Europol warnt vor kriminellem Missbrauch von ChatGPT erschien zuerst auf Linux-Magazin.

❌
❌