Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0

17. April 2023 um 14:11

Databricks, Spezialist für Data-Engineering auf Basis von Apache Spark, hat mit Dolly 2.0 eine ChatGPT-ähnliches Large Language Model (LLM) unter Open-Source-Lizenz veröffentlicht.

Dolly 2.0 sei ein 12-Milliarden-Parameter-Sprachmodell, das auf der EleutherAI-Pythia-Modellfamilie basiere und das erste quelloffene LLM, das mit einem von Menschen generierten Anweisungsdatensatz trainiert worden sei, teilt Databricks mit.. Es sei auf einem qualitativ hochwertigen, von Menschen generierten Datensatz für die Verfolgung von Anweisungen abgestimmt worden. Den Datensatz hätten Databricks-Mitarbeiter per Crowdsourcing erstellt. Zum Vergleich: ChatGPT kann auf rund 175 Milliarden Parameter zurückgreifen, um Texte zu interpretieren und zu generieren.

Man stelle Dolly 2.0 in seiner Gesamtheit als freie Software unter der Creative Commons Attribution-ShareAlike 3.0 Unported License zur Verfügung, einschließlich des Trainingscodes und des Datensatzes und der Modellgewichtung. Alle Komponenten seien für die kommerzielle Nutzung geeignet, berichtet Databricks weiter. Das bedeutet, dass jede Organisation damit LLMs erstellen, besitzen und anpassen könne, die mit Menschen sprechen können, ohne für den API-Zugang zu bezahlen oder Daten mit Dritten zu teilen.

Der Datensatz databricks-dolly-15k enthalte 15.000 qualitativ hochwertige, von Menschen erstellte Prompt/Response-Paare, die speziell für die Abstimmung großer Sprachmodelle entwickelt worden seien. Gemäß den Lizenzbedingungen für databricks-dolly-15k könne jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, verwenden, verändern oder erweitern, heißt es weiter.

Databricks-Dolly-15k sei von mehr als 5000 Databricks-Mitarbeitern im März und April 2023 aufgebaut. Die Trainingsdatensätze seien deshalb natürlich und ausdrucksstark und so konzipiert, dass sie ein breites Spektrum an Verhaltensweisen abbilden, von Brainstorming und Inhaltsgenerierung bis hin zu Informationsextraktion und Zusammenfassung, berichten die Entwickler von Databricks.

Auf der Databricks Hugging Face Seite lasse sich das auf dem Datensatz aufbauende Sprachmodell Dolly-v2-12b herunterladen. Der Datensatz Databricks-Dolly-15k liege im Dolly-Repo bei Databricks Labs. Außerdem biete man ein Webinar als Einführung von LLMs für Unternehmen an.

Der Beitrag Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0 erschien zuerst auf Linux-Magazin.

Normale Ansicht