Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeHaupt-Feeds

Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0

17. April 2023 um 14:11

Databricks, Spezialist für Data-Engineering auf Basis von Apache Spark, hat mit Dolly 2.0 eine ChatGPT-ähnliches Large Language Model (LLM) unter Open-Source-Lizenz veröffentlicht.

Dolly 2.0 sei ein 12-Milliarden-Parameter-Sprachmodell, das auf der EleutherAI-Pythia-Modellfamilie basiere und das erste quelloffene LLM, das mit einem von Menschen generierten Anweisungsdatensatz trainiert worden sei, teilt Databricks mit.. Es sei auf einem qualitativ hochwertigen, von Menschen generierten Datensatz für die Verfolgung von Anweisungen abgestimmt worden. Den Datensatz hätten Databricks-Mitarbeiter per Crowdsourcing erstellt. Zum Vergleich: ChatGPT kann auf rund 175 Milliarden Parameter zurückgreifen, um Texte zu interpretieren und zu generieren.

Man stelle Dolly 2.0 in seiner Gesamtheit als freie Software unter der Creative Commons Attribution-ShareAlike 3.0 Unported License zur Verfügung, einschließlich des Trainingscodes und des Datensatzes und der Modellgewichtung. Alle Komponenten seien für die kommerzielle Nutzung geeignet, berichtet Databricks weiter. Das bedeutet, dass jede Organisation damit LLMs erstellen, besitzen und anpassen könne, die mit Menschen sprechen können, ohne für den API-Zugang zu bezahlen oder Daten mit Dritten zu teilen.

Der Datensatz databricks-dolly-15k enthalte 15.000 qualitativ hochwertige, von Menschen erstellte Prompt/Response-Paare, die speziell für die Abstimmung großer Sprachmodelle entwickelt worden seien. Gemäß den Lizenzbedingungen für databricks-dolly-15k könne jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, verwenden, verändern oder erweitern, heißt es weiter.

Databricks-Dolly-15k sei von mehr als 5000 Databricks-Mitarbeitern im März und April 2023 aufgebaut. Die Trainingsdatensätze seien deshalb natürlich und ausdrucksstark und so konzipiert, dass sie ein breites Spektrum an Verhaltensweisen abbilden, von Brainstorming und Inhaltsgenerierung bis hin zu Informationsextraktion und Zusammenfassung, berichten die Entwickler von Databricks.

Auf der Databricks Hugging Face Seite lasse sich das auf dem Datensatz aufbauende Sprachmodell Dolly-v2-12b herunterladen. Der Datensatz Databricks-Dolly-15k liege im Dolly-Repo bei Databricks Labs. Außerdem biete man ein Webinar als Einführung von LLMs für Unternehmen an.

Der Beitrag Databricks veröffentlicht quelloffenes Sprachmodell Dolly 2.0 erschien zuerst auf Linux-Magazin.

Databricks stellt VS Code Extension vor

16. Februar 2023 um 08:48

Databricks hat eine VS Code Extension vorgestellt. Die Erweiterung für den Sourcecode-Editor ermögliche es Entwicklern, ihren Code lokal zu schreiben und dabei die Authoring-Funktionen der IDE zu nutzen.

Es sei damit möglich, sich mit Databricks-Clustern zu verbinden, den Code remote auszuführen sowie Best Practices der Softwareentwicklung wie Quellcodekontrolle, Unit-Tests und CI/CD direkt von der bevorzugten IDE aus nutzen.

Die Erweiterung werde regelmäßig aktualisiert und die genannten Funktionen werden auch von der Databricks Lakehouse-Plattform unterstützt, teilt Databricks mit.

Entwickler könnten verschiedene Teile ihres Programms in separaten Funktionen und Dateien erstellen. Diese Dateien seien lokal, so dass sich die Git-ools von VS Code und die Git Kommandozeile verwenden lassen, schreibt Databricks.. Eigene Test-Frameworks und CI/CD-Tools ließen sich ebenfalls integrieren.

Da Entwickler innerhalb von VS Code auf Databricks aufbauen können, hätten sie ihren gesamten Workflow an einem Ort. Es ließen sich Databricks-Objekte mit der neuen Erweiterung nativ in VS Code verwalten, so dass man in der gewohnten IDE bleiben könne und ein Kontextwechsel zwischen Anwendungen vermieden werde. Alle Databricks-Komponenten, wie Cluster, Pipelines und Tasks, seien in den VS Code-Arbeitsbereich und den regulären Workflow integriert, teilt Databricks in einem Blogbeitrag mit. Entwickler könnten so die Skalierung von Lakehouse nutzen, um große Datensätze zu verarbeiten und zu analysieren, Cluster für Abfragen und Visualisierungen verwenden, Modelle für maschinelles Lernen trainieren und Aufgaben für die Produktion bereitzustellen – und das alles innerhalb von VS Code.

Die VS Code-Erweiterung sei direkt über den Visual Studio Marketplace erhältlich. Databricks habe ein Team aufgebaut, das sich ausschließlich auf die Breite des Entwickler-Ökosystems konzentriert und will damit die Unterstützung für andere IDEs und zusätzliche Tools einführen, die den vollen Zugriff auf das Databrick Lakehouse von Produkten anderer Hersteller ermöglichen soll.

Der Beitrag Databricks stellt VS Code Extension vor erschien zuerst auf Linux-Magazin.

❌
❌