Normale Ansicht

Mozilla veröffentlicht Common Voice Corpus 21.0

24. März 2025 um 21:32

Mit Common Voice stellt Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereit – kostenlos und für jeden nutzbar. Mozilla hat Version 21.0 seines Datensatzes veröffentlicht.

Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Jahr 2017 das Projekt Common Voice gestartet. Mit Common Voice bietet Mozilla eine kostenlose Alternative an, zu der jeder beitragen kann und die jedem zur Verfügung steht. Damit möchte Mozilla Innovation und Wettbewerb in der Sprachtechnologie auf Basis von Maschinenlernen fördern.

Mit dem nun veröffentlichten Common Voice Corpus 21.0 wächst der deutschsprachige Datensatz von 1.443 auf 1.452 Stunden an. Wer bereits den Common Voice Corpus 20.0 besitzt, kann wie immer auch nur ein sogenanntes Delta Segment mit den Unterschieden zur Vorversion herunterladen. Für Deutsch würde das den Download von 33,93 GB auf 139,2 MB reduzieren.

Insgesamt deckt Mozilla Common Voice mit der neuen Version 134 Sprachen mit insgesamt 33.535 aufgenommenen Stunden ab, was Mozilla Common Voice zum vielfältigsten mehrsprachigen Sprachkorpus der Welt macht.

Zum Download der Mozilla Common Voice Datensätze

Der Beitrag Mozilla veröffentlicht Common Voice Corpus 21.0 erschien zuerst auf soeren-hentzschel.at.

Ansible Lightspeed wird mit euren Galaxy-Inhalten trainiert

24. März 2025 um 06:00

Ich bin heute darüber gestolpert, dass die Künstigliche Intelligenz (KI) Ansible Lightspeed u.a. mit meinen Ansible Collections und Roles auf Ansible Galaxy trainiert wird. In diesem kurzen Beitrag möchte ich darüber informieren und den Weg zum Opt-out aufzeigen.

Wie viele andere Entwickler und Autoren von Ansible-Inhalten veröffentliche auch ich meine Ansible Collections und Roles auf Ansible Galaxy. Da ich nicht zu den besonders aktiven Nutzern gehöre, schaue ich dort eher gelegentlich vorbei, weswegen ich vermutlich einfach nicht mitbekommen habe, dass Ansible Lightspeed die Inhalte auf Ansible Galaxy als Trainingsmaterial benutzt.

Aufgefallen ist mir dies erst, als ich auf das Menü in der Ansicht unter Roles –> Role Namespaces geklickt und den Punkt Ansible Lightspeed settings gesehen habe.

Das Bildschirmfoto zeigt das Menü unterhalb von Roles/Role Namespaces, in dem sich auch die Einstellungen für Ansible LIghtspeed finden.
Abbildung 1: Ansible Lightspeed settings im Menü

Obige Abbildung zeigt, wo die Einstellungen zu finden sind. Die folgende Abbildung zeigt den Opt-Out-Dialog:

Die Abbildung zeigt den Dialog "Opt out of Ansible Lightspeed", wo man der Verwendung der eigenen Inhalte für Trainingszwecke widersprechen kann.
Abbildung 2: Opt out of Ansible Lightspeed Dialog

Schade, dass es sich um ein Opt-out handelt. Ein Opt-in würde mir besser gefallen. So werden meine inhalte vermutlich längst für das Training von Ansible Lightspeed verwendet, ohne dass ich mir dessen bewusst war.

Ich habe kurz überlegt und mich dann gegen ein Opt-out entschieden. Ich schreibe Ansible Collections und Roles aus der Motivation heraus, dass diese mir und anderen die IT-Administration erleichtern. Ob meine Inhalte anderen Menschen nun direkt oder indirekt über eine KI nutzen, macht für mich keinen entscheidenen Unterschied. Ich freue mich, wenn sie nützlich sind (selbst wenn sie als abschreckendes Beispiel dienen).

Und machen wir uns nichts vor, viele andere KI-Raubritter da draußen interessiert weder ein Opt-in noch ein Opt-out. Diese scannen und trainieren mit allen öffentlich zugänglichen Daten, derer sie habhaft werden können. Schöne neue Welt.

❌