Common Voice: Neuer Datensatz für Spracherkennung

Von: Ulrich Bantle

17. Juli 2023 um 07:43

Mozilla bietet mit Common Voice Corpus einen großen Datensatz mit menschlichen Stimmen an, mit dem sich Spracherkennungssoftware trainieren lässt. Mit Version 14 ist der freie Common Voice Corpus nochmal gewachsen.

Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.

Der deutsche Datensatz ist mit Version 14 auf über 32 GByte angewachsen. Er umfasst 1376 Stunden Sprachdateien mit 18.187 verschiedenen Stimmen. Mozilla bietet inzwischen über das Common Voice Projekt auch sogenannte Delta-Segmente zum Download an. Diese enthalten dann nur die neu hinzugekommenen Daten im Vergleich zur Vorversion. Mozilla erläutert das Prozedere der Delta-Versionen hier ausführlich.

Der Beitrag Common Voice: Neuer Datensatz für Spracherkennung erschien zuerst auf Linux-Magazin.

Linux-Magazin
Mozilla veröffentlicht Common Voice Corpus 13.0
28. März 2023 um 08:58

Mozilla veröffentlicht Common Voice Corpus 13.0

Linux-Magazin

Von: Ulrich Bantle

28. März 2023 um 08:58

Mozilla hat seinen Datensatz von Sprachmustern für das Training von Sprachtechnologien aktualisiert. Mit Common Voice Corpus 13.0 stehen noch einmal mehr Beispiele von Sprachdateien für Entwickler von Spracherkennungsanwendungen zur Verfügung.

Der zum Download angebotene deutsche Sprachdatensatz umfasst Sprachdateien im Umfang von 1340 Stunden. Er ist 31,5 GByte groß und liefert 17.867 Stimmen. Jeder Eintrag im Datensatz besteht aus einer eindeutigen MP3- und zugehörigen Textdatei. Viele der aufgezeichneten Stunden im Datensatz enthielten auch demografische Metadaten wie Alter, Geschlecht und Akzent, mit deren Hilfe die Genauigkeit von Spracherkennungs-Engines trainiert werden könne, teilt Mozilla mit.

Der komplette Datensatz bestehe derzeit aus 17.690 bestätigten Stunden in 108 Sprachen. Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.v

Der Beitrag Mozilla veröffentlicht Common Voice Corpus 13.0 erschien zuerst auf Linux-Magazin.

Linux-Magazin
Mozilla veröffentlicht neuen Datensatz für Common Voice
01. August 2022 um 09:54

Mozilla veröffentlicht neuen Datensatz für Common Voice

Linux-Magazin

Von: Ulrich Bantle

01. August 2022 um 09:54

Mozilla hat mit Common Voice ein Projekt gestartet, das frei zugängliche und verwendbare Sprachdaten umfasst. Jetzt hat Mozilla mit Common Voice Corpus 10 einen weiteren Datensatz veröffentlicht.

Der neue Datensatz deckt insgesamt 96 Sprachen ab. Drei Sprachen sind neu hinzugekommen. Für 30 dieser Sprachen gibt es jeweils über 100 Stunden Trainingsmaterial. Der deutschsprachige Satz kommt mit Sprachdaten von über 1200 Stunden und rund 2005400 Datensätzen von rund 17.100 Sprechern. Der Download des deutschen Satzes beträgt rund 29 GByte.

Insgesamt beinhaltet der Common Voice Corpus 10 rund 20.800 Stunden aufgenommene Sprachdaten. Bei der Download-Seite lässt sich die gewünschte Sprache wählen.

Für Entwickler, die mit Spracherkennung und ähnlichen Technologien experimentieren, ist dieser Datensatz ein unschätzbarer Vorteil, wenn es darum geht ihre Anwendungen in den Bereichen KI und Machine Learning zu trainieren. Für einzelne Entwickler oder kleine Studios ist es ansonsten schwer, an geeignete Trainingsdaten zu kommen.

Der Beitrag Mozilla veröffentlicht neuen Datensatz für Common Voice erschien zuerst auf Linux-Magazin.

Normale Ansicht