Mozilla veröffentlicht Common Voice Corpus 13.0
Mozilla hat seinen Datensatz von Sprachmustern für das Training von Sprachtechnologien aktualisiert. Mit Common Voice Corpus 13.0 stehen noch einmal mehr Beispiele von Sprachdateien für Entwickler von Spracherkennungsanwendungen zur Verfügung.
Der zum Download angebotene deutsche Sprachdatensatz umfasst Sprachdateien im Umfang von 1340 Stunden. Er ist 31,5 GByte groß und liefert 17.867 Stimmen. Jeder Eintrag im Datensatz besteht aus einer eindeutigen MP3- und zugehörigen Textdatei. Viele der aufgezeichneten Stunden im Datensatz enthielten auch demografische Metadaten wie Alter, Geschlecht und Akzent, mit deren Hilfe die Genauigkeit von Spracherkennungs-Engines trainiert werden könne, teilt Mozilla mit.
Der komplette Datensatz bestehe derzeit aus 17.690 bestätigten Stunden in 108 Sprachen. Mozilla Common Voice ist eine Open-Source-Initiative, um den Zugang zu Sprachtechnologie allgemein zu erleichtern. Die Teilnehmer am Projekt spenden Sprachdaten für einen freien, öffentlichen Datensatz, der von jedermann genutzt werden kann, um sprachgesteuerte Technologien zu trainieren. Das Projekt versucht damit, einzelnen Entwicklern und kleinen Unternehmen einen Datensatz zu bieten, denen ein solcher Zugang wegen fehlender finanzieller Mittel sonst verwehrt wäre.v
Der Beitrag Mozilla veröffentlicht Common Voice Corpus 13.0 erschien zuerst auf Linux-Magazin.