Mozilla veröffentlicht neuen Datensatz für Common Voice
Mozilla hat mit Common Voice ein Projekt gestartet, das frei zugängliche und verwendbare Sprachdaten umfasst. Jetzt hat Mozilla mit Common Voice Corpus 10 einen weiteren Datensatz veröffentlicht.
Der neue Datensatz deckt insgesamt 96 Sprachen ab. Drei Sprachen sind neu hinzugekommen. Für 30 dieser Sprachen gibt es jeweils über 100 Stunden Trainingsmaterial. Der deutschsprachige Satz kommt mit Sprachdaten von über 1200 Stunden und rund 2005400 Datensätzen von rund 17.100 Sprechern. Der Download des deutschen Satzes beträgt rund 29 GByte.
Insgesamt beinhaltet der Common Voice Corpus 10 rund 20.800 Stunden aufgenommene Sprachdaten. Bei der Download-Seite lässt sich die gewünschte Sprache wählen.
Für Entwickler, die mit Spracherkennung und ähnlichen Technologien experimentieren, ist dieser Datensatz ein unschätzbarer Vorteil, wenn es darum geht ihre Anwendungen in den Bereichen KI und Machine Learning zu trainieren. Für einzelne Entwickler oder kleine Studios ist es ansonsten schwer, an geeignete Trainingsdaten zu kommen.
Der Beitrag Mozilla veröffentlicht neuen Datensatz für Common Voice erschien zuerst auf Linux-Magazin.