Untamed
16.10.09, 11:08
Hallo,
habe folgendes Problem: ich habe einen Ordner mit 10.000en wav Dateien und dazugehörigen txt Dateien. Die txt Dateien mit bis auf die Endung identen Dateinamen beinhalten den in der wav Datei gesprochenen Text. (nötig zum Bau eines Spracherkenners)
Jetzt suche ich nach Konsolenbefehlen/Skripten um diesen Datensatz effizient verwalten zu können - z.B. alle Paare von txt/wav Dateien, welche ein bestimmtes Wort enthalten in einen Unterordner verschieben.
Damit würden sich dann mehrere Sub-Datensätze ergeben.
Diese würde ich dann wieder gerne aufsplitten, dieses Mal aber random (80% der Daten in einen Unterordner train, 5% in dev und 15% in test)
Zusammengefasst:
aktuelle Ordnerstruktur: 1 Ordner - 10.000 wav mit 10.000 dazugehörigen txt Files
gewünschtes Ergebnis: ~20 Ordner (nach verschiedenen Kriterien) mit jeweils 3 Unterordnern (train, dev, test).
Eine möglichst effiziente Methode wäre gewünscht - schön wäre es auch die Kriterien für die Trennung dynamisch ändern zu können (evt. in den neuen Ordnern nur symbolische Links)
Könnte mir jemand ein bisserl weiterhelfen?
Mit bestem Dank in Voraus
habe folgendes Problem: ich habe einen Ordner mit 10.000en wav Dateien und dazugehörigen txt Dateien. Die txt Dateien mit bis auf die Endung identen Dateinamen beinhalten den in der wav Datei gesprochenen Text. (nötig zum Bau eines Spracherkenners)
Jetzt suche ich nach Konsolenbefehlen/Skripten um diesen Datensatz effizient verwalten zu können - z.B. alle Paare von txt/wav Dateien, welche ein bestimmtes Wort enthalten in einen Unterordner verschieben.
Damit würden sich dann mehrere Sub-Datensätze ergeben.
Diese würde ich dann wieder gerne aufsplitten, dieses Mal aber random (80% der Daten in einen Unterordner train, 5% in dev und 15% in test)
Zusammengefasst:
aktuelle Ordnerstruktur: 1 Ordner - 10.000 wav mit 10.000 dazugehörigen txt Files
gewünschtes Ergebnis: ~20 Ordner (nach verschiedenen Kriterien) mit jeweils 3 Unterordnern (train, dev, test).
Eine möglichst effiziente Methode wäre gewünscht - schön wäre es auch die Kriterien für die Trennung dynamisch ändern zu können (evt. in den neuen Ordnern nur symbolische Links)
Könnte mir jemand ein bisserl weiterhelfen?
Mit bestem Dank in Voraus