大佬请问一下数据集中的 duration字段是什么含义？ #91

Alone749-i · 2024-09-29T04:01:57Z

        {
            "audio": {
                "path": item["audio_file"],
            }
            "sentence": item["label"][0].replace(" ", "")
                    "language": "Chinese",
            "duration": 7.37
        }
        duration字段需要根据什么信息获取？

The text was updated successfully, but these errors were encountered:

hanasay · 2024-10-04T03:57:43Z

不確定你的問題是 如何獲取duration 還是 為何要有duration
兩個問題我都一起回答好了儘管這對各位大佬來說可能是廢話XD

1. 如何獲取duration

有很多工具可以表列出音頻的長度(例如 librosa, ffmpeg)
這邊我提供一個用python librosa module提取duration的範例

import librosa

librosa.get_duration(path='dataset/audio0.wav')

2. 為何要有duration

需要有duration欄位是為了移除過長、過短的音頻，這些音頻可能會導致訓練效果變差
可以參考源代碼的這個部分
https://github.com/yeyupiaoling/Whisper-Finetune/blob/dd3653a3103fb53323ff95a6ebe875bed3c7a47d/utils/reader.py#L89C23-L89C25

Alone749-i · 2024-10-10T14:57:05Z

感谢大佬很耐心的解答感谢🙏

buyaOyiweiniyingle · 2024-11-01T06:08:16Z

请问大佬 duration在这里只是为了移除过长/过短的音频的话那么如果我有一个很大的语音/文本对应的数据集但是统计每一条语音的长度花费时间太长是不是可以直接给每个duration字段赋一个安全的值(例如readme里面那个样例的7.37)而不需要让每一个duration都真的对应这条音频的时长?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

大佬请问一下数据集中的 duration字段是什么含义？ #91

大佬请问一下数据集中的 duration字段是什么含义？ #91

Alone749-i commented Sep 29, 2024

hanasay commented Oct 4, 2024

Alone749-i commented Oct 10, 2024

buyaOyiweiniyingle commented Nov 1, 2024

大佬请问一下数据集中的 duration字段是什么含义？ #91

大佬请问一下数据集中的 duration字段是什么含义？ #91

Comments

Alone749-i commented Sep 29, 2024

hanasay commented Oct 4, 2024

1. 如何獲取duration

2. 為何要有duration

Alone749-i commented Oct 10, 2024

buyaOyiweiniyingle commented Nov 1, 2024