Snackゐsperは「すなっくうぃすぱぁ」と読みます。
SnackWhisperはWhisper APIを利用した音声書き起こしを実行します。
main.py
を実行して、音声ファイルをテキストに変換するウィンドウを呼び出してください。
$ python main.py
pyinstallerを使ってexe化したWindows用バイナリも用意しています。
β版につき、自己責任でご利用ください。
Windowsコマンドライン(cmd.exe)またはMacOSのシェルから実行可能です。
SnackWhisperはFFmpegを利用します。お使いの環境にインストールしたうえで実行してください。
- FFmpeg
$ python main.py
main.py
を実行するとウィンドウが表示されます。
OpenAIのAPI Tokenを入力してください。Whisper APIによる文字起こしに利用します。
また、ここに入力したトークン文字列は終了時にconfig.ini
ファイルに保存されます。
文字起こしをしたい動画ファイル/音声ファイルを指定します。 動画ファイルを指定した場合は、FFmpegにより音声部分を切り離したうえで文字起こしを行います。 また、一つの音声ファイルが25MBを超えた場合も自動的に分割して文字起こしを行います。
Whisper APIに投げる前に音声ファイルの静音部分の除去を行います。 これにより、API利用料金の省コスト化が見込めます。
出力する書き起こしにタイムスタンプを付与します。 静音除去と併用すると時間がずれることをご了承ください。
ここまでの設定で書き起こしを実行します。
処理の進行状況を表示します。 エラーが出た場合はここの表示を参考にしてください。
以下はconfig.ini
から読み込んでいる設定項目の解説です。
OpenAIのAPI Tokenを指定します。Whisper APIによる文字起こしに利用します。
実行時にウィンドウを表示するX座標を指定します。デフォルトは"100"です。
実行時にウィンドウを表示するY座標を指定します。デフォルトは"100"です。
ウィンドウの幅を指定します。デフォルトは"600"です。
ウィンドウの高さを指定します。デフォルトは"220"です。
タイムスタンプフラグを指定します。"True"に設定すると、出力する書き起こしにタイムスタンプを付与します。デフォルトは"False"です。
静音除去を実行するかどうかのフラグを指定します。"True"に設定すると、Whisper APIに投げる前に音声ファイルの静音部分の除去を行います。デフォルトは"True"です。
静音除去後のファイルを保持するかどうかのフラグを指定します。"True"に設定すると、静音除去後の音声ファイルを保持します。デフォルトは"False"です。
出力するテキストファイルのエンコーディングを指定します。