Skip to content

monosus/snackwhisper

Repository files navigation

使い方

読み方

Snackゐsperは「すなっくうぃすぱぁ」と読みます。

概要

SnackWhisperはWhisper APIを利用した音声書き起こしを実行します。 main.pyを実行して、音声ファイルをテキストに変換するウィンドウを呼び出してください。

$ python main.py

ダウンロード

pyinstallerを使ってexe化したWindows用バイナリも用意しています。

β版につき、自己責任でご利用ください。

実行環境

Windowsコマンドライン(cmd.exe)またはMacOSのシェルから実行可能です。

依存関係

SnackWhisperはFFmpegを利用します。お使いの環境にインストールしたうえで実行してください。

実行方法

$ python main.py

main.pyを実行するとウィンドウが表示されます。

メイン画面

機能説明

① OpenAI API Token

OpenAIのAPI Tokenを入力してください。Whisper APIによる文字起こしに利用します。 また、ここに入力したトークン文字列は終了時にconfig.iniファイルに保存されます。

② ファイル選択ボタンおよびパス表示エリア

文字起こしをしたい動画ファイル/音声ファイルを指定します。 動画ファイルを指定した場合は、FFmpegにより音声部分を切り離したうえで文字起こしを行います。 また、一つの音声ファイルが25MBを超えた場合も自動的に分割して文字起こしを行います。

③ 静音除去オプション

Whisper APIに投げる前に音声ファイルの静音部分の除去を行います。 これにより、API利用料金の省コスト化が見込めます。

④ タイムスタンプ付与オプション

出力する書き起こしにタイムスタンプを付与します。 静音除去と併用すると時間がずれることをご了承ください。

⑤ 実行ボタン

ここまでの設定で書き起こしを実行します。

⑥ ステータス表示エリア

処理の進行状況を表示します。 エラーが出た場合はここの表示を参考にしてください。

config.iniの設定項目

以下はconfig.iniから読み込んでいる設定項目の解説です。

api_token

OpenAIのAPI Tokenを指定します。Whisper APIによる文字起こしに利用します。

x

実行時にウィンドウを表示するX座標を指定します。デフォルトは"100"です。

y

実行時にウィンドウを表示するY座標を指定します。デフォルトは"100"です。

width

ウィンドウの幅を指定します。デフォルトは"600"です。

height

ウィンドウの高さを指定します。デフォルトは"220"です。

timestamp_flag

タイムスタンプフラグを指定します。"True"に設定すると、出力する書き起こしにタイムスタンプを付与します。デフォルトは"False"です。

flag_silence_removal

静音除去を実行するかどうかのフラグを指定します。"True"に設定すると、Whisper APIに投げる前に音声ファイルの静音部分の除去を行います。デフォルトは"True"です。

keep_silence_removed

静音除去後のファイルを保持するかどうかのフラグを指定します。"True"に設定すると、静音除去後の音声ファイルを保持します。デフォルトは"False"です。

result_encoding

出力するテキストファイルのエンコーディングを指定します。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published