Whisper Audio Transcripter

Aktualisiertes README.md

Whisper Audio Transcripter

Beschreibung

Ein Python-basiertes Tool zur Transkription von Audiodateien und automatischen Erstellung von Meetingprotokollen. Es verwendet das OpenAI Whisper-Modell zur Transkription und sowohl die OpenAI ChatGPT API als auch die Hugging Face Inference API zur Erstellung von Zusammenfassungen. Das Projekt basiert auf Flask als Backend und bietet eine Weboberfläche zum Hochladen von Audiodateien, Anzeigen der Transkripte und Generieren von Meetingprotokollen.

Features

Audiodateien hochladen: Unterstützt MP3, WAV und M4A Formate.
Transkription mit Whisper: Nutzt das OpenAI Whisper-Modell zur präzisen Spracherkennung.
Automatische Meetingprotokolle: Generiert strukturierte Protokolle mit der OpenAI ChatGPT API oder der Hugging Face Inference API.
Modellauswahl: Wählen Sie zwischen verschiedenen Modellen für die Zusammenfassung.
Unterstützung der deutschen Sprache: Optimiert für die Verarbeitung deutscher Texte.
Download-Funktion: Laden Sie Transkripte und Protokolle als Markdown-Dateien herunter.
Benutzerfreundliches Frontend: Intuitive Weboberfläche mit Fortschrittsanzeigen.

Technologie-Stack

Backend: Flask
Spracherkennung: OpenAI Whisper
Zusammenfassung: OpenAI ChatGPT API & Hugging Face Inference API
Frontend: HTML, Bootstrap, jQuery

Anforderungen

Python: Version 3.7 oder höher
Abhängigkeiten: Siehe requirements.txt
FFmpeg: Für die Audioverarbeitung mit Whisper erforderlich
API-Schlüssel:
- OpenAI API-Schlüssel: Für die Nutzung der OpenAI ChatGPT API
- Hugging Face API-Schlüssel: Für die Nutzung der Hugging Face Inference API

Installation

1. Repository klonen

git clone https://github.com/YOUR_GITHUB_USERNAME/whisper-audio-transcripter.git
cd whisper-audio-transcripter

2. Virtuelle Umgebung erstellen (optional, aber empfohlen)

python3 -m venv venv
source venv/bin/activate  # Für Windows: venv\Scripts\activate

3. Abhängigkeiten installieren

pip install -r requirements.txt

4. FFmpeg installieren

Linux (Debian/Ubuntu):
```
sudo apt-get install ffmpeg
```
macOS (mit Homebrew):
```
brew install ffmpeg
```
Windows:
- Laden Sie FFmpeg von der offiziellen Website herunter.
- Folgen Sie einer Anleitung, um FFmpeg zu installieren und dem PATH hinzuzufügen.

5. API-Schlüssel einrichten

a. OpenAI API-Schlüssel

Registrierung: Erstellen Sie ein Konto bei OpenAI.
API-Schlüssel erstellen: Gehen Sie zu API-Schlüssel und erstellen Sie einen neuen Schlüssel.
Kostenhinweis: Die Nutzung der OpenAI API kann kostenpflichtig sein. Überprüfen Sie Ihre Abrechnungsinformationen und stellen Sie sicher, dass Sie über ausreichendes Guthaben verfügen.

b. Hugging Face API-Schlüssel

Registrierung: Erstellen Sie ein Konto bei Hugging Face.
Access Token erstellen: Gehen Sie zu Einstellungen > Access Tokens und erstellen Sie ein neues Token mit Lesezugriff.
Kostenhinweis: Einige Modelle oder Dienste auf Hugging Face können kostenpflichtig sein oder erfordern spezielle Berechtigungen.

c. Umgebungsvariablen einrichten

Erstellen Sie eine .env-Datei im Hauptverzeichnis und fügen Sie Ihre API-Schlüssel hinzu:

OPENAI_API_KEY=your_openai_api_key_here
HUGGINGFACE_API_KEY=your_huggingface_api_key_here

Hinweis: Stellen Sie sicher, dass die .env-Datei nicht in Ihr Versionskontrollsystem aufgenommen wird, um Ihre Schlüssel zu schützen.

6. Anwendung starten

python3 whisper-audio-transcripter.py

Die Anwendung läuft nun auf http://127.0.0.1:5000.

Verwendung

1. Weboberfläche öffnen

Öffnen Sie einen Webbrowser und navigieren Sie zu http://127.0.0.1:5000.

2. Audiodatei hochladen

Klicken Sie auf "Datei auswählen" und wählen Sie eine Audiodatei (MP3, WAV, M4A) aus.
Klicken Sie auf "Datei hochladen", um die Audiodatei zum Server zu übertragen.

3. Audiodatei transkribieren

In der Liste der hochgeladenen Dateien sehen Sie Ihre Audiodatei.
Klicken Sie auf "Transkribieren", um die Audiodatei in Text umzuwandeln.
Der Fortschritt wird im Frontend angezeigt.

4. Transkript anzeigen oder herunterladen

Nach Abschluss der Transkription können Sie das Transkript anzeigen oder als Textdatei herunterladen.

5. Modell für die Zusammenfassung auswählen

Wählen Sie ein Modell aus der Liste der verfügbaren Modelle. Diese sind nach API (OpenAI oder Hugging Face) gekennzeichnet.
Achten Sie darauf, ein Modell zu wählen, das die deutsche Sprache unterstützt.

6. Meetingprotokoll erstellen

Klicken Sie auf "Protokoll erstellen", um basierend auf dem Transkript ein Meetingprotokoll zu generieren.
Das Meetingprotokoll wird im Frontend angezeigt und kann ebenfalls heruntergeladen werden.

Anpassung des Prompt-Templates

Das Prompt-Template, das zur Generierung der Meetingprotokolle verwendet wird, befindet sich in der Datei models.py unter PROMPT_TEMPLATE. Sie können dieses Template nach Ihren Bedürfnissen anpassen, um die Ausgabe des Modells zu beeinflussen.

Beispiel:

PROMPT_TEMPLATE = """
Generiere ein professionelles und strukturiertes Meetingprotokoll basierend auf dem folgenden Transkript:

{transcript}

Das Protokoll sollte folgende Abschnitte enthalten:
- Datum
- Teilnehmer
- Zusammenfassung
- Agenda-Punkte
- Entscheidungen
- Aktionspunkte
- Nächste Schritte
"""

Hinweise zur Nutzung der APIs

API-Schlüssel Sicherheit
- Bewahren Sie Ihre API-Schlüssel sicher auf.
- Geben Sie Ihre Schlüssel nicht an Dritte weiter.
- Stellen Sie sicher, dass die .env-Datei nicht öffentlich zugänglich ist.
Kosten und Abrechnung
- Die Nutzung der OpenAI API und einiger Modelle der Hugging Face API kann kostenpflichtig sein.
- Überwachen Sie Ihre API-Nutzung, um ungewollte Kosten zu vermeiden.
- Überprüfen Sie regelmäßig Ihre Abrechnungsinformationen bei OpenAI und Hugging Face.
Nutzungsbedingungen
- Achten Sie darauf, die jeweiligen Nutzungsbedingungen von OpenAI und Hugging Face einzuhalten.
- Verarbeiten Sie keine vertraulichen oder urheberrechtlich geschützten Inhalte ohne entsprechende Berechtigung.

Anforderungen an die Modelle

Unterstützung der deutschen Sprache
- Da die Anwendung mit deutschen Texten arbeitet, sollten Sie Modelle wählen, die Deutsch unterstützen.
- Empfohlene Modelle:
  - OpenAI: gpt-3.5-turbo (unterstützt mehrere Sprachen, einschließlich Deutsch)
  - Hugging Face: ml6team/mt5-small-german-finetune-mlsum (speziell für deutsche Zusammenfassungen trainiert)

Beispielkonfiguration der Modelle (`models.py`)

MODELS = {
    "gpt-3.5-turbo": {
        "api": "openai",
        "model_id": "gpt-3.5-turbo"
    },
    "mt5-small-german": {
        "api": "huggingface",
        "model_id": "ml6team/mt5-small-german-finetune-mlsum"
    },
    # Weitere Modelle können hier hinzugefügt werden
}

Fehlerbehebung

1. Fehler bei der Protokollerstellung

Mögliche Ursachen:
- API-Schlüssel sind nicht korrekt oder fehlen.
- API-Kontingent wurde überschritten.
- Netzwerkprobleme.
Lösungen:
- Überprüfen Sie Ihre .env-Datei und stellen Sie sicher, dass die API-Schlüssel korrekt sind.
- Loggen Sie sich bei OpenAI und Hugging Face ein, um Ihr Kontingent und Ihre Abrechnungsinformationen zu überprüfen.
- Prüfen Sie Ihre Internetverbindung.

2. Unvollständige oder fehlerhafte Ausgaben

Mögliche Ursachen:
- Das gewählte Modell unterstützt die deutsche Sprache nicht ausreichend.
- Der Prompt ist zu komplex oder unklar.
Lösungen:
- Wählen Sie ein anderes Modell, das besser für die deutsche Sprache geeignet ist.
- Passen Sie das PROMPT_TEMPLATE an und vereinfachen Sie es gegebenenfalls.

3. Allgemeine Tipps

Konsolenausgaben überprüfen: Sowohl im Backend (Terminal) als auch im Frontend (Browser-Konsole) können hilfreiche Fehlermeldungen erscheinen.
Server neu starten: Nach Änderungen am Code oder den Umgebungsvariablen den Server neu starten.
Browser-Cache leeren: Bei Änderungen im Frontend kann es hilfreich sein, den Cache zu leeren oder im Inkognito-Modus zu testen.

Lizenz

Dieses Projekt steht unter der MIT Lizenz.

Beitragende

Beiträge sind willkommen! Bitte öffnen Sie ein Issue oder einen Pull Request, um zur Verbesserung dieses Projekts beizutragen.

Hinweis: Stellen Sie sicher, dass Sie die aktuellsten Versionen der verwendeten Bibliotheken und Modelle verwenden. Lesen Sie die Dokumentation der APIs sorgfältig, um optimale Ergebnisse zu erzielen.

Wichtig: Denken Sie daran, dass die Nutzung von KI-Modellen und APIs ethische Überlegungen mit sich bringt. Seien Sie verantwortlich bei der Verarbeitung von Daten und achten Sie auf Datenschutz und Urheberrechte.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
templates		templates
.gitignore		.gitignore
README.md		README.md
models.py		models.py
whisper-audio-transcripter.py		whisper-audio-transcripter.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Whisper Audio Transcripter

Beschreibung

Features

Technologie-Stack

Anforderungen

Installation

1. Repository klonen

2. Virtuelle Umgebung erstellen (optional, aber empfohlen)

3. Abhängigkeiten installieren

4. FFmpeg installieren

5. API-Schlüssel einrichten

a. OpenAI API-Schlüssel

b. Hugging Face API-Schlüssel

c. Umgebungsvariablen einrichten

6. Anwendung starten

Verwendung

1. Weboberfläche öffnen

2. Audiodatei hochladen

3. Audiodatei transkribieren

4. Transkript anzeigen oder herunterladen

5. Modell für die Zusammenfassung auswählen

6. Meetingprotokoll erstellen

Anpassung des Prompt-Templates

Hinweise zur Nutzung der APIs

Anforderungen an die Modelle

Beispielkonfiguration der Modelle (`models.py`)

Fehlerbehebung

1. Fehler bei der Protokollerstellung

2. Unvollständige oder fehlerhafte Ausgaben

3. Allgemeine Tipps

Lizenz

Beitragende

About

Releases

Packages

Languages

ogerly/whisper_audio_transcripter

Folders and files

Latest commit

History

Repository files navigation

Whisper Audio Transcripter

Beschreibung

Features

Technologie-Stack

Anforderungen

Installation

1. Repository klonen

2. Virtuelle Umgebung erstellen (optional, aber empfohlen)

3. Abhängigkeiten installieren

4. FFmpeg installieren

5. API-Schlüssel einrichten

a. OpenAI API-Schlüssel

b. Hugging Face API-Schlüssel

c. Umgebungsvariablen einrichten

6. Anwendung starten

Verwendung

1. Weboberfläche öffnen

2. Audiodatei hochladen

3. Audiodatei transkribieren

4. Transkript anzeigen oder herunterladen

5. Modell für die Zusammenfassung auswählen

6. Meetingprotokoll erstellen

Anpassung des Prompt-Templates

Hinweise zur Nutzung der APIs

Anforderungen an die Modelle

Beispielkonfiguration der Modelle (models.py)

Fehlerbehebung

1. Fehler bei der Protokollerstellung

2. Unvollständige oder fehlerhafte Ausgaben

3. Allgemeine Tipps

Lizenz

Beitragende

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Beispielkonfiguration der Modelle (`models.py`)

Packages