Kevin Klein (mw speech + claude summary)
01. Apr. 2026
00:0000:00
Zusammenfassung
Teilnehmer: Kevin, Frank, weitere Personen (teilweise am Telefon)
Entwickelte App:
Einsatzszenarien:
Technische Details:
Entwickelte Funktionen:
Überlegungen:
Herausforderungen:
Neue Voice-to-Text App mit KI-Zusammenfassung
Entwickelte App:
- Kevin hat eine App entwickelt, die Sprachnachrichten transkribiert und automatisch zusammenfasst
- Ausgelöst durch 8-Minuten-Feedback von Sabrina → wollte nicht alles manuell durchhören
- Verarbeitung: 6-Minuten-Nachricht in ~1,5 Minuten, 8-Minuten-Nachricht (~2000 Wörter) in ~3 Minuten
- Verwendet Whisper für Transkription + Claude für Zusammenfassung
Einsatzszenarien:
- Projekt-Feedback und CMS-Rückmeldungen strukturiert aufbereiten
- Meeting-Protokolle automatisch erstellen (auch für Kundengespräche)
- Content-Erstellung: Sabrina interessiert an Mindmap-zu-Artikel-Feature
- Projekt-Erstbesprechungen dokumentieren
Technische Details:
- Aktuell: SQLite (Deployment-Probleme Windows/Linux)
- Problem: Speaker-Diarization fehlt → kann nicht unterscheiden wer spricht
- Lösungsansatz: Whisper-X (Whisper + Pyannote) für Speaker-Labels
- Erwägt GPU-Server für bessere Performance bei längeren Inputs
Terminverwaltungs-App (Quartalsprojekt)
Entwickelte Funktionen:
- Magic Link Authentication für Einrichtungen
- Einrichtungen können Termine eintragen und zur Freigabe senden
- Zentrale Verwaltung kann Termine durchgehen und freigeben
- Direkte Übernahme auf Website nach Freigabe
- Entwicklungszeit: ca. 3 Wochen intensiv
Potenzielle Vermarktung
Überlegungen:
- Voice-to-Text-Tool als zusätzliches Angebot für Alltäcks
- Suchmaschinen-Integration nach Biotop-Projekt weiter verfolgen
- Notebook LM für erweiterte Projekt-Features (Mindmaps, Präsentationen, Research)
Herausforderungen:
- Budget-Limitierung bei bestehenden Kunden
- GPU-Server-Kosten (ab 254€/Monat bei Hetzner für Nvidia RTX 4000)
- Technische Komplexität bei Multi-Speaker-Erkennung
Nächste Schritte
- Test der App in echtem 3-Personen-Meeting
- Evaluation von Whisper-X für Speaker-Erkennung
- Prüfung GPU-Hosting-Optionen bei Midwald
- Weitere Tests mit Video-Transkription
11100 TOKENS$0.0420