RHORPOST

Kevin Klein (mw speech + claude summary)

01. Apr. 2026

VERARBEITET
00:0000:00

Zusammenfassung

Teilnehmer: Kevin, Frank, weitere Personen (teilweise am Telefon)

Neue Voice-to-Text App mit KI-Zusammenfassung



Entwickelte App:
  • Kevin hat eine App entwickelt, die Sprachnachrichten transkribiert und automatisch zusammenfasst
  • Ausgelöst durch 8-Minuten-Feedback von Sabrina → wollte nicht alles manuell durchhören
  • Verarbeitung: 6-Minuten-Nachricht in ~1,5 Minuten, 8-Minuten-Nachricht (~2000 Wörter) in ~3 Minuten
  • Verwendet Whisper für Transkription + Claude für Zusammenfassung

Einsatzszenarien:
  • Projekt-Feedback und CMS-Rückmeldungen strukturiert aufbereiten
  • Meeting-Protokolle automatisch erstellen (auch für Kundengespräche)
  • Content-Erstellung: Sabrina interessiert an Mindmap-zu-Artikel-Feature
  • Projekt-Erstbesprechungen dokumentieren

Technische Details:
  • Aktuell: SQLite (Deployment-Probleme Windows/Linux)
  • Problem: Speaker-Diarization fehlt → kann nicht unterscheiden wer spricht
  • Lösungsansatz: Whisper-X (Whisper + Pyannote) für Speaker-Labels
  • Erwägt GPU-Server für bessere Performance bei längeren Inputs

Terminverwaltungs-App (Quartalsprojekt)



Entwickelte Funktionen:
  • Magic Link Authentication für Einrichtungen
  • Einrichtungen können Termine eintragen und zur Freigabe senden
  • Zentrale Verwaltung kann Termine durchgehen und freigeben
  • Direkte Übernahme auf Website nach Freigabe
  • Entwicklungszeit: ca. 3 Wochen intensiv

Potenzielle Vermarktung



Überlegungen:
  • Voice-to-Text-Tool als zusätzliches Angebot für Alltäcks
  • Suchmaschinen-Integration nach Biotop-Projekt weiter verfolgen
  • Notebook LM für erweiterte Projekt-Features (Mindmaps, Präsentationen, Research)

Herausforderungen:
  • Budget-Limitierung bei bestehenden Kunden
  • GPU-Server-Kosten (ab 254€/Monat bei Hetzner für Nvidia RTX 4000)
  • Technische Komplexität bei Multi-Speaker-Erkennung

Nächste Schritte


  • Test der App in echtem 3-Personen-Meeting
  • Evaluation von Whisper-X für Speaker-Erkennung
  • Prüfung GPU-Hosting-Optionen bei Midwald
  • Weitere Tests mit Video-Transkription
11100 TOKENS$0.0420
Modelle vergleichen