Die Vodia- PBX vor Ort Bereitstellung von Whisper AI
Published on:
3.4.2025
Whisper, das automatische Spracherkennungssystem von OpenAI, liefert mehrsprachige, geräuschtolerante und fachsprachen taugliche Transkription durch eine optimierte Encoder-Decoder-Architektur. Mit der Integration der Vodia-PBX können Unternehmen wählen, ob sie den Service von OpenAI nutzen oder Whisper AI lokal hosten wollen, um die volle Datenhoheit und -kontrolle zu erhalten. Diese Vor-Ort-Option stellt sicher, dass die sensiblen Gesprächsdaten in Ihrer Infrastruktur verbleiben, während Sie dennoch von den leistungsstarken Transkriptionsfunktionen profitieren.
Whisper ist das automatische Spracherkennungssystem (ASR) von OpenAI. Das System wurde mit etwa 700.000 Stunden überwachter Daten aus dem Internet trainiert, die sowohl mehrsprachig als auch multitaskingfähig sind. Dank dieses Trainings, das mit vielfältigen und umfangreichen Datensätzen durchgeführt wurde, bewältigt Whisper Akzente, Hintergrundgeräusche und technische Sprache mit beeindruckender Leichtigkeit. Es führt auch Transkriptionen in zahlreichen Sprachen durch und übersetzt diese Sprachen ins amerikanische Englisch.
Die Architektur von Whisper, die als Encoder-Decoder-Transformator implementiert ist, ist ein unkomplizierter Ende-zu-Ende Ansatz: Sie zerlegt die Audioeingabe in 30-Sekunden-Stücke, die in ein Log-Mel-Spektrogramm umgewandelt und durch einen Encoder geschickt werden; der Decoder ist darauf trainiert, die richtige Textbezeichnung zu antizipieren, kombiniert mit speziellen Token, die das einzelne Modell anweisen, die Sprachidentifikation, die mehrsprachige Sprachtranskription, Zeitstempel auf Phrasenebene und die Sprachübersetzung ins Englische vorzunehmen.
Im November letzten Jahres kündigten wir eine Beta-Version der Vodia- PBX an, die die PBX mit der Beta-Version der OpenAI Echtzeit-API verbindet. Wenn Ihr Unternehmen Wert auf Datensouveränität und Verarbeitung vor Ort legt, unterstützt Vodia auch die Bereitstellung von Whisper AI innerhalb Ihrer eigenen Infrastruktur. So behalten Sie die volle Kontrolle über Ihre Transkriptionsprozesse und können sicherstellen, dass sensible Anrufdaten sicher innerhalb Ihres Netzwerks bleiben.
Gehen Sie folgendermaßen vor, um eine selbst gehostete Whisper AI-Instanz einzurichten:
Wechseln Sie zum betreffenden Mandanten
Melden Sie sich bei Ihrem Vodia-Mandanten an.
Navigieren Sie zu Einstellungen => Allgemeines.
Scrollen Sie zu “Voreinstellung für Mitschneiden…”
Geben Sie Bereitstellungs Details an
Geben Sie die URL Ihrer Whisper AI-Bereitstellung ein.
Tragen Sie den Benutzernamen und das Passwort ein.
Speichern und Verbinden
Speichern Sie die Konfiguration, um eine sichere Verbindung zwischen Ihrer Vodia-Telefonanlage und Ihrer lokalen Whisper AI-Instanz herzustellen.
Zugriff auf Anruf Transkriptionen
Um den transkribierten Inhalt anzuzeigen, melden Sie sich einfach bei Ihrem Benutzerportal an, navigieren Sie zum Abschnitt „Verlauf“, wählen Sie den gewünschten Anruf aus und überprüfen Sie dann den Bereich „Anruf Inhalt"
Um eine optimale Leistung beim Ausführen von Whisper AI auf Ihrer eigenen Hardware zu gewährleisten, beachten Sie die offiziellen Hardwareanforderungen, die imOpenAI Whisper GitHub-Repository aufgeführt sind.
Da wir nun die Echtzeit-KI-API-Integration mit OpenAI unterstützen, erwägen wir auch die Integration mit weiteren KI-Anbietern, damit wir eine nahtlose KI-Integration in Arbeitsabläufe ermöglichen können. Wir würden Ihnen gerne alles darüber erzählen – kontaktieren Sie uns unter sales@vodia.com oder rufen Sie +1 (617) 861-3490 (USA), +61 2 7201 0788 (APAC) oder +49 30 555 78749 (Europa) an.
Die Vodia PBX integriert nun Google Gemini mit JavaScript IVR und Voice Agents und ermöglicht so eine KI-gesteuerte Anrufbearbeitung und intelligente Weiterleitung in Echtzeit. Durch die Kombination der multimodalen großen Sprachmodelle von Gemini mit dem programmierbaren IVR-Framework von Vodia können Unternehmen Sprachagenten entwickeln, die Audio in Echtzeit streamen, Weiterleitungsentscheidungen über Funktionsaufrufe treffen und sowohl einfache als auch begleitete Weiterleitungen mit KI-gestützter Überprüfung durchführen. Diese Integration ermöglicht es Unternehmen, Anrufabläufe zu automatisieren, Wartezeiten zu reduzieren und die Produktivität zu verbessern, indem sie dialogorientierte KI nutzen, die direkt in der Telefonanlage funktioniert.
Im Jahr 2026 muss ein modernes Telefonsystem weit über einfache Anruffunktionen hinausgehen. Zu den Kernanforderungen gehören nun integrierte KI für eine intelligentere Anrufbearbeitung und Transkription, Echtzeit-Analyse-Dashboards für Transparenz und Kontrolle, flexible automatische Vermittlungsstellen für eine effiziente Anrufweiterleitung, nahtlose Microsoft Teams-Integration und robuste mobile Apps, die hybrides und Remote-Arbeiten unterstützen. Eine klare Trennung zwischen geschäftlichen und privaten Anrufen schützt die Work-Life-Balance, während erstklassiger Support dafür sorgt, dass diese Funktionen in realen Umgebungen reibungslos funktionieren, wenn sich die Anforderungen weiterentwickeln.
Ältere Telefonsysteme funktionieren zwar möglicherweise noch, sind jedoch oft mit versteckten Kosten, eingeschränkter Skalierbarkeit und geringer Unterstützung für hybrides Arbeiten verbunden. Veraltete Hardware, laufende Wartungskosten und eine starre Infrastruktur können das Wachstum von Unternehmen unbemerkt behindern. Cloud-basierte VoIP-Systeme beseitigen diese Einschränkungen, indem sie die Telefoniekosten senken, die Flexibilität verbessern und Teams eine nahtlose Kommunikation von überall aus ermöglichen. Für viele Unternehmen ist die Modernisierung der Geschäftstelefonie nicht mehr optional, sondern ein praktischer Schritt in Richtung Effizienz und Ausfallsicherheit.