Nutzen Sie diese SSML Vorteile für Ihre Voice-Nachrichten

Wir haben aufregende Neuigkeiten zu teilen! Unser Voice-Nachrichten-Gateway hat ein Upgrade erhalten: Sie können für Ihre Nachrichten jetzt auch SSML (Speech Synthesis Markup Language) nutzen. Was bedeutet das für Sie? In erster Linie können Sie Ihre Voice-Nachrichten mit noch mehr Präzision und Anpassungsmöglichkeiten versehen. Mit SSML können Sie unter anderem Betonungen setzen, Pausen einfügen und die Sprechgeschwindigkeit variieren, um Ihre Nachrichten natürlicher und ansprechender zu gestalten.

Diese Verbesserung ermöglicht es Ihnen, eine individuellere Benutzererfahrung zu schaffen und die Qualität Ihrer Sprachausgaben zu steigern. Unser Gateway bietet Ihnen somit eine umfassende Lösung für den Versand hochwertiger Voice-Nachrichten. Lesen Sie weiter, um mehr darüber zu erfahren, welche Möglichkeiten SSML Ihnen bietet!

Wie nutze ich SSML?

Nutzen Sie SSML, indem Sie die verfügbaren Markup-Elemente gezielt einsetzen, wenn Sie eine Anfrage an unsere Voice API schicken, um die gewünschte Sprachausgabe zu erzielen.

Achtung: Der Parameter “xml” wird für SSML nicht gesetzt.

Allgemeines Beispiel

Erstellen Sie eine JSON-Datei mit den Rufnummern und Text namens voice.json.

{
  "from": "+4917199999999",
  "to": "+491718888888",
  "text": "Herzlich willkommen bei Seven communications! Sie haben erfolgreich eine Voice-Nachricht erstellt."
}

 

Erweitern Sie den Text mit den SSML-Tags, hier die Auswahl einer weiblichen deutschen Stimme:

{
  "from": "+4917199999999",
  "to": "+491718888888",
  "text": "<voice name="de-de-female">Herzlich willkommen bei Seven communications! Sie haben erfolgreich eine Voice-Nachricht erstellt.</voice>"
}

 

Senden die den Text per cURL an unsere API:

curl -X POST "**<https://gateway.seven.io/api/voice**>" -H 'Content-Type: application/json' -H 'X-Api-Key: abcdefg123' -d @voice.json

Sprache und Stimme anpassen

Einer der wesentlichen SSML Vorteile ist die Möglichkeit, verschiedene Sprachen, aber auch verschiedene Stimmen wählen zu können. So ist es leichter, Nachrichten für verschiedene Empfänger anzupassen, sodass sie diese gut verstehen und akzeptieren. 

Die Seven Voices setzen sich zusammen aus dem Gebietsschema (BCP-47) und drei „Geschlechtern“, in diesem Fall female, male und child. Beispiele für diese Tags finden Sie in den folgenden Anwendungsbeispielen.

Grundsätzlich können Sie sich auch dafür entscheiden, spezifische Microsoft-Voices zu verwenden. Wir empfehlen Ihnen aber ausdrücklich die Nutzung unserer Tags, denn:

Die Tags nach dem Schema „en-us-male“ bieten die Möglichkeit bei einem Wechsel der Synthetisierungs-Engine ohne Umschreiben Ihrer Anwendung unterbrechungsfrei weiterzusenden. Wechseln wir auf andere Synthethisierungs-Engines oder müssen im Störungsfall auf andere Anbieter ausweichen, können wir automatisch die entsprechenden Voice-Names einbinden und Ihre Anwendungen funktionieren weiterhin. Verwenden Sie die Microsoft-Voice-Names direkt, ist dies nicht dynamisch. Sie bleiben damit an die Microsoft-Engine gebunden und müssten ggfs. Ihre Anwendungen anpassen.

Kurz: Nutzen Sie unsere Tags wählen Sie eine Nationalität und das Geschlecht der Stimme aus – unser Gateway wählt die aktuellste Stimme für Sie aus.

Bitte beachten Sie: Die Kinderstimmen sind nur in de-DE, en-GB, en-US, fr-FR und zh-CN verfügbar.

Alle aktuell verfügbaren Sprachen können Sie der Liste von Microsoft Azure entnehmen.

Beispiel: Deutsch, weiblich

<voice name="de-de-female">

Beispiel: Englisch, weiblich

<voice name="en-us-female">

Verschiedene Stimmen in einer Nachricht

Sie möchten verschiedene Stimmen in einer Nachricht nutzen? Auch das ist mit SSML möglich. Falls Sie sich in diesem Fall für spezifische Microsoft-Stimmen entscheiden, behalten Sie bitte im Hinterkopf, dass wir diese nicht dynamisch ändern können (siehe Abschnitt „Sprache und Stimme anpassen“).


<voice name="en-us-child"> Hi, where did you buy these sunglasses? I think my mum would love them. </voice>
<voice name="en-us-female"> Hello, i just bought them in the shop over there. </voice>

Lebenszeit (TTL)

Auch wenn die Time-to-live genau genommen nicht zu SSML gehört, sollten Sie diesen Parameter doch kennen, um Ihre Voice-Nachrichten optimieren zu können. Mit der Lebenszeit kann angegeben werden, in welchem Zeitraum der Anruf durchgeführt werden darf. Dies vermeidet eine Überflutung durch Nachlieferung angesammelter Calls im Verzögerungs- oder Störungsfall. Die TTL ist ein zusätzlicher Parameter mit Angabe in Sekunden. Der voreingestellte Standardwert ist eine Stunde, also 3600 Sekunden.

{
"from": "+4917199999999",
"to": "+491718888888",
"text": "<voice name="de-de-female">Herzlich willkommen bei Seven communications! Sie haben erfolgreich eine Voice-Nachricht erstellt.</voice>",
"ttl": 86400 }

Aussprache beeinflussen

Auch die „Aussprache“ des angegebenen Textes kann mit SSML angepasst werden. Dazu gehören nicht nur Pausen und die Geschwindigkeit, mit der der Text gelesen wird, sondern auch Details wie die individuelle Aussprache von bestimmten Worten. Auch die Aussprache der verwendeten Zahlen kann angepasst werden, sodass beim Versand eines Codes einzelne Ziffern vorgelesen werden, statt einer langen Zahl. 

Einsetzen einer Pause

In diesem Beispiel nutzen wir zwei verschiedene Angaben für Pausen:

Zuerst geben wir eine Pause über 200 Millisekunden an, danach eine Pause mit vordefinierter Stärke (strength) “weak”.

Dabei können folgende Werte für “strength” angegeben werden „x-weak“, „weak“, „medium“, „strong“ und „x-strong“. Mit dem Wert „none“ wird keine Pause eingefügt.

<voice name="de-de-male">
Schritt 1, Atmen Sie tief ein. <break time="200ms"/>
Schritt 2, Ausatmen.
Schritt 3, Atmen Sie wieder tief ein. <break strength="strong"/>
Schritt 4, Ausatmen.
</voice>
Vorlesen von Zahlencodes

Versenden Sie Zugangs- oder Bestätigungscodes über einen Telefonanruf? Mit SSML kontrollieren Sie die Geschwindigkeit, mit der die Ziffern vorgelesen werden oder fügen zusätzliche Pausen hinzu.

In diesem Beispiel passen Sie die Geschwindigkeit an: 

<voice name="de-de-female">
Der Bestätigungscode lautet:
<prosody rate="x-slow">
<say-as interpret-as="number_digit">967534</say-as>
</prosody>
</voice>

 

Wie Sie in dem oben stehenden Beispiel hören können, werden hier die Zahlen sehr langsam ausgesprochen.
Möchten Sie Pausen zwischen den Ziffern setzen, die eigentliche Sprechgeschwindigkeit aber beibehalten, können Sie beispielsweise Doppelpunkte zwischen den Zahlen setzen.

<voice name="de-de-female">
Der Bestätigungscode lautet:
9:6:7:3:5:4
</voice>
Datumsformat

Der SSML-Tag “date” ist aktuell nicht über unser Gateway verfügbar. Dennoch können wir Datumsformate bestimmen.

Verwenden Sie den Tag “say-as” mit der Erweiterung “interpret-as”. Mehr Informationen finden Sie in der Microsoft Dokumentation.

Das folgende Beispiel wird als “Heute ist der erste Februar Zweitausendvierundzwanzig” gesprochen.

<voice name="de-de-male">
Heute ist der <say-as interpret-as="date">2024-02-01</say-as>
</voice>

 

Sie benötigen für einfache Datumsangaben nicht unbedingt ein say-as Tag.

Schreiben Sie den Monat aus. Jahreszahlen können dann als Zahl angegeben werden.

<voice name="de-de-male">
Ihr nächster Termin ist am 22. Januar.
Ich habe am 22. Juni 1976 Geburtstag.
</voice>
Individuelle Aussprache – nutzen Sie das phonetische Alphabet

Wenn die Standard-Aussprache nicht so klingt, wie Sie möchten, können Sie individuell festlegen, wie ein Wort ausgesprochen werden soll. Hierfür nutzen Sie das phonetische Alphabet und das entsprechende Tag.

Im folgenden Beispiel wird der Name als “Mike Jau” mit weichem J, wie bei “Dschungel” gesprochen.

Die Bestandteile des phonetischen Alphabets finden Sie in der Microsoft Dokumentation.

<voice name="en-US-JennyNeural"> His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou 
</phoneme> 
</voice>

Audiodateien verschicken

Die Einstellungsmöglichkeiten reichen Ihnen nicht? Verschicken Sie Ihre eigene Audio-Datei!

Dabei müssen Sie Folgendes beachten:

  • Die Audiodatei muss eine gültige **.mp3*, **.wav*, **.opus*, **.ogg*, **.flac* oder **.wma* Datei sein.
  • Die Gesamtzeit für alle Text- und Audiodateien in einer einzigen Antwort darf 600 Sekunden nicht überschreiten.
  • Die Audiodateien dürfen keine kundenspezifischen oder sonstigen sensiblen Informationen enthalten.

(Quelle: Microsoft Dokumentation)

Beispiele zur Nutzung entnehmen Sie bitte ebenfalls der Mircosoft-Dokumentation oder der Google-Dokumentation.

Best Practice-Tipps

  • Den Speak-Tag müssen Sie nicht einsetzen, die Seven Voice API fügt diesen automatisch ein.
  • “Keep it simple!” – Je weniger Tags und damit Zeichen nötig sind, desto besser.
  • Wir empfehlen bei der Übergabe an die API auf die Zeilenschaltung zwischen den Tags zu verzichten. Die Engine schaltet dort Pausen, was zu unerwünschten Ergebnissen führen kann.
  • Denken Sie daran, dass der Text in Sprache umgewandelt wird. Eine Begrüßung wie “Sehr geehrte/r Herr/Frau Name” wird dann auch zu “sehr geehrte er Herr Frau”. Hier eignet sich eine allgemeine Anrede besser, beispielsweise: “Guten Tag Name”.

Ressourcen für die Nutzung von SSML

SSML bietet viele umfangreiche Möglichkeiten, Voice-Nachrichten nach Ihren Vorstellungen zu gestalten. Weil die Möglichkeiten so vielfältig sind, möchten wir Ihnen einige Ressourcen mit auf den Weg geben, die Ihnen dabei helfen werden, Ihre SSML-Nachricht nach Ihren Wünschen zu gestalten.

Einige nützliche Ressourcen für die Nutzung von SSML sind:

Sie haben Fragen, Anregungen oder Kritik? Wir freuen uns über Ihr Kommentar oder Ihre Nachricht.

Besuchen Sie auch unsere Feedback-Seite und nutzen Sie Ihre Chance, unseren Service mitzugestalten.

Viele Grüße
Ihr seven Team

Headerbild von jacoblund via iStock

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Fill out this field
Fill out this field
Bitte gib eine gültige E-Mail-Adresse ein.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.