CompuMED Vertriebs- und Service Partner
Home
Neuigkeiten
Produkte
Leistungen

 

Philips Spracherkennung

SpeechMagic Contexte für folgende Bereiche:

  • MultiMed

  • Chirurgie-Arztbriefe

  • Chirurgie-OP Berichte

  • Orthopädie

  • Orthopädie-Klinisch

  • Innere Medizin

  • Neurologie

  • Radiologie

  • Kardiologie

SpeechMagic™ von Philips ist weltweit die erste kontinuierliche Spracherkennung. Der Diktierende braucht sich keine spezielle Sprachweise anzugewöhnen, sondern kann in seinem natürlichen Sprachstil diktieren.

Wie funktioniert nun die Spracherkennung?

Um die Komplexität der Spracherkennung zu verstehen, sollte man die Parameter bedenken, die das Sprechen beeinflussen: Geschlecht, Alter, Körperbau, aber auch kulturelle Eigenschaften, wie z.B. Dialekte und Akzente, wirken sich auf das Sprechen aus. Die Menschen sprechen mit unterschiedlicher Deutlichkeit und Schnelligkeit; Wörter werden nicht einzeln ausgesprochen, sondern in eine einzige Tonfolge zusammengezogen. Ein Spracherkennungssystem muß Anfang und Ende eines jeden Wortes erkennen können, während es einem durchgehenden Strom von Phonemen "zuhört". Es ist schwierig, zu erkennen, wo ein Wort beginnt und wo es endet und um welches Wort es sich eigentlich handelt, da Menschen Pausen an den unmöglichsten Stellen im Satz machen, nur nicht zwischen zwei Wörtern. Dazu kommt noch, daß ein Spracherkennungssystem, um brauchbar zu sein, auch mit Homonymen umgehen können muß, Wörtern, die gleich klingen, aber verschiedene Bedeutungen und häufig auch verschiedene Schreibweisen haben.

Spracherkennungssysteme mit einem umfangreichen Vokabular von ca. 64.000 Wörtern basieren auf der Phonemerkennung. Phoneme sind die kleinsten akustischen Einheiten einer Sprache - die deutsche Sprache besteht z.B. aus ca. 44 Phonemen.

Phoneme sind etwas anderes als die reinen Buchstaben des Alphabets, so wird beispielsweise der Buchstabe "A" in Wörtern wie "Auto" oder "machen" unterschiedlich ausgesprochen.

Die Phonemerkennung ist also der Schlüssel zum Erfolg einer Spracherkennungs-Technologie, aber sie ist nur eines von mehreren Elementen. Die Lösung ergibt sich auf drei Ebenen. Das Aussprache-Inventar bzw. die Sprecher-Referenzdatei ist eine Datenbank, in der die Phonemaussprache eines bestimmten Sprechers gespeichert wird. Das Wortinventar (auch als Vokabular bekannt) ist ein binärer Baum, der alle Wörter umfaßt, die das System erkennen kann. Das Vokabular wird für eine spezielle Anwendergruppe (z.B. Chirurgen, Radiologen) entwickelt. Das Sprachmodell ist eine statistische und stochastische Datenbank, welche die Spracherkennung bei der Bestimmung, welche Wörter zu erkennen sind, unterstützt. Das Sprachmodell wird parallel zum Vokabular entwickelt und basiert auf Texten einer bestimmten Anwendergruppe. Es enthält zusätzlich Informationen über Wortwahl und Satzaufbau.

Die Spracherkennung, egal ob als einzeln gesprochene oder als natürlich und fließend gesprochene Sprache, läuft folgendermaßen ab :

Das Sprachsignal wird digitalisiert. Das Digitalsignal durchläuft eine Fourier-Transformation, bei der die Energiepegel des Signals in Abschnitten von 25 Millisekunden mit einer Überschneidung von jeweils 10 Millisekunden berechnet werden. Daraus erhält man eine Reihe von Vektoren, die die Informationen für den Erkennungsprozeß darstellen. Die Vektoren werden mit den gespeicherten Prototypen aus der Sprecher-Referenzdatei verglichen. Da ein Anwender nicht immer in der gleichen Weise spricht (Tonlage, Tempo usw.), werden diese Schwankungen im Rahmen des jeweiligen Phonems mit Hilfe eines statistischen Verfahrens ausgeglichen. Sobald ein Prototyp erkannt wurde, beginnt das System die Suche nach dem Wort. Bei dieser Suche wird es von dem Sprachmodell unterstützt. Dieses Modell enthält die Wahrscheinlichkeiten, mit denen ein Wort auf ein anderes folgt. Es umfaßt statistische und stochastische Informationen, die aus Texten des jeweiligen Anwendungsbereiches gewonnen wurden. Das Sprachmodell steigert die Erkennungsleistung des Systems ganz gewaltig, weil es die Perplexität der Sprache verringert. Die als Zahlenwert angegebene Perplexität dient als Angabe dafür, wie viele verschiedene Wörter mit einer gewissen Wahrscheinlichkeit auf ein bestimmtes Wort folgen können.

So kann in einem Brief auf die Phrase " Sehr geehrte " sowohl "Damen", "Herren", "Damen und Herren", "Frau XY" usw. folgen. Es lassen sich wohl ein Dutzend Kombinationsmöglichkeiten dafür finden, was insgesamt dennoch nur eine geringe Perplexität ergibt. Ohne Sprachmodell wäre die Perplexität eines Systems mit einem Vokabular von 64.000 Wörtern genauso hoch wie die Anzahl der Wörter. Mit dem Sprachmodell reduziert sich dagegen die Perplexität beträchtlich, weil es die wahrscheinlichen Wortkombinationen kennt, ohne dabei neue Kombinationen auszuschließen.

Die meisten Spracherkennungs-Systeme auf dem Markt verwenden ähnliche Prozesse wie z.B. die Phonembasis und statistische Sprachmodelle. Sie unterscheiden sich jedoch deutlich in bezug auf Geschwindigkeit und Fehlerquoten. Noch wichtiger sind die Unterschiede bei der Spracheingabe. Bei manchen Systemen muß der Sprecher mit kurzen Pausen zwischen den einzelnen Wörtern sprechen, eine Methode, die als diskrete Spracherkennung oder als Worterkennung bezeichnet wird. Im Gegensatz dazu erlaubt die natürliche Spracherkennungs-Technologie von Philips dem Sprecher, normal in seiner individuellen Sprechgeschwindigkeit zu sprechen. Systeme auf der Grundlage einer natürlichen Spracherkennung haben die besten Chancen, von künftigen Anwendern akzeptiert zu werden, da sie eine normale Sprechweise akzeptieren und umsetzen können.

 

 

Home | Neuigkeiten | Produkte | Leistungen | Links | Impressum | Kontakt


Design by EDV-Webdesign.net - Ihr Ansprechpartner für professionelles Webdesign