|
Philips Spracherkennung
SpeechMagic Contexte für folgende Bereiche:
-
MultiMed
-
Chirurgie-Arztbriefe
-
Chirurgie-OP
Berichte
-
Orthopädie
-
Orthopädie-Klinisch
-
Innere Medizin
-
Neurologie
-
Radiologie
-
Kardiologie
SpeechMagic™ von Philips ist weltweit die erste
kontinuierliche Spracherkennung. Der Diktierende braucht
sich keine spezielle Sprachweise anzugewöhnen, sondern
kann in seinem natürlichen Sprachstil diktieren.
Wie funktioniert nun die Spracherkennung?
Um die Komplexität der Spracherkennung zu verstehen, sollte
man die Parameter bedenken, die das Sprechen beeinflussen:
Geschlecht, Alter, Körperbau, aber auch kulturelle
Eigenschaften, wie z.B. Dialekte und Akzente, wirken sich auf
das Sprechen aus. Die Menschen sprechen mit unterschiedlicher
Deutlichkeit und Schnelligkeit; Wörter werden nicht einzeln
ausgesprochen, sondern in eine einzige Tonfolge zusammengezogen.
Ein Spracherkennungssystem muß Anfang und Ende eines jeden
Wortes erkennen können, während es einem durchgehenden Strom von
Phonemen "zuhört". Es ist schwierig, zu erkennen, wo ein Wort
beginnt und wo es endet und um welches Wort es sich eigentlich
handelt, da Menschen Pausen an den unmöglichsten Stellen im Satz
machen, nur nicht zwischen zwei Wörtern. Dazu kommt noch, daß
ein Spracherkennungssystem, um brauchbar zu sein, auch mit
Homonymen umgehen können muß, Wörtern, die gleich klingen, aber
verschiedene Bedeutungen und häufig auch verschiedene
Schreibweisen haben.
Spracherkennungssysteme mit einem
umfangreichen Vokabular von ca. 64.000 Wörtern basieren auf der
Phonemerkennung. Phoneme sind die kleinsten akustischen
Einheiten einer Sprache - die deutsche Sprache besteht z.B. aus
ca. 44 Phonemen.
Phoneme sind etwas anderes als die
reinen Buchstaben des Alphabets, so wird beispielsweise der
Buchstabe "A" in Wörtern wie "Auto" oder "machen"
unterschiedlich ausgesprochen.
Die Phonemerkennung ist
also der Schlüssel zum Erfolg einer
Spracherkennungs-Technologie, aber sie ist nur eines von
mehreren Elementen. Die Lösung ergibt sich auf drei Ebenen. Das
Aussprache-Inventar bzw. die Sprecher-Referenzdatei ist eine
Datenbank, in der die Phonemaussprache eines bestimmten
Sprechers gespeichert wird. Das Wortinventar (auch als Vokabular
bekannt) ist ein binärer Baum, der alle Wörter umfaßt, die das
System erkennen kann. Das Vokabular wird für eine spezielle
Anwendergruppe (z.B. Chirurgen, Radiologen) entwickelt. Das
Sprachmodell ist eine statistische und stochastische Datenbank,
welche die Spracherkennung bei der Bestimmung, welche Wörter zu
erkennen sind, unterstützt. Das Sprachmodell wird parallel zum
Vokabular entwickelt und basiert auf Texten einer bestimmten
Anwendergruppe. Es enthält zusätzlich Informationen über
Wortwahl und Satzaufbau.
Die Spracherkennung, egal ob
als einzeln gesprochene oder als natürlich und fließend
gesprochene Sprache, läuft folgendermaßen ab :
Das
Sprachsignal wird digitalisiert. Das Digitalsignal durchläuft
eine Fourier-Transformation, bei der die Energiepegel des
Signals in Abschnitten von 25 Millisekunden mit einer
Überschneidung von jeweils 10 Millisekunden berechnet werden.
Daraus erhält man eine Reihe von Vektoren, die die Informationen
für den Erkennungsprozeß darstellen. Die Vektoren werden mit den
gespeicherten Prototypen aus der Sprecher-Referenzdatei
verglichen. Da ein Anwender nicht immer in der gleichen Weise
spricht (Tonlage, Tempo usw.), werden diese Schwankungen im
Rahmen des jeweiligen Phonems mit Hilfe eines statistischen
Verfahrens ausgeglichen. Sobald ein Prototyp erkannt wurde,
beginnt das System die Suche nach dem Wort. Bei dieser Suche
wird es von dem Sprachmodell unterstützt. Dieses Modell enthält
die Wahrscheinlichkeiten, mit denen ein Wort auf ein anderes
folgt. Es umfaßt statistische und stochastische Informationen,
die aus Texten des jeweiligen Anwendungsbereiches gewonnen
wurden. Das Sprachmodell steigert die Erkennungsleistung des
Systems ganz gewaltig, weil es die Perplexität der Sprache
verringert. Die als Zahlenwert angegebene Perplexität dient als
Angabe dafür, wie viele verschiedene Wörter mit einer gewissen
Wahrscheinlichkeit auf ein bestimmtes Wort folgen können.

So kann in einem Brief auf die Phrase " Sehr geehrte "
sowohl "Damen", "Herren", "Damen und Herren", "Frau XY" usw.
folgen. Es lassen sich wohl ein Dutzend
Kombinationsmöglichkeiten dafür finden, was insgesamt dennoch
nur eine geringe Perplexität ergibt. Ohne Sprachmodell wäre die
Perplexität eines Systems mit einem Vokabular von 64.000 Wörtern
genauso hoch wie die Anzahl der Wörter. Mit dem Sprachmodell
reduziert sich dagegen die Perplexität beträchtlich, weil es die
wahrscheinlichen Wortkombinationen kennt, ohne dabei neue
Kombinationen auszuschließen.
Die meisten
Spracherkennungs-Systeme auf dem Markt verwenden ähnliche
Prozesse wie z.B. die Phonembasis und statistische
Sprachmodelle. Sie unterscheiden sich jedoch deutlich in bezug
auf Geschwindigkeit und Fehlerquoten. Noch wichtiger sind die
Unterschiede bei der Spracheingabe. Bei manchen Systemen muß der
Sprecher mit kurzen Pausen zwischen den einzelnen Wörtern
sprechen, eine Methode, die als diskrete Spracherkennung oder
als Worterkennung bezeichnet wird. Im Gegensatz dazu erlaubt die
natürliche Spracherkennungs-Technologie von Philips dem
Sprecher, normal in seiner individuellen Sprechgeschwindigkeit
zu sprechen. Systeme auf der Grundlage einer natürlichen
Spracherkennung haben die besten Chancen, von künftigen
Anwendern akzeptiert zu werden, da sie eine normale Sprechweise
akzeptieren und umsetzen können.
|