Navigation mit Sprache

Navigationssysteme bald mittels Sprache gesteuert

Wo vor wenigen Jahren noch ein simples Autoradio platziert war, sind inzwischen Mobiltelefone und Navigationssysteme fast schon Standard. Die Multimediafahrzeuge haben aber auch Nachteile: So hat die amerikanische Verkehrssicherheitsbehörde festgestellt, daß 20 bis 30 % der Autounfälle von abgelenkten Autofahrern verursacht werden. Manuell zu bedienende Geräte im Auto als Sicherheitsrisiko.Eine Lösung können Sprachbediensysteme sein.
Spracherkennung boomt
In naher Zukunft werden neue Entwicklungen deutlich komplexere Spracherkennungssysteme als heute ermöglichen. Der Entwicklungsaufwand für diesen neuen Markt lohnt sich: Nach einer Studie wird allein die Temic (Telefunken microelectronics) in diesem Jahr etwa 270.000 Systeme integrieren, nach knapp 180.000 im letzten Jahr und etwa 60.000 im Jahre 1999.
Zuschlagen der Tür ist Kommando
Im Gegensatz zu Sprachverarbeitungssystemen im Büro herrschen im Fahrzeug andere technische Randbedingungen: der relativ hohe Geräuschpegel und der große Abstand zum Mikrofon erschweren die Bedienung. So interpretiert die Spracherkennung möglicherweise ein Zuschlagen der Tür als Worteingabe. Ein wichtiges Element ist deshalb die Erkennsicherheit, die derzeit bei etwa 90 % liegt. Dies ergab ein Test bei DaimlerChrysler mit 800 Personen, die bei alltäglichen Autofahrten ein Sprachbediensystem steuerten.
Erkennungsrate relativ gering
Alle Spracherkennungsanbieter arbeiten an einer besseren Erkennungsrate und einer Vergrößerung des Vokabulars. Heute übliche Sprachsteuerungen sind Ziffernwahl, Namenswahl, Mailbox-Steuerung, Memo-Recorder  oder Kommandos für Radio, CD-Wechsler oder Kassette. "Im Vergleich zu Diktiersystemen sind derzeit im Fahrzeug nur relativ kleine Wortschätze realisierbar, denn Störgeräusche behindern die Erkennungsrate. Zudem beschränken die relativ hohen Kosten für Speicherplatz und Rechenleistung das Einsatzpotenzial ", erklärt Gerhard Nüßle, Entwicklungsleiter für Sprachverarbeitung bei der Temic.
Vorbildliche Sprachsteuerung bei der Bahn
Wie gut eine "geräuscharme" Spracherkennung sein kann, zeigt die Zugauskunft bei der Deutschen Bahn, die über einen Server im öffentlichen Telefonnetz verfügbar ist. Seit zwei Jahren in Betrieb verzeichnet man mittlerweile mehr als 100.000 Anrufe im Monat. Das vorhandene Vokabular von 6000 Bahnhöfen entspricht dabei etwa 10.000 Phrasen. Das servergestützte System könnte als Vorbild für die sprachgesteuerte Navigation dienen.
Von den Lippen lesen ...
Der Computer hat enorme Probleme bei ähnlich klingenden Wörtern: Gasse, Kasse; Pfarrer, Fahrer. Um diese Erkennungsprobleme abzustellen, versucht man die Wortbedeutungen im logischen Zusammenhang zu erschließen. Das MIT (Massachusetts Institute of Technology) ergänzt dieses Verfahren mit einem optischen System, dass aus den Lippenbewegungen Wörter ableiten kann. Die Wissenschaftler gehen für die englische Sprache von 16 Lippenstellungen aus. Eine Videokamera nimmt die Lippenbewegungen auf und vergleicht sie mit hinterlegten Mustern. Kombiniert mit der akustischen Erkennung erhofft man sich eine deutlich verbesserte Erkennungsrate. In der Praxis hat diese Methode aber den Nachteil, dass der Autofahrer ständig Richtung Kamera sprechen muss.
50000 Ortsnamen in Deutschland
Das US-Unternehmen Navtech Technologies Corp. erwartet, dass bis 2005 die Mehrheit aller Fahrzeuge mit Onboard-Navigationssystemen sprachgesteuert sein wird. NavTech liefert nach eigenen Angaben Karten mit höchster Genauigkeit, Tiefe und Zuverlässigkeit. Auf dieser Grundlage müssen Navigationssysteme eine hohe Zahl von Vokabeln für die Zieleingabe ermöglichen. Allein in Deutschland gilt es etwa 50.000 Ortsnamen zu erfassen, dazu stehen zum Beispiel in Berlin 9000 Straßennamen zur Auswahl. Sprachverarbeitungsexperte Gerhard Nüßle: "Diese Datenmengen können derzeit noch nicht zufriedenstellend verarbeitet werden". Doch schon im nächsten Jahr sollen die ersten Sprach-Navigationssysteme am Markt verfügbar sein, die dann über beispielsweise Postleitzahlen, Großraumbereiche oder Buchstaben steuerbar sind.
In 800 Städten liegen 90 % der Ziele
Heutzutage ist die interne Verarbeitung des aktiven Vokabulars auf etwa zwei- bis dreitausend Wörter beschränkt. Deshalb muss die Eingabe der Navigationsziele in einem simplen Dialog erfolgen. Um eine kleinere Vokabelmenge zu erreichen, nutzen die Wissenschaftler die Tatsache, dass in den 800 größten Städten fast drei Viertel der Bevölkerung wohnen. Da die Navigationssysteme meist geschäftlich genutzt werden, entspricht dies wahrscheinlich über 90 % der möglichen Ziele.
Kombinierte System weisen den Weg
Die ComROAD AG, Spezialist für Telematik-Netzwerke, und CONVERSAY, führend bei Sprachtechnologie für mobile und internetbasierte Einheiten, haben die Software  "Voicecom" in einen Server integriert. Die Technologie-Allianz soll den sprachgesteuerten Zugriff auf das riesige Angebot an Telematik-Diensten ermöglichen, das heute über das ComRoad-GTTS (Global Transport Telematic System) verfügbar sind. Schon auf der CeBIT präsentierte man einen Chrysler PT Cruiser, in dem Verkehrsinformationen, Wetter, Finanzdaten oder Sportnachrichten erstmals über Sprachsteuerung abgerufen werden können.
Gerhard Nüßle, TemicPortale werten die Kommandos aus
Um die Schwächen der Systeme auszugleichen, müssen die Sprachkommandos schon im Fahrzeug bearbeitet werden. Relativ aufwändige Verfahren zur akustischen Vorverarbeitung sollen die Verluste im Sprachsignal auffangen. Über einen Server, der beispielsweise im neuen Portal von Mercedes-Benz oder BMW steht, erfolgt dann die Auswertung. Die Übertragung dorthin erfolgt nicht mehr als Sprache, sondern als komprimierte Datei mit einer Übertragungsrate von weniger als 4800 Bit pro Sekunde.
VW entwickelt in VODIS
Ein sprachgestütztes Assistenzsystem entwickelt Volkswagen mit "VODIS" (Voice Operated Driver Information System). Ziel des VODIS-Projektes ist die Spracherkennung für die aktive Sicherheit zu nutzen. Der Autofahrer soll den Blick auf der Straße und die Hände am Lenkrad behalten und dennoch alle Informations- und Unterhaltungssysteme betätigen können. Um VODIS in vollem Umfang nutzen zu können, muss der Fahrer insgesamt 44 festgelegte Kommandoworte zur Spracheingabe beherrschen.
Philips hat Superchip parat
"Die eigentlichen Herausforderungen für die Sprachsteuerung und -erkennung liegt in nächsten Jahre in der Steuerung der Navigation", erklärt Gerhard Nüßle. Dies beginnt bei der Hardware. So präsentiert Philips den neuen Spracherkennungschip "Hello IC". Nach Angaben des Unternehmens soll dies der weltweit innovativste und kostengünstigste Spracherkennungschip für Befehls- und Steueranwendungen sein. Er kann bis zu 100 Wörter interpretieren, 50 Wörter können gleichzeitig aktiv sein. Auf dem Chip gespeichert ist die Spracherkennungssoftware "VoCon" und eine Rauschunterdrückungs-Software, die somit keinen externen Speicher benötigen. Damit hat Philips einen Chip für vielfältigen Einsatz entwickelt: für den Freisprechbetrieb von Autoradio, Handy oder Klimaanlage. Ende nächsten Jahres soll die großflächige Einführung stattfinden. In Verbindung mit leistungsfähigen Prozessoren ist auch der Einsatz in Navigationssystemen geplant.
Standard ist dringend erforderlich
Die dynamische Entwicklung im Internet und bei Mobilfunksystemen forcieren den Einzug netzwerkbasierter Dienste im Fahrzeug. Denn der Autofahrer will künftig während der Fahrt verschiedene Voice Portale auf einem Server verfügen. Ingenieure entwickeln mit Hochdruck unterschiedliche Systeme. Doch schon während der Entwicklung tauchen neue Probleme auf. Bei Markteinführung werden die Systeme einen sehr viel kürzeren Lebenszyklus haben als das Fahrzeug. Sprachverarbeitungsexperte Nüßle: "Eine Standardisierung der Schnittstellen zu diesen Diensten ist deshalb dringend erforderlich". Sonst sind die neuen Dienste nicht realisierbar.                                                       
zurück