Test: Wie hilfreich ist Spracherkennung wirklich?

Test: Wie hilfreich ist Spracherkennung wirklich?

Wir haben Spracherkennungs-Programme in der Praxis getestet

von -

„Dreimal schneller als Tippen“ verkündet die Werbung – immerhin ganz beachtlich. Aber – wie viel Nutzen bringt Spracherkennung auf dem PC in der Praxis tatsächlich? Lohnt sich die Anschaffung einer solchen Software – und kann man die anfallenden Arbeiten damit wirklich schneller erledigen? Einen etwas tieferen Einblick in die Welt der Spracherkennung, über Nutzen und Nachteile, gibt es hier.

 

Spracherkennung wird immer verbreiteter. Neben der (sehr professionellen) Software von Nuance, Dragon Naturally Speaking, für den PC bietet auch Google eine schon recht gut funktionierende Spracherkennung über Google Chrome auch für den PC an, auf dem Handy und Tablet funktioniert sie ohnehin schon länger. Das einigermaßen effiziente Diktieren von Texten zum Beispiel in Office Anwendungen funktioniert aber bislang wirklich nur bei der Profi-Software, die auch alle Satz- und Sonderzeichen enthält, und daneben eine Korrekturfunktion. Laut Nuance werden im Deutschen bis zu 160 Wörter pro Minute erkannt, und das mit bis zu 99% Genauigkeit.

„Dreimal schneller als Tippen“

Kaum jemand tippt so schnell, wie er sprechen kann. Das leuchtet ein. Aber wie viel ist „dreimal schneller als Tippen“ tatsächlich? Nun, dazu müsste man überhaupt erst einmal wissen, wie schnell man tippt: und das ist von Nutzer zu Nutzer immerhin sehr unterschiedlich. Eine in dieser Disziplin geübte Sekretärin tippt um ein Vielfaches schneller als der gelegentliche PC-Nutzer. Dazu kommt, dass es ja nicht um Sprechen geht, bei der Spracherkennung – sondern um Diktieren. Das relativiert die bahnbrechenden Zahlen wieder etwas.

Um es kurz zu machen: Wenn Sie saubere 450 Anschläge tippen können, haben Sie gute Chancen, die Spracherkennung in der Praxis möglicherweise sogar bei der Gesamtzeit zu schlagen. Und zwischen 400 und 500 Anschlägen sind immerhin die Werte, die Phonotypistinnen und sehr schnelle Tipper heute schon schaffen. Das ist ein Wert aus der Praxis, der rund 70 – 80 Wörtern pro Minute entspricht. Nachrichten werden übrigens mit rund 100 Wörtern pro Minute (ohne Pausen) vorgelesen.

 

Sprechen versus Diktieren

Diktieren ist etwas grundsätzlich anderes, als Sprechen. Beim Diktieren muss eine gleichbleibende Sprachmelodie möglichst eingehalten werden (auch wenn Anbieter wie Nuance gelegentlich versprechen, dass „gewöhnliche Sprache“ problemlos erkannt werden kann). Und Sie müssen natürlich auch Zeit einberechnen, in der Sie das, was Sie schreiben wollen zumindest im Kopf zuerst einmal formulieren müssen. Geübte Schreiber tun das während dem Tippen – weil Denken und Tippen auch parallel geht. Denken und Sprechen geht allerdings nicht gleichzeitig, sondern nur nacheinander. Damit entsteht beim Diktieren ein Zeitverlust, den man immer mit einberechnen muss.

Dazu kommt, dass Diktieren eine sehr anstrengende Sache ist. Nach zwei bis drei Stunden Diktieren am Stück wird die Aussprache bei so gut wie jedem undeutlicher, was unweigerlich zu Erkennungsfehlern führt. Auch die Software (Dragon) braucht dann oft eine Pause, um neu gelernte Wörter zu verarbeiten, und die Sprachmuster anzupassen. Und da Diktieren eine sehr konzentrierte und exakte Sprechweise – gerade im Deutschen – erfordert, bedeutet das auch eine enorme Anstrengung, wenn man einige Stunden damit verbringt.

Unter Einberechnung aller Faktoren schafft man es in der Praxis nur mit hoher Konzentration, durchschnittliche Diktiergeschwindigkeiten von 80 wpm (Wörter pro Minute) zu erreichen – genauso viel, wie ein geübter Tipper mit ein bisschen Training noch relativ gut schreiben kann. Dabei fallen dann aber Korrekturen weg, die beim Diktieren unausweichlich sind (99% Genauigkeit bedeuten immerhin mindestens einen Fehler pro 100 Wörter) und die Korrekturen bei eigener undeutlicher Sprache und nicht bekannten Wörtern (etwa Eigennamen oder Fachbegriffe). Außer natürlich, man liest einen Text lediglich vor, ohne ihn selbst zu formulieren – aber das wird wohl nur selten der Fall sein.

 

Spracherkennung für wen?

Oberflächlich betrachtet macht es natürlich für jeden Sinn, der längere Texte eingeben muss – vom Programmierer bis zum Journalisten. Angesichts der oben erwähnten Fakten muss man allerdings einige Einschränkungen anbringen:

Gerade Journalisten und Menschen, die kreative Texte schreiben, profitieren von Spracherkennung häufig sehr wenig. Sie können meist relativ schnell tippen, und sind so derartig „gepolt“ darauf, während des Tippens schon den nächsten Satz im Kopf vorzuformulieren, dass ihnen ein Umstieg aufs Diktieren meist sehr schwer fällt. Dazu kommt, dass die Gesamtzeit der Arbeit mehr von der Zeit bestimmt wird, die das Konzeptionieren, das Gliedern im Kopf und das Überlegen benötigt, dass die reine Schreibzeit dagegen sehr gering ausfällt. Eine Steigerung um 20 oder 30 % bei der Umsetzung in Text würde bei der Gesamtzeit nur sehr wenig Auswirkungen haben.

Auch Menschen, die nicht völlig allein irgendwo in absoluter Stille arbeiten, tun sich mit Spracherkennung eher schwer – Umgebungsgeräusche mag die Software nicht gern, und nicht jedem ist es angenehm, wenn die gesamte Umgebung mitbekommt, was man gerade schreibt.

Programmierer müssten sich sämtliche Teile einer Computersprache zuvor als neue „Wörter“ anlegen (das ist prinzipiell möglich) – hier ist aber für viele auch die Frage, ob sie sich tatsächlich auf das Vorformulieren und laute Aussprechen innerlich umstellen können.

Lohnend ist Spracherkennung sicherlich für Menschen, die krankheits- oder behinderungsbedingte Einschränkungen haben, oder unter chronischer Sehnenscheidenentzündung oder ähnlichen Störungen leiden. Auch für die, die immer noch mit zwei Fingern tippen, ist der Geschwindigkeitsgewinn wahrscheinlich enorm – hier, wo Geschwindigkeiten von 150 Anschlägen oder weniger erreicht werden, stimmt dann auch das „dreimal schneller als Tippen“ in der Praxis.

 

Andere Methoden für schnellere Texteingabe

Da wir in einer durch und durch verschriftlichten Gesellschaft leben (Blogbeiträge, Emails, SMS, Whatsapp-Nachrichten, …) ist der Gedanke einer schnelleren Texteingabe natürlich ein durchaus interessanter. Mit Steno konnte man immerhin auf Papier schon über 180 Wörter pro Minute relativ mühelos niederschreiben – etwas ähnliches für den PC hat bislang noch niemand erfunden. Man kann aber – wie die Weltrekordhalter im Tippen – mit Textbausteinen für häufig vorkommende Wörter arbeiten, oder einfach seine Tippgeschwindigkeit trainieren. Beides verspricht nachhaltige Erfolge ohne Umstellung und in jeder Umgebung mit jeder Tastatur. Die in Amerika so beliebte Computerstenographie mit Spezialtastaturen benötigt hierzulande sehr teure Spezialgeräte und mindestens zwei bis drei Jahre intensive Übung, zudem gibt es nur sehr wenige wirklich ausreichend angepasste Kürzungssysteme für die komplizierte deutsche Sprache mit ihren vielen unterschiedlichen Endungen.

 

Unser Fazit

Spracherkennung kann sich lohnen – tut es oft genug aber nicht. Halbwegs ordentlich tippen zu lernen ist für die meisten mit etwas Willen möglich – und bringt dauerhafte, nachhaltige Ergebnisse ohne hohe erforderliche Rechnerleistungen und komplizierte Spezialsoftware. Der Praxisvergleich zeigt, dass man gegenüber schnellem Tippen mit Spracherkennung kaum gewinnt. Zudem geht Tippen immer noch (nahezu) lautlos und ohne Störungen für die Umgebung, was oft genug auch ein wichtiges Argument für das Tippen ist.

 

 

Artikelbild: Fotolia / vgstudio

 

Keine Kommentare

Kommentar hinterlassen (Freischaltung erfolgt in Kürze)