this post was submitted on 21 Sep 2024
10 points (70.8% liked)

Netzkultur / Netzpolitik

490 readers
59 users here now

Alles rund um das Internet. Gerne auch die politische Seite zum Thema


Als Nachfolger für !netzpolitik@feddit.de


Wir sehen uns als einen selbstbestimmten Raum, außerhalb der Kontrolle kommerzieller Tech-Unternehmen.

Netiquette wird vorausgesetzt. Gepflegt wird ein respektvoller Umgang - ohne Hass, Hetze, Diskriminierung.

Die Regeln von feddit.org gelten.


Das Bild im Banner und Icon: Public Domain generated with Midjourney gefunden auf netzpolitik.org


founded 5 months ago
MODERATORS
you are viewing a single comment's thread
view the rest of the comments
[–] GenosseFlosse 1 points 2 months ago* (last edited 2 months ago) (1 children)

Audio to text software gab es schon in den 1990ern und wurde z.b. bei der bestellannahme von Katalog Kaufhäusern eingesetzt. Die Handys von heute sind viel Leistungsfähiger als die PCs vor 25 Jahren, dazu braucht man heute keine KI oder spezielle Hardware mehr.

[–] boredsquirrel@slrpnk.net 1 points 2 months ago (1 children)

Crazy! Die einzige gute STT engine die ich kenne ist whisper und selbst die hat Probleme.

[–] GenosseFlosse 2 points 2 months ago

Ich hatte damals in einer firma gearbeitet die solche software (um die eigentliche spracherkennung, die als software von IBM kam) fuer solche callcenter entwickelt hat. Also sprackerkennung, ISDN-karten und dann eine software die das alles zusammenfuegt und sich noch per GUI programmieren laesst.

Gut war die spracherkennung damals auch nicht da sie eben noch sehr neu war, z.b. gab es probleme sie so abzustimmen das sie sprache von maennern und frauen gleichzeitig verstanden hat, da die tonlage relativ weit auseinander lag. Bei starkem regionalem dialekt hat sie auch nichtmehr viel verstanden. Inzwischen wird sich aber viel getan haben.