Discussion:
Filter fuer bessere Hoerverstaendlichkeit
(zu alt für eine Antwort)
Ralf . K u s m i e r z
2012-03-16 18:04:22 UTC
Permalink
Raw Message
X-No-Archive: Yes

begin Thread


Moin!

Ich ärgere mich gerade mit Transkriptionen herum. Es gibt
Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch
ausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es ist
ab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Frage
an die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o.
ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die
Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,
Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es
soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst
verständlich.

Tontechnik ist irgendwie nicht so meines, aber ich kann die
Rohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, die
tippen werden, habe ich schon gefunden), und gescheite Anleitungen
habe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann man
Bereiche markieren - unglücklicherweise nur nach ganzzahligen
Sekunden, obwohl die Trennstellen manchmal schon sinnvoll auf
Sekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen
"Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wenn
irgendwelche fleißigen Leuten ein ganz offensichtlich ziemlich
raffiniertes Programm mit vielen ausgeklügelten Funktionen stricken,
aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zu
verpassen, die ich auch kapiere.)

Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Marcel Müller
2012-03-16 18:33:30 UTC
Permalink
Raw Message
Hallo,
Post by Ralf . K u s m i e r z
Ich ärgere mich gerade mit Transkriptionen herum. Es gibt
Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch
ausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es ist
ab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Frage
an die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o.
ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die
Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,
Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es
soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst
verständlich.
Also was weg ist, weil die Aufnahme nichts konnte oder weil der Sprecher
am Mikrofon vorbei gesprochen hat, bekommst Du nicht wieder. Was
allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst
und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B.
Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch
Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke stark
schwankt. Aber wenn die Höhen für die Differenzierung der Zischlaute weg
sind, kommen sie durch reindrehen auch nicht wieder.
Post by Ralf . K u s m i e r z
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.
Alte Regel, wenn Du es schlecht verstehst, versteht es der Computer noch
schlechter. Du darfst nicht vergessen, dass unsere "Fehlerkorrektur"
auch auf der semantischen Ebene funktioniert. Also wenn ein Wort in
einem Kontext keinen Sinn ergibt, verstehen wir halt das ähnlich
klingende Wort, was passt.


Marcel
Ralf . K u s m i e r z
2012-03-16 19:03:28 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Marcel Müller
Also was weg ist, weil die Aufnahme nichts konnte oder weil der Sprecher
am Mikrofon vorbei gesprochen hat, bekommst Du nicht wieder.
Es schon noch alles da - irgendwie. (Wenn ich es mir abschnittsweise
fünfmal anhöre, kriege ich meistens raus, was gesagt wurde. Aber auf
die Art tippe ich zwei Seiten pro Tag, und soviel Zeit hat keiner.)
Post by Marcel Müller
Was
allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst
und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B.
Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch
Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke stark
schwankt. Aber wenn die Höhen für die Differenzierung der Zischlaute weg
sind, kommen sie durch reindrehen auch nicht wieder.
Schön. Und wie mache ich das nun? Heißt: Was ist das fertige Werkzeug
dafür?

(Ich denke, daß das keine dumme Frage ist, weil es sich schließlich um
ein Standardproblem handelt. Also ist zu erwarten, daß es dafür auch
Standardlösungen gibt.)
Post by Marcel Müller
Post by Ralf . K u s m i e r z
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.
Alte Regel, wenn Du es schlecht verstehst, versteht es der Computer noch
schlechter.
Schon klar.

Interessante Beobachtung am Rande: Mit VLC kann man die
Wiedergabegeschwindigkeit verändern. Interessanteweise geht das aber
ohne Frequenzshift, d. h. das Programm transponiert die Tonhöhe
passend, so daß die Änderung der Abspielgeschwindigkeit ausgeglichen
wird. Das ist aber nun alles andere als trivial: Damit ändert sich
nämlich das Zeitverhältnis zwischen Hüllkurve und moduliertem Ton, d.
h. es gehen mehr oder weniger Schwingungen auf einen
Hüllkurvenabschnitt. Ich wüßte nicht, wie man sowas programmiert.
Einfach die omega-Achse strecken bringt es nicht, das gibt einen
proportionalen Shift in der Grundfrequenz. Und ein Band-Shift tut es
auch nicht, das gibt dann nämlich Disproportionen zwischen Grund- und
Obertönen. (Wenn ich f und 2*f auf f+df und 2*f+df abbilde, dann
bilden f+df und 2*f+df keine Oktave mehr.)

Also werden wahrscheinlich viele schmale Bandabschnitte einzeln
"passend" geshiftet - ziemlich aufwendig, sowas. (Wenn man die
Wiedergabegeschwindigkeit ganz langsam macht, klingt es auch sehr
merkwürdig "hallig".)

So ganz uninteressant ist die ganze Tontechnik nicht, aber leider habe
ich keine Zeit, mich da wirklich reinzuknien.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Marcel Müller
2012-03-16 21:20:31 UTC
Permalink
Raw Message
Hallo,
Post by Ralf . K u s m i e r z
Post by Marcel Müller
Was
allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst
und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B.
Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch
Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke stark
schwankt. Aber wenn die Höhen für die Differenzierung der Zischlaute weg
sind, kommen sie durch reindrehen auch nicht wieder.
Schön. Und wie mache ich das nun? Heißt: Was ist das fertige Werkzeug
dafür?
(Ich denke, daß das keine dumme Frage ist, weil es sich schließlich um
ein Standardproblem handelt. Also ist zu erwarten, daß es dafür auch
Standardlösungen gibt.)
Naja, "Mein Auto fährt nicht." ist auch ein Standardproblem. Daraus zu
schließen, dass es auch eine Standardlösung dafür geben müsste, ist
kühn. Ich meine, die gibt es schon: wegschmeißen und neu machen. Aber
das will man in der Regel nicht.
Kurzum, man wird schon nach den Ursachen fahnden müssen. Und die können
wir hier ohne das Material nur aus der Glaskugel erfahren.
Post by Ralf . K u s m i e r z
Post by Marcel Müller
Post by Ralf . K u s m i e r z
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.
Alte Regel, wenn Du es schlecht verstehst, versteht es der Computer noch
schlechter.
Schon klar.
Interessante Beobachtung am Rande: Mit VLC kann man die
Wiedergabegeschwindigkeit verändern. Interessanteweise geht das aber
ohne Frequenzshift, d. h. das Programm transponiert die Tonhöhe
passend, so daß die Änderung der Abspielgeschwindigkeit ausgeglichen
wird. Das ist aber nun alles andere als trivial: Damit ändert sich
nämlich das Zeitverhältnis zwischen Hüllkurve und moduliertem Ton, d.
h. es gehen mehr oder weniger Schwingungen auf einen
Hüllkurvenabschnitt. Ich wüßte nicht, wie man sowas programmiert.
Wir können die Phase nicht hören. Deshalb kann man das Signal in ein
Frequenzzspektrum mit endlicher Genauigkeit zerlegen und anders wieder
zusammenbauen. Das eigentliche, zeitabhängige Signal ist dem
ursprünglichen dann völlig unähnlich. Es hört sich aber ähnlich an.
Post by Ralf . K u s m i e r z
Einfach die omega-Achse strecken bringt es nicht, das gibt einen
proportionalen Shift in der Grundfrequenz.
Wieso? Wo ist da das Problem? Du musst nur gleichzeitig an der
Sampling-Rate drehen.
Post by Ralf . K u s m i e r z
Und ein Band-Shift tut es
auch nicht, das gibt dann nämlich Disproportionen zwischen Grund- und
Obertönen. (Wenn ich f und 2*f auf f+df und 2*f+df abbilde, dann
bilden f+df und 2*f+df keine Oktave mehr.)
Stimmt, ganz schlecht, macht sich aber in kleinen Dosen sehr gut zur
Feedback-Vermeidung bei Sprachverstärkung.
Post by Ralf . K u s m i e r z
Also werden wahrscheinlich viele schmale Bandabschnitte einzeln
"passend" geshiftet - ziemlich aufwendig, sowas. (Wenn man die
Wiedergabegeschwindigkeit ganz langsam macht, klingt es auch sehr
merkwürdig "hallig".)
Ja, klar. Der Hall war schon vorher da, nur hört man ihn nicht so, wenn
er schneller vorbei ist.
Post by Ralf . K u s m i e r z
So ganz uninteressant ist die ganze Tontechnik nicht, aber leider habe
ich keine Zeit, mich da wirklich reinzuknien.
Wenn Dir das hilft, ist es doch gut.
Langsamer abspielen ist übrigens eine gängige Methode für
Diktiervorgänge. Selbst, wenn dabei die Tonhöhe mit verändert wird, und
es deshalb komisch klingt, kann die Verständlichkeit dennoch profitieren.

Hall bei der Aufnahme ist hingegen ziemlich lästig. Technisch kann man
den zwar auch entfernen - das schafft jede 500MHz CPU in Echtzeit -,
aber in der Praxis ist es nicht leicht, erst mal das notwendige Profil
für die Entfaltungsoperation (Deconvolution) zu bekommen. Und oft ist
das auch keine Konstante, weil sich der Sprecher bewegt. Und im
Gegensatz zu unserem Ohr ist die Entfaltung sehr sensibel auf die Phase.


Marcel
gUnther nanonüm
2012-03-16 23:01:48 UTC
Permalink
Raw Message
Post by Marcel Müller
Naja, "Mein Auto fährt nicht." ist auch ein Standardproblem. Daraus zu
schließen, dass es auch eine Standardlösung dafür geben müsste, ist kühn.
Ich meine, die gibt es schon: wegschmeißen und neu machen. Aber das will
man in der Regel nicht.
Hi,
ich täte einen Profi anrufen. Aka Abschleppunternehmer :-)
--
mfg,
gUnther
Ralf . K u s m i e r z
2012-03-16 23:48:28 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Marcel Müller
Post by Ralf . K u s m i e r z
(Ich denke, daß das keine dumme Frage ist, weil es sich schließlich um
ein Standardproblem handelt. Also ist zu erwarten, daß es dafür auch
Standardlösungen gibt.)
Naja, "Mein Auto fährt nicht." ist auch ein Standardproblem. Daraus zu
schließen, dass es auch eine Standardlösung dafür geben müsste, ist
kühn.
Mein exakt beschriebenes Problem war aber nicht "das Auto fährt
nicht", sondern "der Reifen ist platt". Und dafür gibt es die
Standardlösung.
Post by Marcel Müller
Ich meine, die gibt es schon: wegschmeißen und neu machen. Aber
das will man in der Regel nicht.
Kurzum, man wird schon nach den Ursachen fahnden müssen. Und die können
wir hier ohne das Material nur aus der Glaskugel erfahren.
Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und
vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich
mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden,
wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der
Telefonstrippe haben und entzerren wollen, damit der Zuhörer was
versteht. *Das* Filter will ich. Wo kriege ich es her?
Post by Marcel Müller
Wir können die Phase nicht hören. Deshalb kann man das Signal in ein
Frequenzzspektrum mit endlicher Genauigkeit zerlegen und anders wieder
zusammenbauen. Das eigentliche, zeitabhängige Signal ist dem
ursprünglichen dann völlig unähnlich. Es hört sich aber ähnlich an.
In der Tat.
Post by Marcel Müller
Post by Ralf . K u s m i e r z
Einfach die omega-Achse strecken bringt es nicht, das gibt einen
proportionalen Shift in der Grundfrequenz.
Wieso? Wo ist da das Problem? Du musst nur gleichzeitig an der
Sampling-Rate drehen.
Erst mache ich eine Fouriertransformation, dann multipliziere ich das
Ergebnis mit einem konstanten Faktor, mache die Rücktransformation, um
dann die Abtastrate zu verändern, um die Streckung im s-Bereich wieder
rückgängig zu machen, damit genau gar kein Effekt resultiert.

Ganz toll! Und was haben wir dann gekonnt?
Post by Marcel Müller
Post by Ralf . K u s m i e r z
Und ein Band-Shift tut es
auch nicht, das gibt dann nämlich Disproportionen zwischen Grund- und
Obertönen. (Wenn ich f und 2*f auf f+df und 2*f+df abbilde, dann
bilden f+df und 2*f+df keine Oktave mehr.)
Stimmt, ganz schlecht, macht sich aber in kleinen Dosen sehr gut zur
Feedback-Vermeidung bei Sprachverstärkung.
???
Post by Marcel Müller
Post by Ralf . K u s m i e r z
Also werden wahrscheinlich viele schmale Bandabschnitte einzeln
"passend" geshiftet - ziemlich aufwendig, sowas. (Wenn man die
Wiedergabegeschwindigkeit ganz langsam macht, klingt es auch sehr
merkwürdig "hallig".)
Ja, klar. Der Hall war schon vorher da, nur hört man ihn nicht so, wenn
er schneller vorbei ist.
Ich denke, daß es ein Artefakt der Frequenzsynthese ist. Es werden
immer nur Spektrogramme von kurzen Signalabschnitten erstellt und
daraus dann das frequenzgeshiftete Signal errechnet. Das ist aber für
die gedehnte Zeit zu kurz und muß deswegen periodisch wiederholt
werden - genau das gibt den "Hall".
Post by Marcel Müller
Post by Ralf . K u s m i e r z
So ganz uninteressant ist die ganze Tontechnik nicht, aber leider habe
ich keine Zeit, mich da wirklich reinzuknien.
Wenn Dir das hilft, ist es doch gut.
Mich *nicht* damit zu befassen? Was mir helfen würde, wäre der Link
auf die Problemlösung.
Post by Marcel Müller
Langsamer abspielen ist übrigens eine gängige Methode für
Diktiervorgänge. Selbst, wenn dabei die Tonhöhe mit verändert wird, und
es deshalb komisch klingt, kann die Verständlichkeit dennoch profitieren.
Ich weiß, deswegen habe ich damit probiert. Blöderweise verlängert das
auch die Abhörzeit erheblich.
Post by Marcel Müller
Hall bei der Aufnahme ist hingegen ziemlich lästig.
Es hallt nichts in der Aufnahme, dafür war der Raum zu klein und zu
möbliert.
Post by Marcel Müller
Technisch kann man
den zwar auch entfernen - das schafft jede 500MHz CPU in Echtzeit -,
aber in der Praxis ist es nicht leicht, erst mal das notwendige Profil
für die Entfaltungsoperation (Deconvolution) zu bekommen. Und oft ist
das auch keine Konstante, weil sich der Sprecher bewegt. Und im
Gegensatz zu unserem Ohr ist die Entfaltung sehr sensibel auf die Phase.
Falls Du mein Anliegen vergessen haben solltest, schau doch einfach
nochmal in das Subject.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-17 10:07:17 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und
vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich
mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden,
wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der
Telefonstrippe haben und entzerren wollen, damit der Zuhörer was
versteht. *Das* Filter will ich. Wo kriege ich es her?
Hallo,

ein Bandpass mit Telefonbandbreite (300 Hz bis 3kHz) ist optimiert für
Sprache. Das kann man zeitsparend mit einem Equalizer in Hardware oder
durch aufwendige Nachbearbeitung per Software erledigen.


Bernd Mayer
Ralf . K u s m i e r z
2012-03-17 11:36:43 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
Post by Ralf . K u s m i e r z
Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und
vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich
mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden,
wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der
Telefonstrippe haben und entzerren wollen, damit der Zuhörer was
versteht. *Das* Filter will ich. Wo kriege ich es her?
ein Bandpass mit Telefonbandbreite (300 Hz bis 3kHz) ist optimiert für
Sprache. Das kann man zeitsparend mit einem Equalizer in Hardware oder
durch aufwendige Nachbearbeitung per Software erledigen.
Bandbegrenzt ist es doch schon. (Mehr konnte die Hardware nicht.)

Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz"
bezweifle: Männer- und Frauenstimmen können auch schon einmal eine
Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz
und 0,4-4 kHz.

Was ich brauche, ist (u. a.) Dynamikkompression bzw. ALC, evtl. noch
Clipping (die zusätzlichen Obertöne aus dem Klirren können sich
durchaus positiv auf die Verständlichkeit auswirken), sowie
Entrauschen und Entknacksen.

Wenn ich mehr Zeit und Möglichkeiten hätte, fielen mir bestimmt noch
so einige Dinge ein: Sprache besteht aus einem Grundrauschen und
darüberliegenden Tönen und Klängen (also Formanten usw.), und das kann
die GSM-Codierung auch ganz gut auseinanderfieseln, weil natürlich gar
nicht das komplette Tonspektrum übertragen wird, sondern aus
unvollständigen Spektralinformationen beim Empfänger ein relativ
künstliches Sprachsignal synthetisiert wird. Daß man trotzdem mit
Mobilen ganz gut was versteht, zeigt, daß das Verfahren was taugt.
Wenn man die entsprechenden Digitalfilter aufbohrt, könnte man damit
bestimmt auch bei so einer "versauten" Aufnahme etwas erreichen.

Bloß ist das ein so komplexer Aufwand (Größenordnung Diplomarbeit),
daß es weniger aufwendig wäre, die schlechte Aufnahme abtippen.

Ich habe aber immer noch die Hoffnung, daß sowas schon längst gemacht
wurde (mit adaptiven Systemen, an denen nicht ich herumfummeln muß,
sondern die sich selbständig optimal auf das vorhandene System
einregeln) und mir irgend jemand einen Tip geben kann, wo in den
Tiefen des Internet sowas zu finden ist. (Wenn nicht, müssen die armen
Schweine darunter leiden, die es dann trotzdem transkribieren müssen.)

Ja, es wäre natürlich besser gewesen, von vornherein bessere
Aufzeichnungen herzustellen. Aber es nützt nichts, über vergossene
Milch zu jammern. (So wahnsinnig schlecht ist die Aufnahme übrigens
gar nicht, es ist doch erstaunlich viel ganz gut zu verstehen, nur ein
paar Abschnitte sind wirklich mies.)

Haben übrigens die Hörgerätefritzen nicht sowas? Wäre doch eigentlich
naheliegend, Geräusche für Schwerhörige auf bessere
Sprachverständlichkeit aufzupeppen.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-17 12:55:44 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Post by Bernd Mayer
Post by Ralf . K u s m i e r z
Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und
vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich
mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden,
wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der
Telefonstrippe haben und entzerren wollen, damit der Zuhörer was
versteht. *Das* Filter will ich. Wo kriege ich es her?
ein Bandpass mit Telefonbandbreite (300 Hz bis 3kHz) ist optimiert für
Sprache. Das kann man zeitsparend mit einem Equalizer in Hardware oder
durch aufwendige Nachbearbeitung per Software erledigen.
Bandbegrenzt ist es doch schon. (Mehr konnte die Hardware nicht.)
Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz"
bezweifle: Männer- und Frauenstimmen können auch schon einmal eine
Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz
und 0,4-4 kHz.
Was ich brauche, ist (u. a.) Dynamikkompression bzw. ALC, evtl. noch
Clipping (die zusätzlichen Obertöne aus dem Klirren können sich
durchaus positiv auf die Verständlichkeit auswirken), sowie
Entrauschen und Entknacksen.
Hallo,

welche Hardware wurde denn eingesetzt?

Meine Version von Audacity hat u.A. Effekte für Klickfilter,
Kompressor, Leveler, Normalisieren, Rauschentfernung usw..

Woran klemmt es denn? Man muss die Effekte halt je nach Tonmaterial
einstellen und optimieren, das kann *zeitaufwendig* sein und zaubern
können die Programme auch nicht. Grundlagen und Erfahrung in
Tonbearbeitung sind dabei sicher hilfreich. Bei richtig schlechten
Aufnahmen kann selbst ein Rundfunkstudio wenig machen - da wird das dann
halt nicht gesendet.

Anleitungen zu Audacity gibt es im Netz reichlich:
http://www.google.de/search?q=Audacity+Anleitung


Bernd Mayer
Ralf . K u s m i e r z
2012-03-17 15:42:29 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
welche Hardware wurde denn eingesetzt?
Das ist im nachhinein doch ziemlich Hupe.
Post by Bernd Mayer
Meine Version von Audacity hat u.A. Effekte für Klickfilter,
Kompressor, Leveler, Normalisieren, Rauschentfernung usw..
Aha, das kann das?
Post by Bernd Mayer
Woran klemmt es denn?
An kA.
Post by Bernd Mayer
Man muss die Effekte halt je nach Tonmaterial
einstellen und optimieren, das kann *zeitaufwendig* sein
Daher suche ich die Standardlösung, die zwar nicht 99,... % optimiert,
sondern nur 85 %, aber dafür "auf Knopfdruck".
Post by Bernd Mayer
und zaubern können die Programme auch nicht.
Wird auch nicht verlangt.
Post by Bernd Mayer
Grundlagen und Erfahrung in
Tonbearbeitung sind dabei sicher hilfreich.
Hammwa nich'...
Post by Bernd Mayer
Bei richtig schlechten
Aufnahmen kann selbst ein Rundfunkstudio wenig machen - da wird das dann
halt nicht gesendet.
Es soll nicht gesendet, sondern nur transkribiert werden.
Post by Bernd Mayer
http://www.google.de/search?q=Audacity+Anleitung
Was davon ist empfehlenswert? (Ich habe Audacity 1.3.14 Beta
installiert - die Versionen unterscheiden sich jeweils - und heute
rein zufällig festgestellt, daß man einfach mit den Pfeiltasten
jeweils ein Stück vorwärts und zurück springen kann - steht natürlich
nirgendwo (bzw. habe ich es nicht gefunden). Kann man auch den Cursor
festklemmen und dann "das Band" laufenlassen? Bis jetzt läuft mir beim
Abspielen immer der Cursor von links nach rechts und blättert dann
jeweils eine Seite weiter, wenn er den rechten Rand erreicht hat - ein
bißchen lästig, wenn man das Dings vergrößert hat, um auf
Sekundenbruchteile genau zu schneiden, dann ist es nämlich immer schon
weitergesprungen, bevor ich gesehen habe, wo ich nun schneiden muß.)
Im Moment bin ich noch emsig dabei, aus mehreren Spuren des gleichen
Signals (also: von verschiedenen Standpunkten und deshalb in
unterschiedlicher Qualität aufgezeichnet) jeweils den für den
jeweiligen Sprecher optimalen Abschnitt rauszusuchen und die alle
hintereinanderzupappen für eine zusammengeschnittene Komplettversion
(wobei nervt, daß die Leute gelegentlich ein bißchen
durcheinanderquatschen - wie um Himmels willen transkribiert man das,
selbst, wenn man jeden der Sprecher verstehen kann?), und das ist
schon alles andere als spaßig.

Aber wenn ich die "Schnittversion" dann komplett habe, wäre so ein
Durchgang mit einer "Sauberputzfunktion" schon gar nicht so schlecht.

Kann durchaus sein, daß Audacity so ziemlich all das kann, was ich
brauche - nützt nur nichts, wenn ich nicht weiß, wie das geht. (Ich
hab's z. B. auch nicht hingekriegt, die Abspielgeschwindigkeit zu
verändern, obwohl es dafür rechts oben Knöpscha gibt - ist eben
scheiße dokumentiert. Und die Lokalisierung ist auch ein bißchen in
die Hose gegangen - lustiges Deutsch-Englisch-Mischmasch. EEs ist
nicht intuitiv - nein, ist es nicht.)


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-17 15:56:57 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Post by Bernd Mayer
welche Hardware wurde denn eingesetzt?
Das ist im nachhinein doch ziemlich Hupe.
Post by Bernd Mayer
Meine Version von Audacity hat u.A. Effekte für Klickfilter,
Kompressor, Leveler, Normalisieren, Rauschentfernung usw..
Aha, das kann das?
Post by Bernd Mayer
Woran klemmt es denn?
An kA.
Post by Bernd Mayer
Man muss die Effekte halt je nach Tonmaterial
einstellen und optimieren, das kann *zeitaufwendig* sein
Daher suche ich die Standardlösung, die zwar nicht 99,... % optimiert,
sondern nur 85 %, aber dafür "auf Knopfdruck".
Hallo,

dann halt auf F4 drücken: http://www.audiotranskription.de/f4.htm


Bernd Mayer
Ralf . K u s m i e r z
2012-03-17 16:10:01 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
dann halt auf F4 drücken: http://www.audiotranskription.de/f4.htm
Ja, aber das verändert das Signal doch gar nicht, sondern nur die
Abspielgeschwindigkeit - das kann VLC auch. (Und wahrscheinlich auch
Audacity.)

Taugt das: <http://manual.audacityteam.org/man/Main_Page/de> was? (Ich
blättere gerade mal drin.)


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Ralf . K u s m i e r z
2012-03-17 16:21:22 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Ralf . K u s m i e r z
Taugt das: <http://manual.audacityteam.org/man/Main_Page/de> was? (Ich
blättere gerade mal drin.)
Hm, mit den Effekt-Funktionen geht wohl eine ganze Menge, aber man muß
das alles selbst einstellen, und ich bin einfach eine ungeeignete
Referenzperson zur Beurteilung der Sache...

Gibt's denn da keine automatischen oder Standard-Einstellungen?


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-17 16:27:39 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Taugt das:<http://manual.audacityteam.org/man/Main_Page/de> was? (Ich
blättere gerade mal drin.)
Hm, mit den Effekt-Funktionen geht wohl eine ganze Menge, aber man muß
das alles selbst einstellen, und ich bin einfach eine ungeeignete
Referenzperson zur Beurteilung der Sache...
Gibt's denn da keine automatischen oder Standard-Einstellungen?
Hallo,

*nein* - weil es keine Standardaufnahmesituation (Sprecher, Lautstärke,
Störgeräusche, Mikrofon, Aufnahmegerät, Aussteuerung usw.) gibt!


Bernd Mayer
Ralf . K u s m i e r z
2012-03-18 12:08:47 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
Post by Ralf . K u s m i e r z
Gibt's denn da keine automatischen oder Standard-Einstellungen?
*nein* - weil es keine Standardaufnahmesituation (Sprecher, Lautstärke,
Störgeräusche, Mikrofon, Aufnahmegerät, Aussteuerung usw.) gibt!
Beweis durch Behauptung? Dann behaupte ich mal das Gegenteil.

(Schönes Gegenbeispiel ist die Funktion "Autokorrektur" (Shift+U) bei
IrfanView - es gibt keine "Standardbilder", aber es funktioniert
trotzdem hervorragend. Warum sollte die Funktion
"Sprachverständlichkeit optimieren" nicht genauso funktionieren? Was
zu tun ist, ist im Prinzip klar.)


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-18 12:32:41 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Post by Bernd Mayer
Post by Ralf . K u s m i e r z
Gibt's denn da keine automatischen oder Standard-Einstellungen?
*nein* - weil es keine Standardaufnahmesituation (Sprecher, Lautstärke,
Störgeräusche, Mikrofon, Aufnahmegerät, Aussteuerung usw.) gibt!
Beweis durch Behauptung? Dann behaupte ich mal das Gegenteil.
Hallo

wenn es Dir bei der Lösung hilft die Tonaufnahme mit einem
Bildbearbeitungsprogramm zu verbessern dann ist das doch OK für Dich.


Bernd Mayer
Ralf . K u s m i e r z
2012-03-18 12:45:08 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
wenn es Dir bei der Lösung hilft die Tonaufnahme mit einem
Bildbearbeitungsprogramm zu verbessern dann ist das doch OK für Dich.
Entschuldigung, ich dachte, man könnte Dich ernstnehmen.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bernd Mayer
2012-03-17 16:35:08 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
X-No-Archive: Yes
Post by Bernd Mayer
dann halt auf F4 drücken: http://www.audiotranskription.de/f4.htm
Ja, aber das verändert das Signal doch gar nicht, sondern nur die
Abspielgeschwindigkeit - das kann VLC auch. (Und wahrscheinlich auch
Audacity.)
Taugt das:<http://manual.audacityteam.org/man/Main_Page/de> was? (Ich
blättere gerade mal drin.)
Hallo,

das kannst Du nur selbst beantworten - die Antwort hängt doch stark von
den persönlichen Voraussetzungen ab (Vorkenntnisse, Sprachfertigkeit,
Verständnisfähigkeit, Sehvermögen, Motivation usw.).

Am Besten zweimal lesen!

Hier noch ein paar links:
http://www.google.de/search?q=Sprachaufnahme+Audacity+Transkription
oder entsprechend in anderen Sprachen.


Bernd Mayer
Ralf . K u s m i e r z
2012-03-18 12:04:07 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Bernd Mayer
Taugt das:<http://manual.audacityteam.org/man/Main_Page/de> was? (Ich
blättere gerade mal drin.)
das kannst Du nur selbst beantworten - die Antwort hängt doch stark von
den persönlichen Voraussetzungen ab (Vorkenntnisse, Sprachfertigkeit,
Verständnisfähigkeit, Sehvermögen, Motivation usw.).
Blubber, blubber? (Nein, es taugt nichts, ist viel zu rudimentär.)
Post by Bernd Mayer
http://www.google.de/search?q=Sprachaufnahme+Audacity+Transkription
Ist Dir wirklich nicht klar, wei schwachsinnig solche "Tips" sind,
oder willst Du mich veräppeln?


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Gerald Gruner
2012-03-17 13:06:10 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
Haben übrigens die Hörgerätefritzen nicht sowas? Wäre doch eigentlich
naheliegend, Geräusche für Schwerhörige auf bessere
Sprachverständlichkeit aufzupeppen.
Die hätte ich auch vorgeschlagen. Oder wie schon genannt Telefonhersteller
bzw. eher nicht die von Freisprechanlagen fürs Auto. Aber die verdienen
damit ihr Geld und werden ihr Kern-Know-How kaum einfach so rausgeben.

Wer einmal gehört hat, wie laut und verrauscht ein fahrendes Auto wirklich
ist, wird es erstens nicht glauben und zweitens sich wundern, dass das Ohr
der Beifahrer da überhaupt noch irgendetwas versteht und dass beim
Telefonieren auf der Gegenseite trotzdem fast nur die Stimme ankommt, nicht
das Rauschen. Ich war vor Jahren mal bei einer Vorführung von
Head-Acoustics (stehendes Auto, der "Fahrtlärm" wird per Lautsprecher
erzeugt). Wahnsinn, wie laut es dort war...

MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Ralf . K u s m i e r z
2012-03-17 15:48:16 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Gerald Gruner
Die hätte ich auch vorgeschlagen. Oder wie schon genannt Telefonhersteller
bzw. eher nicht die von Freisprechanlagen fürs Auto. Aber die verdienen
damit ihr Geld und werden ihr Kern-Know-How kaum einfach so rausgeben.
Es würde mir vollauf genügen, wenn ich denen die murksige Version
zukommen lassen könnte und dann eine in verstehbar zurückbekäme
(notfalls gegen ein paar Mäuse), aber das werden die auch nicht
machen, vermute ich. (Außerdem bin ich mir nicht so sicher, ob ich das
Zeugs eigentlich aus der Hand gegebn darf, sonst hätte ich schonmal
ein paar Hörproben hochgeladen.)
Post by Gerald Gruner
Wer einmal gehört hat, wie laut und verrauscht ein fahrendes Auto wirklich
ist, wird es erstens nicht glauben und zweitens sich wundern, dass das Ohr
der Beifahrer da überhaupt noch irgendetwas versteht und dass beim
Telefonieren auf der Gegenseite trotzdem fast nur die Stimme ankommt, nicht
das Rauschen. Ich war vor Jahren mal bei einer Vorführung von
Head-Acoustics (stehendes Auto, der "Fahrtlärm" wird per Lautsprecher
erzeugt). Wahnsinn, wie laut es dort war...
Ich bezweifle nicht, daß es Leute "mit Ahnung" gibt. Nützt *mir* im
konkreten Fall nur nichts...


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Volker Gringmuth
2012-03-17 13:41:49 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz"
bezweifle: Männer- und Frauenstimmen können auch schon einmal eine
Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz
und 0,4-4 kHz.
Klassische Telefonie arbeitet im Bereich von exakt 300 bis 3400 Hz. Ohne
Rücksicht auf Geschlecht und Stimmlage des Sprechers. Das kannst du doof
finden, es ist aber so :-)


vG
Ralf . K u s m i e r z
2012-03-17 15:54:32 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Volker Gringmuth
Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz"
bezweifle: Männer- und Frauenstimmen können auch schon einmal eine
Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz
und 0,4-4 kHz.
Klassische Telefonie arbeitet im Bereich von exakt 300 bis 3400 Hz. Ohne
Rücksicht auf Geschlecht und Stimmlage des Sprechers. Das kannst du doof
finden, es ist aber so :-)
Ok: Ich finde es doof, aber es ist so...

(Meine Aufnahmen gehen angeblich bis 4,5 kHz - "gefühlt" ist es
weniger, eher "klassisches Telefon", aber ich habe nicht gemessen. ...
Wie messe ich das denn? Audacity kann doch Testtöne erzeugen, kann es
nicht? Die könnte ich dann akustisch aufnehmen und das Zeugs hochladen
zum Beschnüffeln - nützt aber auch wieder nichts, weil ich den
Frequenzgang von meinen Spielzeuglautsprechern hier nicht kenne und
man also bestenfalls das Produkt der Frequenzgänge aus Wiedergabe- und
Aufnahmeeinheit ermitteln könnte. Hach, ist das kompliziert...)


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Wolfgang Sörgel
2012-03-17 19:51:37 UTC
Permalink
Raw Message
On Fri, 16 Mar 2012 20:03:28 +0100, Ralf . K u s m i e r z wrote:

[...]
Post by Ralf . K u s m i e r z
Post by Marcel Müller
Was
allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst
und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B.
Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch
Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke
stark schwankt. Aber wenn die Höhen für die Differenzierung der
Zischlaute weg sind, kommen sie durch reindrehen auch nicht wieder.
Schön. Und wie mache ich das nun? Heißt: Was ist das fertige Werkzeug
dafür?
Audacity bietet schon ein paar Möglichkeiten. Genau genommen bin ich
gerade (habs mal eben gestartet) erstaunt, wie viele Dinge da sind.
Alternativ kommerziell Adobe Audition. Braucht aber wohl ebenso
Grundkenntnisse im Audiobereich und ein wenig Einarbeitung.

Persönlich würde ich mir die Tools selbst mit Matlab/Simulink (oder freien
Alternative wie Scilab oder Octave) oder auch in C/C++ selbst machen,
aber für mich ist das halt kein Hobby.
Post by Ralf . K u s m i e r z
Interessante Beobachtung am Rande: Mit VLC kann man die
Wiedergabegeschwindigkeit verändern. Interessanteweise geht das aber
ohne Frequenzshift, d. h. das Programm transponiert die Tonhöhe passend,
so daß die Änderung der Abspielgeschwindigkeit ausgeglichen wird. Das
ist aber nun alles andere als trivial: Damit ändert sich nämlich das
Zeitverhältnis zwischen Hüllkurve und moduliertem Ton, d. h. es gehen
mehr oder weniger Schwingungen auf einen Hüllkurvenabschnitt. Ich wüßte
nicht, wie man sowas programmiert.
Für eine Möglichkeit siehe z.B.
http://www.lms.lnt.de/publications/lnt/lnt1997_2.ps.gz
@INPROCEEDINGS{lnt1997-2,
author = {A. Stenger and R. Rabenstein and B. Girod},
title = {Fehlerverschleierung für paketierte Sprachübertragung
durch Zeitdehnung und Phasenanpassung},
booktitle = {9. Aachener Kolloquium },
year = {1997},
month = {March},
file = {lnt1997-2:http\://www.lms.lnt.de/publications/lnt/
lnt1997_2.pdf:PDF}
}

Wolfgang
Leo Baumann
2012-03-16 21:31:00 UTC
Permalink
Raw Message
Post by Ralf . K u s m i e r z
Ich ärgere mich gerade mit Transkriptionen herum. Es gibt
Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch
ausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es ist
ab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Frage
an die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o.
ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die
Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,
Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es
soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst
verständlich.
Tontechnik ist irgendwie nicht so meines, aber ich kann die
Rohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, die
tippen werden, habe ich schon gefunden), und gescheite Anleitungen
habe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann man
Bereiche markieren - unglücklicherweise nur nach ganzzahligen
Sekunden, obwohl die Trennstellen manchmal schon sinnvoll auf
Sekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen
"Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wenn
irgendwelche fleißigen Leuten ein ganz offensichtlich ziemlich
raffiniertes Programm mit vielen ausgeklügelten Funktionen stricken,
aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zu
verpassen, die ich auch kapiere.)
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.
Ich sehe als Möglichkeit nur die extreme Überabtastung des Signals zwecks
Rauschreduzierung. Naja und dann vielleicht noch einen guten Equilizer.
Ansonsten sind die Möglichkeiten schon theoretisch beschränkt.

mfG Leo
Wolfgang Sörgel
2012-03-17 20:35:58 UTC
Permalink
Raw Message
Post by Leo Baumann
Post by Ralf . K u s m i e r z
Ich ärgere mich gerade mit Transkriptionen herum. Es gibt
Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch
[...]
Post by Leo Baumann
Post by Ralf . K u s m i e r z
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf
eine Spracherkennung geben - keine Chance.
;-)
Post by Leo Baumann
Ich sehe als Möglichkeit nur die extreme Überabtastung des Signals
zwecks Rauschreduzierung.
Wie soll das funktionieren?
Post by Leo Baumann
Naja und dann vielleicht noch einen guten Equilizer.
Herausfiltern von einzelnen Störern bekannter Frequenz oder von Bereichen
mit wenig Sprachinformation, aber Störung (also z.B. unterhalb 50...400
Hz und oberhalb von irgendwo ab gut 3 kHz) kann tatsächlch helfen, muss
man halt mit dem gegebenen Signal ausprobieren.
Post by Leo Baumann
Ansonsten sind die Möglichkeiten schon theoretisch beschränkt.
Zumindest gibt es aktuell keine einkanaligen (== 1 Mikrofon)
Störgeräuschreduktionsalgorithmen, die bei grundsätzlich unbekanntem /
nur statistisch beschriebenen Störgeräusch das Sprachverstehen
signifikant messbar verbessern. Wohl aber welche, deren Ergebnis von
Hörern bevorzugt wird und die die Höranstrengung mindern.

Hat man mehr Informationen über das Störgeräusch, so kann man auch mehr
machen...
Gerald Gruner
2012-03-17 21:01:31 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
Zumindest gibt es aktuell keine einkanaligen (== 1 Mikrofon)
Störgeräuschreduktionsalgorithmen, die bei grundsätzlich unbekanntem /
nur statistisch beschriebenen Störgeräusch das Sprachverstehen
signifikant messbar verbessern. Wohl aber welche, deren Ergebnis von
Hörern bevorzugt wird und die die Höranstrengung mindern.
Ich hätte jetzt vermutet, jede handelsübliche Freisprecheinrichtung fürs
Auto tut genau das.

@Ralf, wilde Idee:
Wenn deine Aufnahme ein ähnlich verrauschtes Signal ist und du vielleicht
solch eine Freisprechanlage hast, speise doch mal deine Aufnahmen dort in
den Mikrofoneingang ein und lausche am fernen Ende, was dort ankommt. Wie
gesagt, Autotelefone müssen bei Rauschunterdrückung kleine Wunder bewirken,
wenn du auf der Gegenseite überhaupt etwas verstehen willst.

MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Wolfgang Sörgel
2012-03-17 22:18:58 UTC
Permalink
Raw Message
Post by Gerald Gruner
Post by Wolfgang Sörgel
Zumindest gibt es aktuell keine einkanaligen (== 1 Mikrofon)
Störgeräuschreduktionsalgorithmen, die bei grundsätzlich unbekanntem /
nur statistisch beschriebenen Störgeräusch das Sprachverstehen
signifikant messbar verbessern. Wohl aber welche, deren Ergebnis von
Hörern bevorzugt wird und die die Höranstrengung mindern.
Ich hätte jetzt vermutet, jede handelsübliche Freisprecheinrichtung fürs
Auto tut genau das.
Primärer Bestandteil so einer Freisprecheinrichtung ist die
Echounterdrückung, die verhindert, dass das lokal aufgenommene Signal
eine Rundreise via fernem Ende macht.

Daneben sind dann potentiell je nach Ausführung weitere Dinge drin:
Einkanalige Störgeräuschreduktion (siehe oben), mehrere Mikrophone/
Richtmikrophone/Beamformer (so was kann die Sprachverständlichkeit in der
Tat verbessern), Sprachaktivitätserkennung, adaptive Lautstärkeregelung
abhängig vom Umgebungsrauschen oder was auch immer, ggf. auch AGC/
Kompression,...

Im Auto kann man einiges an Information über die lokale akustische
Situation nutzen: Grundsätzlich ist Autolärm relativ stationär und
tieffrequent. Bei Festeinbauten kennt man sogar die Motordrehzahl, hat
relativ genaue Kenntnisse über die akustische Situation, z.B. Hall,
Position des Fahrers relativ zu den Mikrophonen,.... All das hilft
potentiell.

Servus
Wolfgang
Gerald Gruner
2012-03-18 13:09:37 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
Post by Gerald Gruner
Post by Wolfgang Sörgel
Zumindest gibt es aktuell keine einkanaligen (== 1 Mikrofon)
Störgeräuschreduktionsalgorithmen, die bei grundsätzlich unbekanntem /
nur statistisch beschriebenen Störgeräusch das Sprachverstehen
signifikant messbar verbessern. Wohl aber welche, deren Ergebnis von
Hörern bevorzugt wird und die die Höranstrengung mindern.
Ich hätte jetzt vermutet, jede handelsübliche Freisprecheinrichtung fürs
Auto tut genau das.
Primärer Bestandteil so einer Freisprecheinrichtung ist die
Echounterdrückung, die verhindert, dass das lokal aufgenommene Signal
eine Rundreise via fernem Ende macht.
Damit erzählst du mir nichts neues. Ich habe vor einigen Jahren in dem
Bereich gearbeitet.
Nur ist das Thema dieses Threades nicht dein nachgeschobenes Echo, sondern
Störgeräusche und deine unsinnige Behauptung oben, es gäb solche
Algorithmen nicht einkanalig bei unbekanntem, statistisch beschriebenem
Störgeräusch. Im Auto (und vermutlich auch in den meisten Handys) gibt es
diese seit vielen Jahren für jedermann zu kaufen.
Post by Wolfgang Sörgel
Einkanalige Störgeräuschreduktion (siehe oben), mehrere Mikrophone/
Richtmikrophone/Beamformer (so was kann die Sprachverständlichkeit in der
Tat verbessern), Sprachaktivitätserkennung, adaptive Lautstärkeregelung
abhängig vom Umgebungsrauschen oder was auch immer, ggf. auch AGC/
Kompression,...
Im Auto kann man einiges an Information über die lokale akustische
Situation nutzen: Grundsätzlich ist Autolärm relativ stationär und
tieffrequent. Bei Festeinbauten kennt man sogar die Motordrehzahl, hat
relativ genaue Kenntnisse über die akustische Situation, z.B. Hall,
Position des Fahrers relativ zu den Mikrophonen,.... All das hilft
potentiell.
Potentiell gibt es das alles je nach Fahrzeug und Ausstattung.
Die zu filternden Störgeräusche sind trotzdem weitgehend nur statistisch zu
beschreiben und einkanalig.
Und die Ergebnisse der modernen Filteralgorithmen sind beeindruckend.

BTW: Entscheide dich für eine Variante.
Geht es jetzt auf einmal doch oder immer noch nicht?
Oder ist das oben dein stillschweigendes Zurückrudern?
Dann meinetwegen Schwamm drüber...

MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Wolfgang Sörgel
2012-03-22 22:55:20 UTC
Permalink
Raw Message
On Sun, 18 Mar 2012 14:09:37 +0100, Gerald Gruner wrote:

[...]
Post by Gerald Gruner
Nur ist das Thema dieses Threades nicht dein nachgeschobenes Echo,
sondern Störgeräusche und deine unsinnige Behauptung oben, es gäb solche
Algorithmen nicht einkanalig bei unbekanntem, statistisch beschriebenem
Störgeräusch. Im Auto (und vermutlich auch in den meisten Handys) gibt
es diese seit vielen Jahren für jedermann zu kaufen.
Natürlich gibt es einkanalige Störgeräuschreduktionsalgorithmen und diese
sind auch nützlich im Sinne verbesserter Benutzerakzeptanz / subjektive
Verbesserung. Nur wenn es um harte Daten zum Sprachverstehen bzw. dessen
Verbesserung geht, nachgewiesen z.B. durch entsprechende Satz- oder
Logatomtests helfen die eben nicht signifikant.

[...]
Post by Gerald Gruner
Post by Wolfgang Sörgel
Im Auto kann man einiges an Information über die lokale akustische
Situation nutzen: Grundsätzlich ist Autolärm relativ stationär und
tieffrequent. Bei Festeinbauten kennt man sogar die Motordrehzahl, hat
relativ genaue Kenntnisse über die akustische Situation, z.B. Hall,
Position des Fahrers relativ zu den Mikrophonen,.... All das hilft
potentiell.
Potentiell gibt es das alles je nach Fahrzeug und Ausstattung. Die zu
filternden Störgeräusche sind trotzdem weitgehend nur statistisch zu
beschreiben und einkanalig.
Und die Ergebnisse der modernen Filteralgorithmen sind beeindruckend.
Beeindruckende Demos sind das eine. Wirklich verbesserte
Sprachverständlichkeit (und darum ging es dem OP ja primär, wobei ein
"angenehmener" Klang sicher auch OK ist, wenn man sich Dinge sehr lang
anhören muss) das andere. Und für letzteres brauche ich eben entweder
Kenntniss über die akustische Szene oder muss diese ermitteln und primär
mehrere Mikrofone==Beamformer/Richtmikrofon (im Auto übrigens gar nicht
so selten) oder genauere Kenntnis über das Störgeräusch. Letzteres hat ja
scheinbar dem OP dann doch geholfen mittels einfacher Methoden ans Zeil
zu kommen.
Post by Gerald Gruner
BTW: Entscheide dich für eine Variante. Geht es jetzt auf einmal doch
oder immer noch nicht? Oder ist das oben dein stillschweigendes
Zurückrudern? Dann meinetwegen Schwamm drüber...
Ich bleib einfach dabei.

Servus
Wolfgang
Gerald Gruner
2012-03-24 15:31:13 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
[...]
Post by Gerald Gruner
Nur ist das Thema dieses Threades nicht dein nachgeschobenes Echo,
sondern Störgeräusche und deine unsinnige Behauptung oben, es gäb solche
Algorithmen nicht einkanalig bei unbekanntem, statistisch beschriebenem
Störgeräusch. Im Auto (und vermutlich auch in den meisten Handys) gibt
es diese seit vielen Jahren für jedermann zu kaufen.
Natürlich gibt es einkanalige Störgeräuschreduktionsalgorithmen
Ah ja, jetzt auf einmal doch... ;-)
Post by Wolfgang Sörgel
und diese
sind auch nützlich im Sinne verbesserter Benutzerakzeptanz / subjektive
Verbesserung. Nur wenn es um harte Daten zum Sprachverstehen bzw. dessen
Verbesserung geht, nachgewiesen z.B. durch entsprechende Satz- oder
Logatomtests helfen die eben nicht signifikant.
Nunja, ich erlebe im Auto mit der Freisprechanlage jeden Tag gegenteiliges.
Aber meinetwegen kannst du bei deiner Überzeugung bleiben.
Post by Wolfgang Sörgel
[...] Und für letzteres brauche ich eben entweder
Kenntniss über die akustische Szene oder muss diese ermitteln und primär
mehrere Mikrofone==Beamformer/Richtmikrofon (im Auto übrigens gar nicht
so selten)
Beamformer sind da sogar *sehr* selten.
Und die Wirkung der Richtcharakteristik der Einzelmikrofone wird stark
überschätzt, da diese zum einen mechanisch sehr klein sind und sich zum
anderen in dem engen, umschlossenen Volumen des Fahrzeuginnenraums die
Keulen kaum richtig ausbilden und von überall her Reflektionen des
Störschalls (Umgebungsgeräusche, Fahrzeuglärm, Beifahrer, ...) kommen. Das
Auto ist kein Freifeld.
Post by Wolfgang Sörgel
oder genauere Kenntnis über das Störgeräusch.
Diese Kenntnis braucht man vorallem zur Echoreduktion. Die geht ohne ein
Referenzsignal vom fernen Ende gar nicht.
Post by Wolfgang Sörgel
Ich bleib einfach dabei.
Gerne.
Ich ebenfalls... ;-)

MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Wolfgang Sörgel
2012-04-02 23:03:39 UTC
Permalink
Raw Message
[...]
Post by Gerald Gruner
Post by Wolfgang Sörgel
Natürlich gibt es einkanalige Störgeräuschreduktionsalgorithmen
Ah ja, jetzt auf einmal doch... ;-)
Nein, so weit schon immer...
Post by Gerald Gruner
Post by Wolfgang Sörgel
und diese
sind auch nützlich im Sinne verbesserter Benutzerakzeptanz / subjektive
Verbesserung. Nur wenn es um harte Daten zum Sprachverstehen bzw.
dessen Verbesserung geht, nachgewiesen z.B. durch entsprechende Satz-
oder Logatomtests helfen die eben nicht signifikant.
Nunja, ich erlebe im Auto mit der Freisprechanlage jeden Tag
gegenteiliges. Aber meinetwegen kannst du bei deiner Überzeugung
bleiben.
Du emfindest die Anlage in deinem Auto subjektiv als gut. Schön, freut
mich. Nur damit ist weder gezeigt, dass du besser verstehst, noch ist
dies statistisch signifikant. Teste das mal wirklich, mit ausreichend
Testpersonen usw.
Post by Gerald Gruner
Post by Wolfgang Sörgel
[...] Und für letzteres brauche ich eben entweder Kenntniss über die
akustische Szene oder muss diese ermitteln und primär mehrere
Mikrofone==Beamformer/Richtmikrofon (im Auto übrigens gar nicht so
selten)
Beamformer sind da sogar *sehr* selten. Und die Wirkung der
Richtcharakteristik der Einzelmikrofone wird stark überschätzt, da diese
zum einen mechanisch sehr klein sind und sich zum anderen in dem engen,
umschlossenen Volumen des Fahrzeuginnenraums die Keulen kaum richtig
ausbilden und von überall her Reflektionen des Störschalls
(Umgebungsgeräusche, Fahrzeuglärm, Beifahrer, ...) kommen. Das Auto ist
kein Freifeld.
Beamformer rechnet man üblicherweise aus mehreren omnidirektionalen
Mikrophonen. Und das funktioniert auch in komplizierteren Umgebungen recht
gut, wenngleich nicht so ideal wie im Freifeld. In dem Bereich, in dem
ich mich auskenne sind Beamformer DAS Mittel der Wahl, um
Sprachverständlichkeit zu verbessern (und darauf kommt es da wirklich
an).
Im Consumer / KFZ - Bereich kenne ich die Produktseite nicht so genau.
Aber so weit ich es kenne, werden auch dort Mikrophon-Arrays praktisch
eingesetzt, siehe z.b. http://www.dss.tf.uni-kiel.de/publications/patents/
patents/ep000001850640b1_all_pages.pdf oder http://www.dss.tf.uni-kiel.de/
publications/patents/patents/ep000001695873b1_all_pages.pdf (beide recht
willkürlich herausgegriffen).

Servus
Wiolfgang
Gerald Gruner
2012-04-03 21:22:53 UTC
Permalink
Raw Message
[...]
Post by Wolfgang Sörgel
Post by Gerald Gruner
Post by Wolfgang Sörgel
sind auch nützlich im Sinne verbesserter Benutzerakzeptanz / subjektive
Verbesserung. Nur wenn es um harte Daten zum Sprachverstehen bzw.
dessen Verbesserung geht, nachgewiesen z.B. durch entsprechende Satz-
oder Logatomtests helfen die eben nicht signifikant.
Nunja, ich erlebe im Auto mit der Freisprechanlage jeden Tag
gegenteiliges. Aber meinetwegen kannst du bei deiner Überzeugung
bleiben.
Du emfindest die Anlage in deinem Auto subjektiv als gut. Schön, freut
mich. Nur damit ist weder gezeigt, dass du besser verstehst, noch ist
dies statistisch signifikant. Teste das mal wirklich, mit ausreichend
Testpersonen usw.
Da ich außerdem weiß, wie unglaublich und nahezu völlig unverständlich
schlecht die Verständigung bei einer defekten Freisprechanlage ohne
Noise-Reduktion ist, glaube ich weiterhin, dass es funktionierende,
einkanalige Filteralgos gibt, die die Verständlichkeit von Sprache in stark
gestörter Umgebung *drastisch* verbessern.
Ich verstehe nicht, wieso du dich so sehr dagegen wehrst.
Post by Wolfgang Sörgel
Post by Gerald Gruner
Post by Wolfgang Sörgel
[...] Und für letzteres brauche ich eben entweder Kenntniss über die
akustische Szene oder muss diese ermitteln und primär mehrere
Mikrofone==Beamformer/Richtmikrofon (im Auto übrigens gar nicht so
selten)
Beamformer sind da sogar *sehr* selten. Und die Wirkung der
Richtcharakteristik der Einzelmikrofone wird stark überschätzt, da diese
zum einen mechanisch sehr klein sind und sich zum anderen in dem engen,
umschlossenen Volumen des Fahrzeuginnenraums die Keulen kaum richtig
ausbilden und von überall her Reflektionen des Störschalls
(Umgebungsgeräusche, Fahrzeuglärm, Beifahrer, ...) kommen. Das Auto ist
kein Freifeld.
Beamformer rechnet man üblicherweise aus mehreren omnidirektionalen
Mikrophonen. Und das funktioniert auch in komplizierteren Umgebungen recht
gut, wenngleich nicht so ideal wie im Freifeld. In dem Bereich, in dem
ich mich auskenne sind Beamformer DAS Mittel der Wahl, um
Sprachverständlichkeit zu verbessern (und darauf kommt es da wirklich
an).
Im Consumer / KFZ - Bereich kenne ich die Produktseite nicht so genau.
Aha, das könnte es sein. ;-)
Vielleicht liegt unser gegenseitiges Problem schlicht daran, dass du von
einem anderen Bereich schreibst als ich?
Post by Wolfgang Sörgel
Aber so weit ich es kenne, werden auch dort Mikrophon-Arrays praktisch
eingesetzt,
Mercedes war IIRC so ziemlich der einzige, der das mal in seinen
Innenspiegel integriert hat.
Netto war der Effekt kaum besser als ein besser platziertes konventionelles
Miktrofon, dafür aber 20mal so teuer.
Post by Wolfgang Sörgel
siehe z.b. http://www.dss.tf.uni-kiel.de/publications/patents/
patents/ep000001850640b1_all_pages.pdf oder http://www.dss.tf.uni-kiel.de/
publications/patents/patents/ep000001695873b1_all_pages.pdf (beide recht
willkürlich herausgegriffen).
Verzeih mir, wenn ich die jetzt nicht lese.
Dass Unis an allem möglichen forschen, bestreite ich ja nicht, nur dass es
real in nennenswertem Umfang heutigen Fahrzeugen eingesetzt wird.


MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Wolfgang Sörgel
2012-04-08 23:06:31 UTC
Permalink
Raw Message
[...]
Post by Gerald Gruner
Da ich außerdem weiß, wie unglaublich und nahezu völlig unverständlich
schlecht die Verständigung bei einer defekten Freisprechanlage ohne
Noise-Reduktion ist, glaube ich weiterhin, dass es funktionierende,
einkanalige Filteralgos gibt, die die Verständlichkeit von Sprache in
stark gestörter Umgebung *drastisch* verbessern. Ich verstehe nicht,
wieso du dich so sehr dagegen wehrst.
Vielleicht, weil selbst schon mal den Unterschied zwischen subjektiver
und objektiver Leistung von tatsächlich in Produkten verwendeten
Algorithmen bzw. der Situation mit "Algorithmus an" vs. "Algorithmus aus"
getestet habe?

[...]
Post by Gerald Gruner
Vielleicht liegt unser gegenseitiges Problem schlicht daran, dass du von
einem anderen Bereich schreibst als ich?
Post by Wolfgang Sörgel
Aber so weit ich es kenne, werden auch dort Mikrophon-Arrays praktisch
eingesetzt,
Mercedes war IIRC so ziemlich der einzige, der das mal in seinen
Innenspiegel integriert hat.
Netto war der Effekt kaum besser als ein besser platziertes
konventionelles Miktrofon, dafür aber 20mal so teuer.
Post by Wolfgang Sörgel
siehe z.b. http://www.dss.tf.uni-kiel.de/publications/patents/
patents/ep000001850640b1_all_pages.pdf oder
http://www.dss.tf.uni-kiel.de/
publications/patents/patents/ep000001695873b1_all_pages.pdf (beide
recht willkürlich herausgegriffen).
Verzeih mir, wenn ich die jetzt nicht lese. Dass Unis an allem möglichen
forschen, bestreite ich ja nicht, nur dass es real in nennenswertem
Umfang heutigen Fahrzeugen eingesetzt wird.
Die Links verweisen auf Patente einer kommerziellen Firma (Harman Becker
Automotive), die möglicherweise durchaus Verbindungen zum von dir
angeführten Autombilhersteller hat / hatte. Die Links über die Uni kommen
nur daher, dass einer der Erfinder mittlerweile dort lehrt und forscht
(was ich wusste und daher dort die Links leicht fand).

Neben vielen anderen interessanten (durchaus nicht verkehrten, aber
natürlch "marketing colored" Aussagen findet sich u.a folgendes am Ende
von http://www.audience.com/technology/casa.php:
"But before these processes can take place, the sound signals collected
by the two microphones and arriving to the earSmart voice processor must
be digitized and then transformed to the frequency domain."

-> two microphones <-

Ein Prozessor dieser Firma findet sich z.B. u.a. im IPhone. Deren
Technologie allgemein ist vernünftig, geschickt verpackt und vermarktet,
aber, so weit man es von außen beurteilen kann, nicht völlig revolutionär.

VG
Wolfgang
Gerald Gruner
2012-04-11 11:55:39 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
[...]
Post by Gerald Gruner
Da ich außerdem weiß, wie unglaublich und nahezu völlig unverständlich
schlecht die Verständigung bei einer defekten Freisprechanlage ohne
Noise-Reduktion ist, glaube ich weiterhin, dass es funktionierende,
einkanalige Filteralgos gibt, die die Verständlichkeit von Sprache in
stark gestörter Umgebung *drastisch* verbessern. Ich verstehe nicht,
wieso du dich so sehr dagegen wehrst.
Vielleicht, weil selbst schon mal den Unterschied zwischen subjektiver
und objektiver Leistung von tatsächlich in Produkten verwendeten
Algorithmen bzw. der Situation mit "Algorithmus an" vs. "Algorithmus aus"
getestet habe?
Dann bitte erläutere dem unwissenden Laien, was an den Varianten "verstehe
ich nicht" vs. "verstehe ich recht gut" für deine hohen Ansprüche nicht
objektiv genug ist?
Post by Wolfgang Sörgel
[...]
Post by Gerald Gruner
Vielleicht liegt unser gegenseitiges Problem schlicht daran, dass du von
einem anderen Bereich schreibst als ich?
Post by Wolfgang Sörgel
Aber so weit ich es kenne, werden auch dort Mikrophon-Arrays praktisch
eingesetzt,
Mercedes war IIRC so ziemlich der einzige, der das mal in seinen
Innenspiegel integriert hat.
Netto war der Effekt kaum besser als ein besser platziertes
konventionelles Miktrofon, dafür aber 20mal so teuer.
Post by Wolfgang Sörgel
siehe z.b. http://www.dss.tf.uni-kiel.de/publications/patents/
patents/ep000001850640b1_all_pages.pdf oder
http://www.dss.tf.uni-kiel.de/
publications/patents/patents/ep000001695873b1_all_pages.pdf (beide
recht willkürlich herausgegriffen).
Verzeih mir, wenn ich die jetzt nicht lese. Dass Unis an allem möglichen
forschen, bestreite ich ja nicht, nur dass es real in nennenswertem
Umfang heutigen Fahrzeugen eingesetzt wird.
Die Links verweisen auf Patente einer kommerziellen Firma (Harman Becker
Automotive), die möglicherweise durchaus Verbindungen zum von dir
angeführten Autombilhersteller hat / hatte.
Mittlerweile nur noch Harman. Und die haben wohl zu den meisten hiesigen
Herstellern mehr oder weniger gute Beziehungen.
Post by Wolfgang Sörgel
Die Links über die Uni kommen
nur daher, dass einer der Erfinder mittlerweile dort lehrt und forscht
(was ich wusste und daher dort die Links leicht fand).
Ich kenne sogar einen der Einreicher.
Das mag ja alles sein. Nur was erwartest du jetzt von mir? Soll ich alle
Patente von vorne bis hinten durchlesen und dann erraten, auf welchen der
vielen Ansprüche du eigentlich beziehst und was du damit eigentlich sagen
willst?
Sagt es doch einfach direkt. OK?
Post by Wolfgang Sörgel
Neben vielen anderen interessanten (durchaus nicht verkehrten, aber
natürlch "marketing colored" Aussagen findet sich u.a folgendes am Ende
"But before these processes can take place, the sound signals collected
by the two microphones and arriving to the earSmart voice processor must
be digitized and then transformed to the frequency domain."
-> two microphones <-
Seufz. Und wieder ein neuer Link...
Habe ich jemals bezweifelt, dass zwei Mikrofone *möglich* sind?
Ich weiß nur, dass sie (außer bei bestimmten Mercedes-Modellen) im
Automobilbereich nicht als Array/Beamformer eingesetzt werden und auch
nicht viel (!= gar nichts) bringen, nur teurer sind.
Dass eine Firma wie Harman das untersucht und patentiert, um es bei Bedarf
aus der Schublade zu holen, ist doch logisch.
Post by Wolfgang Sörgel
Ein Prozessor dieser Firma findet sich z.B. u.a. im IPhone. Deren
Technologie allgemein ist vernünftig, geschickt verpackt und vermarktet,
aber, so weit man es von außen beurteilen kann, nicht völlig revolutionär.
Seufz^2. Das ist wieder eine andere Anwednung.
Nochmals gaaaanz laaaangsaaaammmm zum Mitlesen: Ja, es gibt Mikrofonarrays
und Beamformer, ja, sie funktionieren in bestimmtem Umfeld ganz gut, und
nein, im Automobilbereich bringen sie nicht so viel und werden daher
derzeit nicht breitflächig eingesetzt.

MfG
Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
Leo Baumann
2012-03-17 23:13:02 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
Post by Leo Baumann
Ich sehe als Möglichkeit nur die extreme Überabtastung des Signals
zwecks Rauschreduzierung.
Wie soll das funktionieren?
Das ist doch aus der digitalen Signalverarbeitung bekannt. Siehe: FFT,
Schnelle Fourier-Transformation, Anwendungen, 6. Auflage, Oldenbourg Verlag,
E.O. Brigham

Bei Überabtastung verteilt sich das Rauschen des Signalkanals auf den
Frequenzbereich des jetzt redundant in mehreren Frequenzlagen erscheinenden
Signals, wird also kleiner.

mfG Leo
Heinrich Pfeifer
2012-03-18 09:08:45 UTC
Permalink
Raw Message
Post by Leo Baumann
Post by Wolfgang Sörgel
Post by Leo Baumann
Ich sehe als Möglichkeit nur die extreme Überabtastung des Signals
zwecks Rauschreduzierung.
Wie soll das funktionieren?
Das ist doch aus der digitalen Signalverarbeitung bekannt. Siehe: FFT,
Schnelle Fourier-Transformation, Anwendungen, 6. Auflage, Oldenbourg Verlag,
E.O. Brigham
Bei Überabtastung verteilt sich das Rauschen des Signalkanals auf den
Frequenzbereich des jetzt redundant in mehreren Frequenzlagen erscheinenden
Signals, wird also kleiner.
nein, nein, nein.

Die erwähnte "extreme Überabtastung" wird bei Delta-Sigma-Wandlern
angewendet, um das Quantisierungsrauschen zu reduzieren - also das
Rauschen, das durch die AD-Umsetzung hinzukommt.

Es hilft aber überhaupt nicht, um Rauschen, das bereits im
Originalsignal enthalten ist, zu reduzieren. Dieses Rauschen ist
Bestandteil des Signals.
--
Heinrich
mail: new<at>gartrip.de
Leo Baumann
2012-03-20 00:18:37 UTC
Permalink
Raw Message
Post by Heinrich Pfeifer
nein, nein, nein.
o.k. dann steht Quatsch in meinen wissenschaftl. Büchern ...

lies: Brigham, Oldenbourg-Verlag

mfG Leo
Leo Baumann
2012-03-20 00:35:15 UTC
Permalink
Raw Message
Es hilft aber überhaupt nicht, um Rauschen, das bereits im Originalsignal
enthalten ist, zu reduzieren. Dieses Rauschen ist Bestandteil des Signals.
E.O. Brigham, FFT-Anwendungen, Oldenbourg-Verlag

Kapitel 14.3 Signaldetektion mit Hilfe der FFT/Signaldetektion durch
Steigerung des Auflösungsvermögen der FFT/Oversampling, Seite 366

Zitat:

Um das Vorhandensein eines Signals mit einer größeren Sicherheit feststellen
zu können, müssen wir die Energie des Rauschens auf eine größere Anzahl von
Frequenzpunkten verteilen. Darum erhöhen wir die FFT-Stützstellen auf N= ...
und zeigen in Bild 14-13c die Ergebnisse. Nun ist im Rauschspektrum ein
Signal klar zu identifizieren. ...

schönen Tag noch ...

mfG Leo
Heinrich Pfeifer
2012-03-20 17:55:33 UTC
Permalink
Raw Message
Post by Leo Baumann
Es hilft aber überhaupt nicht, um Rauschen, das bereits im Originalsignal
enthalten ist, zu reduzieren. Dieses Rauschen ist Bestandteil des Signals.
E.O. Brigham, FFT-Anwendungen, Oldenbourg-Verlag
Kapitel 14.3 Signaldetektion mit Hilfe der FFT/Signaldetektion durch
Steigerung des Auflösungsvermögen der FFT/Oversampling, Seite 366
Um das Vorhandensein eines Signals mit einer größeren Sicherheit feststellen
zu können, müssen wir die Energie des Rauschens auf eine größere Anzahl von
Frequenzpunkten verteilen. Darum erhöhen wir die FFT-Stützstellen auf N= ...
und zeigen in Bild 14-13c die Ergebnisse. Nun ist im Rauschspektrum ein
Signal klar zu identifizieren. ...
schönen Tag noch ...
mfG Leo
das ist nochmal was anderes. Ich war in meiner letzten Antwort davon
ausgegangen, du meintest das Oversampling alleine, wie bei den
Delta-Sigma-Wandlern.

Nun kommst du aber mit schmalbandiger Selektion durch eine FFT hoher
Auflösung. Klar, durch schmalbandiges Filtern (egal ob mit FFT oder mit
Bandpass) kann man ein *schmalbandiges* Signal, z.B. ein Sinussignal,
auch bei starkem Rauschsignal detektieren, selbst wenn das Rauschen
ursprünglich weit stärker ist als das Sinussignal.

Hier sprechen wir aber nicht vom Identifizieren eines schmalbandigen
Sinus, sondern von einem Sprachsignal, und dieses ist bereits so
breitbandig wie das störende Rauschen. Keine Chance mit dieser Methode.
--
Heinrich
mail: new<at>gartrip.de
Leo Baumann
2012-03-20 19:50:13 UTC
Permalink
Raw Message
Post by Heinrich Pfeifer
Hier sprechen wir aber nicht vom Identifizieren eines schmalbandigen
Sinus, sondern von einem Sprachsignal, und dieses ist bereits so
breitbandig wie das störende Rauschen. Keine Chance mit dieser Methode.
Das siehst Du falsch, geh' bitte erst lesen bevor Du Dich hier mit mir
sinnlos anlegst. Nichts mit schmalbandigem Filter.

mfG Leo
Heinrich Pfeifer
2012-03-21 19:24:42 UTC
Permalink
Raw Message
Post by Leo Baumann
Post by Heinrich Pfeifer
Hier sprechen wir aber nicht vom Identifizieren eines schmalbandigen
Sinus, sondern von einem Sprachsignal, und dieses ist bereits so
breitbandig wie das störende Rauschen. Keine Chance mit dieser Methode.
Das siehst Du falsch, geh' bitte erst lesen bevor Du Dich hier mit mir
sinnlos anlegst. Nichts mit schmalbandigem Filter.
mfG Leo
bevor ich weiter schreibe eine Klarstellung: wenn ich hier noch einmal
Vokabeln lese wie "sinnlos anlegst", dann bin ich hier weg; auf diesem
Niveau diskutiere ich nicht. Ich weiß, dass es der übliche Stil in
vielen NGs ist, sich auf diese Weise persönlich zu diffamieren, aber da
mach ich nicht mit.

Eine FFT mit nachfolgender inverser FFT bewirkt nichts anderes als eine
Reihe schmalbandiger Bandpassfilter in parallelen Kanälen.
Post by Leo Baumann
-Oversampling
-FFT
-Rauschflordiskriminator
-inverse FFT
Es wird in milit. RADAR-Anlagen eingesetzt :-)
da sind wir schon wieder beim Punkt, den ich meine: von diesem
"Rauschflordiskriminator" hast du bisher nichts gesagt. Der hat halt
auch überhaupt nicht mit einer Rauschverminderung eines Sprachsignals zu
tun.

Um einzelne Sinussignale oder Impulsfolgen (Radar) in einem verrauschten
Signal zu detektieren, ist eine Spektralanalyse (z.B. FFT) sinnvoll, um
dann die großen Spektralanteile (Nutzsignale) durchzulassen und die
kleinen (Rauschen) zu sperren. Danach kann man mit der inversen FFT den
Rest wieder zusammensetzen und hat die Rauschunterdrückung geschafft.

Und jetzt setzt du dich bitte mal mit einem Sprachsignal auseinander.
Das besteht aus einem ganzen Sack voller tonaler Komponenten (Sinus und
Oberschwingungen) und zusätzlich atonaler Komponenten (praktisch alle
Konsonanten, die für das Verstehen besonders wichtig sind). Letztere
erstrecken sich über das gesamte Frequenzband.

Und jetzt bist du wieder dran: wie kann dein "Rauschflordiskriminator"
die atonalen Komponenten des Sprachsignals vom Rauschen unterscheiden?
Wenn du dieses Geheimnis verrätst, hast du gewonnen.
--
Heinrich
mail: new<at>gartrip.de
Leo Baumann
2012-03-21 23:01:47 UTC
Permalink
Raw Message
Und jetzt bist du wieder dran: wie kann dein "Rauschflordiskriminator" die
atonalen Komponenten des Sprachsignals vom Rauschen unterscheiden? Wenn du
dieses Geheimnis verrätst, hast du gewonnen.
Das ist schon wieder Quatsch was Du schreibst. denn FFT + invFFT = gar
nichts ... da kommt unverändert das Originalsignal heraus.

Diese Diskriminatoren schneiden kleine Spektrallinien im Spektrum (also
unten) einfach ab, setzen die Null.

Du musst dringend das Buch von Brigham lesen und noch ein wenig studieren.

mfG Leo
Heinrich Pfeifer
2012-03-22 17:36:19 UTC
Permalink
Raw Message
Post by Leo Baumann
Und jetzt bist du wieder dran: wie kann dein "Rauschflordiskriminator" die
atonalen Komponenten des Sprachsignals vom Rauschen unterscheiden? Wenn du
dieses Geheimnis verrätst, hast du gewonnen.
Das ist schon wieder Quatsch was Du schreibst.
oha.
Post by Leo Baumann
denn FFT + invFFT = gar
nichts ... da kommt unverändert das Originalsignal heraus.
selbstverständlich. Habe ich das Gegenteil behauptet?
Post by Leo Baumann
Diese Diskriminatoren schneiden kleine Spektrallinien im Spektrum (also
unten) einfach ab, setzen die Null.
auch das hatte ich in dem Teil beschrieben, den du jetzt nicht zitiert hast.
Post by Leo Baumann
Du musst dringend das Buch von Brigham lesen und noch ein wenig studieren.
Brigham kenne ich nicht, aber unzählige andere Literatur über FFT, und
ich arbeite seit Jahren damit. Und nein, das Studieren habe ich längst
hinter mir (obwohl man bekanntlich nie auslernt).

Nachdem du dich beharrlich weigerst, deine FFT/Diskriminator-Methode in
den Zusammenhang mit einem Sprachsignal zu stellen, ist das für mich das
Ende der Fahnenstange.

Und tchüss.
--
Heinrich
mail: new<at>gartrip.de
Leo Baumann
2012-03-22 18:08:48 UTC
Permalink
Raw Message
Post by Heinrich Pfeifer
Nachdem du dich beharrlich weigerst, deine FFT/Diskriminator-Methode in
den Zusammenhang mit einem Sprachsignal zu stellen, ist das für mich das
Ende der Fahnenstange.
Und tchüss.
Ich habe auf die Literatur hingewiesen, die das Thema schlüssig darstellt.
Das muss Dir hier reichen.

mfG Leo
Wolfgang Sörgel
2012-03-22 22:40:17 UTC
Permalink
Raw Message
Post by Leo Baumann
Post by Heinrich Pfeifer
Nachdem du dich beharrlich weigerst, deine FFT/Diskriminator-Methode in
den Zusammenhang mit einem Sprachsignal zu stellen, ist das für mich
das Ende der Fahnenstange.
Und tchüss.
Ich habe auf die Literatur hingewiesen, die das Thema schlüssig
darstellt. Das muss Dir hier reichen.
Hast du schon mal wirklich selbst ein Sprachsignal verarbeitet, eine
Methode oder Hardware dafür entworfen, die dann auch in einem Produkt zum
Einsatz gekommen sind?

Ansonsten gebe ich Heinrich völlig recht.

Servus
Wolfgang
Leo Baumann
2012-03-22 23:33:43 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
Hast du schon mal wirklich selbst ein Sprachsignal verarbeitet, eine
Methode oder Hardware dafür entworfen, die dann auch in einem Produkt zum
Einsatz gekommen sind?
Ansonsten gebe ich Heinrich völlig recht.
Servus
Wolfgang
Ja Wolfgang, ich habe Signale der demodulierten ZF von Schiffs-RADAR-Anlagen
mit dieser Methode und zusätzlich mit einer CEPSTRUM-Analyse zur
Impulslängenbestimmung digital verarbeitet, aber dieses Wissen, das ich das
gemacht habe, hilft Euch nicht weiter. Auch war ich vor vielen Jahren an der
theoretischen Entwicklung der CEPSTRUM-Analyse beteiligt und habe
Brauchbarkeitsstudien dafür durchgeführt. Auch das hilft Euch hier nicht
weiter.

Meine Literaturangabe war gut gemeint. Es handelt sich um 2 Bücher in denen
die MODERNSTEN und AKTUELLSTEN Erkenntnisse der digitalen Signalverarbeitung
ausführlich behandelt werden, auch die der CEPSTRUM-Analysen.

Falls es Euch interessiert, hier dazu eine meine Arbeiten aus der digitalen
Signalverarbeitung, obwohl ich nicht so gerne auf die Kacke haue:
www.leobaumann.de/Cepstrum.pdf

mfG Leo
Leo Baumann
2012-03-23 01:01:10 UTC
Permalink
Raw Message
Post by Wolfgang Sörgel
Hast du schon mal wirklich selbst ein Sprachsignal verarbeitet, eine
Methode oder Hardware dafür entworfen, die dann auch in einem Produkt zum
Einsatz gekommen sind?
Ansonsten gebe ich Heinrich völlig recht.
Servus
Wolfgang
Außerdem, Wikipedia --> Überabtastung, da findest Du schon den
entscheidenden Hinweis:

Zitat:

Oversampling führt nicht zu höheren Datenraten und höherem
Speicherplatzverbrauch. Dieses Verfahren findet beim Auslesen und nicht beim
Schreiben von Daten Anwendung. Ein Nebeneffekt ist, dass durch Oversampling
der Störabstand, beispielsweise bei CD-Wiedergabe, verbessert wird. Die
Rauschleistung wird durch Überabtastung gleichmäßig auf ein größeres
Frequenzintervall verteilt.

Zitat Ende:

Das hat nichts mit Quantisierungsrauschen zu tun.

Du hast einfach keine Ahnung!

mfG Leo
Leo Baumann
2012-03-20 20:43:23 UTC
Permalink
Raw Message
Post by Heinrich Pfeifer
Hier sprechen wir aber nicht vom Identifizieren eines schmalbandigen
Sinus, sondern von einem Sprachsignal, und dieses ist bereits so
breitbandig wie das störende Rauschen. Keine Chance mit dieser Methode.
Es gibt ein Rauschfilter das folgendermaßen arbeitet:

-Oversampling
-FFT
-Rauschflordiskriminator
-inverse FFT

Es wird in milit. RADAR-Anlagen eingesetzt :-)

mfG Leo
Ralf . K u s m i e r z
2012-03-19 13:48:24 UTC
Permalink
Raw Message
X-No-Archive: Yes
Post by Ralf . K u s m i e r z
Gibt es irgendwas in der Gegend Audacity, VideoLAN o.
ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die
Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,
Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es
soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst
verständlich.
Ich hab's inzwischen ganz brauchbar hingekriegt. Im wesentlichen habe
ich mit 3 kHz Eckfrequenz hochpaßgefiltert und dann mit dem Kompressor
von Audacity die Pegel vergleichmäßigt (und dieses blöde Programm
realisiert das einfach nur mies - unerklärlicherweise gibt es
zwischendrin leise Stellen, die eben nicht angeglichen werden; ein
Grund dafür ist nicht ersichtlich).

Die ganze Angelegenheit sollte sich (*nicht* mit Audacity*) ziemlich
leicht automatisieren lassen:

1. Sppracherkenung (also: Erkennung, *daß* gesprochen wird, keine
sematische Analyse)
Dazu braucht man eigentlich nur den Level ermitteln, also
gleichrichten und tiefpassen, dann müßte "Sprache" einen ziemlich
typischen rhythmischen Verlauf ergeben, den man als Spektrogramm des
Hüllkurvensignals identifizieren können sollte. (Der wird wohl von der
verwendeten Sprache abhängen - Deutsch und Englisch haben wohl
typischerweise andere Sprachrhythmen als das melodiöser "gesungene"
Französisch und Italienisch. Das läßt sich aber auch aus der
jeweiligen Aufnahme automatisiert "lernen" - notfalls muß der Anwender
dem Programm noch einen expliziten Hinweis "das hier ist jetzt
Sprache" geben.) Dann weiß daß Programm, daß gerade gesprochen wird.
Damit kann man dann die Sprache als solche von anderen Geräuschen
isolieren.

2. Spektralanalyse
Aus den in 1. identifizierten "Sprechimpulsen" kann man Spektren
machen, die eine halbwegs normale Verteilung haben sollten - wenn die
gefundene Verteilung "schief" bzw. verzerrt ist, kann man daraus dann
die Filterparameter berechnen, um den Frequenzgang zu entzerren. Damit
wird dann auch automatisch das Rauschen minimiert.

3. Pegelangleichung
Das ist dann der triviale Teil der Angelegenheit.

Ich denke, daß ich das ziemlich fix programmiert hätte - was
allerdings nicht sinnvoll sein dürfte, da die großen Akustikhersteller
das sicher schon längst getan und in die Geräte eingebaut haben. (Daß
man die Geräte kaufen kann, bedeutet ja nicht, daß man dann auch die
Algorithmen explizit zur Verfügung hätte.) Als erstes hätte ich mal
die Spracherkenner im Verdacht - wenn die eine semantische Analyse
machen wollen, müssen sie schließlich als erstes mal das Signal selbst
normalisieren und sauberputzen.

Geht nicht automatisch? Da lachen ja die Hühner!

*)
Ich habe jetzt die neue Audacity-Version 14 noch nicht installiert -
vielleicht wurden dort genau die Bugs behoben.


Gruß aus Bremen
Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
gesamt hältst Immission interessiert korreliert korrigiert Laie
nämlich offiziell parallel reell Satellit Standard Stegreif voraus
Bunyip
2017-08-12 15:18:06 UTC
Permalink
Raw Message
replying to Ralf . K u s m i e r z, Bunyip wrote:
Keine Chance!
Ein Toningenier kann (mit viel Aufwand) was reißen.
Es gibt keine Anleitung, die ein mehrjähriges Studium ersetzt.

--
for full context, visit http://www.polytechforum.com/elektrotechnik/filter-fuer-bessere-hoerverstaendlichkeit-82537-.htm
Loading...