vocals von instrumenten trennen

raynor

Aktives Mitglied
Thread Starter
Dabei seit
14.02.2002
Beiträge
398
Reaktionspunkte
1
hi @all,

kann mir jemand ein prog für OS 9 empfehlen, mit dem ich vocals von den instrumenten einer sound-datei (aiff)
trennen kann? muss kein riesen-prog sein, weil es mir nur um die trennung geht.

vielDank vorab

grüsse
vom
raynor
 
hi,

normaler weiser dürfte das überhaupt nicht funktionieren!
Es gibt nur die Möglichkeit dies zu Bewerkstelligen: wenn die beiden Spuren getrennt sind, entweder in einem speziellen Format (z.B. von AudioLogic oder ProTools) oder wenn aiff, mp3 etc Stereo-datei> ein Kanal Vocals der andere Instrument!

Das beste Freeware Soundprogramm, welches ich kenne AudioLogicFun:

hier bekommst du infos:

http://www.soundtech.co.uk/emagic/education/logicfun.htm

greetz lost
 
hi lostreality,

danke. audioLogicFun habe ich bereits, mit den spuren ist auch soweit klar.
ich frage, weil mir schon den ganzen tag der gedanke durch den kopf spukt, dass ich irgendwann
einmal, unter win, musi von cd in wav konvertiert habe und mit "ich-weiss-nicht-welchem-prog"
die musi von vocal getrennt habe.
es kann aber gut sein, dass da der wunsch der vater des gedanken ist.

grüsse
vom
raynor
 
Hi raynor,

dein Interesse an Multimedia/Audio scheint ja ungebrochen zu sein (ein vernünftiger Mensch :) ).
Wie @lostreality schon sagte, ist die Lösung deines Anliegens nicht so einfach. Im leichten Widerspruch zu @lostreality ist es trotzdem nicht ganz unmöglich aber schwierig.
Problem dabei ist quasi den Prozess, der sich im Menschen beim Hören vollzieht, technisch zu bewerkstelligen. Es gibt bisher keinen Rechner, ich kenne zumindest keinen, der solch komplexe Aufgaben wie die simulante Extraktion von mehren Instrumenten aus einem Musikvortrag beherrscht wie das menschliche Hirn (in 50 oder 100 Jahren vielleicht) - nur um sich die Dimensionen mal in Erinnerung zu rufen. Ein Ansatzpunkt ist sicherlich dabei die Nutzung von neuronalen Netzen. Aber das ist egal, wir leben heute.
Es gibt ein Programm, das unter Umständen deinem Anliegen näher kommt. Es ist zwar nicht mehr das jüngste, aber Mathematik (darauf beruht in der Technik das allermeiste) ändert sich so schnell nicht. Das Programm heißt ReCycle und ist von Steinberg bzw. Propellerhead.
Da ich davon ausgehe, daß du nicht im Besitz der Keyboards-CD 3/94 bist, habe ich das entsprechende Demo geMP3t und du kannst es dir unter www.cozem.de/Recycle.mp3 (3,3MB) herunterladen und anhören. Interessant für dich ist wohl der letzte Teil des Stückes (ich hoffe, daß du der englischen Sprache ausreichend mächtig bist). Einen Testbericht einer späteren Version findest du in der Keyboardsausgabe 8/99 (vielleicht hast du einen Bekannten,der ...). Bei der Suche nach "recycle" bei www.keyboards.de findest du einen Anriß des entsprechenden Artikels. Auf Anfrage scanne ich den Artikel ein und schicke ihn dir.
Mehr kann ich jetzt leider dazu nicht sagen.
Das alte Angebot besteht weiterhin, wenn es dich nach weiteren Informationen "gelüstet".

Mac as Mac can

conny
 
Sorry,

Link-Namen stimmen, die Verlinkung jedoch nicht!!!

conny
link wurde berichtigt
maclooser
 
@conny and raynor,

nun die Möglichkeit anhand des "Fingerabdrucks / Frequenzbereiches" aus zu Filtern funktioniert, aber von allem was ich gehöhrt habe nicht unbedingt zuriedenstellend.
An and der Mathematik Vocals herauszufiltern kann sogar die Sony HiFi-Anlage von meinem Vater (Karaoke Modus) aber dies ist leider nur ein abdämpfen.
Ich weis auch nicht ob dies nur durch (befriedigend) Mathematik lösbar sein wird, wir (Menschen) können ja die verschiedenen Spuren nicht nur an Hand unseres guten Gehöhrs und der Verarbeitung der Musik im Gehirn trennen, sondern vielmehr weil wir die Erfahrung dazu haben, wir wissen wie jedes Instument für sich klingt. Und ob dies irgendwann mal einem Compi beizubringen ist? Hoffen tue ich es auf jeden Fall.

Aber ich schaue dieser Diskussion noch gerne zu, und wenn du Raynor ein Programm findest, dass dies wirklich zufriedenstellend packt: BITTE POSTEN!

geetz lost
 
hi ihr beiden - danke schön (schön mal wieder was von dir zu hören conny).

...dann habe ich vielleicht doch nicht geträumt.
um den gedanken zu ende zu führen: in meiner erinnerung war das ergebnis so, dass man die vocals nachbearbeiten musste.

@conny,
mp3 habe ich mir runtergeladen (cool, erinnert mich an "alte zeiten" englisch-unterricht im sprachlabor).
ReCycle 1.7 Demo habe ich mir auch runtergeladen, muss ich mir mal in ruhe angucken. auf der von dir
empfohlenen site habe ich auch bereits so allerhandlei interessantes entdeckt. :)

grüsse
vom
raynor

p.s. klar, wenn's was zu berichten (/fragen) gibt, melde ich mich.
 
Hi lost (und raynor),

(Antwortmöglichkeit 1 (leicht abschweifend) )
wie du schon richtig vermutest, ist es mit einer einfachen Filterung nicht getan. Um einige Schlagwörter, die in diesem Zusammenhang alles andere als unwichtig (vorallem für die zunächst theoretischen Überlegungen) sind, zu nennen, seien die "Faltung", die analoge "Laplace-Transformation" und ihr digitales Äquivalent die "Z-Transformation" und wohl die bekannteste, die "FFT" (Fast Fourier Transformation) erwähnt, von dem Unterschied von reeller (die nehmen wir wahr) und komplexer Frequenz einmal ganz abgesehen.
Wie du siehst, wird es bei nähere Beschäftigung mit dem mathematischen Grundlagen der Signalverarbeitung komplex, kompliziert und das Ganze ist zudem alles andere als einfach zu verstehen (Integrale in der komplexen Ebene beispielsweise). Viele digitale Effekte im Fernsehen wären ohne diese Grundlagen gar nicht denkbar. Sogenannte "Harmonizer" sind zb eine direkte Anwedung dieser Transformationen. "Vocoder" sind auf der analogen Ebene mit "Harmonizern" dazu in Teilen vergleichbar. Aber die genannten Begrifflichkeiten muß man normal nicht kennen, also don't worry.
Was du mit Ertfahrung beschreibst, hatte ich schon indirekt mit neuronalen Netzen angesprochen. Aber ein Beispiel, das wohl jeder von uns kennt: MP3! Bei der Enkodierung passiert etwas sehr Ähnliches wie im Hirn. Frequnzteile, die zwar bestehen, aber nicht mehr wahrgenommen werden, werden maskiert, eliminiert und dadurch das Datenaufkommen reduziert. Und dies wäre ohne entsprechende Transformationen und digitalen Bearbeitung gar nicht möglich. Wie du siehst, haben die Mathematik und das Hirn ähnliche Strategieen der Problemlösung. Nur in unserem (raynors) Fall, der Extraktion eines bestimmten Frequenz-/Spektralmusters (die menschliche Stimme) ist der Mensch der Mathematik (noch) überlegen, da das Gehirn verschiedene Ebenen der Wahrnehmung kombiniert - in Echtzeit (faszinierend)).
Das war wohl wieder zu technisch, 'tschuldigung.

(darüber könnte ich mich stundenlang unterhalten)

(Antwortmöglichkeit 2)
wenn du dir überlegst, wie schwer es gelegentlich ist (trotz des Gelernten wie dies oder das andere Instrument klingt), aus einem Musikstück einzelne Instrumente herauszuhören, wirst du nachvollziehen können, daß Rechner (zur Zeit noch) erst recht an dieser Aufgabe scheitern müssen.
Da Filter alles "wegmachen", egal was zu was ursprünglich gehörte, ist dies sicherlich kein aussichtsreicher Weg.

conny
 
Zuletzt bearbeitet:
Hi raynor,

es gibt noch einen weiteren Aspekt, der dir die Problematik deines Ansinnen verdeutlichten soll. Jedes näturliche Instrument hat neben dem Grundton (egal ob A oder C) seine eigenen Formanten. Dies sind Eigenschaften (fixe Fequenzen), die nicht durch gespielte, gesungene, Tonhöhe ändern, da sie sich aus dem mechanischen Aufbau des Instrumentes ergeben (Jeder Mensch hat eine andere Stimme). Also wo wollen Filter ansetzen, wenn sich teils die Frequenzen verschieben und teils nicht ?
Als Notlösung gibt dafür dann die Multisamples, nur brauchen die dann viel Speicherplatz und machen das Ganze entsprechend teuer, wenn man dies von der Reproktionsseite aus betrachtet.
Andere Möglichkeit, wie schon erwähnt, Transformationen: Dadurch ist es möglich ganz gezielt Frequenzen (tausende) zu beeinflussen zb bestimmte Frequenzen (Formanten) bei einer Transponierung unbehelligt zu belassen und andere entsprechend zu transponieren. Ein recht guter Ansatz ist mit der VM (Virtual Modeling)-Syntnhese realisiert worden (Yamaha, Korg), bei der die mechanischen Eigenschaften simuliert und in die Klanggenerierung miteinbezogen werden und dann alles zusammengemischt wird.
Umgekehrt ist es aber um einiges schwieriger: Welche Frequenz in einem Musikstück ist nun eine transponierte Frequenz eines Grundtons und welche sind Frequenzen, die die Formanten eines Instrumenten darstellen. Und jetzt spielen fünf sechs oder mehr Instrumente gleichzeitig mit eigenen Tonhöhen und eigenen Formanten.
Ich hoffe, dir ist jetzt klar, was du da eigentlich willst (verlangst) mit mal ein bißchen Vocals rausziehen.

Gruß

conny
 
Zuletzt bearbeitet:
hmpf..., und der tag hat so gut angefangen...
na tscha, sing' ich eben selbst (schubert meets experimental regTechHop).

trotzdem, gut gefragt zu haben -> vielInfo und mit reCycle lässt sich auch prima experimentieren.

nochmal vielDank für die mühe.

grüsse
vom
raynor
 
Hallo raynor und alle

Das ist aber mal ein interessantes Thema. Insbesondere Conny hat ja schon sehr ausführlich und treffend die Problematik aufgezeigt. Dennoch vielleicht zur Ergänzung folgendes:

# die Geschichte mit den Formanten ist eines der Kernprobleme der Stimmenseparation.

# Ein weiteres ist das der Additions- und Subtraktionsfrequenzen, und der sich hierdurch ergebenden Formanten, Formantüberlagerungen und -verschiebungen. D.h. beim Zusammentreffen mehrerer Instrumenten- und Vokalklänge entsteht eine Klangsumme, die mehr ist als die Summe ihrer Einzelbestandteile. Es entstehen in der "Klangsumme" u.U. klangliche Schwerpunkte, die keines der am Gesamtklang beteiligten Instrumente einzeln realisiert / gespielt hat. Tolle Sache, und bildlich gesehen sicher eines der bewegensten Klangereignisse beim Musizieren.

Nur, jeder Compi - auch ein Mac - ist mit so einem dynamischen Prozess derzeit noch völlig überfordert. Nicht weil er die Leistung technisch nicht erbringen könnte, um das Summensignal zurückzuverwandeln in Einzelsignale, sondern weil uns eine entsprechende Klangmusterdifferenzierung noch nicht möglich ist. Und die genannten Additionsfrequenzen etc. führen ihn dann auch noch an der Nase herum ... er beginnt Klänge zu Instrumenten / Gesängen zuzuordnen, die überhaupt niemand gesungen hat ...
 
hi umberto, conny und alle,

die sache mit der klangsumme, die grösser ist, als die summe der einzelbestandteile kann ich nachvollziehen.
wie ist das aber mit den additions- und subtraktionsfrequenzen - wozu/wovon wird denn da ± und wann
und warum?
liegen diese frequenzen immer im gleichen freqenzbereich, oder ist er vom jeweiligen "stück" abhängig und
wenn letzteres, in welcher beziehung?
sind die formanten das was übrig bleibt und wovon ist denn deren anzahl abhängig?

will zwar nicht nerven, aber interessieren tutet mich das schon.

vielDank vorab

grüsse
vom
raynor
 
Hi raynor,

um es kurz zu machen (für heute, der Tag ist schon fortgeschritten): Es geht um die einzelnen (partiellen) Phasenlagen der Frequenzen (Formanten) zueinander, wodurch sich Auslöschungen (Subtraktionen) oder auch Überlagerungen (Addition) ergeben. Diesen Effekt nennt man auch Intermodulation. Vielleicht ist dir auch schon einmal der Begriff Seitenbänder untergekommen, prinzipiell das Gleiche. Mit einem Ringmodulator (Multiplikation von zwei Frequenzen (gegenseitige Modulation)), der vorallem - vor dem Transistor - zusammen mit Röhren in der Funktechnik eingesetzt wurde, produziert man auch Summe und Differenz zweier Signale. Frequenz- oder Phasenmodulationen (Vibrato der Geige zb) erzeugen ebenfalls solche Seitenbänder.
Welche weiteren Frequenzen erzeugt werden, hängt dabei von den Signalen und deren Änderungsgeschwindigkeit ab (dx/dt, wenn dir das was sagt) (ich sag ja, es wird bei näherer Betrachtung komplexer, anspruchsvoller oder wie auch immer). Dies ließe sich, genaue Kenntnis über die involvierten Signale vorausgesetzt, natürlich - was sonst - berechnen.

... noch 'nen Schluck und dann schlafen

conny

(ein langes, schwieriges, ergibiges und höchst interssantes Thema (wer's mag))
 
Hallo raynor, conny und alle

In der Tat: Interessantes Thema, wie gesagt. Und nicht ganz ohne. Auch wie gesagt.

Vielleicht noch ein kleines Anschauungsbeispiel zum Thema Subtraktionsfrequenzen / Phasenauslöschungen:

# "Karaoke"-Aufnahmeverfahren: Das Gesangssignal von Kanal A wird phasenvertauscht auf Kanal B ausgegeben. Es entsteht eine Auslöschung des Gesangssignales. Das ist im Prinzip genau das, was du machen willst, geht aber nur mit einem bereits separierten (= eigener Aufnahmekanal) Gesangssignal.

# Lärmschutzverfahren mittels Phasenvertauschung: Derartiges wird in diversen industriellen Bereichen erprobt bzw. bereits angewandt. Das Profil eines Lärmsignals wird akustisch erfasst, dann wird das gleiche Signal phasenvertauscht paralell wiedergegeben. Im Idealfall wird das Lärmsignal dadurch ausgelöscht.
 
Hi raynor und alle anderen,

diesen Link hab' ich gerade gefunden. Alles in englisch und es geht ans Eingemachte.

conny
 
Hi conny and raynor,

euer Fachwissen fasziniert mich genauso wie das Thema ansich.
So wie ich euch verstanden habe ist es irgendwann doch möglich aus einer fertig produzierten CD die einzeinen Instrumente sowie Vocals etc. heraus zu filtern!?! ich hätte eigendlich das dies nicht mathematisch lösbar sein wird.
Die technologischen Fortschritte sollte man also nicht unterschätzen, schon faszinieren wozu Menschen fähig sind.

Das macht mir auch hoffnung für andere Probleme:
Wie wärs mit Gedanken gesteuerten Programmen (speziell Photoshop und 3D-Programe) würde vieles erleichtern:D .

Und wenn ich mir das komplexe Thema der Instumenten separation anschaue ist wohl vieles andere in Zukunft auch möglich.

Da ich eigendlich überhaupt keine Zukunftsängste habe, sondern mich eher als HiTec-Fetischist einstufen würde sollte mann einen neuen 2000der Film machen: wie wärs mit 2050 (Big Brother WE are watching YOU)

geets Lost
 
hi (prost),

klasse, ihr beantwortet fragen, die ich noch gar nicht gestellt habe. tatsächlich kam mir der gedanke,
dass der von lost angespr. karaoke-modus zumind. ein indiz dafür ist, dass da etwas geht. natürlich
habt ihr mir längst klargemacht, dass zum erzielen eines wirklich guten ergebnisses sehr viel mehr gehört,
woraus sich mir die unbrauchbarkeit (für mein ansinnen) des k-m erklärt (bei stereo).
da fällt mir ein, vorausgesetzt ein musikstück entstand so, dass sich alle instr. u. der gesang auf jeweils
einer seperaten spur befinden und diese spuren dann auf zwei spuren gemischt wurden, dann lassen
sich doch alle spuren des ausgangsmaterials beliebig weiterver/bearbeiten. gibt es denn cd's, auf denen
sich nur der gesang von "stücken" befindet - zu übungszwecken zbs.? wenn ja, gibt es eine site, oder
einen katalog mit einer produktübersicht?

noch 'ne frage zu den klanglichen schwerpunkten, die kein einzelnes instr. gespielt hat:
mit entspr. erfahrung/können lässt sich das doch prima als stilmittel einsetzen. gibt es musikerInnen,
die das machen? kennt ihr beispielhafte "stücke"?

hi lost,
wenn es nach mir geht und dein einverständnis vorausgesetzt, dann darf conny seinen lorbeerzweig selbstverständlich behalten
und umberto bekommt den, der mir irrtümlich überreicht wurde :)

grüsse
vom
raynor
 
@raynor/umberto

sorry hatte mich verlesen mit dem Fachwissen bezogen auf die Musik meinte ich natürlich umberto!

Ich denke aber mal das du RAYNOR auf einem Gebiet bestimt genauso kompetent bist
;)

greetz lost
 
Hi raynor,

danke der Anerkennung, aber wir haben nur einen Kae-sar, nämlich unseren Franz (ja, den Fußballspieler).
Aber natürlich werden Musikproduktionen heute auf Mehrspurbändern gesichert und dann gemastert. Wie sollten sonst die vielen Remixes gemacht werden. Nur an diese Pre-Masterbänder kommt man im Allgemeínen nicht ran, schließlich stellen sie ja ein gewisses Kapital dar.
Ob es solche von dir angesprochenen CD's gibt, ist mir unbekannt. Wo man sich vielleicht erkundigen kann, wäre die SAE (School of Audio Engineering) (mußt du im Web suchen). Vielleicht wissen die etwas.
Weiter: ob man die vorher aufgführten Effekte irgendwie nutzbar machen kann, bezweifel ich ein wenig - man mag mich verbessern - , da das Ganze, wie schon beschrieben, äußerst komplex ist und wenn dann sehr viel Wissen und Erfahrung bedürfte. Ich persönlich kenne keine Stücke, wo sowas bewußt eingestzt wurde.

conny
 
Zuletzt bearbeitet:
danke conny,

hab' gerade gesehen, dass es eine sae bei mir in der nähe gibt (frankfurt a.m.).
vielleicht hat man dort ja tatsächlich einen tipp zu besagten cd's parat.

grüsse
vom
raynor
 
Zurück
Oben Unten