
Als Homerecording massentauglich wurde …
Gab es dafür einen einfachen Grund:
Die klassische, analoge Ausrüstung aus der guten, alten Zeit wurde langsam aber sicher ersetzt …
Von einer neuen Generation von Audio Interfaces und weiterem digitalem Equipment, das günstiger und einfacher zu bedienen war als jemals zuvor.
Und dieser Trend geht kontinuierlich weiter.
Heutzutage ist digitales Audio der Standard in fast allen Profi– und Amateur-Studios.
Aber überraschend wenig Leute wissen, was es damit auf sich hat.
Darum habe ich im heutigen Artikel für Dich eine umfassende Einführung in die Grundlagen des Digitalen Audio für Musikaufnahmen.
Wir werden diese 9 Themen besprechen:
Fangen wir an …
1. Der Beginn der Digitalen Ära

Heutzutage ist digitales Audio der Standard für Musik …
Aber das war nicht immer so.
Ursprünglich gab es musikalische Informationen nur als Schallwellen in der Luft.
Mit dem Fortschritt der Technik wurden Möglichkeiten gefunden, sie in andere Formate zu konvertieren:
- Noten auf Papier
- Elektrische Signale in einem Kabel
- Radiowellen in der Atmosphäre
- Unebenheiten auf einer Vinyl-Schallplatte
Aber schließlich wurde mit dem Aufkommen von Computern, digitales Audio das dominante Format für Musikaufnahmen, weil Songs einfach kopiert und kostenlos transportiert werden konnten.
Und das Gerät, das das alles möglich macht ist … der digitale Wandler.
Um zu verstehen, wie er funktioniert, als nächstes …
2. Wie Digitale Wandler funktionieren
In einem Aufnahmestudio gibt es 2 Arten von digitalen Konvertern:
- Als einzelnes Gerät in High-End-Studios, oder …
- Als Teil des Audio Interface in Homestudios.
Um Musik in binären Code umzuwandeln (zu konvertieren) machen Wandler zehntausende Schnappschüsse (Samples) pro Sekunde, um ein „ungefähres“ Bild der analogen Schallwelle zu bekommen.
Das Bild ist nicht genau, da der Konverter quasi erraten muss, was in den Momenten zwischen den Samples vor sich geht.

Du kannst das in dem obigen Diagramm sehen:
- Die rote Linie ist das analoge Signal …
- Die schwarze Linie ist die Konversion …
Die Resultate sind nicht perfekt aber gut genug für exzellente Soundqualität.
Wie exzellent hängt hauptsächlich ab von der …
3. Sample Rate
Schau Dir dieses Bild an:

Wie Du siehst …
Indem mehr Schnappschüsse pro Sekunde gemacht werden, die Sample Rate also höher ist:
- Wird mehr echte Information gesammelt,
- Weniger geraten,
- Und das Bild des analogen Signals wird viel genauer
Und das Resultat ist natürlich … bessere Soundqualität.
Sprechen wir über konkrete Zahlen:
Übliche Sample Raten im Profi-Audiobereich sind:
- 44,1 kHz (CD Qualität)
- 48 kHz
- 88.2 kHz
- 96 kHz
- 192 kHz
Das 44,1 kHz-Minimum kommt von einem mathematischen Prinzip namens …
Nyquist-Shannon-Abtasttheorem
Um digitales Audio akkurat aufzunehmen, müssen Konverter das volle Spektrum des menschlichen Gehörs, zwischen 20 Hz und 20 kHz, erfassen.
Laut dem Nyquist-Shannon-Abtasttheorem …
Braucht eine spezifische Frequenz mindestens 2 Samples pro Zyklus … um sowohl die höchsten als auch die tiefsten Punkte auf der Welle zu messen.
Das heißt, um Frequenzen bis 20 kHz aufzunehmen, braucht man eine Sample Rate von 40 kHz oder mehr. Darum liegt die CD Qualität knapp darüber, bei 44,1 kHz.

Die Kosten hoher Spample Raten
Zwar produzieren hohe Sample Raten bessere Soundqualität … aber die Vorteile sind nicht umsonst.
Die Kosten sind:
- Höhere Prozessorleistung
- Weniger Tracks
- Größere Audio-Dateien
Es ist also immer ein Kompromiss. Profi-Studios können sich problemlos die höchsten Sample Raten leisten, weil sie bessere Ausrüstung haben.
Für Homestudios ist die Standardeinstellung von 48 kHz aber am besten.
Als nächstes …
4. Bittiefe
Um Bittiefe (oder Samplingtiefe) zu verstehen, sprechen wir zunächst über Bits.
Ein Bit, kurz für Binary Digit, ist eine einzelne Einheit des binären Codes mit dem Wert von 1 oder 0.
Je mehr Bits verwendet werden, desto mehr Kombinationen sind möglich. Zum Beispiel …
Wie Du in dem unteren Diagramm sehen kannst, bieten 4 Bits eine maximale Anzahl von 16 Kombinationen.

Wenn Information so gespeichert wird, wird jeder dieser Zahlen ein bestimmter Wert zugeordnet.
Indem die Bits erhöht werden, wächst die Zahl der möglichen Werte exponentiell.
- 4 Bits = 16 mögliche Wert
- 8 Bits = 256 mögliche Wert
- 16 Bits = 16.536 mögliche Wert
- 24 Bits = 16.777.215 mögliche Wert
Bei digitalem Audio wird jedem Wert eine bestimmte Amplitude auf der Audio-Welle zugewiesen.
Je größer die Bittiefe, desto mehr Abstufungen in Lautstärke existieren zwischen laut und leise … und umso größer ist der dynamische Umfang der Aufnahme.
Eine gute Faustregel, die Du Dir merken solltest ist: Für jedes zusätzliche „Bit“ wird der dynamische Umfang um 6 dB erhöht.
Beispiele:
- 4 Bits = 24 dB
- 8 Bits = 48 dB
- 16 Bits = 96 dB
- 24 Bits = 144 dB
Langer Rede kurzer Sinn …mehr Bittiefe bedeutet weniger Rauschen …
Weil durch diesen zusätzlichen Headroom das Nutzsignal (am lauten Ende des Spektrums) höher über dem Grundrauschen (am schwachen Ende des Spektrums) aufgenommen werden kann.

Als nächstes …
5. Quantisierungsfehler
Es klingt beeindruckend, dass eine 24 Bit Aufnahme fast 17 Millionen mögliche Werte bietet, oder?
Aber das ist immer noch sehr viel weniger als die unendliche Zahl von möglichen Werten, die ein analoges Signal bietet.
Bei jedem Sample liegt der tatsächliche Wert irgendwo zwischen zwei möglichen Werten. Die Lösung des Konverters ist, einfach auf den nächsten Wert zu runden, zu „quantisieren“.
Die dadurch resultierende Verzerrung, der Quantisierungsfehler, entsteht in 2 Phasen des Aufnahmeprozesses:
- Am Anfang, während der A/D-Umwandlung
- Am Ende beim Mastering
Beim Mastering wird die Sample Rate/Bittiefe bei der Umwandlung des Tracks in sein endgültiges digitales Format (CD, mp3, usw.) oftmals reduziert.
Dabei werden einige Informationen gelöscht und „re-quantisiert“, wodurch der Sound noch weiter verzerrt wird.
Für dieses Problem gibt es eine Lösung …
6. Dithering
Wenn eine 24-Bit-Datei zu einer 16-Bit-Datei reduziert wird, ermöglicht Dithering einen Großteil der resultierenden Verzerrung zu kaschieren …
Indem ein wenig „zufälliges Rauschen“ zum Audiosignal hinzugefügt wird.
Da es schwierig ist, sich das Konzept bildlich vorzustellen, wenn es um Audio geht, wird als Analogie oft Dithering bei Bildern verwendet.
Und so funktioniert’s:
Wenn ein Farbfoto in Schwarzweiß umgewandelt wird, wird mathematisch geraten, ob ein farbiger Pixel zu einem schwarzen oder einem weißen Pixel „quantisiert“ werden soll …
… Genau wie bei der Quantisierung von digitalen Audiosamples geraten wird.
Wie Du im Bild unten sehen kannst, sieht das „vorher“ Bild ziemlich schlecht aus, oder?

Aber mit Dithering …
- Wird eine kleine Anzahl weißer Pixel zufällig in die schwarzen Bereiche gelegt …
- Und eine kleine Anzahl schwarzer Pixel zufällig in die weißen Bereiche gelegt …
Und nachdem dieses „zufällige Rauschen“ zum Bild hinzugefügt wurde, sieht das „nachher“ Bild viel besser aus. Beim Audio-Dithering ist das Konzept sehr ähnlich.
Als nächstes …
7. Delay
Die GROSSE SCHWACHSTELLE von heutigen digitalen Studios ist das Ausmaß der zeitlichen Verzögerung (Delay) die sich in der Signalkette ansammelt, besonders bei DAWs.
Aufgrund der Berechnungen, die stattfinden, braucht das Audiosignal zwischen ein paar Millisekunden bis zu ein paar DUZEND Millisekunden bis das Audiosignal das System wieder verlässt.
- 0−11 ms Delay sind kurz genug, dass der Durchschnittshörer nichts merkt.
- Bei 11−22 ms hört man ein nerviges Slapback-Echo, das etwas gewöhnungsbedürftig ist.
- Bei mehr als 22 ms ist es durch den Delay unmöglich, taktmäßig mit dem Track zu spielen oder zu singen.
In einer typischen digitalen Signalkette gibt es 4 Stationen, die zum Gesamt-Delay beitragen:
- A/D-Wandlung
- DAW-Buffering
- Plugin Delay
- D/A-Wandlung
Die A/D- und D/A-Wandler tragen die geringste Schuld und tragen weniger als 5 ms zum Gesamt-Delay bei.
Aber …
Dein DAW-Buffer und manche Plugins (zum Beispiel „look-ahead“ Kompressoren und virtuelle Instrumente) können bis zu 20, 30, 40 ms oder mehr Delay verursachen.
Um ihn zu minimieren:
- Deaktiviere alle unnötigen Plugins während der Aufnahme.
- Passe Deine DAW Buffer Einstellungen an, um die kürzeste Zeit zu finden, mit der Dein Computer arbeiten kann, ohne abzustürzen.
Du wirst feststellen, dass Buffer-Zeiten in Samples und NICHT in Millisekunden gemessen werden. Zum Umrechnen:
- Teile die Anzahl der Samples durch die Sample Rate (in kHz) der Session, und Du erhältst die Latenzzeit in Millisekunden.
Zum Beispiel: 1024 Samples ÷ 44,1 kHz = 23 ms
Wenn Du Mathe hasst, nimm diese einfache Übersicht für 44,1 kHz:
- 256 Samples = 6 ms
- 512 Samples = 12 ms
- 1024 Samples = 24 ms
In den MEISTEN Fällen sollten diese Schritte den Delay auf einen Level bringen, mit dem man umgehen kann …
Aber manchmal, wenn Dein Equipment zu alt oder zu billig ist, reicht es vielleicht NICHT.
In dem Fall …
Die Letzte Möglichkeit
Viele günstige Interfaces haben einen „Mix“ oder „Mischen“ Kopf, mit dem Du das Session Playback mit dem „Live-Signal“, das aufgenommen wird, kombinieren kannst.
Indem Du Dein Live-Signal aufteilst und die eine Hälfte an den Computer zur Aufnahme schickst und die andere Hälfte direkt zu Deinen Studiokopfhörern, verhinderst Du den Delay, indem Du die Signalkette komplett umgehst.
Der Nachteil dieser Technik ist … dass Du das Live-Signal vollkommen trocken, ohne Effekte hörst.
Aber da Computer immer schneller werden, wird Delay hoffentlich in naher Zukunft kein Problem mehr sein.
Als nächstes …
8. Wordclock

Immer wenn zwei oder mehr Geräte digitale Informationen in Echtzeit austauschen …
Müssen ihre Systemtakte synchronisiert sein, damit die Samples aufeinander abgestimmt bleiben …
Und diese nervigen Klicks und Popps nicht auftauchen.
Um sie zu synchronisieren dient ein Gerät als „Master“ und die anderen als „Slaves“.
In einfachen Homestudios führt der Audio Interface Takt normalerweise automatisch.
In Profi-Studios, die hochwertige digitale Konverter und komplizierte Signalführung haben …
Wird ein eigenes Gerät, die Wordclock (englisch auch Master Clock), verwendet. Viele Besitzer einer Wordclock behaupten, dass die Vorteile dieser High-End-Geräte viel weniger subtil sind, als man denkt.
Als nächstes …
9. Mp3/AAC Encoding
Heutzutage sind komprimierte Audio-Dateien die Norm.
Weil iPods und Smartphones begrenzte Speicherkapazität haben und weil fürs Internet Streaming alle Dateien so klein wie möglich sein müssen.
Mit einem Verfahren zur „verlustbehaftete Kompression“, können mp3, AAC und ähnliche Formate Audio-Dateien auf ein Zehntel ihrer ursprünglichen Größe reduzieren.
Der Prozess funktioniert aufgrund des „Maskierungseffekts“ des menschlichen Gehörs …
Dadurch ist es möglich, tonnenweise musikalische Information zu löschen, aber den meisten Hörern immer noch akzeptable Klangqualität zu bieten.
Erfahrene Toningenieure hören vielleicht einen Unterschied, der durchschnittliche Konsument aber nicht.
Wie viel Information gelöscht wird, hängt von der Bitrate der Datei ab.
Bei hohen Bitraten wird wenig Information entfernt und es bleiben mehr Details erhalten.
Beispiele für mp3:
- 320 kbit/s ist die höchstmögliche Bitrate
- 128 kbit/s ist das empfohlene Minimum
- 256 kbit/s ist der ideale Punkt, den die meisten Leute bevorzugen
Um das ideale Format und die perfekte Bitrate für DEINE Musik zu finden, überprüfe immer noch einmal die Empfehlungen des Ziels (iTunes, YouTube, Soundcloud usw.)