ما هي الموجة الصوتية؟
قبل الحديث عن رقمنة الصوت ، من الضروري فهم ماهية الموجة الصوتية بالضبط. تتحقق الموجات الصوتية عندما يتسبب عامل محرض ، مثل الضرب علي الطبلة أو نتف الخيط ، في تحريك جزيئات الوسط ، عادة ما تكون الهواء. تهتز الجزيئات في عملية تتناوب بين الضغط (يصبح أكثر كثافة ومعبأة بإحكام) والخلخلة (يصبح أقل كثافة). تنتشر الموجة بهذه الطريقة عبر الوسط حتى تتبدد طاقتها على شكل حرارة. وتجدر الإشارة إلى أن الوسط يمكن أن يكون أيضًا سائلًا أو صلبًا ، وفي الواقع ، يعد الهواء أحد أبطأ الوسائط لنقل الصوت. يحدد الرسم البياني أدناه كيف سيتوافق اتساع الموجة الجيبية مع ضغط وخلخلة الجزيئات في الوسط.
أي شيء يهتز – خيط ، رأس أسطوانة ، كأس زجاجي ، شوكة رنانة – سوف ينتج حركة مقابلة للجزيئات في الوسط والتي نعتبرها صوتًا.
ما هو الصوت التناظري(التمثيلي)؟
بالنسبة لبعض الناس ، يشير مصطلح الصوت التناظري إلى التكنولوجيا القديمة – وهذا صحيح بالطبع إلى حد ما. لكن التقنيات التناظرية تظل جزءًا مهمًا من إنتاج الموسيقى. لفهم السبب ، يجب أن نحدد أصل المصطلح. كلمة “تمثيلي” مترجمة من كلمة “analogous” والتي تعني المقارنة أو المماثلة أو ذات الصلة. فيما يتعلق بتقنية الصوت ، فإن هذه الفكرة موجودة بوضوح في جهازين أساسيين لتسجيل وإنشاء الموسيقى – السماعة والميكروفون.
تقوم مكبرات الصوت بتحويل الإشارة الكهربائية إلى موجة صوتية عن طريق إنشاء حركات مماثلة لمخروط مكبر الصوت.
يعتبر كلا الجهازين محولات طاقة ، حيث يقومان بتحويل شكل من أشكال الطاقة إلى شكل آخر. وكلاهما من الأجهزة التناظرية ذات صلة اليوم تمامًا مثل يوم اختراعهما.
كيف يتم رقمنة الصوت؟
قبل ظهور أجهزة الكمبيوتر ، كان يتم تسجيل الصوت باستخدام تقنيات مثل الشريط المغناطيسي والفينيل و- في وقت مبكر جدًا- اسطوانات الشمع. سعى المهندسون جاهدًا لتحقيق أعلى دقة ممكنة اعتمادًا على قيود الوسيط. أحد القيود المحتملة الرئيسية هو النطاق الديناميكي – نطاق قيم الاتساع الممكنة من أرضية الضوضاء إلى أقصى مستوى للذروة قبل بداية التشويه. نظرًا لتقدم تقنية إنتاج الصوت ، فقد تطور النطاق الديناميكي كما هو موضح أدناه:
النطاق الديناميكي التقريبي
لراديو FM: 50 ديسيبل
شريط الكاسيت: 60-70 ديسيبل
الفينيل: 70-88 ديسيبل
قرص الصوت المضغوط: 96 ديسيبل
24 بت الصوت: 144 ديسيبل
وتجدر الإشارة إلى أن الهدف من الإخلاص المطلق هو تسمية خاطئة إلى حد ما. يشير ظهور جماليات الفينيل والرجعية أو Lo-fi إلى أنه يمكن تقييم الذوق والتأثير أو “القيود” لوسط معين كجزء من العملية وقد تكون العيوب المزعومة في دقة الصوت مرغوبة بالفعل.
تعد رقمنة الصوت ضرورية عندما تشارك أجهزة الكمبيوتر في تسجيل الموسيقى أو إنتاجها أو نشرها ، والتي تغطي إلى حد كبير كل شيء باستثناء الأداء الحي. وحتى مع ذلك ، ربما يستخدم الموسيقيون على المسرح مؤثرات رقمية في مكان ما على طول الخط.
يعني تحويل الصوت التناظري إلى عالم رقمي أخذ إشارة تناظرية وإنشاء تمثيل لتلك الإشارة بلغة أجهزة الكمبيوتر ، وهي ثنائية (أصفار وواحدة). تحقق من مقالتي للحصول على معلومات مفصلة عن الأنظمة الثنائية والصوت: “بت ، بايت ، وبيرة.”
الإشارة التناظرية مستمرة ، مما يعني التغيير المستمر في السعة والوقت. يتطلب التحويل الرقمي أخذ عينات منه أو قياسه بشكل دوري لجعله مفهومًا وقابل للتحرير في نظام الكمبيوتر. هناك نوعان من المصطلحات المتعلقة بالتحويل يجب أن تكون على دراية بهما:
محول تناظري إلى رقمي (ADC) – يحول الإشارة التناظرية إلى ملف
رقمي محول رقمي إلى تناظري (DAC) – يحول ملفًا رقميًا إلى إشارة تمثيلية
هذا الاقتران بين الأجهزة أو العمليات هو جوهر إنتاج الصوت الرقمي.
معدل العينة وعمق البت
تحتوي عملية الرقمنة على العديد من المتغيرات التي يحددها المستخدم والتي ستؤثر على أشياء مثل نطاق التردد والنطاق الديناميكي وحجم الملف والدقة. متغيرين أساسيين يجب أن تكون على دراية بهما هما معدل أخذ العينات وعمق البت (أو الدقة).
معدل أخذ العينات هو المعدل الذي يتم فيه أخذ قياسات الاتساع عند تحويل الإشارة التناظرية أو إعادة تشكيل ملف رقمي سابقًا. يمكن أن تختزل عملية إعادة التشكيل ( مما يقلل من معدل أخذ العينات) أو زيادة العينة (مما يزيد من المعدل).
قد يكون الاختزال مطلوبًا عند تسجيل الملفات أو إنشاؤها بمعدلات عينات أعلى ، مثل 48 كيلو هرتز (48000 عينة في الثانية) أو 96 كيلو هرتز (48000 عينة في الثانية) يجب أن يتم تحضيرها لتوزيع القرص المضغوط الصوتي. تتطلب هذه الوسيلة الخاصة معدل أخذ العينات 44.1 كيلو هرتز (44100 عينة في الثانية).
يتم استخدام Upsampling بواسطة مهندسين بارعين لإنشاء ملفات بدقة أعلى قبل المعالجة لتوفير نتائج أفضل. يتبع ذلك عملية الاختزال لإعداد الملف للتوزيع.
معدل نيكويست
معدل نيكويستهو مفهوم مشتق من نظرية أخذ العينات الرقمية التي تنص على أنه لتمثيل تردد معين بدقة ، يجب أخذ عينات من الإشارة بضعف معدل ذلك التردد. على سبيل المثال ، لإنشاء تمثيل رقمي دقيق يبلغ 10 كيلوهرتز ، ستحتاج إلى استخدام معدل أخذ العينات 20 كيلوهرتز كحد أدنى. عندما تم تطوير معيار القرص المضغوط الصوتي ، كان هذا أحد الاعتبارات في تحديد معدل أخذ العينات القياسي الذي سيتم استخدامه. استنادًا إلى نظرية Nyquist ، يمكن لمعدل أخذ العينات البالغ 44.1 كيلو هرتز إعادة إنشاء تردد 22،050 هرتز بدقة في المجال الرقمي. نظرًا لأن نطاق السمع البشري يُعتبر عمومًا من 20 هرتز إلى 20 كيلو هرتز ، فقد كان يعتبر هذا كافياً ويمكن إدارته بواسطة أنظمة ومعدات الحوسبة في ذلك الوقت. منذ ذلك الحين ، ظهرت معدلات أعلى لأخذ العينات باعتبارها شائعة بما في ذلك 48 كيلو هرتز (المستخدمة في سياقات الفيديو) ، 88.1 كيلو هرتز ، 96 كيلو هرتز ،
السؤال المنطقي هو – لماذا نستخدم مثل هذه المعدلات العالية لأخذ العينات عندما تتوقف حدود الإدراك البشري بعد 20 كيلو هرتز كحد أقصى. يكمن جزء من الإجابة في فوائد الإفراط في أخذ العينات ، والتي يمكن أن تقلل العناصر الصوتية المعروفة باسم التعرج. عند إجراء معالجة المؤثرات الصوتية بمعدلات أعلى ، يتم تحسين النتائج وتقليل وجود القطع الأثرية. لمزيد من المعلومات حول الإفراط في أخذ العينات ، راجع مقالتي: ” الإفراط في أخذ العينات في الصوت الرقمي: ما هو ومتى يجب استخدامه؟ “
فيما يتعلق بالتسجيل ، يبدو أن استخدام معدلات أعلى لأخذ العينات يوفر نتيجة أكثر نقاءً أيضًا. عندما تحدث تفاعلات بين الترددات ، يتم إنتاج نغمات الجمع ونغمات الاختلاف ويمكن أن تسهم قدرة عملية التحويل الرقمي على تمثيل ترددات تتجاوز نطاق السمع البشري في تحقيق نتائج أفضل في النطاق المسموع.
بنفس القدر أو ربما يكون أكثر أهمية من معدل أخذ العينات هو عمق البت أو الدقة . يمكن اعتبار هذا على أنه دقة كيفية قياس كل عينة. كلما زاد عمق البت ، زادت دقة قياس السعة. أعماق البت الثلاثة الأكثر شيوعًا المستخدمة هي 16 و 24 و 32 بت. بالرجوع إلى المقالة المذكورة أعلاه ، “البتات والبايت والبيرة” ، يمكن أن تكون كل بت في النظام الثنائي إما 0 أو 1. وهذا يترجم إلى عدد معين من القيم المحتملة بناءً على عدد البتات المستخدمة. فمثلا:
يمكن أن تحتوي عينات 16 بت على 2 16 قيمة محتملة أو
يمكن أن تحتوي عينات 65.536 24 بت على 24 من القيم المحتملة أو يمكن أن تحتوي 16777.216
عينة 32 بت على 2 32 قيمة محتملة أو 4294.967.296
كلما زاد عدد القيم الممكنة قل خطأ التكميم وبالتالي قل التشويش في التسجيل. هذا يترجم إلى نطاق ديناميكي أوسع بكثير لتسجيلات 24 بت مقابل 16 بت. (انظر مخطط النطاق الديناميكي أعلاه لمعرفة الفرق بين صوت 16 بت و 24 بت).
يوجد أدناه مثال لعمقين بت مختلفين مستخدمين في رسومات الكمبيوتر.
ضع في اعتبارك لوحين من الألوان الرقمية: 8 بت و 24 بت.
لاحظ أنه في لوحة 8 بت ، لا يوجد سوى 256 خيارًا (2 8 ) ، مما يعني أنك إذا كنت تحاول مطابقة لون موجود ، فيمكنك الاقتراب جدًا.
في لوحة 24 بت ، تكون الاختيارات بالملايين وتبدو الصورة وكأنها ضبابية مستمرة تقريبًا من لون واحد يتحول إلى التالي. باستخدام هذه اللوحة ، يمكنك الاقتراب كثيرًا من لون معين.
فيما يتعلق بالصوت ، فإن الخطأ الأقل أو تقريب القيم يعني تمثيلًا رقميًا أكثر دقة للمدخلات التناظرية.
ما هو التردد ومتى يتم استخدامه؟
من الضروري أو من المستحسن استخدام عملية تعرف باسم التدرج عند الحاجة إلى تقليل عمق البت ، على سبيل المثال عند إعداد ملف تم إنتاجه في نظام 24 بت لتوزيع القرص المضغوط ، والذي يتطلب ملف 16 بت. يساعد التردد على التخفيف من خطأ التكميم الذي قد يحدث عادةً في العملية حيث يتم تقليل الدقة الرقمية بحكم التعريف عن طريق خفض عمق البت. ثبات الألوان يستخدم خوارزميات معقدة تقدم ضوضاء بشكل غير متوقع في العملية لتقليل العيوب غير المرغوب فيها. لهذا السبب ، يجب ألا تقوم بتحريك الملف أكثر من مرة ويجب استخدامه فقط عند تقليل عمق البت.
ما هو ضغط الملفات الخاسرة وما هي الخيارات؟
تفرض قيود تدفق الصوت عبر الإنترنت وحجم الملف الحاجة إلى خوارزميات ضغط يمكنها الاحتفاظ ، قدر الإمكان ، بالجودة الأصلية لملف الصوت. يجب أن تكون على دراية بفئتين رئيسيتين من تنسيقات ضغط الملفات – بدون فقدان أو ضياع.
تتضمن تنسيقات ضغط الملفات الصوتية بدون فقدان:
FLAC (ضغط الصوت بدون فقدان البيانات)
ALAC (ضغط الصوت بدون فقدان من Apple)
يتم تصغير هذه الملفات للتوزيع ولكنها تحتفظ بجميع البيانات من الملف الأصلي غير المضغوط.
تتضمن تنسيقات ضغط الملفات الصوتية المفقودة:
MP3 (MPEG layer 3)
AAC (Apple Audio Compression)
يتم تصغير هذه الملفات للتوزيع عن طريق إزالة البيانات بناءً على القيود النفسية الصوتية للإدراك البشري. عندما تحدد الخوارزميات محتوى صوتيًا معينًا على أنه غير محسوس بدرجة معينة ، فإنها تزيل تلك البيانات ، وبالتالي تقلل من حجم الملف. بمجرد ضغط الملف بهذه الطريقة ، تُفقد البيانات الأصلية ، ما لم يتم الاحتفاظ بنسخة من الأصل.
تتضمن تنسيقات الملفات غير المضغوطة:
BWF (موجة البث – تدعم البيانات الوصفية)
WAV (ملف صوتي الموجي)
AIFF (تنسيق ملف تبادل الصوت)
يمكن نقل هذه الملفات من مكان إلى آخر كنسخ طبق الأصل من النسخة الأصلية ، لكنها بالطبع أكبر حجمًا.
ضغط الفقد ومعدلات البيانات
سيؤثر معدل البيانات المحدد من قبل المستخدم المختار لعملية ضغط الملفات على الحجم الناتج وجودة الملف المضغوط. ستؤدي المعدلات المنخفضة مثل 128 كيلو بت في الثانية (كيلو بت في الثانية) وأقل إلى إدخال عناصر غير مرغوب فيها في الصوت الناتج. 320 كيلو بايت في الثانية هو أعلى معدل بت لملف مضغوط يمكن دفقه على الفور عبر الإنترنت دون الحاجة إلى التنزيل. لمقارنة ذلك بدفق ملف صوتي على قرص مضغوط ، ضع في اعتبارك معدل البيانات المطلوب لملف غير مضغوط 44.1 كيلو / 16 بت:
44100 × 16 = 705600 × 2 (قنوات) = 1411200 بت = 1411 كيلو بت في الثانية
افكار اخيرة
يقع التقاط الصوت من العالم وتحويله إلى معلومات ثنائية في قلب إنتاج الصوت الرقمي. لكن ما ينقص هذا الوصف هو المحتوى الذي تم إنشاؤه على الكمبيوتر نفسه. الأدوات الافتراضية والمزج اللينة هي أجهزة إبداعية قوية بشكل لا يصدق يمكنها إنتاج نتائج مذهلة باستخدام المذبذبات الرقمية ، والجداول الموجية ، ومجموعة كاملة من تقنيات التوليف التي كانت متوفرة مرة واحدة فقط في الأجهزة.
سواء كنت تسجل مصادر صوتية ، أو تولد أصواتًا في الصندوق أو تستخدم المؤثرات الرقمية ، فإن الفهم الأساسي لكيفية استخدام أجهزة الكمبيوتر والأجهزة الرقمية الأخرى لهضم الصوت ومعالجته أمر ضروري.
اترك تعليقاً