[爆卦]樂器音軌分離是什麼?優點缺點精華區懶人包

雖然這篇樂器音軌分離鄉民發文沒有被收入到精華區:在樂器音軌分離這個話題中,我們另外找到其它相關的精選爆讚文章

在 樂器音軌分離產品中有3篇Facebook貼文,粉絲數超過3,992的網紅台灣物聯網實驗室 IOT Labs,也在其Facebook貼文中提到, AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫 作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 | 音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪...

 同時也有1部Youtube影片,追蹤數超過5萬的網紅麋先生MIXER,也在其Youtube影片中提到,特別感謝: 海國樂器 / 冠群哥 阿丁 Kyte Yang THE ZOOM LIVETRAK L-20:https://www.zoom.co.jp/products/production-recording/live-sound-recording/livetrak-l-20 Zoom L...

  • 樂器音軌分離 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

    2020-03-15 13:06:41
    有 2 人按讚

    AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫

    作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |

    音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。

    如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。

    Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。

    創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。

    笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。

    分解聲波的更好方法

    聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。

    工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。

    基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。

    這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。

    聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。

    夠聰明的系統來重建缺失

    基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。

    電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。

    笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。

    笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。

    這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。

    以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻​​」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。

    這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。

    在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。

    Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。

    笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。

    想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。

    資料來源:https://technews.tw/2020/03/11/using-ai-for-music-source-separation/?fbclid=IwAR1C-0LhFNEkIFUg9QS3xRQK8VKeqKIkPEx9kh7QdGamcsCfUViwyeXyqXg

  • 樂器音軌分離 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文

    2020-03-15 06:30:00
    有 2 人按讚


    AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫

    作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |

    音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。

    如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。

    Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。

    創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。

    笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。

    分解聲波的更好方法

    聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。

    工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。

    基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。

    這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。

    聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。

    夠聰明的系統來重建缺失

    基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。

    電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。

    笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。

    笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。

    這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。

    以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻​​」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。

    這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。

    在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。

    Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。

    笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。

    想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。

    資料來源:https://technews.tw/…/using-ai-for-music-source-separation/…

  • 樂器音軌分離 在 黃中岳談吉他 Facebook 的精選貼文

    2018-11-26 20:30:01
    有 527 人按讚

    {{ 貳. 談談電吉他相關 }}_02

    前一回我們提到用『巨大音量』所收錄的電吉他,不論用幾隻麥克風來收音,我們在實際用途上,是將這些麥克風『們』合成為『一個 Mono (單聲道)』的吉他音色 (我們先忽略兩隻 Room Mic 所應該呈現的『立體聲畫面』),而這樣的音色,我們通常在執行錄音的時候,不論是 Clean Tone 或是 Drive Tone,都是不把『時間系』、『空間系』的效果器收錄進去的,也就是我們習慣說的『乾』的訊號 (Dry Signal)。

    如果你想要用這種 Mono『乾』的訊號做出『立體聲 (Stereo)』的聽覺畫面,你可以有兩種處理選擇:其一,把這個 Mono Dry Signal 的內容,一模一樣地再彈、再錄一次,然後分別擺放在耳朵聽覺的左邊、右邊 --- 由於人所彈奏的音樂內容是不可能百分之百一模一樣的,而那些微小的誤差,譬如細如一隻螞蟻腿的時間差,或是兩次按弦力度不同所造成的音準差距,反而會讓我們的大腦因為感覺到『兩個些微差別』的內容,而產生了聽覺畫面的立體感。另外一種方式,則是將這個 Mono Dry Signal 經過一個有立體聲效果的時間系 (Delay)、空間系 (Reverb) 效果器,來讓你的『乾』訊號渲染成『溼』的立體聲訊號,這種處理方式,就非常趨近於這一週想要討論的『訊號乾、溼分離』的基礎模型。

    但這第二種方式會有一個細節需要進一步討論:你送進效果器處理過的『溼訊號』,其實裡面會有『乾訊號』的存在,也就是說,你的乾訊號在這個處理過程中,音量會被『加總』放大;如果你希望原始的乾訊號音量不要被改變,那麼,你的效果器調整參數中,一定要有一個『Mix』選項,而且這個選項開到 100% 時,你應該只聽得到純的、溼的效果訊號 (也就是 Kill Dry Signal 的感覺),那麼,你的訊號線路應該會是:乾訊號一路、溼訊號視你所選擇的 Mono 或 Stereo 效果,而有另外的一路或二路來做各別的輸出,這時候,才是真正的『訊號乾、溼分離』。

    什麼時候你會希望用到這樣的訊號乾、溼分離的處理手法呢?其實,就認真的音樂製作來說,你應該每一次都要用這種觀念來處理你的樂器、人聲訊號,來得到比較細緻的混音調校結果 --- 相對於這種分離的觀念,另外一種手法就是將這些時間系、空間系的效果直接收錄在你所彈奏的訊號軌道,但一旦之後你希望去調整各個不同的樂器『定位深度』時,你會發現你幾乎沒辦法去做更精確的調整;而如果多項樂器或多把吉他都已經錄成了『溼』的訊號,整個音樂呈現的畫面感,非常容易給人一種『糊掉』的感覺,而且在頻率的修整上也會困難許多。

    [一. 電吉他相關器材實務]_電吉他收音實例_02

    早在八〇年代的吉他搖滾英雄們就發現,他們希望自己的音色要兼具『堅實的核心』與『華麗的效果』,所以不論在錄音製作過程或現場演出,他們應該都至少有兩顆以上的音箱頭與音箱箱體組合 --- 一組用來做主要核心音色,一組 (或一組以上) 用來處理效果的音色。這裡有幾個說明連結,可以讓你更具體地理解整個工作邏輯:

    01. https://en.audiofanzine.com/sound-technique/editorial/articles/the-wet-dry-wet-technique.html
    02. https://riffcityguitar.com/dan-micks-pro-tips-for-a-budget-friendly-wet-dry-wet-rig/
    03. https://www.google.com.tw/search?q=wet+dry+wet+setup&tbm=isch&tbo=u&source=univ&sa=X&ved=2ahUKEwitoPbrxvHeAhUDa7wKHX89CY8QsAR6BAgBEAE&biw=1280&bih=952

    特別在 03 的眾多圖例中,你可以很快地看出線路的連接方式。而這整個的線路連接中,你最需要注意的是用來做出『訊號分流』的 『ABY Box』(譬如這裡列舉說明的:https://reverb.com/news/5-awesome-abys-for-your-routing-pleasure ),因為這個小小的週邊設備,才能讓你堆疊出後面華麗的效果畫面。

    這次我們在錄音室所採用的基本組合,是用 Bogner Shiva 212 音箱做為核心音色平台,吉他手的吉他連接到他效果器盤上『動態系』(Compressor, EQ, Filter 類型的效果器)、『破音系』之後,進到 Bogner Shiva,然後由 Shiva 的前級端 Send 在此之前的訊號到 ABY Box --- 我們用了很簡單的 Zoom MS-70CDR (https://www.zoom-na.com/products/guitar-bass-effects/multistomp/zoom-ms-70cdr-multistomp-chorus-delay-reverb-pedal ) 但 By Pass 它所有的效果。因為它的 Stereo Output 可以讓我從一個輸出就直接接回 Shiva 的後級輸入 (Return)、另一個輸出可以接到吉他手效果器盤的 Delay、Reverb 效果器,做 Stereo 的輸出,進入到另外一組的 Stereo Power Amp (Mesa Boogie 20/20),然後連接到一個可以切換成 Stereo Input 的 412 箱體,來做出一個很完整的乾、溼訊號分離的錄音設置。

    看起來似乎很複雜的接線,但只要你理解基本的『音箱頭 Send/Return』工作順序,其實就很容易理解這種後續推衍出來的線路邏輯。這樣的好處是:如果我現在想要做出一個很迷幻、很虛無的音色,我可以單純只收錄完全沒有『乾訊號』的『濕效果音牆』;反過來說,我可以在非常迷幻的效果色彩中,仍然讓我的主體『核心音色』維持著非常清楚的顆粒感 --- 不論它是 Clean Tone 或 Drive Tone。

    如果你真的實地試著連接這些器材,你很可能也要去注意一下各個器材之間的訊號阻抗是否配對正確;同時,你會很意外的發現,用做『溼訊號』的後級放大,其實音量根本不必開得很大,效果就非常清楚了。在接連錄了幾天之後,我也很意外地注意到,如果你希望『溼訊號』可以更『乾淨華麗』,其實,用『晶體後級』可能比用『真空管後級』還更能達成需求。

    再一次,請不要問我這樣去收錄電吉他的音色,有沒有實際的意義;我覺得它真的有『超過心理層面』的意義,雖然消費者不見得覺得有什麼太大的不同。我的看法是這樣的:如果你聽過這些器材真實發出的音色,至少你在音色的審美觀上會有一種基準的養成;即便日後你可能不見得都能用最理想的方式來錄音,你在調整你手邊現有的數位模擬器材時,也會有比較明確的調整方向。

    因為,你知道什麼是什麼了。

    在之後的相關討論,我們就要『重回人間』,看看我們在自己的家裡或工作室,究竟有哪些『應變策略』,來讓夜深人靜卻又很想練琴的慾望可以在不打擾任何人的情況下有效地達成;或是~讓我們沒什麼預算的音樂製作,可以有機會再美好一些!

  • 樂器音軌分離 在 麋先生MIXER Youtube 的精選貼文

    2019-01-21 15:00:00

    特別感謝:
    海國樂器 / 冠群哥
    阿丁
    Kyte Yang

    THE ZOOM LIVETRAK L-20:https://www.zoom.co.jp/products/production-recording/live-sound-recording/livetrak-l-20


    Zoom LiveTrak L-20結合混音機、介面、效果器及錄音機,是創新的產品類型。

    最多可錄製 22軌播放20軌。6個耳機監聽輸出,内置節拍器的節拍音軌源。當作介面可連接電腦和平板,不須驅動,可在iOS系統運作。可當作 4 軌混音或分離混音和立體聲到擴聲系统。也可以作為一個 AD轉換器,還有延遲調整。

    錄音機有開始/停止按鈕。錄音可透過 USB 或 SD 卡。還可連接踏板開關控制錄音。還有壓縮器和效果器。還有延遲和殘響。

    LiveTrak   L-20可以用於專案錄音,戶外錄音,作為樂團/個人所需的練習工具或現場表演工具。

    功能一覽
    ・採用XLR或1/4英寸連接的20個獨立聲道(16個單聲道加2個立體聲)
    ・22軌同時錄製,20軌回放
    ・22in/ 4out   24bit/96kHz USB錄音介面
    ・6個耳機輸出,每個都有可定制和可保存的混音
    ・從電腦添加背景音樂到您的現場混音和錄音
    ・RCA和TS線路輸入
    ・48V幻像電源
    ・Hi- Z
    ・26 dB PAD
    ・內置壓縮控制
    ・數位電平表-48 dB到-0 dB
    ・主靜音按鈕
    ・低切控制
    ・立體聲平移
    ・主機和監視器輸出A-E
    ・場景保存功能,一次最多可保存9個場景
    ・20個內置延遲和混響效果,參數可調
    ・SD卡輸入
    ・內置節拍器
    ・自動記錄啟動/停止功能
    ・使用USB 2.0介面導入/導出項目
    ・ZOOM FS01腳踏開關的相容功能

    LiveTrak L20也是一個22進/ 4出USB錄音介面,具有靈活的路徑選擇,提供無限的可能性。 Class相容模式,支援iOS設備的連接。

    #麋先生 #MIXER #ZOOM #海國樂器

你可能也想看看

搜尋相關網站