-
我真的很愛開書籍類的團購!
這次還沒發文就被大家買爆了,
點點書系列千萬別錯過了!真的必買‼️
▪️團購時間▪️ 9/6-9/12 23:59
▪️購買網址▪️ https://www.littlehumanbooks.com?sl-ref=emilyku1214
(到我的首頁 @emilyk...
-
我真的很愛開書籍類的團購!
這次還沒發文就被大家買爆了,
點點書系列千萬別錯過了!真的必買‼️
▪️團購時間▪️ 9/6-9/12 23:59
▪️購買網址▪️ https://www.littlehumanbooks.com?sl-ref=emilyku1214
(到我的首頁 @emilyku1214 有連結🔗)
-
「點點書全系列套組」假如沒有預算限制我真的非常推薦整組買!
只要用手指頭點一下,就可以聽到單字發音、對話、音樂、問答等等,
而且很好提,外出攜帶也很方便!
以下是五種點點書的詳細介紹。
📌點點書1「有聲認知書」
▪️有25 個主題、368 個生活常用的單字、140 題中文互動問答遊戲、12 首中英文兒歌,讓孩子快速學習知識。
▪️共有國語、閩南語、英語三種語言,讓孩子用聽覺學認知。
▪️長頸鹿喇叭會說話、會唱歌,還會問問題喔!豐富有趣的互動問答遊戲,吸引孩子的學習興趣。
📌點點書2「有聲書-ㄅㄆㄇ、ABC」
▪️國語、英語兩種語言,讓孩子輕鬆學雙語。
▪️ㄅㄆㄇ:認筆順、學語詞,唸讀順口溜好好記。
▪️ABC:認識大小寫,學習單字、拼音,唸一唸句子。
▪️數字:認識數字,練習數數,1個1個數,5個5個數。
▪️加減法:學習5以內的加減法,知道數量變多或變少。
▪️時間:認識長短針,練習看時鐘:現在幾點鐘?
▪️九九乘法:唸讀乘法歌謠,輕鬆記住九九乘法。
▪️比一比:學習比較大小、上下等各種對比關係。
▪️世界地圖:認識世界七大洲的特色和可愛動物。
▪️13首中、英文兒歌:讓孩子跟著音樂哼哼唱唱。
▪️將書本放在長頸鹿點點書的最後一頁上,按下啟動鈕就可以撥放音樂了!
📌點點書3「365晚安故事」
▪️96則故事+96題問答+6首古典音樂晚安曲。
▪️故事多元:經典童話+伊索寓言+好品格故事+好行為故事+好觀念故事+機智故事+成語故事。
▪️叮嚀啟示:每則故事皆有小叮嚀,讓孩子從故事中得到啟發。
▪️長度適中:每則故事3分鐘以內,最適合作為睡前故事。
▪️問答測驗:聽完故事後,可聆聽問答,訓練記憶力與思考力。
▪️舒眠歌曲:穩定情緒,孩子更好入睡。
📌點點書4「寶寶愛說話有聲認字圖卡」
▪️常用詞語:共21類,每個詞語皆觸及孩子在生活中經常遇到的人事物,能有效幫助孩子迅速學會認字!
▪️多種語言:共四種語言(國語/台語/客家語/英語),可激發孩子學習各種語言的興趣。
▪️搭配插圖:每個詞語搭配相對應的插圖,輔助孩子學習認字。
▪️語句範例:孩子學會認字後,可聆聽語句,訓練表達能力。
▪️問答遊戲:透過「找一找」遊戲,訓練孩子的記憶力與反應力,特別設計了十多種獎勵答對的音效(孩子答對時,會隨機播放),讓問答遊戲更有趣。
▪️錄音比對:先聽標準發音,再錄下自己說的聲音,孩子可從播放聲音中,比較兩者的差異,再調整發音,不但能讓孩子多練習說話,還能讓孩子說得更標準。
📌點點書5「英語520」
▪️英語、國語兩種語言:讓孩子輕鬆學雙語。
▪️ 500個A∼Z主題單字、400首唸唱單字歌謠(CHANTS),跟讀與拼讀雙管齊下,學會唸單字、拼單字。
▪️日常生活用語:幼兒能學會說自己的名字、年紀、 問安、道別、和打招呼。
▪️英文兒歌:20首經典歌曲,一聽即能朗朗上口。
▪️錄音播音設計:現學現錄,立馬驗收學習成效。
▪️聽力遊戲:有趣雙語問答,可激發視聽觸三種感官能力。
⚠️點點書需要使用3顆3號鹼性電池
-
接下來的「寶寶認知黏貼書」我也非常推薦‼️
分別有四種黏貼書「認識顏色」、「可愛動物」、「趣味形狀」以及「交通工具」
每一本黏貼書裡還各附一本認知著色本和12色台灣製的無毒大蠟筆,
弟弟玩黏貼書,姊姊在旁邊畫畫!
寶寶認知黏貼書是使用厚紙板材質
不用怕猛獸時期的寶寶撕毀!
每一個紙卡背後都魔鬼氈,
可以教孩子比對形狀,認識物品!
-
另外還有「情境認知立體書」真的也是必買!
這系列有四本書,分別是「形狀、對比、數字、顏色」
每本都有10種立體設計,收入生活中常見形狀、對比、數字和顏色。
10個小機關集合翻翻書、推拉書、立體書,讓孩子邊玩邊學,
除了能夠學習到新的知識,也能夠達到小肌肉成長與訓練的效果。
時間長短詞語 在 每天為你讀一首詩 Facebook 的最佳貼文
靈魂交響曲──讀黃燦然《我的靈魂》 ◎AKI
一、作者介紹
黃燦然(1963年-),出生於福建省泉州市,1978年12月開始移居香港,1984年9月考入廣州暨南大學新聞系。現於香港大公報任職國際版翻譯工作。
二、詩與語言
黃燦然的詩作具有鮮明的風格,他的詩中經常展現生活中的日常,在語言上有著濃厚的抒情性,在敘述觀點上他總是以較為客觀的視角切入,大部分的詩人是在詩中建立並形構出自我,而在黃燦然的詩中,他試圖隱去自我,他詩中的「我」成為閱讀中帶領讀者進入詩境的鑰匙,他的取材並非以帶有主觀的眼睛去挖掘內心層面,反而是客觀的凝視這個世界,生活中難以言說的道理以及感受,黃燦然試著用詩來把握。
〈黑暗中的少女〉
一張瓜子臉。生輝的額、烏亮的髮
使她周圍的黑暗失色,她在黑暗中
整理垃圾,堅定、從容、健康,
眼裡透出微光,隱藏著生活的信仰。
她的母親,一臉憂悒,顯然受過磨難
並且還在受著煎熬,也許丈夫是個賭棍
或者酒徒,或者得了肺癆死去了,
也許他在塵土裡從不知道自己有個女兒。
每天凌晨時分我下班回家,穿過小巷,
遠遠看見她在黑暗中跟她母親一起
默默整理一袋袋垃圾,我沒敢多看她一眼,
唯恐碰上那微光,會懷疑起自己的信仰。
以〈黑暗中的少女〉為例,黃燦然在詩的開頭,以瓜子臉、生輝的額、烏亮的髮、使她周圍的黑暗失色,他運用精簡的描述輕易在讀者心中勾勒出「黑暗中的少女」的形象。開頭以「一張瓜子臉」將少女與讀者之間的距離拉近,隨後接「生輝的額、烏亮的髮、眼裡透出微光」,這三個明顯的光源與少女周圍的黑暗形成對比,少女如同一個發光體,她周圍的黑暗與整理的垃圾襯托出她的堅定、從容、健康。詩的第二段寫少女母親的出場以及對於少女父親的臆測,反覆運用「也許」、「或者」這類猜測的判斷句式,剛好呈現出一個關於像「我」這樣的路人,旁敲側擊眼前這個少女可能背負著某種命運,情感的徘徊使得詩中瀰漫一股抒情氛圍,而少女所經歷的磨難又如同她身處的黑暗,更加襯托出她的明亮。在最後一段中,黃燦然將鏡頭轉向到「我」身上,讓讀者跟隨我下班回家的步伐穿過小巷,少女與我在相同的場域中碰面,透過我的眼睛觀看少女的生活情境,以一個旁觀者的視角從遠處看少女與她的母親在黑暗中整理垃圾,但又沒敢多看她一眼,因為擔心那微光會懷疑起自己的信仰。透過「我」的心境轉折襯托出少女信仰的堅定。詩在相信與猶疑之間產生張力,黃燦然運用簡潔精確的語言呈現深邃的詩意。
三、詩與節奏
黃燦然在評論集《在兩大傳統的陰影下》中提到他同意美國詩人詹姆斯.賴特的看法,認為講究形式更多是會解放想像力,而不是限制想像力。他認為講究形式的詩人在各方面重複自己的機會很少;而不講究形式的詩人總是很容易重複自己,因為他的經歷大部分用於「發明」每一首詩的形式。
黃燦然提到他自己在學習形式的同時,也學習使用標點符號,他認為標點符號既是文字的一部分,又是音樂的一部分,能使文字和音樂都更加豐富和多樣。語言無法表達的情緒可以透過聲音傳達,這正是詩中音樂性所追求的境界。黃燦然的詩歌音樂主要指的是「詞語的音樂」,不仰賴任何修辭、不模仿其他音樂形式,使詞語本身有著自己的生命在流動。
〈否定〉
對於你,事業初成者,對於
你調遣幾十個手下的未來計畫,
你印堂上隱約升起的權力光暈,
你越來越接近於主管級的笑聲;
和你,成家立室者,對於
你努力顯得不經意地把話題
扯到太太逐漸隆起的肚子,
新居,請教去哪兒買搖籃;
還有你,剛踏入社會者,對於
你一臉稚氣所掩藏的狡黠
和「請多多關照」背後
「等著瞧我吧」的暗示,
他,那個白髮憑窗者,
和他,那個灰鬢倚欄者,
還有他,那個禿頭踱步者,
都有足夠的資格和理由
一一予以否定:他們都曾經
熱情地投入生活──
如石沉大海。
以〈否定〉為例,整首詩十九行,由「對於你……和你……還有你……他……和他……還有他……」這樣一個長句組成,而這些長句的運用不單單只是表達他想說的話,也在閱讀過程中使人感到新鮮。他詩中使用長句可以視為是一種音樂經營,在〈譯詩中的現代敏感〉一文中,他提到:「詩行的長短排列和標點符號本身已構成視覺上的節奏感。」在他詩中也確實能看見他以標點符號形成「視覺節奏」中的作用。「聲音節奏」與「視覺節奏」,當這兩者合而為一正體現黃燦然詩中展現出來的詩意。
四、詩與生命
黃燦然在提過他有幾年的時間都處於生病的陰影下,儘管他已不大生病,處於一種享受健康的狀態,他在享受著健康時容易忽略的生命的歡愉,也因此他認為病即健康,健康即病。他在生病前,對生命的理解都是承受痛苦;生病之後他漸漸發現生命應是歡愉的。他把語言視為有其獨立生命的東西,把詩人視為語言的載體,所以認為詩人寫下來的詩已不是他的詩,而是順應他的語言的命運。
〈黎明曲〉
維多利亞公園朦朧的輪廓
被朦朧的人影塑造著,然後我看見
周圍的摩天大廈已接住最初的曙光。
我在高高的單槓下徘徊,心中的紋理
有露珠在滑動,而我知道,我已飽含
黎明的元氣和空氣。我開始吐納,
拿煙味和酒味換健康的前景,而我知道
我已不再清新。眼前沒有月桂樹,
身邊也沒有長春藤。這些晨運者
都是心靈脆弱者,一場重病曾經
差點奪去差點被他們揮霍掉的生命。
現在他們像我一樣,活在地平線的
另一側,陰影既是他們想擺脫的,
又是他們辨別並珍惜明亮事物的地方。
那個為了苗條而嘔出膽汁的少女,
那個因身上的贅肉而淚水倒流的婦人,
那個想偷偷征服厭食症的年輕母親,
她們都擺出努力的姿態,跳躍,
壓腿,彎腰,深呼吸,緩步跑,
穿行於抬不起頭來的男人中間。
這些體育陰暗面的證人,把日子
押在早睡早起上。而我為自己
這過來人加旁觀者的身份感到抱歉。
歸途中我注意到,在遠方,在一座高樓的天台
碟形天線盛住一縷霞光。就寢前
透過臥室的窗囗我看見,在另一座高樓的天台
一樣的裝置盛住一樣的霞光,
它正在減弱、消退、淡去,
它是我,一個晝睡夜起的人,
就寢的精確鐘面,它說:
再見,白天。
以〈黎明曲〉為例,他表示一九九二年的一場大病使他如同換了血,健康是陽,生病是陰,而他有機會看到人生和世界的陰陽。詩中「朦朧的輪廓」、「周圍的摩天大廈已接住最初的曙光」好像有一種希望是若隱若現的感覺,儘管自己已不再清新,重病曾奪去生命,但彼此都還是在地平線上另一側活得好好的,因為曾被籠罩在陰影之下,所以陰影既是他們想擺脫的,又是他們辨別並珍惜明亮事物的地方。正因為黃燦然將語言當成表達他對生命理解的媒介,也因此他詩作的質量乘載自己的生命體悟,他認為歡愉趨向平靜,甚至來自平靜,他的詩歌色調因生命體驗而明亮起來。
五、結語
《我的靈魂》按時間編排收錄黃燦然從1994年至2005年期間的詩作,透過觀察日常生活的場景,將捕捉到的碎片做延伸,慢慢形構詩的身體。藉由時間的催化,黃燦然的詩與生命形成緊密的連繫。
黃燦然在詩集《游泳池畔的冥想》自序中提到,對於善的追求成為他詩歌的基調,那是經過對詩歌和人生的長期思索,發現了光明與善。但之後在與凌越的訪談中,黃燦然說自己繼續思索下去,最後發現人生的真相是不分黑暗與光明,也不分惡與善。當他看到這個真相,並不意味著他是不分黑白、不分善惡。但是他之外尚有一個藝術家,藝術家有責任揭示真相,就像他有責任去表明他的立場。如同《我的靈魂》最後一首詩〈來自黑暗〉的末兩段:
但我仍生活在陰影裏,
部分是我過去的陰影,更多
是周圍那些在黑暗中、鬱悶中
和疾病中的人們投來的
巨大的陰影──
它時刻提醒我(我甚至
聽見它低語):「你的世界
已被光明和黑暗分割,現在
你就像一棵樹,雖然也仰望天空
但永遠屬於大地。」
--
美術設計:游佳真
圖片來源:游佳真
--
https://cendalirit.blogspot.com/2021/02/20210217.html
#每天為你讀一首詩 #黃燦然 #我的靈魂
時間長短詞語 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫
作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |
音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。
如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。
Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。
創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。
笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。
分解聲波的更好方法
聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。
工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。
基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。
這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。
聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。
夠聰明的系統來重建缺失
基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。
電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。
笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。
笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。
這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。
以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。
這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。
在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。
Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。
笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。
想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。
資料來源:https://technews.tw/2020/03/11/using-ai-for-music-source-separation/?fbclid=IwAR1C-0LhFNEkIFUg9QS3xRQK8VKeqKIkPEx9kh7QdGamcsCfUViwyeXyqXg
時間長短詞語 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫
作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |
音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。
如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。
Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。
創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。
笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。
分解聲波的更好方法
聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。
工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。
基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。
這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。
聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。
夠聰明的系統來重建缺失
基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。
電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。
笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。
笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。
這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。
以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。
這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。
在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。
Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。
笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。
想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。
資料來源:https://technews.tw/…/using-ai-for-music-source-separation/…