【資料圖】
零門檻進行繪畫創作,文心一格讓每個人都能成為“藝術家”;通過簡單問答即可嘗試編程,ChatGPT讓程序員的編碼工作不再神秘……生成式人工智能熱潮正在席卷整個科技行業。根據文字描述可以生成音樂嗎?當然可以。Meta近日開源的Audio-Craft就能做到,旨在幫助研究人員和開發人員訓練自己的模型,從而推進該領域的發展。
Meta表示,這款人工智能工具以其擁有和特別授權的音樂作為訓練數據,可以把用戶的文本描述轉化為音樂。AudioCraft融合了AudioGen、MusicGen和EnCodec3種模型。其中,預先訓練好的AudioGen模型可以生成環境聲音和音效,比如狗叫聲、汽車鳴笛聲或木地板上的腳步聲,結合用兩萬個小時授權音樂訓練而成的MusicGen以及Encodec編碼器/量化器/解碼器,三者配合下可幫助用戶高效生成高質量的音樂。
值得一提的是,AudioCraft使用En-Codec從原始信號中學習并標記音頻,通過這一步驟建立音樂樣本的“詞匯表”(音頻標記),然后將其輸入到自回歸語言模型中。該模型利用標記內容的結構生成新的模型,從而更好捕獲數據中的長距離依賴關系,這對于音樂生成至關重要。最后,新模型根據文本描述生成新的標記,這些標記反饋給En-Codec用于合成聲音和音樂。
生成任何類型的高質量音頻都需要對復雜信號在不同尺度上進行建模。可以說,音樂是一種極具挑戰性的音頻類型,因為其由不同跨度的音程、多種樂器的音色等復合而成。
如前所述,AudioCraft是開源的,開發人員可以更加方便地獲取代碼和文檔等資源,并且能夠在開源社區中與其他開發人員交流、協作和分享經驗,Meta希望借此進一步推動音樂生成領域的創新發展。Meta認為,MusicGen或將成為一種新的樂器,就像最初的音樂合成器一樣。
但是,Hacker News評論員指出,雖然AudioCraft大部分都是開源的,其模型權重所使用的CC-BY-NC許可協議則要求對原作品進行非商業用途的分享與再創作,對商業使用存在限制,并不符合完全開源的條件。相比之下,完全開源的協議如GPL(General Public License)則沒有限制作品的商業使用。
具體來說,非商業使用條款破壞了開源倡議組織(Open Source Initiative)對開源的定義中的第六點,這可能是由于Meta使用了其擁有授權的音樂源去計算模型權重。
推薦閱讀
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2023 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com