AI也能作曲！OpenAI釋出用於作曲的深度神經網路MuseNet

現在人工智慧也會作曲了，OpenAI開發了深度神經網路MuseNet，可以用10種不同的樂器，結合鄉村、莫札特或是Lady Gaga等風格，製作長度四分鐘的音樂作品，OpenAI並沒有教MuseNet樂理或是編曲理論，而是讓人工智慧從數十萬個MIDI檔案中學習，探索合聲、節奏和風格等樂曲元素。

MuseNet使用通用用途的非監督式技術GPT-2，這是一種大規模的Transformer模型，經訓練之後可用來預測音訊或是文字的序列。OpenAI收集了多種音訊來源，作為MuseNet訓練資料，除了ClassicalArchives以及BitMidi兩個服務，貢獻的大量MIDI檔案之外，他們也在網路上收集了流行、非洲、印度、阿拉伯等風格的音樂，另外，還使用了MAESTRO資料集。

Transformer模型被要求給定一組音符之後，有能力預測接下來的音符，OpenAI經各種試驗，找到了最有表現力和簡潔的編碼方式，將音調、音量和樂器訊息組合成單一的令牌。在訓練的時候，OpenAI透過升高或是降低音調以置換音符，也藉由調高或是調低各種樣本的整體音量，以強化音量效果，在強化樂曲時間上的變化，則是透過加速與減慢音訊片段達成。

同時OpenAI還創建了一個批評者，在模型訓練期間，不停地詢問模型，檢視給定的樣本是來自真正的資料集，抑或是模型過去產生的結果，批評者會對樣本給出分數，當MuseNet在生成輸出的時候，會根據這個分數選擇樣本。OpenAI添加了數種嵌入（Embedding），讓模型能夠為樂曲加入更多樣的特徵，包括和弦或是音樂作品長短等變化。

OpenAI創造了作曲家以及樂器令牌，讓使用者方便地控制MuseNet樣本種類，在訓練的時候，這些作曲家以及樂器令牌會被加到每個樣本中，因此模型可以依據這些資訊預測音符，而在生成階段，模型會依據使用者指定的作曲家以及樂器，進行音符預測。由於MuseNet掌握許多不同的音樂風格，因此還可以用新穎的混合方法，融合不同的風格。

OpenAI將這個早期成果公開，使用者在簡單模式中，可以透過指定作曲家或是風格，以及一個著名的音樂作品作為開頭，程式便會接續創造出新的音樂作品，使用者能簡單地嘗試各種不同的音樂風格組合。

而在高級模式中，有更多的參數可以設定，也需要較長的生成時間，但是可以讓使用者靈活地產生更有創意的作品。OpenAI提醒，將差異過大的風格與樂器合在一起，像集合蕭邦風格與貝斯和鼓，會讓MuseNet產生意料之外的結果，選擇適合作曲家的樂器可以讓結果更自然些。

熱門新聞