プレミア秘境の歩き方『MAミキサーも真っ青！ AIオーディオ』

ここでは Premiere 2026（掲載時は26.2.2）を Pr、After Effects 2026を AEと書きます。

さて、今回は AIによる【生成延長（Generative Extend）】と【AIオーディオ】です。

　とくにワタシのような『MAミキサー（もやっています）』にとっては、驚きの機能が、AIオーディオです。
　ちなみに『MAミキサー』というのは "Multi Audio（マルチ・オーディオ）" の『MA』です。つまり映像に関する音関係のなんでも屋さんです。

　余談ですが、ワタシは映像・オーディオ以外にもソフトウェア開発から電子基板の回路設計、そしてプリント基板のパターンアートワークまでやっていましたので、マルチデジタルエンジニア、MDEと申します。街で「おーい、MDE！」と叫んでください。だーれも振り向かないと思いますが……（悲）

　話がそれました。戻します。
　最新のPrには AI関係の機能が目白押しです。AEの旧ロトブラシを凌駕するオブジェクトマスクには驚かされ、字幕生成とキャプション処理に関しては AE遣いも脱帽でした。
　そしてラストは、AIによる生成延長とAIオーディオです。
　世の中 AIだらけに染まっていますが、うまく使っていますか？
　あ。
　また話が脱線しそうになりました。すみません。それではAIによる生成延長からです。

　AIによる生成延長

はっきりいって、あまり期待しないほうがいいです。確かに使い方によっては助かることもありますが、現場目線で言わせてもらえば、"それぐらいならいくらでも、ほかの方法でごまかせる" というのが感想でした。

　その理由は延長時間が短すぎるところです。
　オーディオの延長は 10秒。動画に関しては2秒しか延長してくれません。その短さを言葉で説明するよりも、百聞は一見に如かず、その結果を検証してみましよう。

　まずは比較検証用の映像を作りました。去年の秋ごろに作ったアニメの背景動画、【海の見える公園】に少し手を加えて、今回も【VoiceVox】さんの AI音声を利用させてもらいました。

映像は架空の海岸で、ナレーションはVoiceVoxの『東北ずん子』さんです

まず、オーディオ延長からやってみます。クリップの最終位置から先を 10秒まで AIが生成してくれるそうですが、音楽は不可能だということです。そこで『東北ずん子』さんのナレーションの最後から10秒と、これもワタシがどこかで録音してきた環境音を、それぞれ 10秒ずつ生成させてみます。

　Prの画面をご覧ください。

先ほどの比較検証用の映像を編集している Pr画面です。オーディオトラック（①）に『ナレーション』と『歩道雑踏』、そして『波の音』を並べてあります。単純にトラックに並べただけの状態ですから、音量レベルは『0dB』のままです。

　生成延長をするときは ②の【生成延長】ツールを押します。
　次のダイアログが出ましたら、【今すぐ始める】を押します。

　押したら、【エッセンシャルサウンド】というパネルを開きます。出ていないときは、【ウィンドウ】→【エッセンシャルサウンド】にチェックを入れます。

　下のような表示が出るときは、オーディオクリップが選択されていませんので、トラック上のオーディオクリップを選択します。

　これがオーディオクリップを選択してから【エッセンシャルサウンド】の【編集】タブを開いたところです。

クリックしたオーディオクリップの種類をここで選択します。ナレーションなら『会話』、BGMなら『ミュージック』、今回のような "波の音" や "歩道雑踏" なら、『環境音』です。「ドカーン」とか、「ビヨヨヨヨヨーン」とかの人工的な音は『効果音（SE）』に分類されます。

　なぜここで音の種類分けをするのかというと、今からやる【オーディオ延長】とは直接関係ありませんが、オーディオ関係の調整は別の専門ソフトに頼らないでも、ある程度は Prでできることがお分かりいただけると思います。

　専門的なソフトの代表は『Sound Forge』とか『Adobe Audition』などあります。Auditionについて詳しくはこちらでも書いていますのでぜひご覧ください。

　ただし Prでは専門ソフトのようにオールマイティにできないようで、ノイズの軽減などは『会話』というオーディオタイプでないとできません。たとえば、『環境音』に設定した "歩道雑踏" からノイズを軽減したいときは、いったん【オーディオタイプのクリア】を押して『会話』に設定してみてください。

　次の画像では "歩道雑踏" のオーディオタイプを『環境音』から『会話』に変えて、【ノイズの軽減】を試しています。参考にどうぞ。

それにしても、【ノイズの軽減】の "ON" と "OFF" のメリハリがすごいですね。雑踏のノイズがスパッと消えています。お見事の一言です。

　他にもリバーブや『ラウドネスの一致』などはかなり使いやすいです。
　ところで、ラウドネスの一致というのは、昔のオーディオ機器、ラジカセとかに付いていた『低音と高音のブースト』ではありません。人間の耳が感じる『音の大きさ（音量感）』を、国際的な基準に合わせて一定に揃える機能です。

　もう一歩踏み込んで説明しますと、人間の耳は周波数によって音が大きく聞こえたり小さく聞こえたりするそうです。実際、会話する人によって同じ音量なのに、小さく聞こえたり大きく聞こえたりするのはそのせいです。その音量感を均一に揃える「オート・ボリューム（音量感の一致）」機能がラウドネスの一致です。単位は『LUFS』で、-16～-24が一般的だそうですが、Prでは『-30LUFS』で固定されているようです。Auditionなどでは調整可能です。

　おっと、オーディオを熱く語る特集ではありませんでした。オーディオ延長でしたね。

　早速 "ナレーション"、 "歩道雑踏"、"波の音" をそれぞれ、延長させてみましょう。どんな音をAIが作ってくれるのか楽しみです。

　やり方は簡単。先ほどの【生成延長】ツールで、オーディオクリップの終端をドラッグして、右に引き延ばすだけです。10秒分だけ伸びます。

上が延ばす前で、下が 10秒間延ばされた画像です。

　続けて残りの環境音も 10秒延長してみましたので、どんな音が作られたのか聞いてみました。

"ナレーション" は何か音らしきものが作られていますが、意味不明でした。"歩道雑踏" と "波の音" は、まあ、それらしい音が生成されていますが、これなら音データのどこか別の場所をコピーしてうまくクロスフェードして、合成させたほうがきれいに繋がりますね。しかもその方法だと10秒といわず、1分でも可能ですしね。まあ、例にした環境音が簡単に手に入るものだったのが失敗だったのかもしれません。

　次は映像の生成延長をやってみます。映像もどこかでぶつ切りしたものと、していないものと並べてみます。

【注意】

動画の生成延長は『1080pのフルHDで 30fps』動画の生成を実行した結果、クレジットが 250も減りました。1秒 125クレジットです。燃費がとても悪いのでご注意ください。オーディオの生成延長は、1秒あたり 5クレジットのようでした。

　その結果をご覧ください。

道路を渡って、カメラが公園に下りる手前で映像が切れています。その続きを AIに作ってもらいました。
　上の映像では生成完了するまでを早送りしていますが、実際は 2分10秒経過しています。

　生成映像を見ますと、だいたいオリジナルと同じ雰囲気の画像が描かれていますので、これが実写の映像だともう少しいい感じになるのでは思います。しかし 250クレジットも消費して、これでは生成時間が短い気がします。このままでは使いどころが分かりにくいです。強いて言えば、トランジションなどで、途中で映像が切れて、あとちょっとその先が欲しい、というような場合には重宝するかもしれません。

　それでは最後の検証。AIオーディオリミックスです。
　これまでの『さくら浜公園』の映像に環境音と AIオーディオリミックスを施した BGMを付けた完成動画です。
　AIオーディオリミックスで作られた BGMの自然なつながりをお聴きください。

音が鳴ります。音量にご注意ください

AIオーディオリミックスというのは、AIが BGM素材を加工して、映像の長さにしてくれるというものです。しかもただのフェードアウトではありませんよ。ちゃんと BGMのエンディングを切り取って、曲の終わりに繋いで、なおかつ、デュレーション（尺）合わせをしてしまう高度なものです。上の例では、映像が終わる時間に合わせて BGMが終わっているのはそのためです。実際この曲のデュレーションは 1分45秒もあります。

　では、どのように操作したのか、次の映像をご覧ください。

リミックスツールで BGMの終端をドラッグして、終わらせたい位置に持ってくるだけで、あとは AIがちょうどいい位置にエンディングを持ってきてくれて、繋ぎ目をうまく加工してくれています。

　生成時間は早送りしていませんので、上の映像がリアルタイムです。また BGMの途中に何か所かある波線部分が、AIが手を加えた部分です。ここらを加工して長さを調整したようですが、その繋ぎ目は全く違和感がありません。ただし、曲調によっては「かなり無理して加工したな」とはっきり聞き取れるケースもありました。

　例えばこの曲の加工済みを聞いてみてください。

BGMは少し余韻が残るほうが自然ですから、これもだいたいデュレーションに合っています。ただ、中間あたりの加工部分（繋ぎ目）に違和感が残っていますが、人間が一切手を出さずにこのクオリティは、素晴らしいと思います。

　逆に BGMの長さが足りない場合はうまく繋いでリピートして、映像の長さに合わせてくれます。ただ同じフレーズの繰り返しが、シームレスループ音源ほどなめらかに繋がらないこともあります。やはり選曲が重要で、なんでも完璧にこなせるわけではないようです。もう少し AIの進化に期待したところです。

　最後は対決です。
　人間（Human＝It's Me）の加工したリミックス音源と、先ほどの AIのリミックス版とを比較してみます。AIの場合は 12秒～20秒あたりに繋ぎ目があります。Humanの繋ぎ目は 7秒～8秒のあたりです。

【AIの作成したリミックス(12秒～20秒に注目）】

【人間の作成したリミックス(7秒～8秒に注目）】

映像の長さに BGMを無理やり合わせるのですから、加工は避けられません。作曲した人からすると屈辱的な仕打ちかもしれませんので、ワタシはなるべく小節間の繋がりを考慮して加工するように心がけています。ですが AIはそこまで考えていないでしょうね。たぶんお構いなしで加工していると思います。

　とはいっても、総合的に見て、これらの機能がもたらす恩恵はあきらかです。なにしろ『It's Me』が手を出したリミックスは 3回修正をして約20分ほどかかっていますが、AIは少々違和感が目立ちますが、ものの10秒ほどです。ぼんやり聴いていたら、その違和感も聞き逃しそうな出来栄えでした。

　このように、面倒な雑務をAIに任せることで、人間はもっと「考えること」に時間を割ける。要は使い手次第、うまく付き合えば、これほど心強い相棒はいないと痛感しました。

戻る