ここでは Premiere 2026(掲載時は26.2.2)を Pr、After Effects 2026を AEと書きます。

【自動文字起こし機能】の 後編です。文字起こしパネルで生成された日本語のナレーションを、キャプション(字幕)の生成処理を通して字幕が作られたところからです。

 Prの作業画面はこんな感じになっています。

画面を目いっぱい使ってぎっしり詰まっています。やはりこの手の作業には最低でもツインモニターにしたいところですね。


 そしてこの中の【キャプションパネル】をメイン表示させると……。

字幕の切れ目が気になる場所があります。ピンク枠で囲った 3つの字幕です。セリフの途中で次の字幕に移っています。このままでも問題はないのですが、丁寧な仕上げにするのなら少し修正したいところですね。例えば次のように 3行を 2行にしたいです。

では これからプレミア秘境にある文字起こし王国に出発します

運転手は鳩時計から逃げ出してきたポッポくんです



 問題は、このようにすると文字数が増えるため、字幕に強制改行が起きないか心配です。とくに次の 1行は長いので起きそうです。

では これからプレミア秘境にある文字起こし王国に出発します

文字数は半角スペースを入れて 29文字です。プログラムモニターを見ると、画面の両端にスペースがたくさん余っていますので、もっと大きな文字サイズにしても改行は起きないと思われます。

 では気になるこの 2行を文章としてまとめてみましよう。

1行目で切り離された字幕があるテキストエリアを Wクリックして、移動したい文字列を選択します(ピンク矢印)。そして〔Ctrl+X〕で切り取りコピーをします。


 続いて、ペーストしたいテキストエリアを Wクリックして……。

最後尾に〔Ctrl+V〕でペーストします。ふつうの文字修正と同じ要領です。これで最初の 1行目の修正が終わりました。

 ただしタイムスタンプは文字列が増える前の状態ですので、字幕を読み終わる前に次の字幕が出ます。この修正はタイムライン上で人間がやることになります。効率を考えるのなら、よほどひどいところだけにするか、読みやすさを重視するなら、あとからの修正をやらなければいけない、ということを覚えておいてください。

 といってもタイムスタンプの修正はものすごく簡単です。タイムラインに並んだ二つの字幕間の位置を【ローリング】ツールで左右に動かすだけで、字幕のタイムスタンプの数値が自動的に変更されますから、それほど難しく考えることはありません。

 タイムラインでの字幕修正はまとめてやりますから、先に次の 2行を結合して 1行にします。『運転手は』のタイムエリアをクリックしたあと、〔Shift〕を押しながら次の『鳩時計から逃げ出してきたポッポくんです』の二つの行を選択して……。

3番の字幕にあるタイムスタンプの開始時間と 4番の終了時間を憶えておいてください。
【キャプションを結合】ボタンを押します。

このように二つの字幕が結合され、タイムスタンプの開始と終了の時間も補正されます。
 また、結合部分(ピンク矢印が示す青い隙間)には、必ず半角のスペースが自動的に付けられます。『運転手は』と『鳩時計から逃げ出して……』の間です。この場合は半角スペースが入っても問題ありませんが、不要なときは手動で削除することになります。

 字幕の結合では音声と字幕がずれることはありませんが、先に書きましたとおり、文字数が変化するような修正をすると、音声と字幕が少しずれます。そこでその修正をタイムラインでします。
 修正方法は次の動画をご覧ください。


back to top

音声が鳴ります。音量に注意してください(音が出ないときはスピーカアイコンを押します)

字幕の表示時間を修正するのは【ローリング】ツールか【選択】ツールでキャプショントラックにある字幕クリップの端をドラッグするだけです。そして字幕の表示時間はオーディオトラックの波形データの『山や谷』を見ていれば、どれが何のセリフ部分か判別が付きます。そこを目標に時間を動かせば、キャプションパネル内のタイムスタンプも自動的に修正されます。


 実際にキャプションパネル内の問題の字幕データを見るとよく分かります。

字幕の終了時間に注目してください。修正後のタイムスタンプは約 2秒ほど長くなって、次の字幕にも反映されています。
 このように、キャプショントラックにある字幕クリップの位置を動かすと、自動的にキャプションパネル内のタイムスタンプも変化する、大変便利なものです。


 まだキャプションパネル内の字幕データを、二つに分割する方法が説明できていませんが、今回は VoiceVoxさんの高品質なナレーションを使わせていただけたおかげで、最大文字数を超えるようなセリフが出てきませんでした。これでは字幕データの分割方法の説明ができませんので、無理やり二つの字幕を結合して強制的に改行された字幕データを作りました。これを使って説明します。



二つに分かれていたものを無理やり一つに結合しました。映像では字幕がどうなっているかというと、

当然ですが、上の画像のように字幕は強制改行されて 2行になっていました。

 人が喋った音声を字幕に生成しますと、このように文字数オーバーになることがよくあります。またフォントサイズをあとで大きくすると、テキスト領域からはみ出して強制改行が起きます。

 このようなときの対処を説明します。次の画像です。
 9番のテキストエリアが改行している長い字幕の部分です。

9番のテキストエリアを選択してから、ピンク矢印の【キャプションの分割】を押します。


 すると……。

上のように ①と同じ字幕 ②が追加されます。カーソルあたりから二分割されるのかと思っていましたので、少々期待外れです。これでは分割でなくて複製ですね。
 つまり、2行にしたから、あとは好きなように文字列を修正しなさい、という感じです。

 9番の字幕の不要な部分を削除し……。

上の画像のように必要な部分を残します。


 10番の字幕も……。

必要な部分は残し、他は削除します。

 ①で示す 9番の字幕は文字数が減りましたが、タイムスタンプの長さは変りません。先ほど同じようにタイムラインでの修正を余儀なくされます。ここらも全自動だとずいぶん楽になるのですが、仕方がありません。

 タイムラインでの修正は先にやりましたとおり、音声ファイルの波形を見て、どのあたりで字幕が変わるかを見つけておいて、二つの字幕クリップの切れ目をローリングツールでそこへ移動させれば、キャプションデータのタイムスタンプは自動的に修正されます。
 作業自体は簡単ですが、数が多くなると意外とつらいです。



 さて、字幕の編集が終わりますと、作業の続きはここから 2つに分かれます。

 ① できあがったキャプションデータを『srtファイル』として完了させてしまう。

 ② このまま Pr内でテキストの見栄えをよくして映像データ内に字幕として焼き付けてしまう。

とに分かれます。


 初めに『srtファイル』の説明をします。
 srtファイルは、動画配信プラットフォーム側で処理され、そのプレイヤー上で表示される字幕データです。中身は使用する文字列と、表示のタイミングがセットになったテキストデータになっています。フォントや色はプレーヤー側で変更します。
 そのため、プレイヤーにもとから付属している自動字幕ツールで出されるものよりも高品質で、あらかじめ修正が施された間違いのない字幕を表示させることができます。

『srtファイル』は、YouTubeでは最も推奨されている、一番メジャーな字幕ファイルの形式の一つですし、Vimeoでも推奨されています。ただし、可変フレームレート(VFR)の動画の場合は注意が必要です。この方式はフレームレートが変化するために音声と字幕のタイミングがズレていきます。YouTubeではアップロード時に強制的に固定フレームレートに直されますが、Vimeoでは非推奨の方式になっています。


 映像制作に使用するする動画ファイルが、可変フレームレートかどうかは、Prのプロジェクトパネルにある『.mp4』ファイルを右クリックして、【メディアファイルプロパティ】で開いてみてください。『フレームレート:30.00』以外何も書かれていなければ、通常の固定フレームレートで、下記の画像のように【可変フレームレートが検出されました】と出たら、それは【可変フレームレート】です。

これは AE遣いの方にも要注意案件で、可変フレームレートだと気づかずに映像を編集して、Media Encoderや、AEに付属のレンダキューで『mp4』にエンコードした映像の途中から、音がズレだして慌てることがあります。

 しかも AE側では可変フレームレートかどうかの判別がつきません。ファイルのプロパティでもそのような項目は出ませんし、タチの悪いことに、AEでの作業中は音ズレなど起きませんからいったいこの原因は何だ、と悩むことになります。
 もし AEの作業で音ズレが起きたときは、まず可変フレームレートを使っていないかを疑ってください。AEの作業中には気づきませんからあとで慌てることになります。
 もし同じトラブルに遭遇している方は【After Effects & Cinema4D Liteトラブル対策案】をお読みください。
 他にもVimeoの Helpでも解説されています。興味のある方はご覧ください。
 というのが『srtファイル』についての概要でした。


 次は Pr上の字幕として処理する話です。
 先ほど作られたキャプションデータは時間データ付きのテキストファイルとしてキャプショントラックに並んでいます。ただしフォントや文字サイズはデフォルトのままですから、任意のフォントやサイズなどにスタイルは自由に変更可能です。ただ Prには『プレミア王国』としての作法があり、『アフターエフェクト王国』のそれとは異なっています。

 プレミア王国のテキストは次のように二つに分かれています。

 ① キャプションとしてのテキスト

 ② グラフィックとしてのテキスト

自動文字起こしから作られたテキストは ①のキャプションとしてのテキストとして、特別なキャプショントラックに並ぶのはご存じのとおりです。
 ②のグラフィックとしてのテキストは、『グラフィックテキスト』と呼ばれ見た目重視のテキストです。
 テキストスタイルはもちろん、表示位置などすべてのプロパティを自由に使えて、エフェクトも掛けられる、いわゆる AEで扱うテキストと同じようなものです。

 では①のキャプションとしてのテキスト君はキャプションとしての任務から逃れられないのかというと、そうではありません。キャプションからグラフィックへ転職(変更)することができます。


back to top

キャプションを選択して【グラフィックとタイトル】から変更可能です

グラフィックテキストに変身すれば煌(きら)びやかな世界で自由に舞い踊れますが、二度とキャプションの世界に戻ることは許されません。
 キャプションの世界はすべてに対して正確な時間で動くことが重視され、全員が同じスタイルで統制の取れた振る舞いができるように教育された規律正しいエリートたちです。キャプションパネル内であれば、テキストは字幕として、自由な位置で分離、あるいは他の字幕と結合ができます。

 それに対して一度グラフィック界隈の煌びやかな生活に染まった元キャプションたちは、キャプションパネルから抹消されており、こんどはグラフィックパネルに並べられます。その部屋では字幕としての名残(なごり)として、タイプスタンプは残されていて、時間的な場所が動けばタイムスタンプは変化しますが、もうテキストの分離・結合はできなくなります。

 そしてグラフィックテキスト界隈の掟、統一の取れた振る舞いは一部制限されます。その典型的な弊害が、すべてのグラフィックテキストを選択しても、1行あたりの文字数の変更つまり、テキスト領域の幅を一斉に換えることはできなくなります。ようするに字幕として統一が取れた文字数に変更するには、一つ一つ選択して個々に調整していかなければならないということです。

 このような制約が発生しますので、キャプションからグラフィックテキストに変更するときは慎重にすることをお勧めします。

 ということで、ここから先はグラフィックテキストは扱わない前提で進めていきます。



 現在の段階で字幕はきれいに並んでいますが、文字サイズが少々小さくて見づらいです。そこでフォントサイズを大きくするのですが、大きくすると行あふれが起きるキャプションが出てくるはずです。そのことも考えて、最もセリフの長い字幕を選んで作業します。




プロパティパネルでフォントサイズを「80」まで上げると丁度いいサイズなのですが、次の画像のように行あふれが発生しました。




 2行になってしまったのを修正します。

プログラムモニターのテキストを【選択】ツールでクリックします。
【テキスト領域】の破線枠が出ますので、両サイドの丸いハンドルをドラッグして 1行に戻るまで広げます。


 ついでに段落を【左端揃え】にしてフォントも変えました。これを全部のキャプションに適用させるには三つの方法があります。

 ① キャプショントラック全部のキャプションを選択してから、スタイルを変更する

 ② 一つのキャプションを選択してから、今回限りのトラックスタイルとして使う

 ③ 他のプロジェクトでも使える共有スタイルとして使う

どれもキャプショントラック専用のスタイルとして扱われます。
 ②は次の【再定義】ボタンを押すと全部のキャプションに反映します。


back to top

初めてなのに、なぜ『再定義』?

これを実行しますと、①と同じで、テキストとしてのスタイル(フォント、色、サイズ、段落など)は反映しますが、【テキスト領域】の破線枠の幅を扱うことはできませんでした。

 ところが、③の『他のプロジェクトでも使える共有スタイルとして使う』の中で、【プロジェクトに保存】を選択すると、【テキスト領域】の破線枠の幅も一斉変更できましたので、これが使えそうです。


 ③ 他のプロジェクトでも使える共有スタイルとして使う

作成したキャプションのスタイルを外部スタイルファイルとして登録して、別のプロジェクトでも共有できるようにするモードです。


 もう一度プロパティパネルを見てください。

フォントサイズを『80』で、段落を左揃えにしてから、【テキスト領域】の破線枠を調整した状態です。

 まず、①の「+」アイコンを押して、②の【スタイルの作成】を押します。


 すると次のようなダイアログが開きます。

【名前】はちゃんとつけたほうがいいです。もし同じ名前のスタイルを複数作ってしまうと、どれがどのスタイルか分からなくなります。

 そしてここが秘境の謎の部分。【ローカルスタイルに保存】と【プロジェクトに保存】の違いがこの言葉からは、うまく汲み取れないのですが、実際に比べてみると、【ローカルスタイルに保存】は今選択されているキャプションのみにこのスタイルが適用されて、スタイルファイルとしても保存されませんでした。結局、何もやっていないのと同じような気がしますが……。

【プロジェクトに保存】を実行するとすべてのキャプションに適用されて、プロジェクトパネルにも付けた名前のスタイルファイルが登録されました。
 そして、念願のテキスト領域の幅も一斉変更できます。これを使えば 1行あたりの文字数の変更がまとめてできます。

 それにしても、なぜここで二つに分かれているのか、首をかしげてしまいますが、ここは深く考えないで、とりあえず両方チェックを付けて【OK】を押します。

 これでスタイルがすべてのキャプションに反映されます。
 プロジェクトパネルにあるスタイルファイルを右クリックして【テキストスタイル書き出し】をすれば『.prtextstyle』というファイルができますので、別のフォルダに保存することもできます。

 とてもややこしい説明になってしまいましたが、難しいことはしていません。よく分からないときは、

 ① キャプショントラック全部のキャプションを選択してから、スタイルを変更する

 ② 一つのキャプションを選択してから、今回限りのトラックスタイルとして使う

のどちらかを使えばひとまず無難です。
 そしてテキスト領域の幅も含めたスタイルを作るときは、これです。

 ③ 他のプロジェクトでも使える共有スタイルとして使う


 ちなみにグラフィックテキストの場合は、何をやってもテキスト領域の幅の一斉変更はできませんでした。





【文字起こしベースの編集】


 さてここで、後回しになっていた、『文字起こしベースの編集(ソース文字起こし)』の説明をします。
 簡単にいうと、自動文字起こしされたテキストの一部を削除すると、その部分の映像や音声クリップの場所を AIが探してくれて、その範囲を自動的にカットしただけでなく、削除されて空いた隙間に、後ろのクリップ全部を詰めてくれるという、映像のカット編集がとんでもなく楽になる神機能です。

 起動方法は簡単です。自動文字起こしを始める前の段階に戻ります。
 初めての場合は、青い色をした【文字起こし開始】と書かれた大きなボタンを押します。


二回目以降なら次のように『・・・』アイコンを押して出たメニューから【文字起こしベースの編集文字起こしを生成】を押します。

どちらを押した場合でも、数回『注意』のようなダイアログが出ますが、【OK】を押して進んで行くと……。

前回の【静的な文字起こしを生成】が起動したときとは違った進捗バーが出ます。



 しばらく待っていると、

【静的な文字起こしを生成】で作成されたのと同じテキストエリアが、文字起こしパネルに出ます。


全体の作業画面はこんな感じです。

セリフの『まあ、たまに変な変換をして……』の『まあ、』の先頭に青くて細いカーソルが点滅をしていて、再生ヘッドは『オーディオトラック』の『まあ、』の波形前で止まっています。

 さてここからが【文字起こしベースの編集】の本領発揮。

 文字起こしパネル内にある『まあ、』の部分だけ削除してみます。

 文字の削除だといっても、テキストエリアを Wクリックして文字変換モードにすることはありません。そのまま〔Shift〕キーを押しながら、矢印〔〕キーを 1回押すと、『まあ、』の部分に青いオーバーレイが出ます。2回押すと『たまに』までが青くなります。


まあ、』の部分が青いオーバーレイになったら、〔Delete〕キーを押して削除します。

文字起こしパネルが、『まあ、』の前で分割され(①)、そして『まあ、』は消えて、『たまに変な変換をして……』から始まる別のブロック(②)に分かれました。

 すごいのはこの次です。シーケンスパネルの ③の部分を見てください。
 映像とオーディオトラックの『まあ、』の部分だけがそっくり削除されて、カット編集が行われています。これを瞬間にやってしまいますから驚かされるのです。


 しかしすごいすごい、と驚いている場合ではありません。この機能は確かに素晴らしいのですが、使い方を誤るとせっかく作った映像がズタズタになってしまいます。


 恐怖の実験をしてみましよう。
 現状のシーケンスに BGMとテキストクリップが入っていたとします。次の画像です。

BGMに関しては【まだ文字起こしされていません】という警告が出ていますが、【テキストクリップ】には警告が出ていませんし、ちょうど『まあ、』の部分で『ビデオトランジションのスライド』が適用されています。

 こんな偶然は無いとは思いまいますが、たくさんのクリップが複雑に重なっている場所で、知らずに長いセリフを削除するとどうなるか想像がつきますね。その部分が根こそぎ消えてしまうんですよ。考えただけで恐ろしいです。知らずに保存をして「やぁ。これで仕事も完了した。やれやれ今日は疲れたなぁ……」なんてつぶやいて、パソコンの電源を切った翌朝を考えてください。身の毛もよだつ光景が待っています。


 実際に『まあ、』の部分を削除してみます。

案の定、オーディオトラックの BGMはその部分でズバッと削除され、音飛びが発生しているはずです。そしてテキストクリップのエフェクト部分も無くなっています。ほんの短い『まあ、』の部分だけでこれだけの被害が出ますので、この【文字起こしベースの編集】は映像編集が仕上がってから使うのは、慎重になるべきだと思います。うまく使ってください。



次回は 生成延長と AIオーディオを取り上げます。

 ご健闘をお祈り申し上げます……。( ̄‥ ̄!) アーメン…