ここでは Premiere 2026(掲載時は26.2.2)を Pr、After Effects 2026を AEと書きます。
さて次は Pr史上、最高傑作だといわれた自動文字起こし機能です。
それがなんだと思われた方に説明します。
その昔……。
映像に流れる音声に字幕を当てる作業というのは、動画の音声を何度も巻き戻して聞きながら、手動で文字を打ち込み、タイムラインに並べて、映像とタイミングを合わせて……という地獄のような作業を何時間(時には何日も)かけてやっていました。
それが、ボタンを数回ポチポチするだけで、一瞬で AIが 9割以上の精度でテロップを配置してくれるようになったわけですから、文字通り "動画編集の歴史を変えた、Pr史上最大の傑作機能" と言って間違いありません。
ワタシも 2023年ごろに、小中学生の算数教材に使う映像の字幕起こし作業を『800本』ほどやった経験があります。『800本』を単独でたったの 3か月ちょっとで完了できたのも、この自動文字起こしと、学年別漢字変換処理のおかげです。
学年別漢字変換処理は Prとは関係ない MIFESによるマクロ命令ですので、今回の話とは関係ありません。興味のある方は2023年 1月6日の記事をご覧ください。
2026年の最新バージョンでの 自動文字起こし機能はどうなったのか、早速テストしてみましよう。
デジタル降魔録のヘッダを飾っている映像にナレーションを入れてみました。このナレーションの音声から Prの自動文字起こしを使って字幕ができるまでを説明します。
Prを新規プロジェクトで起動して、ナレーションや会話の入った映像を取り込み、シーケンスパネルに配置します。ここまでは通常の新規プロジェクトの作成と同じです。
トラックに映像とオーディオのクリップが並んだら、【ウィンドウ】→【テキスト】でテキストパネルを開きます。
パネルの左上端が【文字起こし】タブ(①の矢印)になっていることを確認して、②の『・・・』アイコンを押します。
②の下にある青い色をした【文字起こし開始】と書かれた大きなボタンは押さないでください。こちらは『文字起こしベースの編集(ソース文字起こし)』を起動させるものですから、慣れないうちは触らないほうがいいと思います。知らずに使うと罠が待っている、秘境の危険地帯に落ちます。これに関しては後述します。(文字起こしベースの編集へ)
出たメニューから【静的な文字起こしを生成】を押します
すると小さなダイアログボックスが出ます。そこにある『文字起こしの環境設定』を開きます。
ここで言語を『日本語」に、スピーカーのラベル付けを『いいえ』にします。
スピーカーというのは、話者(喋っている人)のことです。Prでは複数の話者を区別できますが、今回は一人しか喋っていませんから、『いいえ、スピーカーを区別しません』を選択します。
音声の分析はトラックにある音声ファイルです。ここはデフォルトの『トラック上のオーディオ』のままにしておきます。その他もデフォルトのまま、下の青い『文字起こし開始』を押します。
すぐに解析が始まり、進捗バーが伸びていきます。解析時間は音声ファイルの大きさによりますが、1時間を超えるような音声の場合はかなり待たされます。今回のように 1分足らずのファイルならすぐに完了するはずです。
解析が終わると、【文字起こし】パネルに解析された音声が日本語に変換されて、自動的に十数秒ごとのブロックに分かれて表示されます。
①は右のセリフを喋っている話者の名前が表示される部分ですが、今回は『不明』のままです。
②の時間の表示部分はタイムコードとか、タイムスタンプと呼ばれる部分で、③のテキストエリアの始まりから、終わりの時間を示しています。
このテキストエリアが一定のブロックで区切られるのは、Prの AIが、話し手の息継ぎや言葉の区切り(文節)を自動で判断して、読みやすい長さ(十数秒ごと)に分けてくれているからです。
テキストエリアはマウスを当てると、当てられてた単語やフレーズの区切りをうすい白色でハイライトして、クリックするとその先頭に "青くて細い" カーソルが出ます。続いて再生キー(通常はスペースキーです)を押すと、その場所から再生が始まります。いちいちタイムラインまでマウスを移動させて、再生ヘッドを動かす必要がありませんから編集効率が上がります。
今回は『VoiceVox』さんの AI音声を使用したため、誤変換はたったの 3カ所という見事な結果でした。Prの音声認識の優秀さがよく分かります。
もしこれが実際の人間、それもちょっと舌足らずだったり、言葉を引きずる癖のある人の喋り方だったりすると、認識率はもっと下がってしまいます。人間が喋る動画から文字起こしするときは、「もう少し誤変換が増えるな」と構えておくのが正解です。
誤変換の修正はこの先のキャプションデータの編集中でもできますが、ここでやると全体をざっと見渡すことができますので、作業がはかどります。
3カ所の修正しているところを動画にしました。実際の様子をご覧ください。
誤変換の修正は、タイムラインの再生ヘッドや映像をまったく見ないで、音声とテキストエリアの流れを耳と目で追いながら作業できますから、意外と効率よく進みます。
ただ、漢字の変換はスペースキーで単語を切り替えますが、これが Prの再生キーと重なるため、その都度、日本語変換モードを終了させてから、Prを再生、誤変換を発見したら、再生を停止して、再び日本語変換モードに変えてと、この切り替えがとても苦痛になってきます。そこでワタシは Prの再生キーを〔F1〕キーにショートカットを書き換えて、日本語変換モードのまま Prの再生、停止を可能にしています。
再生・停止は〔スペース〕キーと、体に染みついていますから、初めのうちは、なかなか馴染めませんが、長い字幕編集になると、日本語変換モードのまま再生・停止ができるのは大きな強みになります。
同じ言葉がたくさんあるときは、文字検索を使うのがいいのですが、次のような Pr独自のおかしな現象が起きますので注意してください。
①の入力欄に検索文字を入れて『Enter』を押すとヒットした文字がオレンジ色でハイライトされます。
例えば『は』と入れて検索すると、3段目のテキストエリアの『あはははは』と笑っているセリフの『は』だけがヒットしています。『は』を使用している場所は他にもたくさんありますが、ここだけしかヒットしていません。
そこで……次の画像です。
検索欄右にある ①のフィルターアイコンを押して『文字起こしの表示オプション』ダイアログを出します。続いて ②の検索設定の単語全体を検索にチェック入れます。
するとこのように、他の『は』は、ヒットするようになりましたが、今度は『あはははは』の部分はヒットしなくなっています。
PRの文字検索は一般的なテキストエディタ(メモ帳や Wordなど)の "単純な文字列一致" とは異なり、AIが解析した "単語単位" で検索しようとしているみたいで、助詞の『は』と笑い声の『は』を、別のものと誤認識するようです。このように検索オプションの「単語全体を検索」にチェックを入れると、いくぶんヒット率が上がることがありますが、過信は禁物です。Pr上での文字検索や置換処理には "Pr独自の甘さ" がありますから、要注意です。文章の修正は、必ず目視でタイムラインやテキストを確認しながら手動で修正した方がいいようです。
あるいは、外部のテキストエディタを使用するというのもあり、かもしれません。しかし文字起こしパネルにあるテキストエリアの文字データは『.txt』データに変換して外部ファイルに書き出すことはできますが、逆に『.txt』データを文字起こしパネルのテキストエリアに読み込むことができません。そこで少し工夫が必要です。
詳しく知りたい方は、2023年 1月 6日からの記事をご覧ください。
それでは、ひとまず修正が済んだこととして話を先に進めます。
次に重要な補足をします。字幕における句読点『、。』の扱いです。
一般的に字幕には句読点は使いません。『、』は半角スペース、『。』は全角スペースに変えます。これは読むスピードを上げさせるためだといわれています。『、。』があるとそこで呼んでいる人が目を止めてしまうからそうです。しかし昨今の Web動画や SNS動画ではセリフが与える雰囲気を残すためにあえて『!』や『?』『。』などを入れることもあるそうです。
このPrの場合、文字起こしされた直後では『、』や『。』が自動的につけられています。そしてこの先のキャプション(字幕)データ生成作業を通すと、『。』は文末だと判断されて、すべて消されますが、『、』は残ります。もし句読点をつけない字幕を作成するのでしたら、この段階で『、』を検索して置換文字を半角スペースか何も入力せずに『すべてを置換』の実行が一般的なのですが、この連続置換にも、プレミア秘境特有の変な癖があります。数個の『、』は半角スペースに変換されましたが、かなりの数の「、」がそのまま残ってしまいました。
仕方がないので、この罠から抜け出すために、『すべてを置換』を使わずに『置き換え』ボタンをポチポチ押して置換を済ませました。
さて、次へ進みましょう。
誤変換や『、』を「半角スペース」に変換した状態からキャプション(字幕)データを生成します。
ここで一つ、重要な注意点があります。一度キャプションデータに変換してしまうと、そのあとで文字起こしパネルのテキストを修正しても、生成されたキャプション側には反映されません。
もしキャプションも一緒に更新したい場合は、もう一度最初からキャプションデータを作り直す(一から上書きされる)ことになります。そのため、ここから先は基本的に文字起こしパネルに戻ることはありません。ここでじっくりチェックすることを強くお勧めします。
また、音声ファイルが同じものでも、文字起こしを再実行すると、AIの気まぐれで言葉の区切りや誤変換が増えたり減ったり、あるいは『ひらがな』 だったものが『カタカナ』になったりと、微妙に変化します。そうなると、せっかく字幕パネルでやった誤変換編集もやり直しになってしまうため、細心の注意を怠らないようにしましょう。
それでは文字起こしパネルの文字列をキャプション(字幕)データに変換します。
検索欄の最も右にある【CC】ボタンを押すと【キャプションの作成】ダイアログが開きます。次の画像です。
【キャプションの環境設定】は字幕のスタイルを決める重要な設定です。必ず確認してください。
【キャプションの環境設定】を押すと次のような環境設定パネルが出ます。
この中で作成される字幕の細かい設定ができますが、最終的にはテキストのスタイルを変更して見栄えを変えたり、文字サイズを変更したりしますので、ここで重要なのは ①の【行数】と ②の【1行の最大文字数】です。
①の『二重線』というのは長い字幕は最大『二行』にするという意味です。なぜ『二重線』なのかは Pr特有の謎ですが、長いセリフは 2行に渡る字幕として出力されます。
②の【1行の最大文字数】は、①を『単一行』にしていている場合、セリフの文末までの文字数がこの設定を超えると、強制的にそこで改行された字幕となります。その結果、キャプション(字幕)パネルで、その部分の修正が必要となります。『単一行』で、あまり小さな数値にすると、短く改行が連発する字幕になりますから注意が必要です。
強制改行された字幕の修正は、『キャプションの分割』を利用すると、最短時間で作業が済みます。間違ってもタイムラインで切って分けるなんてことをやると、字幕のずれを直すのに日が暮れるほどの時間を要することになります。
また、行数設定に関係なく、どこで字幕を分けるかは AI任せになりますから、おかしな場所で次の字幕に流れた場合は、あとで修正が必要になります。
このようなキャプションデータの編集の仕方も後述します。
次に【最短のデュレーション】という設定は、字幕の消えるまでの時間です。これはとても短いセリフのときの話で、「えっ!」とか「あ、はい」とか短いセリフのときに、字幕がすぐに消えると読めなくなります。デフォルトでは『3秒』になっていますが、これぐらいがちょうどいいと思います。
【キャプション間の間隔(フレーム】は、1つ目のセリフが終わってすぐに次のセリフが始まった場合、ふつうは切れ目がない『0フレーム』が自然に感じられ、YouTubeなど Web動画の主流となっています。ここもデフォルトの『0フレーム』がちょうどいいと思います。
この場合、問題になるのが、フォントサイズの大きさです。キャプション作成前にはサイズの指定ができません。デフォルトのままで強制的に作成されます。キャプション作成後なら修正ができますが、ここで文字サイズと 1行の文字数の関係が事前にわかっていないと、②の【1行の最大文字数】をいくつにすればいいのか迷います。そこで大体ですが調べてみました。
| フォントサイズ | 1行も文字数(目安) | 用途 |
| 36~40(小さ目) | 30~35文字 | 解説動画などで情報量が多くて 長文を読ませたい |
| 46~52(標準) | 22~25文字 | 一番読みやすい定番サイズ |
| 60~70(大きめ) | 15~18文字 | スマホなど画面の狭いデバイス。 あるいは早く読ませたいテロップ |
上の表は字幕の表示を安全領域(セーフゾーン)内に入れるだけでなく、素早く目の飛び込む文字数を基準としていますので、実際はもっと文字数は大きくできます。このあたりは何度か試して基準を決めるといいと思います。
学校教材の映像では、1行 35文字程度で、2行スタイルの句読点ありという仕様でした。教材ですから数式や記号も入るために以外と文字数は多かったと思います。
これらを参考に ②の【1行の最大文字数】を決めてみてください。今回は『単一行』で、『1行あたり36文字』でキャプションデータを作成してみました。できたのを見ると意外と小さい感じでしたが、後半で大きいサイズとフォントを変えています。
説明を飛ばしましたが、【キャプションの環境設定】ダイアログには【スタイル】というのがあります。ここに指定できるスタイルファイルは、すでにある(過去に作ってあった)キャプション用のスタイルを指定するものですから、初めての人はありませんし、間違ってグラフィックテキストのスタイルを指定すると、フォントはそのとおりになりますが、フォントサイズや、テキスト領域(ボックス)の大きさや、ボックス内での配置(下揃えなど)が機能しませんので注意してください。
【補足】
スタイルというのは、文字の「フォント(書体)」「大きさ」「色」「境界線(フチ取り)」「シャドウ(影)」などのデザイン情報をひとまとめにして保存した『型紙(テンプレート)』のことです。名前をつけて保存しておくことで、あとから別のプロジェクトにも利用することができて、それらを統一させるために使います。
注意することは、グラフィックテキスト(見た目重視のテキスト:AEのテキストに近いもの)と、キャプションのテキスト(字幕専用)とでは、同じスタイルデータでも異なる性質を持っています。使い方を間違えるとテキストのデザインがおかしなことになります。
それでは話を進めます。設定が完了したら、【キャプションの作成】を押します。
進捗バーが出てすぐに【キャプション】パネルに切り替わります。
番号の付いた字幕文字列が、タイプスタンプに続いて表示されています。
番号の手前に『青いバー』があるのは、現在の再生ヘッドの位置を示しています。再生キーを押すとそこから喋り始めます。
字幕の列をクリックすると再生ヘッドもその場所の先頭に移動します。逆に再生ヘッドを別の場所に動かすと、キャプションパネル内の『青いバー』がそのセリフの先頭に移動します。もし移動しないときは、右上の『・・・』アイコンを押して、【自動スクロールを有効】にチェックを入れます。
というところで、長くなりましたので今回はここまで。
次回はこの続き、キャプション(字幕)の修正に入ります。
マジで AE真っ青……。 w( ̄o ̄)w オオー!
Copyright© 2026 D-Space Keyoss.
All rights reserved.












