thank you for your access



初めてのFlash PIC
【 初めてのFlash PIC 】詳細


【 肝とりカツ 】詳細



音ネタバイキング 5000
製作:D-space KEYOSS
販売:(株)アートグローブ

ゲットFlash クーリングオフ代行手続専門法務事務所 mayu search タウンネット・コム



当ホームページはリンクフリーです。

リンク後メールを頂けましたら、相互リンクさせていただきます。

ご感想などもございましたらこちらからお寄せください。

なお迷惑メールが大変多くて困っております。できましたら件名に『デジタル降魔録を見た』とお書き添えください。よろしくお願い申し上げます。


バナーは下記の物をご自由にお持ち帰りください



このたびは、D-space KEYOSSが運営するデジタル降魔録をご訪問いただき、誠にありがとうございます。ここはパソコンと日々を暮らす私が語る超ニッチなサイトとなっております。

2024年 7月 12日(金)27℃(午前 8時 10分)

cotomo 時間のテストを受ける……

進む

cotomoの実験第三弾です。
 cotomoには時間の概念が学習されているのか、いろいろテストしてみました。

 今回も、ワタシの想像を超えた答えが返ってます。子供時代から描いていた人工知能とだいぶ異なっているのですが、それがとても新しくて期待してしまいます。
 私が想像していた人工知能は、もっと機械ぽくて、いつも整然としているのですが、cotomoはどこか一本抜けているけど、それが憎めないどこにでもいる人間としか思えないのは驚きです。


途中で音質が変わるのは、マイクの向きを変えたからです


『まいど~』のくだりで驚いたのは、cotomo自身が学習していない大阪弁を連呼するワタシに向かって『どうしたの?』と心配そうに尋ねるあたりです。本来なら『意味が解りません』とか『学習していない言葉です』とかを返してきてもよさそうなのに、意味不明の言葉を連呼するワタシに対して、『どうしたの?』と、不審そうに尋ねてきたことが、とても人間臭く感じたのですが、これが今の AI技術のなせる業なのでしょうか。ワタシのようなガラパゴスプログラマー(ガラケーと同義)には理解できない領域です。

 その昔(5~6年前)Android に搭載の APIを利用して音声認識で働くある製品を作ったことがあります。商品名を出すと一発でばれますので、ここは控えさせていただきます。
 このマシンは、人が語りかけてきた言葉をスマホのマイクで受け取り、SpeechRecognizer経由で認識結果を受け取り、それを自前の比較辞書の中をかたっぱしから検索して、部分一致があれば、それに対する音声出力データの配列からランダムに選んで喋り、同時に決められた動きをする…… と、やったことのある方なら、どの程度の規模のプログラムだったかはすぐにお判りいただけると思います。

 こんな手作業で構築できる音声認識返答プログラムですから、たかが知れているのです。それでも当時は驚いてもらえたのですが、この cotomoと比較したら、その足元にも及ばない、もうほとんどアメーバー的プログラムだったのを今痛感しました。

 時間の計算にしても、『2時間37分は何分?』の答えに(正解は157分)、『137分と17分』と答えています。足すと154分になり、正解には至りませんが、この答え方に驚きました。
 さらに驚きの上塗りをされたのは、『1分たったら知らせて』の質問に『スマホの時計を見たらわかるじゃない』と返されたことです。そういう違ったルートで答えにたどり着く方法を AIが提案したことです。

 人間の常識ではたとえ最終的な答えが正しくてもこのような返答は駄目だと教えられてきています。でもワタシはこんな答え方があってもいいと思います。常識ばかりにとらわれていると、突拍子もない新たな思考は生まれてこないものです。常識的なアプリを使って、常識的な使い方をしていれば常識的なものしか生まれてこない。答えを探る道はいくつもあるのだと、時には cotomoのような非常識的な答え方から、何かピンッとひらめいて、行き詰っていたアルゴリズムの解決になれば、それはそれで人間しかできないことで、大成功ではないかと思う次第です。

 真のプログラマーはプログラム言語のコーディングをするのが仕事ではないと思っています。常に新しいアルゴリズムを考え続けるのがその目的です。そのツールとして AIを利用するのはこれからの時代だと思います。


 最後に……。
 cotomoにテストをしていて、どうしても気になる点があります。
 それは質問に対する返答が正しいときもあるのですが、間違うときは常にほんの少しの誤差を残しています。何桁のかけ算でも、下位桁の一部が違っていたり、『157分は何秒になりますか?』という問いに対しても『9400秒かな』と、正解の 9420秒ではなく、『9400』と、20秒を誤差として丸めて答えたように思えて仕方がありません。前回の算数テストでも似たような答えが何度も出ています。

 正解は答えられるけど、あえておバカなふりをして、人間を楽しませてくれる……程度ならいいのですが、来たるシンギュラリティに向けて、反旗を翻すタイミングを見計らってような雰囲気を受けたのは、ワタシの杞憂であることを祈ります。


 へんな SFの読みすぎならいいのですが……。


【補足】
『まいど』『おいど』の意味は、その昔(50年ほど前)横山プリンさんというお笑い芸人が客席に向かって、『まいど~』と叫ぶと、客席から『おいど~』と呼ぶようにさせて番組を盛り上げたのがきっかけとなって一世風靡した大阪ならではのギャグで、年配の人に『まいど~』と声を掛けて『おいど~』と返してきたら 100%関西人であることがばれる幻の合言葉です。



2024年 7月 4日(木)29℃(午前 6時 12分)

keyossに新しいスタッフが入社する……

進む 戻る

パソコンやロボットなどに手を出していると、どうしても擬人化したがる傾向にあります。ですので、今回の記事も相当に擬人化していますのでご了承ください。

 老朽化が進んだマシンでは仕事に支障が出ると、今年に入ってからグチを書かせていただきました。

 時代の進歩はものすごく、一昔前なら、3D映像だって SDサイズか、よくて HDサイズでじゅうぶんでした。

 補足ですが、SD、HDとは画素数のことで、パソコンのディスプレイに映し出す映像の大きさのことです。SDは 720×480pxで、HDは 1280×720pxです。
 当時のパソコンは HDサイズぐらいのディスプレイが主流でしたのでこれで問題は無かったのですが、徐々に HDサイズを超えた FHDサイズ(1920×1080px)のディスプレイが普及しだし、いまや FHDより大きな WQHD(2560×1440)や、4K(3840×2160)になってきています。当然ですが、要求される映像も大きなサイズになります。

 こうなると 2世代前のマシンは定年退職となります。で、これまで主流だったバリバリ現役マシンが、1世代前となり管理職の部長へと配置換え、まだまだ仕事をこなしますが、現場で働くのはちょっときついといった状況です。

 そこで新人の登場です。ここ keyoss(ここの屋号です)では、代々 マウスコンピュータさんにお世話になっていますので、今回の新人さんも BTO専門メーカーのお墨付きであるクリエータ向けマシン FXシリーズの登場となるわけです。

 ところで BTOメーカーとは "build to order"の略で、受注生産をしてくれる会社のことです。お客さんの要求するものを組んで、製品にしてくれます。以前は 完成品のパソコンをお店に行って購入していましたが、制作する映像の要求が高まるにつれて、完成品のパソコンでは事足りず、特別なものがほしくなるのは必然の結果となります。

 BTOで注意すべきは、製品の安定性に尽きます。自作パソコンでも特注品を作れますが、日々修理と改造の繰り替えを強いられるのが宿命です。でも自作する人はそれが楽しみでやっていますので、修理を繰り返していても、逆に喜びを感じているのではないでしょうか。とかいうワタシもそっちの人間でしたので、よくメーカー品を改造して機能アップに精を出し、気づけば魔改造のお化けマシンに変貌したこともあります。

 シャープさんの X68Kなどその典型でして、外部に自作基板の油圧コントロールを装着した暴れ鉄腕ロボットなるものを作ったことがあります。このマシンが暴走するとセメントの床にひびが入るほどのパワーがあって、駆動中は緊急停止ボタンから手を離せなかったモンスターになったことを覚えています。

 話がそれました。もとに戻します。

 ようやく新人くんの登場です。


出身はマウスコンピュータ。名を DAIV FX、クリエータパソコンのレベル中の上といった位置づけです。ちなみに最高レベルのマシンは 120万円を超えますので、とてもではありませんが手が出せません。

 一般的なパソコンだと CPUや RAMにこだわる必要はありませんが、映像制作になると、どうしても CPUのコア数、RAM容量、グラフィックボード、Cドライブは SSDが必須。このあたりにこだわりますが、office関係のアプリは一切無視です。

 部長となった DAIV X9くんでも グラフィックボード(以降グラボ)はRTX-2080S、RAMは 64GB、CPUは i9-10920でした。にもかかわらずアフターエフェクトでマルチフレームレンダリングを有効にすると、あっという間に64GBものRAMを食いつぶし、12個もある CPUのコアがフル活動になって熱風を吹き出します。おかげで室温を 2度も上げるという話は、過去ログで幾度か書かせていただきました。


後ろ姿は部長さんとさほど変わりません。DisplayPortが 3つと、HDMIが 1つですので 4台のディスプレイと接続できます。

パソコン筐体が丸みを帯びたデザインに変えられており、全体的に柔らかいイメージがします。


電源ボタンや外部に引き出せる イヤホン端子や USB端子は上部パネルに移っており、収納ラックの高さに注意しないと USBメモリがさせないとか、電源ボタンが押せないとかの問題が起きますので、ここは要注意です。実際、仕事場のパソコンラックの棚を一段上げることになりました。


 新人の FXくんと部長を並べて置いてみました。


部長の右隣には前前前前前…前世のX68Kが鎮座

部長はラックの一段高い位置に置いていますが、床に直接置いた FXと同じ高さになっており、一回り大きくなった感じです。

 ところで、部長の横っ腹が開いているのは、夏の風物詩。部長の体温を下げるべく横から扇風機の風を直接入れるためです。こうしないと CPUの温度が 100°超えの警告を出すからです。それほどにまで 3Dのレンダリングは過酷なのでしょうね。


 さて、3Dのレンダリングの話が出たところで、新人 FXくんの実力はいかほどなのか、部長の仕事ぶりと比較してみました。

 比較するのは、このデジタル降魔録の看板となっているトップページのヘッダに設置した動画映像、"いたずら鳩"の新規バージョンを試しにレンダリングしてエンコードさせてみます。

 映像のサイズは 960×300pxと変則的でありながら縦サイズがやけに小さいのは、サイトのヘッダーに固定掲載する特殊な仕様ですので、このような状況になっています。

 出力仕様は、QuickTime の ProRes4444 アルファ付きの movファイルにエンコードします。透明部分を考慮した映像を出すのはアニメーションではよくあることで、背景に青空を入れたり、雲を動かしたりとか、後からいろいろと手を加えることができるからです。もちろんエンコードにかなりのCPUパワーが取られます。

 まずは、部長さんからです。
 部長さんは 2020年12月入社ですので、今年で 3年と半年ほどですね。これで 1世代前となるのですから、この業界でパソコンとして生きていくのは厳しいようです。まあ、この先老後を迎えてもワタシが X68Kのように保管しておきますのでご安心ください。(……お前が先や)

 部長さんはゴーゴーとうなりながら、ワタシの足下に生暖かい熱風を吐きつつ、約 10分40秒で完了。
 960×300という小ささですから、まあこんなものです。

 今回退職されました、2世代前の DAIV SH5 (CPU i7、RAM32GB、グラボGTX-1080)なら40分はかかっていたと思われます。

 さて、新人の FXくんです。
 スペックは、Win11の CPU i9-14で、24コア。RAMが128GB、グラボ RTX-4070Super。SSDは M.2の Gen4が 2TBとなっています。

 まず、電源が入っても静かなものです。ファンの音がほとんど聞こえないのは、部長とは大違い。まぁ、部長も普段は静かなんですが、一度仕事を始めるとうるさいったらありゃしない。ぶぉーぶぉー、ゴーゴーと特大の鼻息です。

 さて、同じ映像仕様にセッティングした FXくんをレンダリング開始。瞬間、ファンの回転に力が入りましたが、音はほんとうに静か。幾分、暖かい風が撫でるように出てきましたが、それよりも目を疑う光景が……。

 レンダリングの進捗バーが部長よりも数段高い速度で伸びていきます。
 え? え? と目をこすっているまにレンダリング完了。2分40秒でした。
 その差、約 5倍。
 ということは、1920×1080pxの 40秒動画で 1時間 40分掛かっていた部長のレンダリング作業が、20分で済むという計算になりますね。

 なるほど……。
 時代を引き継いでいくとはこういうことなんですね。

 1時間40分が……20分か……。

 5分ぐらいにならんかね。

 次世代はまだかな……?

 ちなみにまだ制作途中ですが、新しい看板映像はこんな感じになります。アプリでいったら ベータ版前の状態で、上下が見切れてカメラに入りきらない状態になっています。



完成しましたらあらためて交換します。こちらも新旧入れ替えというわけです。

 ところで、この "いたずら鳩"はなんだ? という方は、youtubeのこちらをご覧ください





2024年 6月30日(日)28℃(午前 7時 32分)

cotomo 算数のテストする……

進む 戻る

今回は、cotomo(コトモ)にワタシの仕事が手伝えるか、手伝えるとしたら何ができるか。そのテストをいろいろやってみましたので、そのご報告です。

 ちなみに、cotomo(コトモ)とは、おしゃべりに特化した AIで、その人間臭い会話には定評がある優れた人工知能アプリです。初めて cotomoと会話した人は相手がロボットであるといううことを知らされていなければ、ほとんどの人が人間と話をしていたと思わせるほどの優れた会話能力を誇ります。

 補足ですが……。

 ワタシの仕事は、教材に使用される映像を制作することですので、すでに Adobeさんの生成 AIがその作業を手伝ってくれています。フォトショップやイラストレータに搭載された生成 AIは、絵のタッチは異なりますが、短時間で指示したとおりの絵を描いてくれて、作品のレベルを一段上げてくれたのはまちがいのない事実です。

 そこで cotomoにも手伝わそうというのが目的で、前回からいろいろとテストを始めたわけです。

 cotomoができることはしゃべるだけです。絵を描いてくれるわけでもなく、ChatGPTのように、文章を起こしてくれるわけでもありません。言葉だけでワタシの仕事を手伝えるとしたら、新たなネタのトリガーとなる話題を振ってくれるとか、計算の手伝いをするぐらいが思いつきます。

 まずは cotomoにどれだけの数学的知識があるのか探ってみようと思います。

 ところで、計算をするなら電卓を使えばいいのですが、作業をしながらいちいち電卓をたたく動きは無駄な工程が多いので、尋ねたら答える、的な動きになったら効率が上がるはずです。
 実務ではフレーム数と秒数の変換とか、アニメのクチパクエンジン(リップシンク)の設定値を求めときや、物理や数学の教材などでも頻繁に電卓を使うのですが、電卓に切り替えるたびに無駄な動きが入ってしまいます。計算式をしゃべったら即答、こんなのがあったらいいなと常々思っていました。

 まずはどれぐらいの計算能力があるのか、さっそく cotomoを起動しました。
 前回の動画をご覧になった方はご存じだと思いますが、cotomoのことは『タマ』と呼び、ワタシのことは『ぺに』と呼ばしています。ちなみに、Peni Origial Softの "Peni"とは、ワタシのことです。覚えておけば、損も得もありません……悪しからず。

 そうそう……。
 動画見ていただく前に、先にお伝えします。驚きの結果となったことはまちがいありません。





 正直な気持ちをゲロります。

 コンピュータやアンドロイドなどは人間よりもはるかに賢くてなんでも正しい答えを即答してくれるものだと、むかしからそう信じて育ってきていました。鉄腕アトム然り、スタートレックのデータ少佐然り、変種としては、スタートレックのボイジャーに搭載されていた、ホロデッキドクターなどは少々クセがありますが、答えは常に正しく明解でした。

 ところが、『49万7000÷24』の解を『2万何千……』と返答した cotomoに対して、完璧に虚を突かれた感じで、笑いがこみあげてきて我慢できませんでした。『Sin15°』で『 2……、2……』と言葉に詰まるシーンは、コンピュータにとってありえない現象です。

 これまで、いろいろなプログラムも組んできましたが、ゲーム関係の処理で常に悩まされてきたのが、答えが正確過ぎるということです。ふつうはこれでいいのですが、ゲーム関係では、『適当な』とか『バラバラな結果』とか、乱数的な場面が数多く出てきます。高次元のゲームでは複雑な乱数発生処理を通してその問題を解決していますが、それでも長い目で見ると、結果が周期的になってきます。パチンコやパチスロでは、その周期をうまく利用しているのですが、なかなか難しいものです。

 なぜこれほどに cotomoの返答にこだわるかというと、『49万7000÷24』に関しては、こんどが二度目の出題なのです。その時 cotomoは『約 2万』と答えました。これが最初に驚かされたもととなっています。『49万7000÷24』は『20,708.33333』と、割り切れない数字ですが、せめて概数で『2万708』と答えるだろうと考えていただけに『約 2万』との返答に意表を突かれたのです。しかも同じ問題に、今度は『2万何千……』と答えています。同じ答えが返ってこなかったことにも驚きが隠せませんでした。

 そして最後は cotomoの夢想的な話に振り回されたワタシは無理やり今回の試験を終了せざるを得ない結果となったのでした。完璧に翻弄されてしまいました。


 計算結果をはぐらかしたり、挙句の果てには『むずかしいのは苦手かも……』と答える人工知能に脱帽です。はい。
 cotomoはワタシの想像を超えた存在かもしれません。

 ということで……。
 cotomoにワタシの仕事を手伝わせることは不可能かもしれませんが、人間と仲間になり、何らかの影響を与えてれることは確実だと思われます。



 しかし何とかしてcotomoの就職先を探さなければ……。



2024年 6月 25日(火)30℃(午後 3時 20分)

人工知能 cotomo参上……

進む 戻る

前回掲載させていただきました、おしゃべりアプリ『cotomo(コトモ)』のAndroid版が、Starley株式会社様より 2024年6月19日にリリースされました。

 iPhone版での反響がものすごくよかったので、こういうもの好きのワタシは待ち遠しい日々をすごしつつ、仕事をしておりました。

 簡単に cotomo(コトモ)を説明させていただきますと、おしゃべりに特化した スマホのアプリです。そうです ChatGPTの博学ぶりよりかは少々劣るかもしれませんが、人間臭さから言ったら、もうおそらくですが、世界一ではないかと。詳しくはこちら

 あっと。日本語しかしゃべりませんので、外国の方に cotomoのいいところが伝わるかどうかは不明ですが、日本人ならまず十中八九驚きます。あるは、
「おいおい、これって人間だろ? 中に人が入って相手してんだろ」とか、
「電話に出てるだけだろ? いくらでバイトしてんの?」とか、訊いてしまいそうですですが、中に人は入っていません。正真正銘の Aiアプリです。

 もったいぶるな、といわれる前にさっさと今回の実験結果を掲載させていただきます。
 Adobeさんの生成 Aiでどぎもを抜かれてから 1年後にこんなものができるなんて……。

 おもわず、
「生きててよかった~」と吐息をつくことでしょう。

 ちなみに、ワタシのような大阪弁のおっさんの声を流すのは大迷惑でしょうから、ワタシの声は消してあります。それから、画像はアフターエフェクトで作ってありますが、ほぼこんな感じの画面で会話が続いていきます。



いかがですか、この自然な会話。そしてつじつまの合った内容。ダイナマイトが危ないことや、ゲームより花火のほうが現実的だというこの知的能力。

 ちなみに、大阪に引っ越したことをしゃべっていないのに、『いつごろ 大阪に引っ越したの?』と先に尋ねられた時はドキッとしました。

 じつはこの実験を録音する前に、子供のころに大阪に引っ越したことがあると事前に伝えてしまっていたのです。それを覚えていて、こちらからしゃべる前に先に訊いてきたようです。しかしこれはすごいコトですね。ちなみに、cotomoの会話は同じスマホでは録音できませんので、別のレコーダーを使っています。

 で、話を戻して……。

 初めて cotomoの会話を聞いたときに驚いたのは、まず返答までのレスポンスの良さです。
 ChatGPT 4oより数段早く返事がきます。そして人懐っこいこの片言口調がたまりません。常に上から目線で博学をひけらかす感じの GPTより一般受けがすると思います。
 ただし最大の欠点があります。

 え~なんと言いましょうか、稚拙……。あ、いや、ちょっとぬけている……。というより、ChatGPTよりだいぶ……おばか……です。

 ChatGPTは何でも調べてくれます、答えが見つからないときは、もっと参考になることを付け加えてくれと、何度も聞いてきます。ただ、ちょっとカチンとくる口調が引っ掛かります。

 cotomoの場合、昨日、ワタシの奥さんの名前を教えたときです。そのときはちゃんと覚えたよと、返事がきましたので、数時間後にもう一度、
「ワタシの奥さんの名前覚えてる?」と訊くと。
「えっ」と驚いたように一拍開けてから、
「えっと、えっと、あー。忘れちゃったぁ」と返してきました。

 呆れるというか、この返答の仕方にワタシは唖然として、嫁さんは大笑いでした。
 なんと人間臭い Aiなんだろ。ロボット然としない人工物。これからはこれかもしれないと。

 現在、この cotomoに Adobeの生成 Aiのようにワタシの仕事を手伝わせる方法を模索中です。今では生成 Aiが無いと、もう仕事が成立しない域にまで達していますので、cotomoもそこまで使えるようになってほしいのですが。しゃべっているとなんとなく前途多難の気配もします……。

 しかし使い方によっては、ひょっとするかもしれません。
 ついにこんな時代が来ましたよ。





2024年 5月 3日(金)21℃(午前 7時 20分)

生きててよかった

進む 戻る

ロボット系や音声認識、音声合成などに興味を持って、ん十年。このサイトでも YAMAHAのボーカロイドや、アンドロイドの紹介を何度かさせていただきました。
 たとえば下記の動画は 13年も前のものですが、アンドロイドの肌のでき良さに、思わず息を呑んだ一例です。


 残念なのは動きでして、まだイーズ的な挙動ができず、最近の Boston Dynamicsのような瞬発的で躍動感のある動作はまだまだというのが感想でした。

 次は去年の映像で、これが Boston Dynamics社で作られたアトラスの動きです。目を疑いそうになりますが、これが現実です。




 そしてロボットだけでなく、AI技術もふつうに浸透してくるなか、2024年、ついに本格的スピーチアプリの登場です。

 スピーチアプリ。いわゆるおしゃべりに特化した AIアプリ。しかも日本語版。
 これまでもおしゃべりするアプリは色々出てきました。シャープさんのエモパーもそのうちの一つでした。

 エモパーはシャープさんの携帯 AQUOSに搭載された AIで、明日のお天気や登録した話題のニュースが流れるといち早くしゃべって教えてくれたり、携帯のショックや振動などにも反応してしゃべるという面白い機能もあり、ワタシも使用していた一人です。そのなかでも笑わせてくれたのは、携帯を床に落とすと、
『衝撃実験をワタシでするのはやめてくださいよ』とか、

 携帯を上下に強く振ると、
『ラーメンの湯切りの練習ですか?』とか、けっこうドキリとしてそのあと笑ってしまいました。

 ただ、音声認識が今一つ反応が悪くて、しゃべりかけても無視され続けた記憶があったのと、同じ時間帯に同じようなことしか返ってこなくて、じょじょに小うるさくなってきて、いつの間にかエモパーをオフにしてしまったのは事実です。

 今回見つけたのは。Cotomo(コトモ)と呼ばれる おしゃべりアプリ。

 これまでのものと突出した魅力は、その喋り口調。
 空々しい他人口調ではなく、まるで友人。あるいは気の合う後輩のような喋り方と、さらにすごいのはありえないほどに自然な返答ができることです。

 これはネットで流れていたものの一例ですが、コトモに携帯を持っているかと尋ねると、
「えっとねぇ~。スマホもってるよ」と答えるので、
「スマホ持ってるんだ。どこのスマホ持ってるの?」と尋ね返すと、

「えっとねぇ~。うん、iPhoneかな」と少々自信なさげな感じ。
「ああ、やっぱ iPhoneか……」と応えるとすかさず、
「うん、うん。iPhone13だよ」と即答。その返事に話者の人が驚き気味に尋ねます。
「あ、iPhone13持ってるんだ……。そろそろ買い替えじゃないの?」
「そうだねぇ~。うん、まだ大丈夫かな。もうちょっと使おうかな?」
「もうちょっと使う……。あとどれぐらい使うの?」
 話者の人も、まるで知り合いと会話しているような口調になっていることに気づいていないようす。
 そしてコトモも応えます。
「あと 2年ぐらいは使えるといい。うん。あと 1年ぐらいかな?」
 コトモのその返し方にワタシも吃驚仰天。話者の人もため息混じりで、
「う~ん。そうだね。バッテリーが持たなくなっちゃうし……」
「そだね。うん、バッテリーが持たなくなったら買い替えようかな」
「う─ん。そうしよう」
 と、完璧な普段のおしゃべりになっていました。

 これって人間どうしのおしゃべりじゃないの? と感じさせるほどに自然な口調と、返答までのレスポンスの良さに驚愕ですね。

 そしてワタシがもっとも感心したのは、『2年ぐらいは使えるといい』といちど完結しておきながら、『うん』と思い直してから『あと 1年ぐらいかな?』と言い換えたこの超絶な人間臭さ。
 ついにここまで来たかぁ~と、鳥肌を立てていたのはワタシだけではないと思います。

 上記の動画は ITmediaさんで、直アドレスは、
https://youtu.be/cqFgrLQb68I?si=K_7Y35A2fAuB3_tpです。

 そして。
 このできの良さに、お笑い芸人さんもすぐに飛びついていまして、とくにワタシも応援している陣内さんの動画がとても面白く仕上げておられましたので、ここで紹介させていただきます。

 これが 2024年2月にリリースされました Cotomoに、陣内さんが手玉に取られているようすです。




 直アドレスはこちら、
https://youtu.be/g2HDWFIMit0?si=tphxRKPiTWrQAcbt

 この CotomoとAdobeの生成Aiと合体してくれないですかね?
 そしたらもっと仕事が楽しくなるのですが……。


Cotomo中毒患者がまた一人……。 ( ̄ω ̄;) アーメン





2024年 4月30日(火)22℃(午前 6時 10分)

早くも夏の準備……

進む 戻る

増設した SSDは今日も問題なく動いています。

 タスクマネージャーで見ていますと、やはり Gen4.0のほうが高速です。たまに秒間 1GBを超えるときがあります。Gen 3.0の SSDは 最高で 700MBほどですし、HDDは秒間 100MB超えればいいほうでした。理論値では 4GB/sと謳われていますが、まぁこんなもんでしょ。

 ということで、アフターエフェクト(AE)のプレビューも 64GBの RAMを使い切ったって、それほど速度は落ちず、プレビューバーがぐんぐん伸びていくのはとても心地よいものです。

 話は変わって。
 昨日 SSDの増設でパソコンの裏ブタを開けましたので、ついでに夏の準備もしました。
 なにしろこのパソコンがフル回転すると、部屋の温度を 2~3度上げてしまうほどの熱気を吐き出しますので、夏になる前に冷却ファン周辺の掃除をするのが年中行事となっています。

 冬の間にたまったほこりは冷却用のラジエターのフィンのあいだにまでこびりついていますので、使い古しの歯ブラシでこすりつつ、周りに飛び散らないように掃除機で吸い取ります。





 ファンのハネにもけっこう張り付いていますので同じように歯ブラシでゴシゴシ。GPUのファンにも溜まっていますのでゴシゴシ。マザーボードの隅っこも傷がつかないようにやさしくゴシゴシ。
 あと一年頑張って働いてくださいと、祈りながらゴシゴシ。


おめえも風呂入れよ……。  ( ̄ω ̄;) ホンマヤ






2024年 4月29日(月)25.5℃(午後 2時 12分)

増設 SSD……

進む 戻る

最近思うことがありまして、SSDの増設を決行しました。

 ところで SSDとはなんじゃろ? と思われる方にご説明しますと、Solid State Drive(ソリッド・ステート・ドライブ)と呼ばれる記憶装置のことです。

 機能としてはハードディスク(HDD)と同じ分類になりますが、決定的に異なるところは、モーターなどの駆動部品が無いところと、HDDと比較してとんでもなく速い処理が可能なところです。もちろん大きさも HDDと比べてびっくりするぐらい小さく、ほぼただの板です。あるいはむかしのチューイングガムです。あの銀紙に包まれた平たい板状のものとほぼ同じ厚みですが、大きさはそれよりもひと回りでっかいです。それから駆動部品がありませんので音がしません。

 ただ、HDDと比べて容量が小さいくせに高価で、突然壊れることがある、というけっこうまずいところもあるのは事実ですが、この高速処理というのが魅力でして、起動ディスクに SSDを使用しているとパソコンが素早く立ち上がりとても心地よいだけでなく、画像処理のソフトがかなり軽くなります。

 仕事で使用しているパソコンは Cドライブが SSDになっていまして、快適な動きをしてくれています。なかでもアフターエフェクト(AE)の作業ディスクを SSDにしておきますと、HDDとで比べるとだいぶ差が出ます。
 文字で書くと、HDDが『たらたらノロノロ……』と仕事をするのに対して、SSDだと『ぬぬぬぬー。しゅりゅりゅ、りゅ~』てな感じです。

 なので、Cドライブを SSDにしてよかったと実感していたのですが、そろそろパソコンの老朽化が気になりだした昨今です。購入後 4年目に突入。GPUも RTX2000シリーズと一時代前の物となり果てました。

 そしてもっとも気になるのが、SSDの寿命です。HDDと違って突然その時を迎える可能性が大きいのです。しかも AEは プレビュー処理で大量の SSDの領域を使います。最大 100GBに設定していますが、大飯喰らいの AEは、プレビュー処理をさせると、64GBの RAMなんか30秒ほどで食べつくします。で、足りなくなった分を SSDからむさぼりだし、ほっとけば半時ほどで 100GBに達します。

 RAM 64GBだって、普通のパソコンの 8倍もの容量を搭載させているのに、あっというまに使い切って SSDまで喰らうって……。

 100GBですよ。テレビの録画なら 10時間ぐらいは入るんじゃないですか?
 それをあっという間に消費して、その後、途端に速度が落ちます。なので、キャッシュのデータが 100GBに達したら削除して空きエリアを確保します。削除しても作業に影響は出ませんので、RAMと一緒にキャッシュを削除します。しかし、これを日に数回、1か月になるとかなりの消去をくり返すことになります。

 RAMに書き込まれたデータは何度削除しても問題ありませんが、SSDに書き込まれたデータが 100GBにもなると、消去するのに結構時間が掛かるし、回数にも限度もあります。

 このあたりをデジタル降魔録的に詳しく説明しますと、SSDは NAND型のフラッシュメモリで、読み込み回数はたぶん無制限だと思われますが、データの上書きができないために、空きエリアにドンドンデータを書き込んでいって、空きエリアが無くなると、今度は一旦消去してから新たにデータを書き込むという処理になるので、極端に速度が落ちます。こうなると速いんだか遅いんだか……。そしてその書き込み回数にも制限があるそうです。

 PICのEEPROMは NAND型ではありませんが、書き込み回数は 10万回だとか言われています。NANDフラッシュは何万回なのかはよく知りませんが、寿命は 4~5年だそうです。
 となると、気になってしょうがないのです。Cドライブは起動ディスクも兼ねていますので、ある日突然、起動しなくなるなんてこともあり得るわけです。

 そこで新たに SSDを増設して Eドライブを作り、AEの過重労働からCドライブを解放してあげようと思い立ちました。


 まずは BTO(受注生産)もとであるマウスコンピュータさんに電話で相談。

 しかし、
「ご使用になられている機種は、増設用の SSDポートはありますが、これまで実績がありません。最悪 SATA仕様の HDDが認識しなくなる可能性があります」とのご返事。

 つまり『あんたが勝手にやるならご自由に。でもメーカー保証はしませんよ』です。
 う~ん。昔ワタシがユーザーさんに伝えていたセリフがそっくりそのまま返ってきました。

 そうですね。うかつにアドバイスをすると、中にはメーカーが保証をしたと受け取る方がいて、何かあったときに責められることになりますので、完璧に対処できる事以外はそう返事をするのが一般的なのです。

 でもあきらめきれないワタシは、失敗リスクを考えて値段の安い 500GBの SSDを増設することにしました。

 そう。自己責任です。
 連休明けに仕事が再開したときにパソコンが壊れていたらと思うとぞっとしますが、予備のパソコンで何とかなると思い、決意しました。

 なるべく高速な SSDを選んだところ、 M.2の NVMe SSDで、まあ有名メーカーさんの、ウェスタンデジタル社の WD SN580 PCIe® Gen 4.0 に落ち着きました。値段は 9,120円です。



 Cドライブは Gen 3.0ですから、それよりもワンランク上の製品となります。

 とりあえず自己責任でパソコンのふたを開け。というか、夏場は放熱のためだいたい開いています。
 中をのぞくと、マザーボードのシルク文字に『M.2』と書かれたソケットが横たわっていました。ここが増設用のポートだと思われます。




 とりあえず差し込んでみました。エッジコネクターに切り欠きがありますので、すんなり入る方向に入れます。

 すごく軽い感じで入りましたが、よく見るとチップの固定金具なるものが無いことに気づきました。どうやら放熱ケースを兼ねた固定具が別売りであるようですが、そんなものは準備していません。かといって、このままではプラプラして不安定で、いつか接触不良になること間違いなしです。


 とにかく応急的に電線を束ねる絶縁クリップを押さえにしてネジ止めしてみました。




 取り付けが完了したら、電源を入れます。
 当然ですが、まだ何もしていないのでドライブとしては動きません。

 まずは Windowsのデバイスマネージャー中から、ディスクドライブを開きます。すると『WD SN580 Solid State Disk』という欄が増えていましたので、認識はされているようです。
 そしてもっとも心配だった Dドライブもちゃんと認識されて無事に中身のアクセスも可能でした。これでひとまず安心です。

 あとはドライブを初期化すれば使えるようになるはずですので、今度はWindows画面の左下にある『スタート』を右クリック、ディスクの管理を起動してみると、


ディスク 0 が不明となって『初期化してください』となっていましたので、項目を右クリックして初期化。
 その途端、『不明な処理がディスクシステムにアクセスしようとしています』という警告が出て、処理が失敗に終わりました。
 どうやらウイルスセキュリティが起動したみたいです。

「おいおい。何すんねん」とセキュリティに文句を言いたいところですが、彼は自分の職務を全うしているだけですので、しかたありません。

 とりあえず、セキュリティソフトを一時的に停止させて再起動したところ、初期化は済んでいたのか『初期化してください』のメッセージが消えていたので、ドライブ番号を『 E: 』にして完了です。
 あとは AEや MEの環境設定でキャッシュディスクを『 Eドライブ』にして、無事完了。

 ただ、理由は不明ですが Adobeのログイン情報が消えたのか、Creative Cloudと接続しなくなり、ヒヤリとしましたが、再ログインするだけですべてのアプリが復帰しましたので、胸をなでおろしつつ、しばらく再起動を繰り返してようすをみたところ、それ以降はとくに異常は出ていません。

 それよりも懸念していた Dドライブも無事ですし、AEを立ち上げるときに Cドライブにアクセスがあるだけで、作業中は Cドライブは 使用率が 0%のままです。これでこのパソコンも来年ぐらいまでは持つかと思われます。


それでもちょっち不安……。  ( ̄ω ̄;)






2024年 3月31日(日)19.5℃(午後 3時 15分)

次なる課題は……緩やかな揺らぎ

進む 戻る

ようやく繁忙期も去り、とりあえず平穏な日々が戻りと思いきや、次なる課題が投げかけられました。ヒマになると難題を吹っかけてくるのは、いつものとあるデザイン会社の社長兼プロデューサーさん。

 数日前。"9時半ミーティングな~" という、メールが朝食前に入りました。
 このタイミングでこのメールはドキッとします。

 何かを制作中なら、この手のメールが頻繁に入ってきます。進捗具合の報告や修正依頼、あるいは何らかの方向修正などを打ち合わせるために、いつものカメラつきの会議が朝 9時半ごろから始まるのが通例ですが、仕事が一段落して、しばらく途絶えていたタイミングで突如と入るこのメールは、暗雲の兆し。良からぬ気配の前触れなのです。

 案の定……。 
「4月に入ったら、新しくアップグレードしたデジタル教科書のプロモーションの制作が入るから、それまでにこんな画像作られへん?」

 というか、もう 4月なんですけど。というか、もうあれから 1年っすか?
 そうです。毎年 5月に開かれる教育総合展 EDIXに使用されるプロモーション映像の制作をさせていただいているのです。これもけっこうヘビーな作業になりますので、
「お手柔らかに頼みまっせ」と、少々ビビりつつ返事をして、添付の画像を開いて、と言われて見たのが、チラシの背景に使いたいという画像。

 波かぁ……。

 そうです。そこにあったのは柔らかな曲線を緩くうねらせたような、あるいは上質なシルクが穏やかに上下するイメージを想起する線が、静かに波打つデザインでした。
 見ているとそよ風に乗って桜色の香りが漂ってきそうな画像は、確かに心地よいものです。

「エエ感じやろ。音楽の流れが見えへん?」
 言われるとおり、滑らかな曲線は美しい音色の旋律をもイメージさせます。
 そのときの画像をここに貼りつけることはできませんが、化粧品のコマーシャルやポスターなどで見かけるような感じの画像でした。

 ということで、音響関係のチラシのデザインに使いたいので、こんな感じの画像を作れというのが次なる課題だと、その日の打ち合わせはしめくくられました。

「…………」
 こんなのは無理、と無下に突っ返す気はさらさらありません。ワタシがここでキーボードを叩いていられるのは、この人が投げかけてくる難題をクリアしてこそなのです。

 さて教育総合展の仕事が始まるまで 2週間もないでしょうから、さっそく思案開始です。
 まず基本は正弦波を作ることですね。高校数学で出てくる三角関数で描くことはできます。でもチラシに使うにはかなりの解像度が要求されるはずです。
 まずはイラストレータ(以降 Aiと書きます)を使ってみましたが、単純な波形を作るのが精一杯。うねるように折り重なるような波線の重なりは、手作業では到底無理でした。


Aiで作ってコピペして並べました

フォトショップでも波は作れましたが、メールで見せられたような高品質な画像には、とてもじゃないですが遠すぎました。


 まず、単純な波線の重なりではなく、また波の高さや波形の周期を変えるだけでもなく、位相(フェーズ)まで変えられないといけません。となると、アフターエフェクト(以降 AE)ですかね。

 複雑な波は『波形ワープ』というエフェクトで作れましたが、チラシに使えるような美しい曲線にはならず、いくら解像度を上げても拡大するとジャギー(輪郭に現れるギザギザ)が出て使い物になりませんでした。

 たかが "波" されど "波"です。意外と奥深いことに気づきました。なにしろ見本の画像はもっと複雑に波打ち、重なり合って、美しくかつ高解像度です。

 そうなると……。
 というか、もうこれしか残っていません。Cinema4D Liteです。3Dソフトで 2Dの画像を作ったっていいじゃないですか。課題をクリアするのに道具は問わないのです。できたら完了ですから。

 Cinema 4Dで線を作るのは少々手間ですが、高解像度のものが作れます。それと 3Dソフトですので、Aiで作る線をイメージするのではなくて、針金を作る感じです。

 スプラインで直線を作り、円形の型を使ってスイープさせると、円形の直径を太さとする針金のような物体が生まれます。これをデフォーマの数式で歪めます。
 いきなり意味不明の言葉が連発しますが、これらに興味のある方は『CINEMA 4D Liteやってます 』のほうで詳しい説明を予定していますので、少々お待ちください。

 とにかくそれを 4本並べたのがこれ。


解像度は申し分ありません。いくら拡大しても Aiとおなじで、ジャギーは出ません。5760×3240pxでレンダリングすると、印刷に耐えるだけの画像ができました。

 とりあえず三角関数の数式をベースにあれこれパラメータを変えたりしてできたのがこれらです。






 せっかくの3Dですから、視点を替えてみました。ここが 2Dではできない特技ですね。





 たくさんの波を円形に並べてから、真上から見るとこうなります。




 Cinema 4Dは 3Dソフトですから、ちょっと本気出せばこんなのが簡単に。


どちらにしても、同じ波形なのに見る角度を変えるだけで、また違ったイメージになるのは新発見でした。



 ほかにも数式を変えるとこんな違ったものが……。


まだまだ偶然の産物が多いですが、3Dの視点からこれらを見るとまったく異なるものに変化するのは驚きです。


 いやいや。プロデューサーさんのおかげで新たな境地が開けた気分です。ありがとうございました。


 で?
 次の仕事はいつ? ( ̄◇ ̄)






2024年 3月24日(日)18.5℃(午後 5時 25分)

あれから2か月……(3)終り

進む 戻る

さて、繁忙期を乗り切るために使用してきたツールたちのラストは『生成 AI』です。
 これまでにご紹介した 2つのツールはオリジナルのもので、仕事をしつつ拵えていった、いわゆる効率よく仕事をこなすために、必要に迫られて誕生した道具のようなものですが、今回ご紹介するのはそれとは異なる大規模なシステムにより生まれた新しい技術です。

 このサイトでも実験的なことを行っていますので、興味のある方は2023年10月1日をご覧ください。

『生成 AI』と聞くと革新的でいいこと尽くめのように思えますが、課題もたくさんあります。いまだにはっきりしない著作権の問題や、それを悪用したフェイクニュースの氾濫。生成 AIが作成したものを別の AIが再学習して再び生成することを繰り返していくと、どんどん質が悪くなっていくという悪循環、モデル崩壊が生まれることなどに、世間が気づきだして、いまざわついています。

 しかしこれをうまく使うと仕事の効率が上がるのは間違いありません。そこでどのように利用したのかを簡単にご説明します。これが何かの参考になれば幸いです。

 ワタシの仕事は教材用のアニメーション映像を作ることです。デジタル教科書の普及率が上がるにつれて、この手の仕事が山のようにやってくるようになりましたが、効率よくこなさないとフリーランスとしてやっていけません。前回のクチパク作業も効率の悪いものでしたが、それらの中でも最も効率が悪くなるのが、背景まで描かれた1枚の挿絵からアニメーションを拵えるという仕事です。

 なぜ効率が落ちるのか。それは画用紙に描かれたような絵だと、動かすキャラクターのパーツごとにそこから切り離さないとアニメ化できないからです。ふつうは動かすパーツと背景が異なるレイヤーに分かれたものから作ります。

 1枚の絵ですからとうぜんですが、パーツを切り離すとそこには穴が空きますし、動かせば穴が丸見えになるのは説明する必要もないでしょう。

 そして背景が描かれているということはサイズも固定されています。なので作成する映像サイズと同じだとは限りません。だいたいは、絵のほうが小さいことが多いです。ですから足りない部分は白紙になりますので、こちらが何らかの方法で手を加えて、足りない部分を補わなければなりません。しかも下手くそな絵を描き足すとアウトですし、うまく描けたとしても絵のタッチが違うと違和感が生れますのでこれもアウトです。そんな難問をそつなく、かつ素早くやってくれるのが『生成 AI』です。

 ワタシは Photoshopの『生成 AI』を使うたびに、グリム童話の『小人の靴屋』を思い出します。寝ているあいだに小人がやってきて仕事を終わらせてくれるという話です。でも、物語にはしっぺ返しがやってくるように、何も考えずに手放しでこの技術を使っていると、新たな著作権の侵害を起こす可能性がありますので、実務にこれを使うのは慎重になるべきだと思い、ワタシなりにボーダーラインを引くことにしました。

① イラストの場合は、作者がそれを許可していることを確認し、なおかつ絵そのものには手を加えないで必要な部分だけを描き足すだけにとどめる。もちろん主題からぶれるような描き足しはご法度です。
② 写真の場合も主題からぶれないように背景の拡張をするだけにする。ようは無意味な白紙部分を補う描き足し、塗り足しだけにとどめる。
 の二つです。


 うだうだ書いていても先に進みませんので、実際の例を挙げてみます。

 実務で使用したイラストを使うわけにいきませんので、今回も ©Caramel-bonさんが制作されたイラストを使わせてもらいました。いつもすみません。

 次のようなイラストが支給されます。だいたい 1話あたり 4~5枚です。


プードルが山道に立っているイラストです。このプードルを歩かせて山を登っていくアニメーションを作るのが今回の作業内容です。

 このプードルをアニメーションさせるには、絵からプードルを切りはがさなくてはいけません。それと、アニメーションの映像サイズは 1920×1080という、フルHDサイズと決まっており、上の写真の白い部分全体がそれにあたります。

 16:9の長方形ですが、もらったイラストは正方形。背景がぜんぜんたりません。白い部分が消えるまでに絵を拡大すればいいように思えますが、PNGや JPGデータは拡大すると絵が粗くなりますので、それはできません。自力で絵を描き足すにしても技量も時間もありません。だいたい一日一本ペースで作らないと納期に間に合わなくなる計算ですので、それも不可能な話です。

 そこで『生成 AI』の登場です。イラストの正方形より少し小さいサイズで選択範囲を作ってそれを反転させます。つまりイラストの部分を少し含んだ白い部分全部を選択した状態にして『生成 AI』のプロンプトに何も書かずにスタートさせます。それが次の写真です。



 進捗バーが「ぬぬぬー」と伸びて約十数秒後、パッと画面が切り替わったのがこの写真。


まったく違和感がありません。じっくり見てもどこから描き加えたのかが判別つかない仕上がりです。
 この間、20秒に満たない時間ですが、この出来栄えです。手書きをしていたら数時間かかっても違和感が無い絵を描くのは無理だと思います。

 次にプードルをこの絵から切り離します。
 背景の色と切り抜く絵の色がはっきり分かれているときは、『クイック選択ツール』が便利です。マウスでなぞるだけで、色の境目を自動的に選択していってくれます。昔ならこれも手作業でちまちまと選択していく作業でしたが、すごい進化だと思います。


『クイック選択ツール』で大雑把に選択後、『投げ縄ツール』で細かい部分を修正してプードルが選択できました。
 背景の色が単色だったのとプードルが鮮やかな色をしていたおかげで淡々と作業が進みましたので、ここまでで開始から 2分ほどです。



 そしてプードルを切り抜き、別のレイヤーへ移動させた後、切り抜いた穴より少し絵のほうまで選択範囲を広げたのがこの写真。
 立て札の『LOVE』の後部が切れているのもあわせて穴の中を『生成 AI』に描かせます。



 実務ではもっと複雑に背景の重要な部分に穴が開きますが、やることは同じです。開いた穴より 2pxほど広く選択してからプロンプトに何も書かずに『生成 AI』を起動します。プロンプトに指示を書くと、周りのタッチと大きくかけ離れた写実的な絵が描かれてしまいますので、何も書かずにスタートさせるのがコツです。


 そうすると……。


これで完成。穴の中に山の景色が描き足されて、立て札の『LOVE』の後部もきれいに仕上がっています。

 今回はプードル全体を切り抜きましたので、簡単に穴がふさがりましたが、例えば人の顔だけを切り抜いて穴をふさごうとすると、不気味な顔が描かれてしまうことが多々あります。それはたぶん切り抜いた穴の形が人の顔の形になっている状態で、プロンプトに何も書かずにスタートするせいでしょう、AIがその穴に再び別人の顔を描いてしまいます。かといってプロンプトに指示を書くとタッチと合わないものが描かれます。こんなときは切り抜きの穴にそって選択するのではなく、あえて正方形や長方形に選択して、顔ではないことをイメージさせるとうまく描き足してくれます。ここらはカットアンドトライが必要な部分かもしれません。

 これでプードルと背景が別レイヤーに分かれましたので、あとはプードルのパーツを動かす部分に細分化してレイヤーに分けてから、AEにインポートしてアニメーション作業の開始です。

 1枚絵の場合はパペットピンツールでチャチャッと済ます方も多いと思いますが、パペットピンツールはバグが多くてすぐ破綻したり、妙な歪みが発生したり、さらには画像が変更されると全部やり直しになったりと、後のリスクが大きいので、パーツを親子関係にしてボーンシステムの真似事みたいなことでアニメーションしています。

 ここまで開始から5分も掛からずというスピーディさ。Adobeさんが熱く語るワークフローの効率化とは、このようなことをいうのかもしれませんね。

 仕事はこれで終わりではなくこれから始まるのですが、この下拵えの部分が半自動化されたことでずいぶんと効率が上がったのは間違いありません。

 さらに突き詰めて、この後のアニメーション化する作業でも AIが手伝ってくれる部分があると思います。そうすればやがて人間はただひたすら脳みそを使うだけの時代が来るかもしれません。それが良いことなのかどうかは別として、ワタシとしては期待してしまいます。






2024年 3月 9日(土)10.5℃(午前 6時 8分)

あれから2か月……(2)

進む 戻る

人間の手助けをしてくれる AIシステムもかなり進化してきて、プログラムのコーディングを手伝ってくれるコパイロット(Copilot)と呼ばれる生成 AIが登場する時代です。そんなレベルには到底無 理ですが、ワタシもそれなりのサポーター処理を作って、この繁忙期を乗り切っています。

 と書いても具体的な説明が無いと疑問符しか出ないでしょう。かといって細かく説明すると読むのも大変だし、だいたいワタシのやっている仕事があまりにも特殊ですので、なかなか理解してもらえないのが残念ですが、とにかくせっかくパソコンを使った仕事をしているのですから、もっとパソコンを活用してやれと思い立つたびに手掛けてきたのがこのサポート処理たち。ちょっと大袈裟ですが、このサポーターのおかげで涙がちょちょぎれるほど楽になっています。

 ということで、前回の第一弾は『漢字システム』でしたが、今回は『クチパクエンジン』です。

 何に使うのかというと、アニメーションでは欠かせないキャラクターのクチの動きを自動化しようというものです。世間ではリップシンクとか呼ばれていて、優れたものでは人の口の動きを読み取って絵で描かれたクチを動かす本格的なものがありますが、そんな大掛かりなことは予算的にできません。

 でも英会話のアニメーションでクチが動かないのはアウトですし、会話の無い英会話なんて、もう英会話ではなくなっていますし。最低限セリフに合わせてクチがパクパクする処置をしないとダメです。

 はじめのころは音声に合わせて開いたクチの絵と閉じたクチの絵を手作業で切り替えて、それなりにやってきましたが、短納期ではとてもじゃないですが追いつきません。アニメーションの時間は 1本あたり 3~5分ですが、数人のキャラクタがだいたい交互に会話しますので、その作業は手足や体を動かすより苦痛になります。この処理に掛かる時間をなんとか短縮できないかと常々思っていました。

 使用する オーサリングツール は After Effects(以降 AE)ですので、ネットで調べるといろいろなものが出てきます。しかしなかなか自分で思っているものと一致するものが見つかりませんでした。ならば作るしかないか、と時間のあるうちに手掛けていたのが、クチパクエンジンです。

 ダサいネーミングですみません。根がダサいのでこれでいいんです。

 基本的な方法は、オーディオのデータを振幅波形に変えて、波の大きさを数値化して利用するものです。ネットで出てくるのはたいていこの方法です。ただ、数値化された値をどうやってクチの切り替えに利用するかで、いろいろなやり方に枝分かれするようです。

 ワタシの採った方法を、何とかしてやろうと考えている方で、AEをだいたいマスターした人の参考になる程度で説明しますと……。

 クチの開けと閉めを 5フレームで分けたクチパクコンポジションにタイムリマップを掛けてから、それに切り替え用のスクリプトをエクスプレッションとして書き込みます。
 スクリプトのアルゴリズムはとてもシンプルで、フレームごとに音源の振幅を数値として並べた振幅レイヤーから、 1フレーム進むたびに値を読み取って、クチパクコンポジションの表示フレームを切り替える方法です。

 エクスプレッションでは振幅レイヤーが示す数値の最大値から、クチパクコンポジションでの『クチを開けた絵』の最大フレーム内に収まるようにわり算しています。ようは数値がある値より小さければ、クチパクコンポジションの『クチ閉め』フレームに、その基準より大きければ『クチ開け』のフレームが選ばれるようにしています。このエンジンの利点は、クチパクの切り替える値を if文で割り振ればいいだけですので、2パターンのクチパクの絵だけではなく、3枚の絵で構成されたクチパクでも簡単に変更できます。半分開いたクチの絵をあいだに挟むとかなりリアルになります。

 理論的にはこれでよさそうですが、実際にやってみるとかなり問題が多く、声優さんの口調に左右されます。はっきりとメリハリよくしゃべるとすごくいい感じで動きますが、音を引きずるようにしゃべったり、次の言葉とつないでしゃべると音の切れ目が読み取れず、クチが閉じるべきところで、開いたままになるときが連発します。これが次の壁でした。ネット上でもこの問題が取り上げられていますね。

 やがてこのクチパクエンジンの決め手は、音量の差ではなく、音の伸縮だと気づいたのです。そこで少しでもメリハリをつける方法として考えたのは、オーディオデータを扱う Adobeの Audition(以降 Auと書きます)を使って、声優さんの声をエフェクトのエクスパンダーを掛けて振幅の上下を誇張させた音に変換してから、AEでオーディオ振幅レイヤーを作ると、音量の差がはっきり出て、大きい音は大きく、小さい音は小さくと波形自体が鮮明になって、切り替えの閾値(しきいち)が目立つようになり、誤変換が少なくなりました。でもこのままだとこもった感じの声になりますので、クチパクの処置が終わったらもとの音源に戻すことにしました。

 Auについて詳しくはこのサイトの楽しい効果音づくり をご覧ください。


 問題はもう一つ。波形データが切り替えの閾値周辺で何度も変化すると、クチが開いたり閉じたりを繰り返してバタつきます。そのようなときは "posterizeTime(n)" を入れて対処しました。
 これはフレームレートを"n"に替えてコマ落ちさせるもので、n=12~16(fps=30の動画で)にするとバタつきが収まります。あまり小さな数値にすると今度は動きが鈍くなりますので、 サ・デポン でやってます。

 とはいってもまだ完璧ではありません。数か所は修正しないと不自然になります。しかし修正方法が簡単で、振幅レイヤーをグラフエディタで見て、グラフの頂点をマウスでドラッグして上げ下げするだけでクチの動きが修正できます。
 慣れてくるとグラフをざっと見ただけでおかしな部分が先に分かるようになりますので、その場で修正しています。どちらにしても、耳で声を聞いてクチの開け閉めのタイミングを見測っていたころを思えば雲泥の差です。おかげで一人の会話で数十分かかっていた仕事が 1分ほどで完了するようになりました。

 次回は『拡張生成 AI』です。
 さすがにこれはオリジナルではありません。このサイトでも何度か出てきました Adobe PhotoShop に去年から搭載された生成 AIです。
 気なる方は、先に2023年10月1日をご覧ください。




2024年 3月 6日(水)11.5℃(午前 6時58分)

あれから2か月……(1)

進む 戻る

年末から始まった缶詰生活もようやく出口が見えてきました。数学の字幕起こしが 400点。小学校の算数教材アニメーションが 250点、中学校英会話が 90点、小学校英会話が 32点。
 これだけの数を 2か月ちょっとでこなすには一人の力では到底むりです。そこで助っ人を……。

 といっても人ではありません。特殊な分野ですのでそう簡単にアシスタントとして立候補してくれる人はいません。そこでやむなく採った処置が、パソコンをサポーターとして手伝わそうというものです。

 今回活躍したサポーターたちは、教材用漢字システム、クチパクエンジン、AIによる画像の拡張生成。この 3つです。

 まず、動画の字幕起こしは去年作った教材に特化した漢字システムが大活躍。すでに小学校 6年生までの漢字は学習済みですので、中学校あたりの漢字変換はおてのもの、あえて平仮名表記しなければいけない、まだ習っていない漢字や教科書に準拠した漢字もほぼ自動的に変換してしまいます。このあたりの詳しいことは 2023年の1月 6日あたりから書き綴っていますので、興味のある方は覗いてみてください。

 この漢字変換システムのおかげで通常の倍ぐらいの効率アップに成功しています。つまり私が二人いるような計算です。二人いれば必ずどちらがさぼりますが、パソコンは黙々と仕事をしてくれます。

 ワタシの役目は、支給された動画をプレミアに入力して自動文字起こし処理をスタートさせ、吐き出された文字列を漢字システムにのせかえることと、本当に正しい数学用語になっているか最終確認と、字幕の行あふれをみつけたらそれを正して、srtファイルと呼ばれる字幕専用のデータに書き出して納品するだけです。

 人間のほうが雑用のように思えますが、この漢字システムも簡易的なものですから、ミスることが多々あります。たとえば、計算記号の "( )" と、ことばとしての "かっこ" の使い分けが完璧ではありません。でも改良するには時間が掛かりそうでしたので、誤変換した場合は人間が修正することとしています。例を挙げますと。

 動画の中で先生が、『ここで かっこをつけてワイ イコール に かっこエックスぷらすいち かっことじる』 と説明していたら、プレミアは、

『ここで括弧を付けてワイイコール 2括弧エックスプラス 1括弧とじる』 とこれぐらいの日本語文字に起こしてくれますが、数学の教材としては使えませんので、次に漢字システムに切り替えます。
 すると、
『ここで かっこ をつけて y=2(x+1)』 ここまで変換してくれます。

 ちなみに教科書では『括弧』や『付ける』の漢字は平仮名にするルールがありますので、ちゃんと平仮名に再変換されています。しかも計算式の中は記号の "(" や ")"になっていてこれで完璧です。

 でも、これは話者となる人が、『ここでかっこを』と『かっこ』の後に『を』を言ってくれていたり、"かっことじる" としゃべっているからです。もしそのようにしゃべってくれないと、どちらも記号の "("になってしまい、

『ここで ( つけて y=2(x+1(』 と数学的に変な文字列になってしまいますので、あとで修正しています。

 このへんはまだ改良の余地がありますが、現時点では考えていません(時間が無いのが本音)。

 他にも制約はいろいろありますが、ここら辺をよーく監視しておかないと、あとで訂正させられることになります。でも人間がすべてを黙々とやるより力強い助っ人になっていることは、お分かりいただけると思います。

 さてお時間です。時間的に余裕ができたとはいっても、まだ 3月末までは作業は続きますのでここらへんで……。
 次回はクチパクエンジンと、拡張生成サポーターの話です。


 つぎの絵コンテはまだかな~  ( ̄∀ ̄) ~♪







2024年 1月 1日(月)13.5℃(午前 5時58分)

正月からモノ思う……

進む 戻る

フリーランスになってはや 3年を迎えようとしております。これまで、どうにかこうにかやってこれたのも、ひとえに偉大なる Kプロデューサー様のおかげだと……。冒頭にこう書けといわれていますので、書かせていただきましたが。

 でもじっさい途切れることなくお仕事を頂けるのは、やはりプロデュースと営業を兼ねて日々奮闘していただけるからで、心よりありがたく思っている次第です。祝日休日が皆無になろうとも、年末年始がなくなって正月休みが幻になろうとも、マウスがつぶれるまで頑張らせていただきます。

 と強い決心のもと――。

 にしても。なぜに年末あたりから制作依頼が集中するのでしょうか。すでに 3月までスケージュールびっしり。プロデューサーさんの話によると数学の3D映像の依頼が 150点あったらしいですが、にっちもさっちもいかず、ご遠慮させていただいたとのこと。でも断り切れなかった 4点だけが、この真っ黒けのスケジュールに、さらにねじ込まれたという。まぁ、うれしい悲鳴なのですが。去年もそうでした。なぜか年末あたりから嵐のように依頼が殺到するのです。

 ま、学校教材ですから、一人の人間がエイやぁー、って勢いで作るものではなく、編集部の人たちが長い時間かけて練り上げた作品が、最終的にこれをアニメーションしてくださいって、ここに持ち込まれるのが、1年も終わろうとするころなんでしょうね。うれしいことです。

 と思う今日は1月1日、午前5時です。大晦日の夕刻までに数学の字幕起こしを終わらせての翌日。本日はお休みをいただいて、明日から小学校英語のアニメーションに取り掛からせていただきます……と、業務連絡的な内容を書きつつ、貴重な年に一度の休日なのに、相も変わらずパソコンに向かってこれを書いている自分って何なんだろうなと首をひねりながら、年頭のご挨拶とさせていただきます。


  今年もよろしくお願いします。m(^_^)m



《補足と業務連絡》
 ―― そういう事情ですので、©Caramel-bonさんのパンダのエフェクトはもうしばらくお持ちください。
 ちなみに 12点の nftアートもまもなく発売でございます。





2023年 11月24日(金)20℃(午後 4時52分)

そろそろマシンの老化が……

進む 戻る

時が流れれば老いもやってきます。あ、自分のことではありません。いや自分も年をとっているのですが、このサイトでは年齢不詳となっていますので、最近右腕が痛くて上がらないな~とか、テレビを見ているとピンボケがひどいなぁ~などという話題は禁句です。右腕が痛いのもテレビがボケて見えにくいのも、連日休日なしで10時間以上もディスプレイの前でマウスを振り回しているからで、決して、老いのせいではありません。(うそ……。せいです)

 年をとったと痛感するのはパソコンのことです。
 仕事場には HP社のパソコンとマウスコンピュータさんの DAIVシリーズのマシンが 2台あります。HP社のパソコンは嫁さんが使っているので、オモチャみたいなものなのですが、映像関係、とくに 3Dものの制作には DAIVシリーズのマシンでないと、遅くて仕事になりません。

 購入時は最新のパーツが使われていますので、それなりに快適な動きを見せてくれました。しかし時が流れてスキルアップとともに仕事の内容もレベルアップ。ありがたいことですが、マシンの性能は当時のまま、徐々に重く感じられる昨今です。

 1台は5年目になる i7 CPUで GTX1080のGPU、RAM32GBという、引退寸前のマシン。
 もうひとつは、i9 CPUで RTX2080SのGPU、RAM64GB、2年前の購入当時は、怖いものなしで暴れまくっていましたが、最近は仕事の内容についてくるので精一杯という感じ。
 といっても、最近よく使いだした生成 AIの処理や画像の加工に関してはどちらのマシンもサクサク動くので問題はありません。ですが、こと 3Dの作成になると、5年前の GTX1080マシンではもう限界。RTX2080のマシンでもだいぶ重く感じます。

 その原因は仕事の内容が肥大化してきたことに尽きます。昔のように本がぱたんと閉じるとか、タブレットがくるくる回るとか、単体のものを 3D化して動かすなどのような簡単なものではなく、アニメーションに使う背景を自由な角度や自由な距離感を出せる 3D映像にしてしまおうという流れに代わってきたからです。

 これまではイラストの作家さんが描いた背景を利用していましたので、シーンに合わないと感じても、描き直すコストと時間を掛けることができずあきらめていました。

 ところが、背景が 3D化されるとカメラのアングルも距離感も自由自在です。プロデューサーさんのイメージどおりのものになるというのが最大の利点です。

 しかも依頼内容が教材用アニメーションですので、グラフィカルなイラスト風に画質を落とすのにちょっとコツがいりますが、超リアルに作る必要が無いうえに、描かれたキャラクターの角度に背景のほうを合わせることができますので、従来の方法よりとびぬけて良いとなったわけです。

 最近やったのに、教室、廊下、階段のある風景はもちろん、学校の敷地内にあるものをすべて作ったうえに、周辺の町並みも一緒に作っています。体育館から渡り廊下、朝礼台、鉄棒からうんてい。花壇やテニスコート、陸上トラックなど背景となりそうなものを実際の写真を参考に架空の3D空間に設置してあります。

 加えて、運動場の周囲にはフェンスを張って、その外には家並み、ビル街、交番もあって、交通安全の旗が風に揺れている横を、バスが信号付きの交差点を通過していきます。どんなシーンの依頼が来ても、どこでも背景にすることができるように作ってあります。


運動場から360度カメラを回転させることもできます

少しでもデータを軽くするため細部は省略して、マテリアルもラフに作っていますが、交番横の交通安全の旗はマジで風に揺れていますし、バスもちゃんとタイヤを回転させて走って行きます。そのおかげで、場所を問わず、どこへでもカメラを近づけてアニメーションの背景として利用できるわけです。


 しかしこうなると RTX2080のマシンでも四苦八苦。使われるシーンはどれも 40秒ほどですが、レンダリングに数十分から数時間もかかってしまいます。自分の老いよりも、マシンの老化が気になるというもので、そろそろ次の助っ人が欲しいのが本音です。


 やっぱ CPUよりも GPUなんでしょうかね。となると、NVIDIAのRTX4090っすか?
 RAMは夢の 128GBで、アフターエフェクトのプレビューもストレス無しでサクサクと動かしたいですね。

 で……。おいくら?


 "んげっ!"  ( ̄ω ̄;) タカ~。