往時のモノクロ映像をAIによって現代へと蘇らせる
NHKアートとRidge-iが進める映像カラー化の試み

明治から昭和にかけて撮影されたモノクロ映像を入念な考証を経てカラー化する作業をAIによって自動化し、当時の人々や生活の様子を生き生きと再現する――そんな試みが日本放送協会(NHK)の美術制作を担うNHKアートとRidge-i(リッジアイ)によって進められている。すでに番組制作でも利用され、視聴者から大きな反響が寄せられている。プロジェクトの狙いと成果について、NHKアートの伊佐早さつき氏、Ridge-i 代表取締役社長の柳原尚史氏に聞いた。

短期間でカラー化技術を開発し、映像制作に活用

――お二人は、これまで専門家が膨大な手間と時間をかけて1枚1枚の静止画を彩色することによって実現していた「モノクロ映像のカラー化」を、AIによって自動化するプロジェクトを推進されています。この取り組みを始めたきっかけを教えてください。

伊佐早さつき
NHKアート 総合美術センター
デジタルデザイン部 CG映像 CGデザイナー

NHKアート 伊佐早さつき氏(以下、敬称略) 当社は、NHKが制作する番組のセットなどのリアルなものからCGなどのデジタルなものまで、総合的な美術制作を行っています。その中で、明治から昭和にかけて撮影されたモノクロ映像をより分かりやすくお伝えするためにカラー化するという作業が多く発生します。人手と時間のかかる大変な作業ですが、これをどうにかして効率化/自動化できないかと思案していたところ、Ridge-iさんの取り組みを知りました。

Ridge-i 柳原尚史氏(以下、敬称略) Ridge-iでは、企業のさまざまなビジネスにおけるAIの活用をご支援しています。ただ、AIがどのように皆様のお役に立つのかをご説明するのは意外と難しいのです。日頃から「AIにしかできない処理を、どうすればわかりやすくプレゼンテーションできるか」を考えていたのですが、その中でモノクロ映像のカラー化を思いつきました。そして2016年1月に、映画『ローマの休日』の一部を個人的にカラー化して公開したところ、それをご覧になったNHKアートさんより「モノクロ映像を彩色する工程をAI/ディープラーニングなどの先端技術を使って効率化/自動化できないかと」とご相談を受けたのがきっかけです。

――柳原さんは、なぜモノクロ映像のカラー化をテーマに選ばれたのですか。

柳原尚史
Ridge-i 代表取締役社長

柳原 モノクロ映像では、人の肌の色や空の色は、白黒の値としてはほとんど同じ色になります。したがって、「この値の色は、この色に変換する」という単純なルールに基づく変換(ルールベース変換)では、人肌と空の色は塗り分けられません。しかし、ディープラーニング技術を使うと、それぞれの白黒の値がどういった特徴を持つ領域かをAIに学ばせ、両者を違う色に塗り分けられます。これはAIならではの処理のデモンストレーションに最適だと考えチャレンジしました。

 ただし、当時作った映像は、番組などで使う商用レベルにはほど遠いものでした。例えば、服はさまざまな色がありうるため、何色を付けても正解になってしまいます。そうすると、AIは服と認識したもの全てにセピア色を付けてしまうのです。そこで、これを商用映像などビジネスの世界で実用化するにはどういう工夫が必要かを考えている際にNHKアートさんよりお声掛けいただき、現場のプロフェッショナルがどういう機能を必要としており、私たちがどんな技術を提供できるかといった相談を始めました。

伊佐早 相談を始めたのは2016年10月頃で、翌年1月より「どういう手法で実現できるか」「何枚くらいのサンプルをAIに与えればディープラーニングによって自動的に彩色できるか」「どのくらいの手間で、どのくらい自動化できれば採算が得られるか」など、実用化も見据えた具体的な検討を開始しました。その途中で急遽、大相撲の取り組みのモノクロ映像をカラー化して放映するという企画が舞い込んできました。この企画に私たちが練っていたAIによる彩色を使ってみようと4月から本格的な技術開発に着手し、2017年5月21日放送のNHK大相撲中継の中でAIを用いたカラー化映像を初放映しました。これには大きな反響をいただき、もっと本格的に使ってみようということになり、2017年8月20日放送のNHKスペシャル『戦後ゼロ年 東京ブラックホール 1945-1946』では、終戦当時のさまざまなモノクロ映像をカラー化して放映しています。

――技術開発から映像制作まで、非常に短期間で行われたのですね。

柳原 検討期間が約3ヵ月、実際の開発期間は約1ヵ月ですから、確かに急ピッチです。大変でしたが、やはりいつまでに完成させるというタイムラインが明確になったほうが一気に密度濃く開発に当たれるので、良いタイミングだったと思います。

かつては1時間の番組を25名体制により3ヵ月で彩色

――AIによって自動化するまで、モノクロ映像のカラー化は全て手作業で行っていたのですよね。1枚1枚の静止画に彩色していくわけですから、膨大な作業量です。

伊佐早 AIを使うまでは全て人手で彩色していました。カラー化の際に使用したモノクロ映像はほとんどが1秒間24枚の静止画で構成されていました。その1枚1枚について、画像を構成する1つ1つのパーツごとに色を付ける範囲を指定し、そこに彩色するといった具合に進めていました。1人の人物を彩色する場合でも、顔や服、靴などそれぞれの部位によって色が異なります。また、静止画なら1枚で済みますが、動画はこれが連なることによって成り立つので、1枚ずつ再生して不自然なところはないかを繰り返し確認しながらカラー化していきます。全体的に何となく色を付けることは簡単なのですが、当時を知る方も映像をご覧になるので、色の付け方に間違いがあってはいけません。正確な色を付けるための考証にも多くの時間をかけます。

――そもそも、モノクロ映像しかない状況で、実際の色をどうやって知るのですか。

伊佐早 モノクロ映像からは、元の色の情報は得られません。しかし、当時の雑誌や絵ハガキに色のヒントがあったり、大相撲なら両国国技館のスタッフの方が資料をお持ちだったりします。そのほか、専門家の意見に基づいた考証から最初に色の設計を行って彩色作業に入ります。リアリティを突き詰めようとすれば色の正確性が非常に重要となるため、「説得力のある色をどう作るか」がモノクロ映像のカラー化では最も重要なテーマだと考えています。

――考証と色設計が終わると、ようやく彩色に入るわけですが、この作業は何名くらいのスタッフで行われていたのですか。

伊佐早 映像の長さによって異なりますが、1時間の番組を作るために25名体制で3ヵ月作業したこともあります。1枚1枚の静止画をカラー化する際には、どこにどう彩色すれば適度なカラー画に見えるかといった絵心が必要です。そうした心得のあるデザイナーに作業をお願いしています。

――高い専門性と大変な手間、時間がかかるのですね。

伊佐早 はい。多くの手間と時間がかかるため、番組を企画する側からは、もっと期間と制作費を抑えられないかという相談を常々受けていました。また、戦争の映像などはショッキングなものが多く、それを彩色のために同じ担当者が何日間も見続けるのは精神的に大きな負担がかかります。そうした負担や期間、コストを減らすためにも、コンピュータを使った自動化ができないかと考えていたのです。

ともに試行錯誤して「映像の彩色に特化したAI」を開発

――そのようにして大変な手間と時間をかけて行っていた作業をAIによって自動化されたわけですが、彩色のやり方はどう変わりましたか。

柳原 考証を行って色の設計を行い、専門家が初めの1枚~数枚を彩色するところまではこれまでと同じですが、その後に連続する静止画を彩色していく作業をAIが行います。具体的には、彩色した最初の1枚~数枚の静止画をAIに読み込んで学習させ、さらに人が映っている映像ならば、人がどう動作するのかも映像によってある程度学習させておきます。そのうえで、後続の静止画を読み込ませると、最初の色を参考にしながらAIが自ら判断して彩色していくのです。

――『ローマの休日』をカラー化した際は全てがセピア調に彩色されてしまったとのことですが、考証を行って彩色した静止画を与えることで、彩色も正しく行われるようになったということですか。

柳原 実は当時とは大きく手法を変えました。AIによるディープラーニングの手法は日々進化しており、最適なやり方はどんどん変わっています。『ローマの休日』をカラー化した際は、汎用的なAIを使って大量の静止画をいったんモノクロに変換し、それを再びカラーに戻すという手法を使いましたが、その結果、映像のほとんどがセピア調に彩色されてしまいました。今回は、数枚の静止画から短時間で4K品質の放送で使える映像を作るために、インプットからアウトプットまで、全てのやり方を変えています。

伊佐早 番組制作側としては、モノクロ画像をカラー化する際、人の髪や服、肌、頭巾などの色がきちんと塗り分けられているだけでは不十分で、「この頭巾は赤色」など、私たちが考証を行ったうえで決めた色を確実に付けられることが必要です。汎用的なAIではそれができず、赤色にしたい頭巾が紫色に塗られてしまったりします。あるいは、制作ディレクターから「この時代の長官が乗っていたクルマは艶のある黒色だったので、その色を付けたい」と注文を受けても、クルマはさまざまな色がありうるため、汎用的なAIで試してみるとグレーに彩色されてしまったりします。これでは、当時を知る方々が観てリアリティを感じられませんし、だからといってAIが付けた色を人が手作業で直していたのではAIを使う意義が薄れてしまいます。そのため、意図した色を各部分に確実に彩色するための手法を新たに開発していただきました。

――以前の手法とは何が違うのでしょうか。

柳原 今回使った手法は、ある意味で汎用性を捨てています。「モノクロ映像のカラー化」という目的に必要な機能は何かをNHKアートさんと議論して試行錯誤しながら「映像の各シーンの彩色に特化したAI」を開発し、従来よりも高い精度で人や物を認識して塗り分けられるようになりました。その中で「この部分はこの色が正しい」といった人の知見をAIによる彩色に反映するための仕組みを用意したことが最も工夫した点です。

AIによってカラー化された映像の一部(左がオリジナルのモノクロ画像)
(C)Ridge-i、NHKアート

映像の質を高めながら、工程を3割圧縮

――AIによって自動化したことで、カラー化の作業はどのように効率化されましたか。

伊佐早 初めに大相撲の映像をカラー化した際は半ば実験的な試みであり、AIがうまくはまった部分もあれば、どうしてもうまくいかない部分もありました。そこで、制作終了後に一度ブラッシュアップしていただき、次に『戦後ゼロ年 東京ブラックホール 1945-1946』でカラー化した際には、全てを人手でやるのと比べて3割程度早く出来上がりの状態まで持っていくことができました。彩色の難しいカットでは、以前は10日近くかかっていたものが、1日~2日でできるようになるカットもありました。従来よりも少ないスタッフでの作業も可能になりました。

――3割の効率化は、人によっては期待ほどではないと感じるかもしれません。これは従来あまり時間を割けなかった作業に多くの時間を費やしたうえでの3割削減と理解すればよいでしょうか。

伊佐早 そのとおりです。これまでは短期間で彩色するのに精一杯でしたが、AIによる自動化で時間に余裕ができた分、色の考証により多くの時間を割いたり、AIに学習させる少数の静止画の彩色により多くの時間を割いて精度を高めたり、これまで手が回らなかったカットも手掛けたりしてカラー化の質と幅を広げ、我々としても満足のいく仕事をしたうえでの3割削減です。

――素晴らしい成果ですね。もう昔の作業スタイルには戻れませんか?

伊佐早 正直、もう戻れません。以前は「根性で塗り上げる」みたいなところがありましたので(笑)。 人が培った技術とAIがうまく融合し、よりよいものを制作できるようになったことには凄く可能性を感じています。

――ここまでのカラー化の番組を見た視聴者からの反響はいかがでしたか。

伊佐早 とても大きな反響をいただきました。若い世代の方々からは「戦争は大昔の話だと思っていたけど、カラー化された映像を見て、当時の人たちも自分たちと変わらない生活を送っていたとわかった」という感想をいただいた一方、当時を経験した方々からは「懐かしい」という声のほか、「当時のいろいろな映像をもっと見たい」というご要望をいただきました。歌舞伎や宝塚などの古い映像もカラー化したところ、「昔はモノクロで見ていたのに、今の時代にカラーで見られるなんて」という反響をたくさんいただきました。

――今後、そうした反響にどう応えられるでしょうか。

伊佐早 NHKはモノクロ映像の膨大なライブラリを持っており、それをカラー化したいという要望は以前より各所からいただいています。一番古い映像は明治時代の物からありますが、量があまりに膨大なため、たとえAIの助けを借りたとしても、番組制作と同じ精度でカラー化するのは人手や期間、コストの面で難しいのが実情です。そこで、AIをフルに活用して最小限の手間でカラー化することにより、誰もが気軽に閲覧し、彩色された映像によって「当時の記憶が鮮やかに蘇った」「当時の人々の暮らしをリアルに感じることができた」といった感想をお持ちいただけるような企画を実現できたらよいなと思っています。

柳原 夢のある素敵な話ですね。私たちは明治時代の色はわかりませんが、彩色した静止画を1枚いただければ、仕組みはすぐに用意します(笑)。

――モノクロ映像のカラー化のほかに、映像制作の中でAIを活用できる場面はありますか。

伊佐早 ドラマの制作などでVFXというビジュアル・エフェクトを扱うことが多いのですが、その中で時代劇の場面を作るために、撮影した風景から電柱など現代の建造物を消すためのマスキング作業を行います。この作業にAIによる画像認識を適用し、映像から消したいもののかたちを学習させて自動的にマスキングできれば、大きな需要があります。4K映像の時代になり、時代劇の制作では、俳優さんの頭部に残るカツラの跡を消したいというニーズも高まっています。AIによって実写映像から不要なものを自動的に消せるようになったら、現在は人手によって多くの手間と期間、コストをかけて行っている作業を置き換えられる可能性があります。

柳原 それは実現できそうです。テクノロジーの観点では、対象が「電柱」や「カツラ」と具体的に絞れているのがいいですね。これが「肌」など漠然としたものだと難しいのですが、「カツラの周辺」というかたちで対象領域を絞れるのなら作れそうな気がします。

開発した映像加工ツールをMicrosoft Azure上で提供

――こうしたディスカッションによって新たな使いどころが見つかっていくわけですね。Ridge-iでは、NHKアートのプロジェクトで利用した映像加工ツールを一般にも販売されています。

柳原 「Ridge-i AI Video Editing Assistant」「Ridge-i AI Video Editing Assistant on Azure」として商品化しています。前者はオンプレミス環境で動作するツールで、後者はそれをマイクロソフトのパブリック・クラウド「Microsoft Azure」上で動作させるものです。当社はディープラーニングのプロフェッショナル・コミュニティ「Deep Learning Lab(ディープラーニング・ラボ)」の幹事会社としてマイクロソフトと協業しており、その縁もあってMicrosoft Azureを使わせていただきました。

――なぜクラウドを使われるのでしょうか。

柳原 オンプレミス環境で画像処理を行っていると、自社が保有しているコンピュータ環境しか使えません。映像制作の現場では、「明日までに急ぎで10本の映像を処理したい」といった仕事が急に発生しますが、そうした場合にコンピュータの処理能力が足りなくなってしまいます。その点、クラウドならば必要なコンピュータ環境を一時的に沢山借りて大量の映像を処理するといったことが柔軟に行えます。

――映像制作の世界でもクラウドが大きく貢献しているのですね。

柳原 Ridge-i AI Video Editing Assistantでは、現在はモノクロ映像のカラー化機能を提供していますが、今後、映像の不要部分を消去するマスキング加工、古いフィルムからデジタル映像を起こす際の傷消し加工、低解像度映像の高画質化などの機能を提供できるように、現在、開発を進めているところです。これらの機能も、いずれMicrosoft Azure上で提供していきます。

AI導入はアジャイル型のプロセスで

――本日は映像制作の現場におけるAIの活用について、貴重なお話を伺いました。AIによってリアリティを高め、人々の心により強く訴えかける映像を生み出すお二人の仕事に今後も期待しています。

伊佐早 私たちはよりよい映像制作のために、さまざまな技術開発を行っていますが、実際の制作のワークフローにうまくはまらず、制作現場で活用できない物も少なくありません。そうした中、今回はモノクロ映像のカラー化という大変な作業を短期間で行い、実際の放送で使える質の高い映像を作りました。これにより、関係者からもAIによるカラー化に対して大きな信頼をいただきましたし、得た成果は非常に大きいと感じています。今回の取り組みの成功で、今後のAI導入に加速がつくと思っています。

柳原 そうおっしゃっていただけると私も嬉しいですね、技術者冥利(みょうり)に尽きます。今回のプロジェクトが成功した要因の1つは、NHKアートさんとともにアジャイル(漸進的)に進めたことだと思っています。AIの導入が難しいのは、従来型のITシステム開発における「要件定義→仕様策定→開発→検収→納品」という段階型プロセスとは大きく異なるからです。必要なプロセスはアジャイル型です。切実な課題と、その解決に使えるかもしれない技術がある状況において、それをどう使ったら実用化できるかをユーザー様と一緒に少しずつ試しながら完成させていくことで、予想を大きく超える成果が得られました。

 失敗しているAI導入プロジェクトの多くは、段階型のプロセスにこだわりすぎて、少しずつ試行錯誤するという試みに至らずに頓挫してしまうケースがほとんどに見えます。現在のAIはどの分野においても活用の黎明期にあり、まずは一緒に試し、ともに学びながら実用化を探ることが必要です。AIの活用を考える皆さまに、この違いを受け入れていただき、AI活用を共に挑戦していきたいですね。

(取材・文/名須川竜太 撮影/西出裕一)