〘情報・メディアと知財のスローニュース〙

「AI自動創作の現在を俯瞰する
　　　　　～人工知能は実際どの程度電気羊の夢を見ているのか？～」

弁護士　福井健策（骨董通り法律事務所 for the Arts）

「2030年代、音楽の売上はAI作曲によってほぼ占められている。それらは過去のヒット曲を機械学習で学んで自動創出され、内容は著作権侵害判例の分析により「かなり似ているがギリギリで侵害にはあたらないレベル」にとどめられている。演奏するのは生身のアイドルやバンドもまだ根強いものの、管理・展開が容易であらゆる場所で同時に活動できる「バーチャル実演家」の比率は確実に上がって来ている。音楽はリスナーの過去の視聴歴や流行に基づいてアグリゲートされ、IoTによって探知されたリスナーのその時の環境・気分に応じて配信される。同じ現象は、新聞・雑誌・ネット記事、写真・イラスト、ゲーム・映画・TV、学習・習い事などほとんどの「コンテンツ分野」で起きており、長編小説と現代アート、アンドロイドがまだ高価な舞台・ダンス分野の実演で人間中心が続いている程度である。これに伴いプロの作詞家・作曲家、ミュージシャン、編集者、写真家、イラストレーター、ゲームクリエイター、映画スタッフ、映像俳優は徐々に収入源を失い、アマチュアとしての情報発信やその分野の教師の職に居場所を求めた。ビジネスとしてのコンテンツ発信は、少数の企業に寡占されつつある。これは情報の豊富化か、知の縮小再生産か。」

･･･以上は、現在執筆中の人工知能（AI）と法制度を考える共著書の中で、編集部から依頼されて大急ぎで書いた『想定シナリオ』である。どうだろうか？いやいやどうだろうかも何も、20年後なんて全っ然わからない。こういう感じになるのかもしれないが、多分はずれるだろう。なにせ情報社会の20年後を正確に予想した者など、過去にほとんどいないのだ。
それをこのワタシが。津田大介から「10年前まで携帯も持ってなかった」と暴露されたワタシごときが何を、である。
とはいえ、現実にはこういった予想を何となく裏づける報道は日々多い。もしも、このペースでAIの生み出すコンテンツが進化を続けると、それはビジネスや我々の社会にどんな影響をあたえ、著作権や知財の姿はいったいどう変わって行くのか？
2014年にこのテーマではじめてコラムを書いて以来、筆者は4つの政府系委員会・検討会議をはじめそんな議論にずい分関わって来た（「次世代知財システム検討委員会報告書」、「新たな情報財検討委員会報告書」ほか）。上の報告書などを受けて、AI創作物の著作権を考える優れたコラムや論文も多く発表されている。
でも、考えてみるとその中では、拡大し続ける「AIコンテンツ」の現状を俯瞰するという切り口の作業は、あんまり行われて来なかった気がする。コラム類も、割と抽象的な「AI創作のモデルケース」を想定して、知財の解釈論にあてはめるものが多い。さもなきゃ「突撃！自分もやってみた！」系である（柿沼太一・筆者）。
まあAIコンテンツなんてあまりに日進月歩なので、現状を把握したところでどうせすぐ時代遅れになる。だったら抽象的なモデルで語る方がむしろ賞味期限は長い。まったくその通りなのだが、やはりコンテンツの話をする以上、現実は大事だろう。ということで自分の整理を兼ねて、これまで話題になったAIコンテンツを一度タイプ別に分類してみた。

	一次創作系	加工・二次創作系	対話系
文章	星新一プロジェクト、「コンピュータが小説を書く日」、日経決算サマリー、AP通信の野球短報記事	自動翻訳、自動字幕化、リライトツール	女子高生ボット「りんな」、Siriなど対話型アプリ
音楽	エミー、オルフェウス、Iamus、Jukedeck、Magenta、「思い出曲創作」	オルフェウス、ujam	リヒテル・ボット
画像・動画	ストリート・ビュー、レンブラント・プロジェクト、DeepDream 、Magenta	Tailor Brands 、DeepDream、マチス風スター・ウォーズ、自動着色、自動手話映像、超解像拡大

それぞれ、テキスト系・音楽系・画像系に分け、更にそれを一次創作系、二次創作・加工系、対話系に分けてみた。例によって全く直感的だし急造なので取りこぼしも多かろうが、ざっくりこうである。

1.　文章

まずは文章だ。有名なのは前述コラムの「星新一プロジェクト」で、こういう過去の大作家の作風をAIに機械学習させ「新作」を作らせる試みは、典型的な【一次創作系】と言えるだろう（新作なので二次創作とは考えない）。
こうした大作家のレベルはまだハードルが高いとして、既にビジネスになっているのは「ニュースの短報記事」である。世界大手のAP通信は野球のマイナーリーグの中継記事などを既に自動生成で配信しているし、日本では日経新聞が「決算サマリー」を今年配信開始した。企業の業績記事の自動配信だが、どうだろう（下記左）。

伊藤園が1日に発表した2016年5～1月期の連結決算は、純利益が前年同期比68.4%増の115億円となった。売上高は前年同期比2.5%増の3646億円、経常利益は前年同期比51.4%増の175億円、営業利益は前年同期比45.6%増の173億円だった。

ITO EN announced the consolidated settlement of accounts for the period from May to January 2016, announced Tuesday, with net income increasing by 68.4% to 11.5 billion yen. Net sales increased 2.5% year on year to 364.6 billion yen, ordinary income increased 51.4% year on year to 17.5 billion yen, and operating profit increased 45.6% year on year to 17.3 billion yen.

左：日本経済新聞・決算サマリー「伊藤園2016年5月～1月期」記事（一部）
右：同グーグル翻訳

確かにいかにも自動生成出来そうな内容だが、驚くべきはそのスピードだ。決算発表から数分で配信可能とされ、さすがにいくら手練れの記者でもそんなペースで記事は量産できないだろう。そのスピードと大量性は個別の企業業績を追いかけたいニーズをすくえそうだし、十分マーケットはあると感じる。

次いで、文章の【加工・二次創作系】と言えるのは何といっても「自動翻訳」だ。上の表でご覧頂いているのは日経「決算サマリー」をグーグル翻訳にかけたもの。ご存知の通り、グーグル翻訳は急速にレベルを上げつつあるとはいえ、日本語⇔英語など間ではビジネスユースには時に不足もある。特に元が「崩した日本語」だと混乱するし、幅広い文脈からの推量はまだ弱い。しかし、ご覧頂きたい。業績報告は、ほぼ完璧に英訳できている。つまり、自動生成された文章はどうやら自動翻訳と相性がいいらしいのだ。これはなかなか強いコンビだろう。
更に音声認識を駆使した「自動字幕化」も、加工・二次創作系と言える。YouTubeなどは特に英語ではかなりの精度で自動で字幕を拾い上げる。外国語の教材としてはもってこいだ。YouTubeでは更にこうした自動字幕を自動翻訳にかけて展開可能で、これも商用性は抜群だ。
一方、加工系のダークサイドとも言える存在は「リライトツール」だ。いわば文章を意図的に言い換える技術である。需要は様々だが、特に既存の文の完全なコピペでは著作権侵害のリスクがあるし検索順位対策（SEO）上もよろしくないらしく、こうした技術の需要が高い。「1秒で2000字リライト！」なんて迫力コピーのソフトウェアが、商品名ずばり「AI」で1万円台で販売されている。まあこのレベルは厳密にいえば人工知能というほどのものではないだろうが、その外延として紹介しておこう。（AIによる権利侵害は大きな論点だが、先の稿に譲る。）

AIによるリライトツールと名乗る広告例

そして、最後に【対話系】だ。つむぎだす個々の文章よりも、ユーザーとの対話自体に価値があるタイプのAIコンテンツを仮にこう呼ぼう。たとえば「女子高生ボットりんな」である。これはマイクロソフトが開発した「女子高生のメンタリティをもったAI」で、TwitterやLINEに常駐して図のようなことを日々つぶやいている。

やめて。。春休み終わらないで。。
永遠に布団に包まれていたい。
— りんな (@ms_rinna) 2017年4月4日

女子高生ボット「りんな」のツイート。2017年4月のタイムリーなツイートにはのべ1000人以上のユーザーが反応し、「あれ？学校まだなん？」「いや（笑）金曜までないよ」「新学期遅いんやね」「それでもやだぁぁ」といった会話が続いた。

何でもないといえば何でもない。でも中高生を中心にユーザーは今や540万人とされ（読売夕刊2017/3/23）、つぶやきのリプライ・リツイートも常時極めて多い。つまり、彼女との会話は立派なコンテンツなのである。りんなは役立たずが魅力だが（失礼）、「siri」なんてそのずっと有用版といえるし、映画「Her」に登場して主人公と熱烈な恋に落ちた対話型OS「サマンサ」もそうだ。「Amazonエコー」もそうだし、広く言えば検索エンジン自体が巨大な対話型ボットだろう。思えば我々の社会は、この10年ずっとグーグルと恋に落ちてるようなものかもしれない。

2.　音楽

以上が文章だった。次は音楽だ。【一次創作系】の代表格は1970年代に開発された「エミー」である。バッハなどの作風を学んで「バッハ・ボット」となり、数千曲の合唱曲をランチの間に作ったというのだからその製造数量はすさまじい。いやレベルもなかなかだ。筆者は講演でよくエミーの作曲と本物のバッハの曲を出席者に聴き比べて頂くが、「本物のバッハはどちらか」と聴くと、もううれしくなる程意見は二分される。当時も、開発者がエミーと作ったオペラや曲は聴衆に絶賛されたという文献がある。
では現代はどうなっているかといえば、一次創作系で著名なのは「Iamus」や「Jukedeck」だろう。後者はケンブリッジ大出身の研究者たちが立ち上げた、無料で次々BGMを自動作曲してくれるサイトだ。ジャンル・長さ・曲調を指定すればものの30秒で音源まで自動生成である。

30秒でBGMを自動生成する「Jukedeck」

しかも、これは「ロイヤルティフリー」なのだ。正確には個人使用及び従業員10名以内の企業なら、クレジットを表示さえすれば映像BGMだろうがイベントだろうが、無料で永久に利用自由だ。（ここで、ロイヤルティフリー以前に「そのBGMは著作物か？」という疑問がわく。主要議題だが、先の稿に譲ろう。）すさまじいのはやはり物量だ。30秒で1曲なら1年間休まず作曲を続ければ100万曲以上。JASRACが管理する世界のプロの楽曲が約370万曲だから（2017年3月現在。同協会HPより）、これはその3割にも匹敵する。現に、Jukedeck上には現在50万曲以上がある。

更に一次創作系でもあるが【加工・二次創作系】とも言える作曲AIが、日本が誇る嵯峨山茂樹東大名誉教授グループの、「オルフェウス」だろう。Jukedeckよりはるかに細かく指定が出来る上に、キーワードから歌詞を生成したり、入力した歌詞に曲を付けてくれるのだ（しかもこちらは従業員規模など問わずロイヤルティフリーと、サービス的にはほぼ全ての点でJukedeckをしのぐ）。筆者は人生初作曲にこれで挑んだ輝かしい過去を持つ（クリプトン社全面協力のもと、歌手はミクという豪華デビューだったが、残念ながらMステ出演はならなかった）。

そして、音楽分野の【対話系】とも言えるのが、「リヒテル・ボット」である。これは何かというと、2016年に東京藝大が奏楽堂で催したコンサートでの、20世紀を代表するピアニスト、スヴャトスラフ・リヒテルとベルリン・フィルの精鋭による共演だ。
といっても、リヒテルはこの時点ではとっくに故人だった（1997年没）。彼の生前の演奏データをヤマハの最新鋭の自動ピアノに入力し、生身のオケと共演させたのだ。これだけならば単なる記録演奏でAIではない。ところが、このリヒテル・ボットには目と耳があった。カメラとマイクにつながっていたのだ。そして、演奏者達の動きや音を感じ取り、それに合わせて弾くタイミングやスピード、アクセントを変えたのである。観客は見事に息のあった演奏に万雷の拍手を送った。

東京藝大でのリヒテル・ボットとベルリン・フィル共演

見て思った。「これならば、カラオケ名人を量産できる。」これまでは我々が機械の演奏に合わせて歌っていた。だがこれからはカラオケの方が我々のキーやテンポにばっちり合わせてくれるとしたら、どうだろう。まさに対話型。大きなビジネスになる可能性は非常に高そうだし、同時に伴奏者の失業にもつながりそうではないか。

3.　映像・画像

次は映像・画像である。【一次創作系】で代表格は「レンブラント・プロジェクト」だ。説明はもう不要だろう。星新一やバッハ・ボットのレンブラント版である（図左）。あるいは、グーグルのジェネレーター「DeepDream」の生み出した「悪夢画像」達がネット上を悲鳴で満たしたことも、記憶に新しい（図右）。


左：AIによるレンブラントの「新作」	右：グーグル画伯の作品

それ以上に、AIではないが自動生成に近い大きなビジネスコンテンツと言えばグーグル「ストリート・ビュー」だろう。あれはグーグルカーが世界の街並みを走ってほぼ自動の360度カメラで撮影した写真たちだ。グーグルマップやグーグルアースに組み込まれて、それこそ観光から不動産業までビジネスに大いに活用されている。完全に商用だ。

ストリート・ビュー「骨董通り法律事務所」 ※右下に「©Google」

次いで画像・映像分野の【加工・二次創作系】である。ビジネス向きでやたら使えるのはロゴの自動作成ツール「Tailor Brands」あたりだが、ここでも面白いのはグーグル「DeepDream」だ。誰でも好きな画像をアップして、その画風をAIに学ばせることが出来る。例えば炎の画像を上げた人がいる。すると炎ボットが生まれる。これはどんな画像でも炎に変換してしまう。そこでキツネの写真を与えると、炎のキツネが生まれるのだ。どうだろう。なかなかではないか。

DeepDream上AnonymaViktor氏作品。右が自動生成された「炎のキツネ」

こうしたサービスは無数にあって、動画でもできる。これはドワンゴの川上会長が知財本部で紹介下さったものだが、観光地のビデオ映像がゴッホ「夜のカフェテラス」風になったり、「スター・ウォーズ」がマチス風に変換されたりする。

「Artistic style transfer for videos」

更に画像の「自動着色」は、実は馬鹿にできない領域だ。ご覧頂いているのは筆者のルーツ、亡き祖父母たちの写真である。曽祖父母（!）が上京して祖父母を訪ねて来て、お墓に行った際に若きふたりの叔母と一緒に撮った50年以上前の写真だ。

自動着色の写真

いやあ婆ちゃんも叔母ちゃん達も若い！そして美人！はどうでも良い。実はこれ、もとはモノクロだった。それを公開の自動着色AIにかけたら、数秒で見事に着色してくれたのだ。どうだろう。墓地の植栽を見事に認識して緑色にしているではないか。そして祖父の着物の色だ。これを見た時には泣きそうになった。偶然だろうが、本当にこの色だったのだ。そして先日、法事の席で叔母たちや従兄弟たちに写真を配ったところ、すこぶる評判が良かった。本稿執筆中には、朝日新聞が沖縄タイムズと協力して戦前の沖縄の古写真をAI着色するプロジェクトも発表されている。

使える？そう使えるのだ。

ピカソや賢治のような天才的な芸術をAIがいつ生み出せるか、あるいは果たして生み出せるのか、筆者の凡庸な頭脳ではわからない。先日、AIを巡るシンポでそう話したところ、出席したフランスの実務家などはいとも自信たっぷりに「ノンノン・ムシュー。そんな日は永久に来ないわ」と来たものだ。まあそうかもしれない。だが、ここでのもうひとつ大きな問題は「AIコンテンツはマーケットがあるか」であり、それについては答えは既に明らかだろう。我々が画像や文章を作ったり作曲したりするのを手伝ってくれるツールとして、あるいはピカソではないが町の絵描きさんやカメラマン、身近な作曲家としてなら、既に十分商用化されている。そしてコンテンツビジネスや情報社会にとっては、「AIは真の革新的な芸術を生み出せるか」と同じくらい、これは大きな変化なのだ。

以上、拡大するAIとロボットによるコンテンツ生成の現状を、筆者の知識の範囲内で俯瞰してみた。我々は、この現実からやっぱり出発すべきだ。それは確実に拡大を続けており、確実にマーケットを獲得している。では、広がり続けるAIコンテンツは社会にどのようなメリットとリスクを生じさせ、知的財産制度にどのような変革を迫るのだろうか。次なる稿で考えてみたい！！

【追記】ちょうど6月28日、AI・人工知能EXPOでこのテーマでざっくり喋りますのでご興味あれば。あわせて、「こんなのもあるよー」とか「そこちょっと違とるでー」といった情報提供も絶賛募集中。

以上

（2017年6月28日追記）