エロ小説ならいいかもしれないが・・・人工知能で文章生成

 面白い試みだったのでクリップ。一つ目の試みについてはちょっと懐疑的。星新一のショートショートの命はオチだ。意外性のある、皮肉の効いたオチは予定調和を崩すところから生まれる。その展開を、過去の作品のDBの並べ替えで生み出せるのだろうか?歴史小説のようなもののほうがいいのではないだろうか?

 一番大変な「新たな物語を作り出す手法を開発」をサラッと書かれているが、これが出来ればAIに感情がもたせられるレベルではないだろうか?この点でエロ小説やハーレクイン物こそ自動生成向けなのではないか。というか、既に実用化されていると言えなくもない。ハーレクイン物は創作というより製造物の域に達しているという記事を20年くらい前に読んだ。全ての作品が印刷上都合の良いページ数に収まるように決められており、主人公の属性・相手の属性・出会い・波乱(障害)・結末のパターンなどを組み合わせて文章にするだけらしい(読んだことがないので検証はしていないが)。エロ小説も同じロジックで処理できるに違いない。

 ただ、公立の大学で公費を使った研究でエロ小説の量産技術を開発というのは難しかったのだろう。非常に高いハードルを立てたものだと思う。「公立はこだて未来大」は記憶しておきたい。

時事ドットコム:人工知能で、目指せ文学賞=星新一の文体分析、短編生成-はこだて未来大が計画

 「ショートショート」と呼ばれる短編の名手、星新一(1926-97年)の作品をコンピューターで分析し、自動的に短編小説を生み出す計画を、公立はこだて未来大の松原仁教授らが6日、発表した。プロジェクトの顧問を務める作家の瀬名秀明さんと記者会見した松原教授は「星さんと同程度以上の作品を作るのが目標。例えばペンネームを使って文学賞などに応募し、入選できれば一定のレベルに達したと言えるのではないか」と話した。
 星作品のファンでもある松原教授は、短編が1000本以上あることや、起承転結が分かりやすく、文体や言葉の使い方に特徴があることなどから、コンピューターによる分析や作品生成に向いていると指摘。今後5年間をかけ、多数の作品から単語の頻度、文章の長さ、物語の構造などの特徴を分析して、新たな物語を作り出す手法を開発し、原稿用紙十数枚程度の「ショートショート」を生成させることを目指す。(2012/09/06-17:32)

 こちらはもっと現実味があり、テクノロジーレベルまで落とし込まれている。新聞でもテレビでも決まった言い回しやよく使われる文脈が存在する。というより、情報を伝えるときには提携の文章に変わる部分だけを入れ替えて伝えたほうが聞く方も理解しやすい。しかし、マスコミは情報を伝える核心部分でないところでも安易な決まり文句を多用している。何も考えずに書き・話しているからだ。ニュースの「キャスター」という人種のお決まりのセリフの陳腐さを思い浮かべればいい。

 テレビのニュースで繰り返されるテンプレート通りのニュース番組などは、パラメータを入れ替えるだけで十分できるし、天気予報など人が読み上げる必要すらないはずだ。

 ただ、下の文書の最後の段落に込められたメッセージは重い(下の記事はぜひ全文をお読みいただきたい)。今でも、文書を作るまでには至らないが、フォローしているTwitterアカウントのツイートから新聞記事を生成する Paper.li というサービスがあり愛用している。一般的な新聞では考えられないような偏った紙面となる。

 これを読んでいると、世の中のPCの大半が Mac で、音楽はレゲエ、スポーツは自転車しかないように見えるがどれも実際とははるかにかけ離れている。自分のTwitterのTLの情報が世界で起こっているような錯覚を覚えるが、フォローしている相手というのはすでにフィルターがかかっていると考えなければならない。

アルゴリズムは記者より優れた記事を書けるだろうか? « WIRED.jp 世界最強の「テクノ」ジャーナリズム

ナード向けガジェットサイト「Thinkgeek」では、「あっちへ行け。おまえの代わりはちょっとしたシェルスクリプトで十分なんだ」(Go away or I will replace you with a very small shell script)と書かれたTシャツが売られている。これは、誰かがやっている単調でうっとうしい仕事が、単純なソフトウェアによって(そしてより少ない費用で、泣き言を聞かされることもなく)遂行されうるという場合のための皮肉のこもった脅しの言葉である。

しかし今回、わたしたちはキーボードを前にして本当に冷や汗をかいた。もしかすると「WIRED」編集部にも、ラッダイト運動的な誘惑がもたらされるかもしれない。

なぜなら、記者の代わりができるようになりつつあるアルゴリズムが存在するからだ。アメリカの2つの会社、シカゴの「ナラティヴ・サイエンス(Narrative Science)」とノースカロライナ州ダーラムの「オートメイテッド・インサイツ(Automated Insights)」が、生データから自動的に記事を作成するプログラムを開発したのだ。

話はクリスチャン・ハモンドから始まる。彼は、イェール大学の博士号をもつ情報技術者である。2009年、彼と同僚のラリー・バーンバウムがノースウエスタン大学のジャーナリズムスクールで、あるコースを担当したときのことだ。学生たちは、珍しいことにジャーナリストと情報技術者の混成だったが、彼らはStats Monkeyと呼ばれるプログラムをつくり出した。

このプログラムに野球の試合のテクニカルデータシートを与えれば、数秒で画像、タイトル、キャプションから、野球の歴史についての正確な言及まで備えた完璧なスポーツ記事をつくり出してくれる。『ニューヨーカー』誌に掲載できるほどではないけれど、アマチュアの試合の記事で地方新聞のページを埋めるには十分すぎるほどだ。

これは野球だけのものだったが、Stats Monkeyのプレゼンテーションに居合わせたひとり、スチュアート・フランケルは、これが金脈の入り口だということを理解した。彼はハモンドとバーンバウムに、さらに先に進んで、あらゆるデータの集成からストーリー、それも商業化可能なものを生み出すプログラムをつくることは可能かと尋ねたのだ。3人はナラティヴ・サイエンスを設立して、ソフトウェアを改良し、あらゆるタイプのデータに適合させるためのプログラマーと、さらに「メタ・ライター」の役割を果たすプロのジャーナリストからなるチームを編成した。後者は、あらかじめこしらえたフレーズの枠組みとなる、無数の言語テンプレートを書く。ソフトウェアはこれをデータで埋めて、一緒にまとめる。あとはソフトウェアに、あるタイプのフレーズに関して、別のタイプのフレーズをより多く使うように指示すれば十分だ。これによって記事の体裁が変わる。

ナラティヴ・サイエンスは、「通信社の生彩に乏しい発表に比べて、傲岸で冷笑的な記事をつくるのもわれわれにはそれほど難しいことではない」と宣言する。クライアントの望むままに。そして、その結果は恐ろしいほど人間が書いたもののようだ。

当初、ナラティヴ・サイエンス(と、その競合相手のオートメイテッド・インサイツ)は、スポーツと金融の自動リポートの作成に焦点を合わせていた。理由は簡単だ。これらに関連して言及すべきほとんどすべての事柄は、コンピューターが凝縮させて叙述することが可能な大量の生データ(ゴールの記録、暴落した株式など)に関するものだからだ。

しかし、叙述すべきデータは無数にある。ずっと以前から、データを集めることが自身のビジネスを理解し改善するための根本であることを企業は学んでいた。残念なのは、膨大にある単調な表やグラフを意味づけすることができずに、そのなかで窒息してしまうことだ。これに対して、ソフトウェアは飽きることなくデータを読み込み、鍵となるトレンドを分析することができる。

さらに、自動文書作成のアルゴリズムは、読みやすいだけでなく、非の打ちどころなく正確なリポートを自動的に編集してくれる。これによって、集めたデータを意味づけすることによって、マネジャーはこうしたデータを理解することが可能になる。この種の自動リポート作成は、ナラティヴ・サイエンスにとってジャーナリズムよりもずっと、将来の企業向けコアビジネスとなる可能性がある。

そして、叙述すべきは数値のデータのみではない。例えば、ナラティヴ・サイエンスのソフトウェアは、ある人物に関する何百万ものツイートを読み込み、これらが賞賛であるか批判であるかを自動的に分析し(情報言語学者が「感情分析」と呼んでいるもので、イタリアでもこうしたことは行われている)、ツイッター界においてある人物がどのように語られているかについて、要を得た読みやすいリポートを生成することができる。人間のジャーナリストには到底集めることができないほどの大量のデータを基にしていることによって、自動文書作成ソフトウェアは決定的なアドヴァンテージをもっているのだ。

グルメガイドもまた廃れてしまう危険がある。ナラティヴ・サイエンスのソフトウェアの柔軟性を活用して、彼らのチームの「メタ・ライター」のひとりが、ウェブ上のレストランに関するさまざまな評判を読み込み、その鍵となる観点をかすめ取って、「アトランタでイタリア料理を食べるならどこか」といった記事をいくつも調合することができるボットをつくり出したのだ。

一方、スポーツに話を戻すと、オートメイテッド・インサイツは「Stat.us」というサイトを立ち上げた。これもまたツイッターを活用しているが、やり方は正反対だ。さまざまなソースからスポーツのデータを集めて、分析し、選別して、自動のツイッターアカウントを作成し(サッカーやバスケットなどのチームそれぞれに1つずつ)、ファンに対してひいきチームのあらゆる動向を知らせるというものだ。ファンタカルチョというゲームの、自分のチームのためにカスタマイズしたツイッターのリストを作成することさえも可能だ。実はStat.usは、これまたオートメイテッド・インサイツの、全米大学体育協会に所属するすべてのバスケットボールチームにそれぞれに1つずつ完全に自動的に生成された345のニュースサイトを集めたサイト、「Statsheet Network」から派生したものである。

では、スポーツの試合は観ないけれど、椅子に座りヘッドフォンをしてゲームで冒険をするギークには何かあるだろうか?
ナラティヴ・サイエンスは、World of Warcraftのセッションに基づいたカスタマイズ記事を立ち上げようとしている。World of Warcraftの勇壮な戦いに参加して、あたかもあなたが戦列に従軍記者を伴っているかのように、その冒険についての素晴らしい記事を読むことができる(そして友人たちと共有できる)ことを想像してみてほしい。

実際、自動ジャーナリズムの短期的な目標は、わたしたちのそれぞれが出合うデータに意味づけを行うのを助けてくれる、目に見えないリポーターに付き添われているという世界である。すなわち、血液検査で、専門家にのみ解析可能な難解な数字の羅列の代わりに、健康状態を改善するために何をすべきかについての指示を備えたわかりやすく明快なリポートを受け取るとか、銀行口座の状況について明晰なアドヴァイスが豊富な記事を受け取るといった具合だ。

正真正銘のジャーナリズムの観点からすれば、自動リポートはいまのところ、データジャーナリズムのための出発点がせいぜいで、これに人間のジャーナリストが必要な分析を通さなければならない。しかし、クリスチャン・ハモンドはこのレヴェルに満足しておらず、ナラティヴ・サイエンスが知性を用いてデータを分析できるようにしたいと思っている。

理想としては、ソフトウェアがデータを読み込み、興味深い相関関係やパターンを見つけ出し、これらを比較考量し、さらには発見したことについてひとつの記事を書くようにすべきである。すでにデータから推理判断を行い結論を導き出すことができるソフトウェアが存在することを考えれば、これは時間の問題でしかない。

これは、本当に血と肉をもつジャーナリストと手帳を追い払うような状況なのだろうか?

いまのところ、こうしたアルゴリズムは、企業のデータを有効活用したり、子どもたちのチームの試合について友人や親戚に知らせたり、誰も手をつけたりしないようなデータについて山のようなリポートを作成するといった、そうでもしないと人間がほとんど誰も考慮に入れないような事柄を叙述するために用いられている。

オートメイテッド・インサイツのCEOスコット・フレデリックは、「わたしたちは人間のジャーナリストから仕事を奪うことに興味はない。むしろわたしたちは、彼らが本当にしたい事柄について仕事ができるようにしたいと思っている。例えば、アメリカの42,000のすべての郡における不動産市場の最新情報を毎週作成することには、誰も関心をもっていない。しかし、わたしたちのソフトウェアならそれが可能なのだ」と述べている。

これに対して、クリスチャン・ハモンドと彼のナラティヴ・サイエンスの同僚たちは、直接競合しない理由はないと考えている。「人間は信じられないほど複雑だ。しかし、結局は彼らもまた装置なのだ。20年の間に、ナラティヴ・サイエンスが記事を作成できない分野は存在しなくなるだろう。そしてさらに15年の間に、ニュースの90%はコンピューターによって作成されるようになるだろう」。しかし、20年の間にアルゴリズムがピューリッツァー賞を受賞できるかと質問されると、ハモンドは首を縦に振らなかった。なぜなら、彼によれば、5年以内にそれは実現可能らしいからだ。

しかし、逆説的なことに、読者にとっての本当の危険は、自動ジャーナリズムが彼らの趣味を上手に反映しすぎてしまう能力にある。あなたがたの政治的見解や美的趣味に基づいてカスタマイズされたニュースを受け取ることを想像してみてほしい。検索エンジンやソーシャルネットワークにまき散らされたデータを利用して、一人ひとりの読者に合わせて記事を作成する新聞である。明らかにこれはわたしたちの頭脳を惑わせるだろう。たしかに心地のよい記事を提供してくれるが、わたしたちがあらかじめ期待しているものとは相容れない見解や評価を決して受け取ることのない、柔らかい泡の中のような世界に、わたしたちを置き去りにしてしまうからだ。結局のところ、本当の意味でわたしたちの精神を拡張していくことのできない、わたしたち自身が自動生成された鏡のような記事を読むだけになってしまうだろう。

これが恐らく、わたしたち人間の指、さらには市民一人ひとりの指を、キーボードの上に残しておくべき最大の理由である。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です