深刻な野菜不足

自分の精神状態が不安だった日々が,遙か遠い日々であったか,あるいは嘘であったかのように思われるほど,今の生活は楽しさに満ちている.

そんな日々の記録をとりたいと思ってはいたものの,入学してからの日々は私にとってはあまりにも忙しく,なかなかとることができなかった.

今も決して暇とは言えないが,自分が今どこにいるのかを知るために,文章を綴ることが役に立つかも知れないと思う.
具体的に言えば,私がこれまで何を考えてきて,何をしてきているのか,そしてこれから何をしたいと思っているのかをまとめたいということである.
これらはわざわざ書かなくても頭の中にはあるように思えていたことだが,いざ人に問われれば,明確に答えることができなくなってきている.
だから道に迷う前に,地図を書こうと思う.

研究室の同期の人達には意外と自然言語処理の出身である人が少なく,覚えている限りでは自分を含めて3人しかいない.文系出身の人や,制御出身の人など,情報系でもない人も多い.けれども,多くの人が言語に興味を持っていて,その中でも応用分野よりはベースとなる理論分野をやろうとしている人が多いように感じられた.この研究室に来ている時点で,ある程度当然の状況だと思うし,私もそんな状況を期待していたので,良かったと思う.

その中で,言葉の意味に興味を持っているのが私と@shirailyだと認識している.
正確には,私より彼の方がより興味を持っているかも知れない.私の場合,意味そのものに強い興味を持つが,最悪の場合,例えば言葉に意味がなかったとしても,思考が実現できれば満足してしまう気がする.

私の最終目標は,複雑なもの,例えば現実世界における物事について,誰の助けもなしに,妥当そうな思考を連鎖的に行える頑健なものを作ることである.これは個人的な夢で,特に明確な理由があるわけではない.強いて言うならば,小学2年くらいの時に出会った人工チャットプログラムに酷くがっかりしたことがきっかけであり,後に人生の苦労を少しばかり知るたびに,判断の助けをくれるAIが欲しいと思ったことくらいである.しかし最近恐ろしいのは,人工チャットはともかく,日常的な判断の助けをくれるAIについてはある意味で完成形が最近登場し始めていることで,個人的にはしゃべってコンシェルやSiri,Google Nowなどはとても脅威に感じられる.私の夢には,人が考えられないような物事のうち,考えるととても辛かったり,争いになったりするような物事を代わりに考えさせたいというものや,ここに載せられないような恐らく突飛で意味不明なものもある.こういう夢は,もしも実現されるのならば,例え自分の手でそれが実現されなくても結構嬉しいものがある.けれども,もしも自分の手で実現できたならば,望外の幸せだろうと思う.

私の最終目標は自分で語っても比較的曖昧で,わかりにくい.実在しないものを語るのは難しいように思える.そこで手前の目標として,計算機で現実世界の物事のうち何か一部を表現できて,推論ができるものに興味を持っている.

実は学部の頃には,どこから取り組んで良いかわからなかったので,とにかくそれっぽいことに挑戦しようと思った.私には自然言語処理が,現実世界の物事を扱って推論をすることに最も近い分野に思えた.何故なら自然言語はそれを用いる人々の文化から生まれたものであり,人々による世界の見え方が反映されていて,世界に実在する物事のうち,人々に見えるものは自然言語に置き換えられると考えたからである.ここでの見えるものというのは,肉眼で見えるという意味ではなく,人が存在を仮定できるものを考えている.現実世界と書いたが,架空の物事についても考えることはできる.物理的には全く同一であっても,人からの見え方が違えば違うものだ,と私はここでは考える立場である.…[1]

私は日本人であり,日本語についてならとても深く考えることができる.言語学と言えば,あらゆる言語に適用可能な理論を導く方がより評価されるイメージが個人的にはあるが,残念ながら他言語について私は現在あまり得意ではなく,表現の知識が豊富でないため,表現間の比較が難しい.論文がやっと読めるか読めないか程度の英語力で英語の解析は実際難しいように思えた.幸い,日本語について考えても研究はできなくはないので,今まではそれでやってきていた.

日本語の解析について,形態素解析はそれだけを抜き出してみると,一部の誤りの訂正は困難そうだと思った.「にわにはにわにわとりがいる」という例文を教えてもらったことがあるが,ワニや埴輪が出てこないようにしようと思ったらそういう知識が必要だと思う.形態素解析はひとまず間違っていたとしてもあとから直せれば良いとして,その上層にあたる解析に興味を持った.

ここから,係り受け解析をしたり主格対格を当てはめたりしていくが,そこには種類の大きく異なるアプローチがあった.統計的手法とHPSGの流れを汲む手法で,日本語の解析で一般的に知られているのは前者だが,後者も現在でも使われている.当時私がいた研究室でも前者の手法が利用されていて,後者に関する情報があまりにも少なかったので,とりあえずどんなものかとHPSGに関する本「HPSG入門 制約にもとづく統語論と意味論」を手に取ったことで,人生が変わった.その時からしばらく私はこの世界に取り憑かれ,型付き素性構造で何でもできるような気がしていた.実は[1]で述べた,言語,正確に述べるなら「記号(sign)」が何に対応しているかについての立場は,私の元々の立場と,この本での立場は近い.本来,状況意味論は実在論の立場をとって,意味は現実世界に実在している関係と捉えている.しかしこの本の中では記号を直接扱うと言うよりは,同じ環境を共有する人々の間で利用可能な情報として,意味の所在が話し手の頭の中か現実世界かの議論は据え置いている.私は意味が独立に存在しているかどうかはさておき,話し手の頭の中に現れている処理に興味がある.それでも,こうした文法からは状況意味論のように,個体,性質,関係などが出力される.

この世界を理解しようとするのに随分と時間をとられてしまったので,卒研はこれを何とかして利用しようという方向に舵を切った.しばらくは入力文と出力グラフを眺めて楽しんでいたが,出力グラフの構造が結構難しい構造に当時思えたので,思い切って枝を切ったり根を分けたりして木にしてしまった.そして全く異なる文同士で比較しようとしてもなかなか難しかったので,ほとんど同じ文で部分的に表現を変えて比較して遊ぶようになった.この時グラフを作成するのにDFKIのHeart of Goldという解析器のセット環境を使っていて,それがMRSという形式を出力するので,何かと調べているうちに”Minimal Recursion Semantics: An Introduction”を見つけ,論理的に冗長になりがちな表現を解決する方法に興味を持った.…[2]

幸い,複数文書要約という応用例があったので,ほとんど同じ文から木を作って比較して,同じと見なせる部分を統合したり,Headに繋がるところを探したり,それらの繋がり以外を切り捨てたりして何とかして要約文を作ろうとしたら作ることができた.もちろん,手作業で示したのではなくて,任意の日本語入力文に対してそういった処理をする規則およびプログラムを作った.
結果に関して,時間がなくてあまり評価できなかったのだが,言語論者の面白い主張を幾つも知ることができた.それは後々記したい.

しかし不満だったのは,言語論者の主張について自分が未だに満足がいく程の理解に達していないことと,彼らの意味表現はともかくその実装がまだまだ貧弱に思えたこと,既に存在する文法で解析してしまったが,自分で作った文法で試したかったこと,日本語の格についての概念を自分の好きな流派で厳密に実装してみたかったこと,論理的な演算を実際に行ってみたかったこと,などがある.要約についても,意味がほとんど同じ文であるにもかかわらず,表現が変わると大幅に意味表現の構造が変わってしまうことが多く,折角意味表現まで作っているのにそれらの比較が困難になってしまって困った.

NAISTへは,こうした不満や困ったことを何とかしたい,というモチベーションでやってきた.
それまでの大学ではできないのですか,と必ず聞かれるが,面接で実際何と答えたかについての細かいことは忘れてしまった.

しかしここは人々のタイプが明らかに異なる.周りが親切な人だからかも知れないが,それでも信じられないほど,人と話が合う.間違っても個人を攻撃するような人はいないし,難しい話になると嫌そうな顔をするような人は決していない.そういう低レベルな違いはさておくにしても,どんな状況になっても一定以上の論理,あるいは常識が通用している.この状況なら決していざこざが起こる気がしない.議論は白熱しても,気持ちの悪い感じになることなどありそうにない.こういった論理的清潔さは,上層の方々になるほど強まる雰囲気がある.教授陣になるとそこへ鋭い切れ味が加わるが,それだけでなく,信じられないほど親切に力を尽くしてくださるので,決して足を向けて寝られない.だから,寝るときは立って寝るしかないなどという冗談が出てくることもあった.

また,奈良自体の治安が良く,人々が基本的に幸せで,優しい.こちらに来てから神経質になっている人を見たことはないし,殺伐とした状況を見たことがない.子供達が多く賑やかで,夜になれば街は眠る.この環境にいれば,どんな人もきっと優しくなれるだろう.

入学までには時間があったので,機械学習と人工知能(AI)とデータベースの基礎について今はUdacity,Courseraとなっているスタンフォード発の講義を聴講していた.特にAIでは,全てのAIの基礎は確率だ,というところから始まるので,それまでAIに興味を持ちながらも確率をあまり扱ってこなかったことも心残りだった私には丁度良かった.入学前には某企業で某検索エンジンを作る仕事をしていたが,そちらではLuceneやSolrやHadoop,MapReduceなどを扱ったので,これらの分野にも多少詳しくなれたと思う.入学後@sarah_swkに出会って,私より遙かにHadoopに詳しくて驚いたのだが,そういう人が普通にいるのが面白い.

入学して驚いたのは,本気で人が物事を考える方法が知りたい,と言っている人が何人もいたことである.@Mr_Tsubakiもその一人で,言語より前段階にある仕組みに興味があるようだった.@soramiも脳が物事を認識する過程や推論の仕組みに興味があるようだった.彼らのバックグラウンドについては非常に興味深いので,お話を聞かせてもらえるような機会が欲しいと思っている.それで,M1の間でPGのような雰囲気で,必ずしも言語処理に限定しない勉強会を開きたいという意見が出ている.既に隠れた勉強会は開催されている.去年も独自の勉強会は開かれていたようなのでその教訓をお聞きしつつ,長く続けられる勉強会になって欲しいし,そうしていきたい.

研究でSolrを使うかは不明だが,趣味で動かしてみる分にはかなり面白いソフトウェアなので,暇がある人には個人的におすすめである.Solrとは何かというと,大雑把に言うと検索エンジンである.もう少し詳しく言うと,基本的には文書集合のデータを与えて転置インデックスという索引を作ることができ,検索したいキーワードや条件の集合を与えると,索引に基づき検索を行い,見つかった文書集合を返したり,その集合に対してソートやクラスタリング,類似度計算などの操作を行ったりできる.なので高機能データベースとしても使えるし,言語処理もできる.Javaで書かれていて,自分でプラグインを書くこともできる.キャッシュ等の機構も内蔵しているほか,負荷分散や冗長化の機能も内蔵している.インデックスの作成時に行う処理はHadoopで分散させることができる.RDBではないので関係は張れないが,テーブルの代わりに複数コアを使ったり,FunctionRangeQParserPluginを使ったりJoinを使ったりして,RDBのようなことができる.出力は各言語用にシリアライズされたデータを受け取ることができる.また,RDBからデータをインポートするための機能も備える.

閑話休題.ここは他大と比べて結構授業をとる必要があるので,入学後今まで授業と勉強会と家事で大体予定は埋まっていたし,タスクが実際オーバーフローしていた.私の場合I期に少し頑張ったので,II期に入って少し経ってようやくわずかに時間を作ることができ,この文章を書くことができた.それでも論文を調べることはほとんどできていない.

もう自分の主軸にする勉強会を決めなければならないと言われているのだが,自分のテーマが明確にどれに属するか判断できていない.意味・談話解析勉強会はCJEに統合されて今のCJE++になったようなので普通に考えたらCJE++じゃないかと思っているのだが,機械学習やリンク解析を切り捨てるわけではないのでDMLAにもなり得るのではないかと思っている.人数バランスを考えるとDMLAの方が良さそうに見える.

ここでもう一度自分の立ち位置をまとめることを試みる.
自分のテーマについて聞かれたとき,一言でまとめるときには含意関係認識,と言うことにしている.同じような意味を同じように表せる意味表現を,確率的でも文法的でもその両方でも良いので作って,文と文の間の意味の違いを計算することに興味がある,と言えるので,これは含意関係と言えると考えている.一般的に知られている含意関係の意味とは違うかも知れない.

論理演算はまず含意関係認識ができないと厳しいと直感的に思っていたので,あまり優先順位は高くなかった.しかし正直に言ってこのあたりはよくわからない.卵が先か,鶏が先か.

先ほどから「意味表現」と呼んでいるものは素性構造でありグラフなので,グラフに適用できる操作には利用できるものがある.

とにかく手を動かすか論文を読むかしなければ今の状況から動きようがないので,復習をかねて「入門 自然言語処理」の9,10章あたりをざっとやってみるか,今ならJaCYの仕組みが読めるかも知れない(当時ほとんどブラックボックスとして扱った)ので読み解いてみるか,あるいはHPSGの呪縛から逃れて自由な視点で論文をあたってみるかしたい.したいが明後日までにできる気はしない.SLPの自分の担当が回ってくる上に,入試期間になるので一気に進む.

学内実習では仲間達がミーティングを進めているようで,こちらも自分が何もしなくて良いわけがないと,少しばかり焦りを感じている.一応私は夏の後から始める感じにはなっていて,その場合夏の状況に応じて調整して頂けるのだが,その夏にあるインターンシップまで結構時間がある.時間があるとは言っても今のタスクを裁き切れていないのだが….

いつもこうして詰んではいるが,昔の本当に辛い感覚とは決定的に何かが違う.今はどんなに詰んでいても,何故か楽しい.もしかしたら,タスクが少ない方が辛くなりやすいのかも知れない.

こちらに来てから,ほぼ毎日のように実家にFaceTimeで連絡を取っている.加えて,月に一度くらいのペースで実家に帰っている.実家は母と祖父だけなので,あまり連絡を取らないでいるわけにはいかないと思っている.先日,母が車の自損事故を起こし,骨折し入院していたことがあったので,先週帰ったときには色々話を聞いたり手伝ったりした.命に別状なかったことが本当に幸いだった.

[2] Ann Copestake, et al, Minimal Recursion Semantics: An Introduction. Journal of Research on Language and Computation, 3, 3, pp. 281-332, 2005.

You may also like...

1 Response

  1. m3ak より:

    リア充してるようで何よりです。

    しかし、これだけ文字数があるのに、
    タイトルの野菜のくだりか全くなかった。

コメントを残す

メールアドレスが公開されることはありません。