Google Audio Indexing (gaudi) がすごい(コーパス言語学の未来像かも?)

Google Audio Indexing:
http://labs.google.com/gaudi


 どういうものなのかは使ってみればすぐにわかりますが,動画の中の発言を検索できるというシロモノです.

 上記のページに飛ぶと,デフォルトで "health" が検索されており,このキーワードが含まれる動画のリストと,動画のどのへんで "health" という単語が使われているかが表示されています.たとえば「お,演説の開始から17秒あたりで "health" が一度使われているな」といった具合で,選択した動画でヒットした箇所が表示されており,クリックすると動画の該当箇所にジャンプしてくれます.

 もちろんどんなキーワードでも検索できるわけですから,たとえば "would have been" を検索して,その用例を探すことも出来ます.動画ですから,じっさいの発音を聴いて韻律についても知ることが出来ます.

 つまりどういうことかというと,ぼくみたいに技術的な知識にとぼしい人間でも,あっさりと意味・韻律・文脈のそろった用例を(無料で)集められるわけです.これはすごいです.

 たとえばジェニファー・コーツの『英語法助動詞の意味論』(The Semantics of the Modal Auxiliaries, 1983) は話し言葉と書き言葉のコーパスを利用して意味・韻律の詳細な研究をしていますが,80年代初頭にその作業がどれほどたいへんな(メンドクサイ)ものだったかを想像すると,こうした技術が容易に利用できるようになりつつあることのすごさ・ありがたさがわかるというものです.

 いまのところ大統領選の関連動画だけしかありませんが,今後これがもっと広範な動画で利用できるようになれば,文法・語法の研究にいろいろと役立てられそうです.