メタデータの標準化

色々考えてみたのですが、いまいち考えがまとまらないですね。ただ検索エンジンを利用するときに「市民」なのか「消費者」なのかって考えさせられましたね。あるいは「ネット参加者」なのか「ネット利用者」なのかということについて。「インターネットは道具である」と単にいう場合、利用者なのでしょう。「インターネットはみんなでつかう道具である」というとガバナンス論っぽいですね。
いずれにしても、情報学部における「ガバナンス論」はあの1時間半だけでは済まされないと思います。「標準化の重要性がよくわからなかった」というコメントを聞いて、勿体ないなと思いました。
メタデータ技術というのも取っつきにくかったと思います。「何のためのメタデータか」という目的が明確でないと何がしたいのか分からなくて頭の中が???で一杯になります。今回のエントリでメタデータの意義みたいなところまで踏み込めたらいいなぁと思います。
全体を通して、割とぐだぐだですが。

インターネット・ガバナンスについて

インターネット・ガバナンスの主要な話題だったと思います。
インターネット・ガバナンスの定義についてISOCの説明を引用します。

"Internet governance" is a broad term used in many different contexts, applying to activities as diverse as coordination of technical standards, operation of critical infrastructure, development, regulation, and legislation, among others. Internet governance is not restricted to the activities of governments. Many different types of stakeholders have a role in defining and carrying out Internet governance activities and ISOC has always been an active leader in such discussions.
Internet Society - Public Policy - Internet Governance

英語だと分かり難いので訳しました*1

インターネット・ガバナンスは広い意味をもった用語ですが、実に様々な文脈で適用されます。技術的な標準であったり、極めて重要な技術基盤事業であったり、技術発展であったり、技術に関する規約や制定など多岐にわたる活動で適用される用語です。活動そのものだけでなく多種多様なコーディネートにも用いられます。インターネット・ガバナンスは政府の活動だけに限られたものではありません。1つではなく色々なタイプの利害関係者がインターネット・ガバナンス活動において立場を明らかにして役割を持ち、ISOCは先ほど述べたような話題において、積極的にリーダーの役割を果たしてきました。

ISOCというのはインターネットの技術に関する政策、標準、教育などに関わる活動を行っているNPOですが、インターネット・プロトコルなどが書かれたRFCを発行しているIETFの上部組織とも言われています。非政府組織なので、提案された「標準」には強制力はありません。RFCは「コメントください」の意味で、提案に対する意見を求めるIETF側のインターネット・ガバナンスへの姿勢がうかがわれます。
ISOCは企業、学術機関、政府機関、個人などが集まってつくられた団体です。


WWW(ウェブ)の「標準」を提案しているNGOとしてW3Cがあります*2。Webの生みの親として知られるティム=バーナーズ=リーが参加している団体です。これも非政府組織なので、提案された「標準」に強制力はありません。IT関係に限らず、工業を中心として「標準」を定めているISOもまた、非政府組織です。

標準化について

標準化プロセスについてはid:redtail2733講義資料が分かりやすいと思います。メリット・デメリットについては演習ポータルサイトが分かりやすいです。ネットワーク外部性の話は、ある会社の提案する「標準」が消費者の益になるかどうかという市場社会の枠組みの”外部”的な問題によってデファクトスタンダードになってしまうという例だと思います。
情報技術の標準化の例だと、例えば文字コードがあります。CJK統合漢字とか。中国と日本と朝鮮の漢字を1つの体系に入れて扱おうという提案で、似ていたり意味が同じである漢字は統合されています。例えば「わたなべ」の「なべ」の字が正確に表示されなくなったり、重要な歴史史料を電子的に表現する際にコンピュータ(の知識マイニングとか意味抽出とか)で処理不可能な画像データに頼るか、正確な表現を諦めるしかなくなってしまいます。このことにより、日本文化を世界に発信していく際に、幾らかの*3障害が発生する恐れがあります。
しかし文字コードは標準化しないと使えません*4
今回のディスカッションで「標準化はよくない」という意見が2班くらいから出ていましたが、これは標準に拡張を認めない強制力がはたらく場合に限定した議論だと思います。
Googleはブログ等のCMSで生成されるXMLRDFなどに依らないインデックス化を行うでしょうし(より便利にするため)、標準化が行われても独自のインデックス化は行われるでしょう。その意味でGoogleと標準化は「対立するものではない」という話題提供者のコメントは正しいと思います。ただ、企業がインデックスを行う(しかもアルゴリズムが非オープン)ことはメタデータに何の客観性(公共からの裏付け)もないことを示します。とはいってもデジュレスタンダードの問題もありますが……。

メタデータについて

メタデータというのは情報資源のカタログです。図書なら目録だし、WebページならURLです。ある情報にアクセスするための手段なのです。
最近、TVCMで「続きはWebで」という表現をよく見かけます。一昔前はTV画面にURLが書いてあるだけでしたが、最近は検索キーワードと共にGoogleなどの「サイト検索システム」を利用することを前提として情報アクセス手段を教示しています。つまり検索がURL入力の代替手段となっている訳です(当たり前だけど)。
Googleによるガバナンス論のカタログ」「MSNによるガバナンス論のカタログ」「百度によるガバナンス論のカタログ
メタデータは一般的に「データについてのデータ」と言われています。例えばある情報資源の作者やアップロード年月日、発行機関を示すデータです。いわゆる検索エンジンはwebサイトの重要度を勘案してインデックス化(情報資源のコピーにメタデータを付ける)を行い、ユーザにカタログ(検索結果)を表示するそうですから、「MSNや百度的には『ガバナンス論』というキーワードにおいて吉田先生のブログは重要度は高いが、Googleはそうでもない*5」という結果になります。
Googleメタデータ(インデックス化)によってWeb全体を組織化して、ある意図をもってユーザに世界を見せようとしています(そこまで極端に政治的とは考えられないですが)。まぁ実現しないとも言われるセマンティックウェブの完成を待つ間はGoogleなどの検索エンジンに頼るのがベターな選択かとは思いますが、情報の消費者(聴衆)としては。ただ、検索エンジンに依存したユーザ囲い込み型のサービスなどが市場のヘゲモニーを握ったとき、どこまで消費者の権利が守られるかは興味があります。
ちなみにURLもメタデータなのですが、DNSが管理していますし、標準化されています。こればかりはGoogleも従うしかないでしょう。検索エンジンの検索結果もURL(というかURI)の上に立脚したサービスなのです。

なぜメタデータの標準化なのか

重要なステークホルダーは情報発信者だと思うんですね。
検索エンジン側もそこまで非道いことはしないと思いますが、検索エンジン側によるインデックス化はWeb全体を単一のデータベースとして捉えて、メタデータによってあるwebページをその中に位置づけることですから、あるwebページが紹介される文脈がメタデータによって決定されることになるので、極端な場合、著作者の権利が侵害されてしまいます(あくまで極端な話)。
コンテンツ消費者としては納得のいく情報アクセス過程を望むのではないでしょうか? メタデータを全てのコンピュータが可読な形になるように記述して、「こういう文脈で使って欲しいんです」という著作者の表現の可能性を増やす機会として、メタデータの標準化に関する議論をしていくべきなのかなぁというのが今の私の考えです。
消費者がメタデータを付けていくフォークソノミーはまた別の論点で。

*1:carrying outがうまく訳せなかった

*2:インターネットとWWWの違いで混乱された方はこちらを参照。

*3:正確にはどれ程問題であるのかは分からない

*4:勿論、単一の文字コードではないですが、あまりに統制がとれていないとコミュニケーションが困難

*5:むしろ「がまん神殿」の方が重要度が高いらしい