カテゴリー

最新の記事

最近のコメント

最近のトラックバック

月別アーカイブ

ブログ検索

RSSフィード

ブロとも申請フォーム

この人とブロともになる

スポンサーサイト

スポンサー広告
--.--.--
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ベンチャーブログのランキングに参加しています。
下のバナーをクリックして応援していただけると嬉しいです。
にほんブログ村 ベンチャーブログへ

カテゴリーとタグ

PCとかネットとか
2008.06.26
 最近更新が滞っておりますが、みなさんお元気でしょうか。前回「コンテンツ群をカテゴリー分けするWebアプリケーションを作っている」という話を書いたのですが、先週の中頃までに、ごくごく原始的なプロトタイプを作ってみました。その後、そのブラッシュアップをするつもりだったのですが、ちょっとした壁にぶつかってしまい、作業がストップしています。

 その壁とは何か。コンテンツを分類するのに、本当にカテゴリーを使うのが適切なのか、という疑問です。

 我々はなぜ情報を分類するのか。それはファインダビリティ(発見しやすさ)を高めるためです。例えば今ここに、10万エントリーのコンテンツがあったとします。そのままずらっと並んでいる状態では、目的のコンテンツを探し出すことは、たいへん難しいといえます。もちろん不可能ではないのですが、かなりの時間的コストがかかってしまいます。そこで内容や形態といった属性によって、10万エントリーを複数のグループに分けていきます。これによって「見るべき範囲を限定」し、目的のコンテンツにたどり着くまでのコストを抑制する。これが「分類」の本質です。

 そのための方法として最も歴史があるのがカテゴリー分けです。階層構造を持つカテゴリーは、人類による知的活動と同じくらい、長い歴史があるのではないでしょうか。しかし最近、他の方法が大きな注目を集めるようになってきました。それがタギング(タグ付け)です。ここ数年、ソーシャルブックマークや動画サイト、写真サイトなどで使われているアレです。ひょっとしたら階層的なカテゴライズよりも、タギングの方が優れているのではないか。そのように考えたのです。

 そこで早速、ネット検索でカテゴリーとタグについて書かれたコンテンツを探し回りました。その多くはブログのエントリーとして書かれたものなのですが、PDFの形でアップされている論文や、学術誌の一部と思われるコンテンツもありました。これらを片っ端から読んでいくうちに、気がついたら1週間が過ぎてしまいました。

 これらのコンテンツのほとんどは、階層的なカテゴライズの限界と、タギングの可能性について論じています。なるほどと頷いてしまうものも多く、たいへん参考になりました。正直言って、一時はカテゴライズはやめて、タギングでコンテンツを分類する方が良さそうだとも思いました。しかし今では、タギングよりもカテゴライズの方が、「ファインダビリティ」の観点から見れば優れている点が多いのではないかという結論に達しつつあります。

 それはなぜか。

 ここでカテゴライズの問題と、タギングのメリット/デメリットを整理してみたいと思います。

 カテゴライズの問題を指摘するコンテンツはネット上に数多く存在しますが、これらが指摘する問題点をまとめると、大きくふたつに集約できます。

 ひとつは「コウモリ問題」です。どちらのカテゴリーに属させるべきか判断しかねる対象が、必ず発生するというものです。例えば商品カテゴリーを考える時、「ガンダムの形をした携帯電話充電器」は、キャラクターグッズに入れるべきなのか、それとも携帯電話周辺機器に入れるべきなのか。このような例は、身の回りにいくらでも見つけることができそうです。好きなキーワードを複数自由に付けられるタギングであれば、このような問題はありません。「ガンダム」「携帯電話」「充電器」といったキーワードを付けておけばいいわけです。

 もうひとつの問題は「事前に構造化を行う」ことのコストと柔軟性の欠如です。分類体系を作成するということは、その体系を作成する人の世界観を具現化することに他なりません。世界観が異なれば、分類方法も異なります。これはかなりの心理的コストを伴います。またいったん構造化された世界は、後で大きく変更するのにもコストがかかりそうです。新たなカテゴリーを追加するだけならまだいいのですが、既存のカテゴリーを削除したり、階層構造の中の位置づけを変更する場合には、そのカテゴリーに属するコンテンツのカテゴライズをすべて見直す必要があります。しかしキーワード間の構造化を行わないタギングであれば、この問題も解消できます。

 しかしよく考えてみると「コウモリ問題」は、意外と簡単に解決できます。ひとつのコンテンツを複数のカテゴリーに結びつければいいわけです。技術的にも難しくはありません。

 「事前に構造化を行う」ことのコストと柔軟性の欠如は、なかなか解決が難しそうです。しかしこのコストは、ある程度のファウンダビリティを担保する上で、重要な意味を持つのかもしれません。

 タギングは自由で柔軟性が高いため、実装が簡単です。「実装が簡単」なんていうと誤解を招きそうなのでちょっと言い換えると、「事前に世界観を構築するコストは不要」だということです。しかし「世界観の欠如」は、ファインダビリティを低下させる結果になるのではないかと感じているのです。

 例えばこのエントリーにタギングを行う場合、どのようなキーワードが考えられるでしょうか。「カテゴリー」「タグ」「分類」といったものが考えられると思います。ここで問題になるのが、複数の世界を持つ言葉の存在です。例えば「タグ」といった場合、分類のためのタグもあれば、HTMLのタグもある。また洋服などについているブランドタグも考えられます。コンテンツ側から言えば、ひとつのコンテンツに複数のタグがついているので、このコンテンツについている「タグ」の意味は「分類に使われるタグ」のことだとわかります。しかしコンテンツを検索する側から見れば、「タグ」というタグがついているコンテンツをリストアップすると、様々な意味の「タグ」というタグがついているコンテンツが選ばれてしまいます。(ああ、ややっこしい・・・)

 もちろんこの問題は、検索時に複数のタグで絞り込む、という方法で解決できます。このアプローチが効果を持つようにするには、ひとつのコンテンツにできるだけ多くのタグを付けておく方がいい。その究極の姿は、コンテンツ内容に登場する言葉と、その言葉に近い言葉をすべてタグとして付与する、というものです。

 実はこれに近いことを機械的に行っているのが、Googleだといえます。Googleはクロールしたコンテンツの内容を単語レベルまで分解し、そのすべてを検索キーワードとしてインデックス化しています。つまりコンテンツ内容に登場するすべての言葉がタグになっていると考えられます。タギングの究極の形は全文検索だというわけです。当然の帰結だと言えばそうなのですが、これはなかなかすごいことです。

 それでは「タグの情報量が十分であれば、タギングはカテゴライズに取って代わるのか」といえば、必ずしもそうではないと思います。タギングには、他にもいくつかの問題があると考えられるからです。カテゴライズに限界があるように、タギングにも限界がある。もっと言ってしまえば、タギングのメリットは、そのデメリットと表裏一体の関係にある。さらにカテゴライズの限界も、そのメリットと表裏一体の関係にあるのです。

 それではタギングには、他にどのような問題があるのか。これについては次回考えてみたいと思います。
スポンサーサイト

ベンチャーブログのランキングに参加しています。
下のバナーをクリックして応援していただけると嬉しいです。
にほんブログ村 ベンチャーブログへ

FC2Ad

相続 会社設立

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。