May 23, 2007

FeedBurnerは何も隠していないと思うよ

FeedBurnerは超重大な事実を隠してる - たねちゃんズ12

それは言いがかり…だけど、NASAばりに○○の存在をひた隠しにしなければならない団体に準えるセンスには脱帽。

自然に考えてこれはFeedBurnerが悪いのではなくて、Yahoo! Japanが悪いのだろう。ブログとフィードのURLの不一致があろうとも正しい形式でRSSを生成しているのであればそれを検索対象に含めるのが、「ブログ検索」のあるべき振る舞いだから。

むしろ問題は、

主に以下のような場合は、検索エンジン用ロボットの巡回対象とならないことがあります。 * RSSのアドレスが、ブログや各記事のドメインと異なる(例:外部サーバ上のRSSアドレスを直接参照している)

みたいに単純に技術的要請から生じた(であろうと想像される)留保条項をいつまで継続しなければならないのか、ということだ。

ブログ検索の中身がどうなっているのかは知らないが、基本的にはフィードに対する検索機能を実現するには、あるブログに(時間的・空間的に)複数のフィードが関連付けられているときにそれらのうちどのフィードを信用するかを決定する必要がある。それにはあるパラメータセットを取る評価関数が必要であって、そのパラメータセットには、フィードURL、ブログURL、フィードの更新頻度や最終更新日時、そのブログのlink要素へのフィードURLの記載の有無と時間的分布などが含まれ得る。で、評価関数はそれらのパラメータを使って各フィードのランク付けを行う。まあそんなとこだろう。

そういう前提があるものとして、ではなぜブログURLとフィードURLのドメインの一致・不一致が問題になるのか(≒「留保条項」が存在するのか)をちょっと考えてみると、まずあるブログに関連付けられるフィードは無限個存在するという事実がある。あなたがあるフィードを提供していたとすると、第三者がそのコピーフィードや若干加工したフィード、あるいはエントリーのURLのみをコピーした中身は出鱈目なフィード、を別のURLで公開することは際限なく実施できるから。で、その無限個存在するフィードのうち、ブログURLとドメインが一致するフィードの信用度はより高いとするだけの蓋然性がある。なぜなら両者のURLの所有者が同一であると考えられるから。これに対して、不一致の場合には、濫造されたフィードか、FeedBurnerのように本来は(暗黙的に)信用に値するフィードかを区別する手立てがなければ信用度は一律により低くするより他ない。

当然この基準に基づいて信用度が低くなったフィードであったとしても他のパラメータセットによって相対的に最も信用度の高いフィードとして選択されることはあり得る。だから、FeedBurnerを使っていてブログ検索に掲載されないサイトもあれば、問題なく掲載されるサイトもある、ということになる。

一方で、こういう疑問もある。「留保条項をいつまで継続しなければならないのか」という疑問に通底するのだが、このようなアルゴリズミックなエフォートと、プロトコル的なエフォート(単純に現時点でのブログのlink要素を信頼してフィードを確定する方法)の、いったいどちらがより優れた結果をもたらすのかという疑問である。現状では前者が後者を上回る結果をもたらすのだろうか。それとも実際にはlink要素を使っていないフィードがあまりに多くて検索対象となるフィードが少なくなり過ぎる(=coverageが下がり過ぎる)のだろうか。

門外漢なりにいろいろ技術的な困難さは想像してはいるのだけれど、日本のネット人口のブログユーザ率は他国に比べてかなり高いそうだから、この問題の解決は是非日本人の手で達成されるといいよねー。

追記:
Typoがあったので修正しました。

About Me

My Photo

つくばで働く研究者

Total Pageviews

Amazon

Copyright 2012 Ogawa::Buzz | Powered by Blogger
Design by Web2feel | Blogger Template by NewBloggerThemes.com