[ 先頭 | 上へ | 前へ | 次へ | 目次 | 索引 ]

Analog 5.01: Web の仕組み


この章は、誰かがあなたの web サイトに接続した時に何が起こるか、どのような統計を取れるか、取れないかについて説明します。これについては多くの誤解が生じています。実際には計算されずに、評価だけされたものを計算したと主張する統計プログラムによっては、助けは得られません。我々が知りたいと思い、知ることができると期待するある種のデータが、実際には無いというのが単純なる事実です。そして、他のプログラムが出力した評価というものが、単に外れているというだけではなく全く誤っています。例えば(理由は以下に見るでしょう)、もしあなたのホームページが10個の画像を含んでいるとして、AOL のユーザが訪れたとすると、大部分のプログラムは11人の異なる訪問者が来たと勘定します!

この章は割と長く書かれていますが、注意深く読むに値します。もし web の動作原理の基礎を理解すれば、web の統計が実際に意味するところを理解できるでしょう。


1. 基本モデル 私があなたの web サイトを訪れたとしよう。どこかのホームページからリンクを辿って、あなたの表のホームページにたどり着き、幾つかのページを読み、そしてリンクを辿ってあなたのサイトの外に出て行く。

これで何が分かったのだろうか。最初に、私はあなたの表紙に1つのリクエストをした。あなたは、リクエストの時刻と、(もちろん)どのページをリクエストしたのかと、私のコンピュータのインターネットアドレス(私の ホスト)を知る。私は、また通常、どのページからあなたのサイトを参照したかと、私のブラウザーの製造元とモデルを告げることになる。私のユーザー名と電子メールアドレスは告げない。

次に、そのページに画像があるかどうかを見る(むしろ私のブラウザーが行うのだが)。もし画像があり、私のブラウザーの画像取り込みを許可していたら、これらの画像の取り込みのため、別の接続を行う。私は、決してあなたのサイトにはログインはしない。私は、単に私がダウンロードしたい新しいファイルに会うたびに、一連のリクエストを行うだけである。これらの画像を参照しているのはあなたの表紙のページです。多分10枚位の画像があなたの表紙にあるでしょう。これで、私はあなたのサーバーに11個のリクエストを行った。

その後、あなたの他のページを訪問しに行き、私の望む各ページと画像に新しいリクエストを行う。最後に、リンクを辿ってあなたのサイトの外に出て行く。あなたは、これについては全く気がつかない。私は、あなたに何も告げずに、単に次のサイトに接続を行うだけである。


2. キャッシュ 上記の様にいつも必ずうまくいくとは限らない。一つの大きな問題は、キャッシュだ。キャッシュには大きく分けて2種類ある。最初に、ブラウザーはファイルをダウンロードすると、それらを自動的にキャッシュする。もしもう一度それらを見に行った場合、例えば翌日、全体のページを再びダウンロードする必要が無いことを意味する。ブラウザーの設定に依存するが、ページが変更されていないかどうかを確認するかもしれない。その場合には、あなたはそれを知るし、analog はそれをそのページに対する新しいリクエストとみなす。しかし、ブラウザーを再確認しないように設定するかもしれない。そのときには、あなたが知らない間に、私はそのページをもう一度読むでしょう。

他の種類のキャッシュはもっと大きなスケールのものである。ほとんど全ての ISP は、彼ら自身のキャッシュシステムを持っている。これは、もし私があなたのページを見て、同じ ISP からの他の人も そのページを最近見たとすると、キャッシュはそれを保存し、それを誰にも告げずに私によこすだろう。(これは、私のブラウザの設定には依存しない。)従って、あなたのサーバは一度しかページを送信していないにも関わらず、数百人の人があなたのページを読むことになる。


3. 確実に分かること 確実にあなたが分かることは、あなたのサーバーになされたリクエスト数、それらがいつ行われたか、どのファイルがリクエストされたか、それにそれらに対してどのホストがリクエストしたかだけである。

あなたは、ブラウザーの種類と参照ページが何であるかも知ることが出来る。しかし、多くのブラウザーは故意にブラウザーの種類を偽るか、ブラウザー名をユーザが設定できると言うことに注意すべきである。また、幾つかのブラウザーは誤った参照元を送り、そのページを参照したわけではないのに、最後に見たページがあたかもそれであるかのようにあなたに伝えてしまう。そして、何人かの人は、”匿名ソフト(anonymizer)”を使って、わざと誤まったブラウザー情報や参照元を送りつける。


4. あなたが知りえないこと
  1. 閲覧者を特定出来ない。 あからさまにユーザにパスワードを要求しない限り、誰が接続したか、また かれらの電子メールアドレスを知ることは出来ない。
  2. 何人の訪問者が来たか分からない。 リクエストした異なるホスト数を勘定すれば推測はできる。実際これは、多くの プログラムが”訪問者数”を報告するときの、数の意味である。 しかし、3つの理由 からこれは常に良い評価とはいえない事がわかる。1番目の理由として、ユーザが あなたのページをキャッシュサーバから取って来た場合には、あなたにはそれを 知るすべは無い。2番目に、時々、多くのユーザが同じホストから接続している かのように見えることがある。同じ会社あるいは ISP からのユーザか、同じ キャッシュサーバを使っているユーザである。最後に、時には一人のユーザが 多くの異なるホストから接続しているように見えることがある。AOL は、今や 各リクエストに 対して異なるホスト名 を割り当てている。そのため、あなたの ホームページが10個の画像を含み、AOL ユーザがそのページを閲覧した時には、 大部分のプログラムはそれを11人の異なる訪問者が来たと 勘定するでしょう。
  3. 閲覧の回数は分からない。 広告企業からの圧力のもとで、多くのプログラムは、"訪問" (あるいは "セッション")を30分立つまでは、同じホストから の一連のリクエストだと定義してしまう。これは幾つかの理由から健全な方法 とはいえない。最初に、各アクセスするホストは異なる人物からのアクセスに 相当すると、あるいは逆が成り立つと仮定している。これは、前の段落で議論 されたように実際には全く正しくない。2つ目に、本当の訪問では30分の間隔が けっしてあるわけではないと仮定している。これも正しくはない。私の場合で 言えば、しばしばリンクを辿ってサイトの外に行き、私のブラウザーに戻って、 元居た最初のサイトを探索を続けることがある。私がこのようなことを29分か31分 後に行うことが実際に問題となるのだろうか。最後に、計算を扱いやすいものと するために、そのようなプログラムは、またあなたのログファイルが時間通りに 記録されていることを仮定している。これは常にそうとは限らないが、analog は、 あなたが行をごちゃ混ぜにしても同じ結果を生成する。
  4. クッキーはこれらの問題解決とはならない。 幾つかのサイトでは、クッキーを使って訪問者の数を勘定しようとしている。 しかし、クッキーを受け付けることができないか受け付けようとしないページを 読者に読ませないようにするなら、このようなことは可能である。それにあなたは、 次回のリクエストの時同じクッキーを訪問者が使うと仮定しなければならない。
  5. あなたのサイトを通過する人のリンクを追うことは出来ない。 たとえ、各人がホストに1対1に対応すると仮定しても、あなたのサイトを通過する 人のリンクを知ることは出来ない。人が一度以前訪れたページを再度尋ねることは 良くあることである。ブラウザーがそれらをキャッシュしているため、 これらその後のそのページに対する訪問をあなたが知ることはないでしょう。 そのため、あなたのサイトを訪れた彼らの足跡を正確に辿ることは出来ません。
  6. しばしば、彼らがどこからあなたのサイトを訪れたか、またはどこから あなたのサイトを見つけたのかは分かりません。 もしキャッシュサーバを使ったときには、キャッシュからあなたのホームページを 捜し求めることは出来るでしょうが、それに引き続くページ全てを探すことは できません。従って、リクエストしていると分かっている最初のページは、真の 訪問の中間に位置するでしょう。
  7. 彼らがどのようにしてあなたのサイトから去ったか、あるいは次にどこへ 行ったかは分からない。 彼らは、別のサイトへの接続については何もあなたには告げないので、それに ついてする術は無い。
  8. 各ページを読むのにどれくらい時間を掛けたかは分からない。 もう一度繰り返すと、彼らが、一連のページのうちのどのページを読んでいるかは あなたには分からない。彼らは、以前ダウンロードした数ページを読んでいる かもしれない。彼らは、あなたのサイトからリンクを辿って外に行き、後で 戻ってくる。彼らは、マインスイーパのゲームを ちょっとやってみるために、ページを読むのをやめているかもしれない。 それは、あなたには分からない。
  9. 人々がどれくらいあなたのサイトにとどまっていたのかは分からない。 これ以前の問題以外にも、もう一つの他の完全な時間を分からなくする要因がある。 そのサイトの時刻を報告するプログラムは、最初と最後のリクエストの間の時間 を勘定する。しかし、プログラムは、最後のページに費やした時間を勘定しない し、これがしばしば全体の訪問の大部分を占めていることがある。

5. 実際のデータ もちろん、重要な疑問は、これらの理論的な困難がどれほどの違いをもたらすかであろう。最近の論文で(World Wide Web, 2, 29-45 (1999): PDF 228kb)ゼロックス・パロアルト研究所センターのピロリ(Peter Pirolli)とピトコウ(James Pitkow)は、xerox.com の Web サイトの10日間のログファイルを使ってこの疑問を吟味した。彼らの最も衝撃的な結論の一つは、異なる通常使用されている方法が非常に異なる結果を与えるということである。例えば、平均訪問時間を測定すると、何をもって新訪問者とするかあるいは新訪問とするかに依存して、137秒から629秒の結果を得た。一つのログファイルを検査しているとき、彼らは、キャッシュを拒否するサーバの設定変更等の効果を考慮しなかった。それは結果をもっと変え得るものであるが。
6. Conclusion. 最低言えることは、HTTP は状態の無いプロトコルだということである。これは、 人はログインせずに幾つかの文書を捜し求められることを意味する。彼らは、彼らの望む各ファイルに対し、個別に接続することが出来る。それに、大部分の時間、彼らは、一つのサイトにログインしたかのようには振舞わない。 世界は、この単純な見方が意味するよりも、もっと複雑である。これが、ユーザが何をしているか推測するよりも、analog がリクエスト、すなわちあなたのサーバに何が起きているかを報告している理由である。

訪問数などを勘定している人々は、これらは単なる小さな近似であると主張するかもしれない。私は賛成できない。例えば、ほとんどの人は、キャッシュを通して Web にアクセスしている。もしキャッシュから引っ張ってくるリクエストの割合が、50%(非現実的な数字ではない)ならば、ユーザのリクエストの半分はサーバによって勘定されていない。

これらの方法の擁護者は、サイトを比較することが出来る 何か を測定しいるのだから、これらの使っている方法は依然有効であると言うかもしれない。しかし、これは、関連する近似は異なるサイトに対しても比較できるものだという仮定をしており、これが真であるという理由は何も無い。ピロリとピトコウはの結果は、得られた数字はどのようにして測定したかに、またあなたのサーバの設定に強く依存することを、示している。そして、たとえ方法論に賛成したとしても、異なるサイト上の異なるユーザは、異なる振る舞いをする。それは、種々の方法で近似に影響を与える。例えば、ピロリとピトコウは、彼らのサイトの普通の日と週末とで、ユーザの異なる特徴を発見した。

私は、何をあなたが見つけられないかを強調しながら、ここでやや否定的な見方を紹介した。けれども、Web の統計は情報に満ちている。 "このぺーじは、30,000 件のリクエストを受けた" という事実から、 "30,000 人の人がこのページを読んだ" という間違いを犯さないと言う意味で重要である。ある意味でこれらの問題は、Web の世界では新しくない。 -- これらは、印刷媒体でも存在することである。例えば、販売された雑誌数を知っているだけで、何人の人がそれらを読んだかは分からない。印刷媒体では、手に入るデータを使って、これらの問題と向き合っている事を知っている。Web 上でも、架空の数字をでっち上げるよりも、同じ事をするほうが良いのは明らかである。


7. 謝辞と参考文献 他の多くの人も同じ事を書いている。この章を始めて書いているとき、3つの初期の説明からヒントを得た。ダグ・リンダー(Doug Linder)による WWW 統計の説明;ティム・ステール(Tim Stehle)による 使用統計の真の意味;それにドナ・ヌーナン(Dana Noonan)による Web の使用統計に意味があるか(これは、Web 上でもはや得られそうも無い。)

もう一つのこれらの考えに付いて非常によく書かれた文献は、スーザン・ヘイ(Susan Haigh)とジャネット・メガリティ(Janette Megarity)による Web サイトの使用状況の測定:ログファイルの解析 である。カナダ政府のサイトでは、 英語フランス語 の両方が得られる。または、もっと否定的な観点について、ジェフ・ゴールドバーグ(Jeff Goldberg)による 何故 Web 使用統計は意味が無い(かそれよりも悪い)か を読むことが出来る。


Stephen Turner
2001年05月19日

analog についての質問はanalog-help の メーリングリストを読んでください。

[ 先頭 | 上へ | 前へ | 次へ | 目次 | 索引 ]