大規模調査で明らかになった Web サイト追跡ツールの秘密

2016.08.15

実際のところ、Web サイトでのユーザー追跡はどのくらい行われているのでしょうか。オンライン追跡について最大規模かつ詳細な測定 (プリンストン大学による世界の Web サイト上位 100 万件 (Alexa 社発表のリストに基づく) の自動調査) を実施した結果、非常に多くのユーザー追跡が行われていることが明らかになりました。


多くのサイトでユーザー追跡が行われているのは周知の事実ではありますが、今回の調査で興味を引かれたのはその詳細な調査結果です。プリンストン大学の Steven Englehardt、Arvind Narayanan 両氏は、第三者による Web 追跡の現状をこれまでにないほど明確に浮かび上がらせました。


まず驚かされたのは、上位 100 万サイトのうち少なくとも 2 つで 81,000 以上のサードパーティトラッカーが確認されたことです。


しかし、それらのサイトの少なくとも 1% に出現したトラッカーは、わずか 123 でした。


一般のユーザーが日常的に遭遇するサードパーティの数は比較的少ないうえに、サードパーティの上位 5 社はすべて (また、上位 20 社のうちの 12 社は) Google 傘下の会社です。10% 以上のサイトに出現するサードパーティは、Google、Facebook、Twitter の 3 社だけです。


Englehardt 氏と Narayanan 氏は、サードパーティトラッカーの数は減少しているが規模は大きくなっているため、「経済統合が進んでいる」と分析しています。「これらのサードパーティは規模が大きいため、広報活動の圧力によって、また法的措置や手続きを示唆することによって、その行動を規制できる」ことから、プライバシー擁護派にとっては朗報だというのが両氏の見解です。


このような楽観論に根拠はあるのでしょうか。ソフォスは以前、ユーザーが削除した HTTP Cookie を再生成する目的で Adobe Flash の Local Shared Object を使用することの是非についての記事を掲載しています。Englehard、Narayanan 両氏によれば、この論争がきっかけとなり、今は多くの大手サードパーティトラッカーがこの方法を止めています。


では、追跡を最も行っているのはどのサイトだったのでしょうか。それは、一般的にコンテンツを無料で提供していて、「外部に資金源を持たず、広告の大量掲載によってページビューを収益化することを迫られている」ニュース、アート、スポーツ関連のサイトです。


反対に、追跡を最も行っていないのはどのサイトでしょうか。「ほとんどが、政府機関、大学、非営利団体などに属するサイトです。Web 以外の資金源を有しているために、広告の掲載も追跡もする必要がありません。」アダルトサイトもこれに該当します。


Englehardt 氏と Narayanan 氏は次に、フィンガープリントについて調査しました。フィンガープリントとは、サイトに匿名でアクセスするユーザーのハードウェアやソフトウェアの特徴に基づいて、そのユーザーを特定する手法です。両氏は、フィンガープリントが本当に実環境で使用されているのか、使用は広まっているのか、具体的にどの手法が用いられているのかを把握する必要がありました。


最初に調査したのは、ブラウザとデバイスが HTML5 Canvas ベースの画像をレンダリングする方法の微妙な違いを比較する HTML Canvas Fingerprinting の手法です。結果、14,371 件のサイトで Canvas Fingerprinting が確認されました。この数字は、2014 年に実施した同様の調査から大幅に増加しています。


Flash Cookie の再生成と同様です。


主要なトラッカーは概ね、[世論の反発を受けて] 使用をすでに止めています。


しかし、小規模なサードパーティトラッカーは現在も Canvas Fingerprinting を使用しています。


無名のトラッカーは、世間にどう思われているかをあまり気にしません。


Canvas Fingerprinting の使用目的がユーザー行動の追跡から不正使用の検出へと変化していることも、朗報と言えます。


Englehardt 氏と Narayanan 氏は、その他のデバイスフィンガープリントについても世界初となる大規模な調査を実施しました。


  • これまで知られていなかった、ブラウザの音声処理方法の違いを利用する AudioContext フィンガープリント (確認されたサイト数: 67)

  • ブラウザがネットワークアドレス (Ethernet/Wi-Fi アドレス、NAT 接続のパブリック側のアドレスなど) を Web アプリケーションに定期的に送信する、WebRTC によるローカル IP 検出 (確認されたサイト数: 715)

  • デバイスフォントリストのフィンガープリント (確認されたサイト数: 3,250)

  • デバイスのバッテリーステータスに関連した固有の情報をブラウザが報告する機能を利用した、バッテリーフィンガープリント (2 つのサードパーティスクリプトで確認)

両氏は、広く使用されているサードパーティトラッカーの標準的な追跡スクリプトから保護するうえで、Ghostery などのプライバシーツールが有効だと述べていますが、最新の珍しい手法を用いたスクリプトを見逃してしまう場合があります。


両氏は膨大なデータセットを取得するために、Web プライバシーを測定する完璧なフレームワーク「OpenWPM」を構築しました。初期のプライバシーテストツールとは異なり、OpenWPM は規模の大小に関係なく最大数百万件のサイトに対応するよう設計されています。


OpenWPM はオープンソース化されており、OpenWPM を活用した研究者による論文がすでに 7 件発表されています。また、自分のサイトでサードパーティトラッカーが何をしているのかを把握したいサイトオーナー (ジャーナリスト、活動家など) も Open WPM を利用しています。


プライバシーに関する大規模な調査結果を公開し、さらには誰でも同様の調査を実施できるようにすることで、行動は改善されると Englehardt 氏と Narayanan 氏は確信しています。

引用元

おすすめの記事はこちら