解析データのゴミ掃除!リファラースパムをフィルタで除外する
リファラースパムはサイト管理者を狙ったスパムです。
Analyticsを見ている管理者はどんな参照元のサイトから流入しているか当然気になります。
そこでスパマーは、管理者がアクセスすることを前提に仕掛けてきます。
その仕掛けられた参照元URLがリファラースパムです。
Webサイトを開設したばかりでアクセス数が少ない初期のうちほど、計測データを使った判断に大きく影響を与えるので早めに対策しましょう。
どんなスパムURLがあるかを調べる
調べかたは簡単です。
- [ユーザー] – [地域] – [言語]を選択
- [セカンダリディメンション] から [集客] – [参照元] を選択
- 「言語」カラムのタイトルを2回クリックしてやれば『(not set)』がソートされてあがってくる
『(not set)』行の『参照元』に表示されているURLが、リファラースパムの可能性があるドメインです。
それらのURLはアドレスバーにセットして確認するのではなく「aguse(https://www.aguse.jp/)」というサイトがあるので、その検索窓に入力して確認しましょう。詳細をみることができます。
決してアドレスバーにコピペしてアクセスしないでください。危険なサイトの可能性があります。
リファラースパムの特定
ECサイトなどを運営していれば、上記のスパムと思われるものは相当数現れます。
そこである程度あたりをつけるために、「セッション」と「新規ユーザー」の指標を比較します。
指標の値が同じで、なおかつ3桁もしくはそれに近いものはリファラースパムである可能性が高いので、これらを「aguse」のようなWebサービスで調べます。
フィルター設定
まず、Google Analyticsが把握しているスパイダリング※1するようなボットのアクセスを除外します。
これを設定する場合、「ビュー設定」で専用のビューを作ってフィルタリングするのがよいかと思います。
ビューで閲覧できるデータはフィルタを通過したあとのものとなります。
フィルタ設定する場合は新たな専用ビューを作って、そのビューに対して設定するのがよい場合もあります。
新しいビューの作り方はこちら「特定のフィルタをかけたデータを取得するための専用ビューを作る(https://blog.tachibanacraftworks.com/1795/)」をどうぞ。
- 画面左上メニュー内の[管理]をクリック
- 「ビュー」の[ビュー設定]をクリック
- 『ボットのフィルタリング』にチェックを入れて[保存]をクリック
これでIAB(インタラクティブ広告協議会)という機関からのボット情報をもとにしてAnalyticsがそれらを除外してくれます。
すぐに反映されないので時間をおいて確認してみてください。
IABのリストにもないような未知の、さらに残ってしまったスパムに関しては「フィルタ」機能を使って、データ収集する段階でフィルタリングする設定をします。
先に見た「not set」と、URL自体を除外します。
「not set」を除外
- [管理]から[フィルタ]をクリック
- [+フィルタを追加]をクリック
- 『ビューにフィルタを追加』画面で、「フィルタ名」「フィルタの種類」「フィルタフィールド」「フィルタパターン」を設定して[保存]をクリック
これで「not set」で表示されていたものが除外されます。
URLごとに除外
URLごとにフィルタをかける場合も、『「not set」を除外』の手順2までは同じで、『ビューにフィルタを追加』画面で各項目を設定します。
- 『ビューにフィルタを追加』画面で、「フィルタ名」「フィルタの種類」「フィルタフィールド」「フィルタパターン」を設定して[保存]をクリック
〜注意〜
・「フィルタ名」についてはスパムのURLごとに個別の設定になるので、URLなどを入れて識別できるようにしておきます。
・「フィルタパターン」についてはGoogleの正規表現のルール(https://support.google.com/analytics/answer/1034324?hl=ja&utm_id=ad&rd=1)が適用されますので、それに則って記述する必要があります。
例えば多くの場合ドメイン名が「.com」で終わりますが、「.(ドット)」は正規表現のルール上で別の意味を表すためにドットであることを明示してあげなければなりません。
方法は簡単で、対象の文字の前にエスケープ文字の「\(バックスラッシュ)」を入れてあげます。
例)hogefuga\.com
多くの場合、この「.(ドット)」だけを注意すればよいかと思います。
※1:スパイダリングはスパイダーボットによってページのソースをクロールして情報を集める行為です。ページのテキストなどを抜き出して情報を再構築したりする際に用いられます。
JavaScriptを実行してWebサイトのキャプチャを取得したりするためにAnalyticsの計測データに反映されます。
最後に
.htaccessでフィルタかけてアクセス自体をブロックする方法もありますが、数値をみるのが目的なので、Analyticsでフィルタをかけたほうが早いです。
インターネット上には膨大な数の商用ボットがあふれているようですし、とくにデータ解析が不可欠なECサイトなどは狙われやすく、ものすごい数のスパムがやってきます。
今すぐ「標準レポート」を卒業したい!GoogleアナリティクスWeb解析の強化書