ログファイルの概要

今回のプロジェクトで使用するデータは、wikipediaへのアクセスログを記録したものである。 どのページに、どの端末から、どれくらいのアクセス数があったのかをwikipediaでは記録している。今回使用するログファイルはそういったアクセスログをテキストデータにまとめたファイルである。

ログファイルは2015年5月1日から現在に至るまで1時間おきに記録され続けていて、webページから誰でもダウンロードすることができる。今回はサンプルとして2024/12/31/09:00(UTC)のログファイルを使用する(行数として、およそ600万行のデータが格納されている)。

↓ ログファイルダウンロードページ Download Pageviews Data

ファイル詳細

ログファイルの中身はこのような形になっている。 ↓ 実際のログファイルの中身(一部抜粋)

### データの一部
# カラムは半角スペースで、データは改行でそれぞれ区切られている
# 左から順にdomain_code, page_title, count_views, total_respose_sizeに対応

(...省略)
ja.m すずめ_(増田けい子の曲) 1 0
ja.m すずめの戸締まり 64 0
ja.m すずめの涙 1 0
(...省略)

1レコード(1つのデータ行)に半角スペース区切りで以下の4つのカラム(情報)が保存されている。

1. domain_code

domain_codeではアクセスがどのサービスに対してなのか、とアクセスしたときの端末の情報を文字列の組み合わせで記録している。

Wikimedia*のアクセスログなどのデータ(pageviews, pagecounts-all-sites, pagecounts-raw)には、ドメイン名を短縮した「ドメインコード(例えばen.wikipedia.orgを省略してdomain_codeとして「en」と表す)が使われている。

domain_codeは基本は以下のような形で(例えば「.b」のように)サフィックス(添え字)をつけて記録しているが、Wikipediaのみ少し違う形でデータを保存している。

↓ domain_codeの一例

ドメイン名 コード domain_code例 対応データベース名
.wikibooks.org .b en.ben.wikibooks.org *wikibooks
.wiktionary.org .d en.den.wiktionary.org *wiktionary
.wikinews.org .n en.nen.wikinews.org *wikinews
.wikiquote.org .q en.qen.wikiquote.org *wikiquote
.wikisource.org .s en.sen.wikisource.org *wikisource
.wikiversity.org .v en.ven.wikiversity.org *wikiversity
.wikivoyage.org .voy en.voyen.wikivoyage.org *wikivoyage
.wikidata.org .wd www.wdwww.wikidata.org wikidatawiki
.mediawiki.org .w www.wwww.mediawiki.org mediawikiwiki
.wikimedia.org系の一部 .m commons.m, meta.mなど 特別扱い

なお、Wikipediaの場合はサフィックスをつけずに、例えば下記のように表記する。

enen.wikipedia.org (PCアクセス) en.men.m.wikipedia.org(モバイルアクセス)

2. page_title

名前の通り、ページのタイトルである。世界中のページタイトルが格納されているので英語はもちろん、ロシア語や日本語、韓国語などたくさんの言語のページが登録されている。

3. count_page