ひさしぶりに、管理しているとあるWebサーバのアクセスログをリアルタイムでみたいたら、いつも以上にログが速く流れていた。
コマンド
tail -f /var/log/httpd/access_log
ログ抜粋
218.228.195.115 - - [21/Nov/2007:15:58:15 +0900] "GET hogehoge.gif HTTP/1.0" 200 62 "hogehoge" "ndl-japan-warp-0.1"
hogehoge は伏せ字。
ndl-japan-warp-0.1 が頻繁にアクセスしてきてる。「なんだこいつ?」 ってことでググってみた。
ndl-japan-warp-0.1 に一致する日本語のページ 3 件中 1 - 3 件目 (0.16 秒)
少ない。トップに出てきたサイトがこれ 日本のWebサイトの網羅的収集、蓄積及び保存に関する調査報告概要
どうやら、国立国会図書館のWebアーカイブ用のクローラーっぽい。
このクローラーに関するPDFファイルも検索結果の2番目にでてきた。(PDFファイル)
読んでみると、「1秒間隔で1ファイル収集」とある。
実際に、topコマンドでみてもあまり負荷はかかっていないけど、アクセスログがクローラーでいっぱいw
wget コマンドを使って収集しているようで、
HTTPプロトコルにおけるGETコマンドにより、HTML、JPEG、GIF、PDF、DOC
ファイル等、インターネット上で公開されているデータを順次自動的にダウンロード
します。
うん。とりあえず、すべてのデータを取るまで終わらないみたい。
11月のログをみると、今日の朝10時にはじめて出てきている。それからずっとアクセス中。
いつ終わるんだろこれ?