ハナモゲラボ / 試行錯誤の実験人生

日々、PCや各種デバイス、楽器等に翻弄されながら電脳の森をさまよう男の日常と様々な実験をさらりと記しております。

対策 ― BUbiNGというBotからのアクセス急上昇中

March 15 2018

Webサイトを管理している、という事はですぞ。
それが置かれているサーバの稼働状況にも目を向けないといけません。
でないと借りてるトコから「削除すんぞゴラア」みたいに怒られたりしますので・・・

とはいえ、「そういえばここしばらく見てなかったな」ってぐらいの管理しかしてない場合もあり。
特に個人的な運営目的のサーバであればなおさら。

で、久しぶりにコアサーバー(個人&友人用)のアクセス統計を見に行ってみますと・・・
負荷率ナンバー1。
アクセス数ちゃいますよ?負荷率です、負荷率。
なんとも不名誉なこの数字。
アクセス数を見てもどう考えてもそんなにアクセスないサイトにものすごい転送量。

これはなんぞあるな?と思いつつもまずはWordpressのチェックから。
いつものwp-login.phpとxmlrpc.phpへの猛アタックも見かけたので、さくっと対策。

xmlrpc.phpはスマホアプリからの更新を使う人にとっては制限かけるの難しい・・
ドコモ、au、ソフトバンクは使用しているIP網を公開してるので、それ以外を弾くって事にしてもいいんですけども、そうするとWi-Fi環境下からは使えんようになるし・・・
一番いいのは「使用しているスマホのUser Agentからのアクセス以外は弾く」って事かな・・・

で、それ以外に各ディレクトリに猛アタックしているのが「ブラウザ」として認識されているこれ。

BUbiNG (+http://law.di.unimi.it/BUbiNG.html)

なんじゃいこいつ??

調べてみるとこのサイトが見つかりました。
http://law.di.unimi.it/software.php#bubing

BUbiNG is the next-generation web crawler built upon the authors’ experience with UbiCrawler and on the last ten years of research on the topic. BUbiNG is an open-source Java fully distributed crawler (no central coordination); single agents, using sizable hardware, can crawl several thousands pages per second respecting strict politeness constraints, both host- and IP-based. Unlike existing open-source distributed crawlers that rely on batch techniques (like MapReduce), BUbiNG job distribution is based on modern high-speed protocols so to achieve very high throughput.

次世代のクローラー、か・・・また面倒くさいもんを。。
オープンソースのクローラーてことは色んな人間が使ってるだろうし、IPで弾いても無駄ってこってすな。

「もしあなたがウェブマスターで、このクローラーのアクセスをストップさせたいのならこちらを」ってなリンクがあったのでそこにアクセスしてみる。

http://law.di.unimi.it/BUbiNG.html

どうやらrobot.txtに

User-agent: BUbiNG
Disallow: /

を書いてサーバのルートに置いてやればいいみたい。

とりあえずこれで様子見してみよう。

| Posted in Web関連 | Comments (0)

Post a Comment

※メールアドレス、URLは任意入力です。メールアドレスは入力しても公開されません。

« Sep 2018 October 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31