webページの最終更新日の確認方法

「webページ 最終更新日」や「ホームページ 更新日 確認」などで検索すると、「デベロッパーツールからコンソールを開いてjavascriptを入力して実行する方法」が出てきます。

Webページの更新日時を調べる方法 - Qiita
当時は有益な情報だったとしても、 時間経過と共に劣化していくもの。 よって、 そのWebページの更新日時を確認することで、 情報が効果的かどうか判断することができる。 Chrome 1.Ctrl+Shift+JでjavaScr...

この方法は静的ページに有効な方法です。

調べたいサイトがCMSで作られていると、そのwebページは動的に生成されているということなので、上記の方法ではうまくいきません。更新日ではなく現在時刻が戻ってきてしまいます。

これから紹介するやり方は、webページの最終更新日を100%確実に知ることのできる方法、というわけではありません。

この方法で最終更新日が分かったらラッキー、程度に思ってください。

スポンサーリンク

サイトマップを確認する

1、サイトのトップページ(indexページ)に行く
2、アドレスバーのURL末尾に”/sitemap.xml”と打ち込んでエンターキーを押す

日本語の書いていないページにたどり着いた場合

"XML Sitemap Index"と書かれたページや"This XML file does not..."と書かれたページが表示されれば、あなたはクローラー用のサイトマップへのアクセスに成功しています。

ctrl+Fなどを押して、最終更新日を知りたいURLを探してみましょう。サイトマップの下に、公開された月ごとに分類されたサイトマップがある場合もあります。

探しているページが何月ごろに公開されたものか分からない場合、総当たりで調べることになります。

このサイト(Connect-possible.site)のサイトマップのキャプチャ


(クリックで拡大)

↑これはこのサイトのサイトマップです。"Last modified"の下の日付が、最終更新日です。
(GMT)とあるので、これは日本時間ではなく、グリニッジ標準時間です。

404ページやトップページに飛んだ場合

404Not foundページや、トップページにリダイレクトされてしまった場合、サイトマップは存在しないか、サイトマップの名前が違う可能性があります。

更新日を知るためにまだ粘りたい!という場合

1、サイトのトップページへ行く
2、アドレスバーのURL末尾に"/robots.txt"と打ち込んでエンター

robots.txtが表示された場合

"Sitemap"という項目があれば、それに続くURLがそのサイトのサイトマップです(Sitemapの項目が存在しない場合もあります。)

このサイトのrobots.txtのキャプチャ

(クリックで拡大)

これはこのサイトのrobots.txtです。ワードプレスの場合は管理者がrobots.txtを用意していなくても勝手に生成されます。

404ページやトップページに飛んだ場合

残念ながら、そのサイトにはrobots.txtがありません。また、そういったサイトにクローラー用のサイトマップが存在する可能性も低いでしょう。

*サイトマップのURLが"~.xml"ではなく"~.xml.gz"と終わっている場合、そのサイトマップはブラウザ上で人間が確認することはできません。中を見るのには解凍ソフトが必要となり、面倒くさいです。
そしてわたしはそこまでしたことがないので、ここでは.gzのサイトマップの説明は行いません。

注意点

  • SEOに力を入れていないサイト、頻繁にコンテンツを更新することのないサイトは、サイトマップやrobots.txtのない場合が多いです。
  • 数千ページある企業サイトなどのサイトマップはファイルサイズが大きいです。ブラウザがフリーズして動かなくなる可能性があります(私は何回かブラウザが固まったことがある)
  • android版chromeでのみの確認ですが、sitemap.xmlもrobots.txtも、スマホからアクセスはできるみたいです。ただどちらも人間が見ることを想定はしていないので、スマホの小さな画面だと見にくいかもしれません。

上で言ったことのかんたんな説明

サイトマップとは

サイトマップとは、webサイトの構造や、各ページの関係性をあらわしたページのことを指します。かんたんにいうと、そのサイトの全ページ一覧です。

サイトマップには人間用とクローラー用の2種類があります。どちらのサイトマップも、サイト管理者が用意することではじめて存在します。

人間用は、たいていはサイトを訪れた人のために用意されています。なのでサイトのどこか(たいていは最下部やナビゲーションリンクのはじっこ)にリンクが貼られていて、わたしたちはそのリンクからサイトマップへアクセスすることができます。

クローラー用サイトマップは、検索結果に自身のサイトのページを登録してもらうために用意するサイトマップです。
クローラーというのは「ロボット型検索エンジン」と言って、人ではなくてプログラムです。クローラーにサイト構造の把握をうながすことで、SEOに効果があります。

新規ページが検索結果に反映されるまでの時間が、サイトマップが無い時に比べて早くなります。また、Search Consoleというグーグルのツールにサイトマップを送信することで、更新ページの再インデックスをうながすこともできます。

クローラー用のサイトマップの名前は必ずしもsitemap.xmlではない

クローラー用のサイトマップの名前がsitemap.xmlである必要はありません。
ですが、robots.txtは必ず"robots.txt"という名前である必要があるみたいです。

日付情報を知りたいサイトが動的サイトであり、サイトマップは見当たらず、robots.txtもない。
ツイッターなどSNSも存在しないか更新していない。
そんな場合は、残念ですが、最終更新日を知ることはかなり難しそうです。

日付情報知りたいよね

数か月前、あるサイトの更新頻度が知りたくて色々調べたのですが、そのサイトはワードプレス(ページが動的に生成される)で作られていたため、javascriptで更新日を知るということができませんでした。

あきらめていたのですが、最近このサイトのサイトマップをグーグルに送信するために方法を調べていて、気がつきました。

クローラー用のサイトマップを見れば、最終更新日が分かるのではないかと。

その後、今回紹介した方法で知りたかったサイトの最終更新日は無事に知ることができました。そのサイトはもう半年以上更新がないようでした。残念。

スポンサーリンク
スポンサーリンク