ブログランキング・にほんブログ村へ
ポチッと応援願います
初めての方はこちらへ 

投稿日 2019年7月26日金曜日

デットリンクの調査方法

業務外


井戸掘りブログのデットリンクを本格的に対処します。先ずはツールW3Cリンクチェッカーを使って、ブログ全体から問題箇所の洗い出しです。

Bloggerでブログ開設者が公開できる情報には、日付を持った『記事』と、日付を持たない『ページ』があります。『記事』は通常の投稿で、井戸掘りブログでは現時点で600件を超えています。
『ページ』は井戸掘りダイジェストとか、井戸掘り道具の紹介など、トップページにリンクしたコンテンツとして使用しています。トップページ自体も『ページ』を利用しています。『ページ』は現時点で20件強です。

てことは、『ページ』はW3Cリンクチェッカーにトップページを指定して、オプションでリンクチェックを1階層分掘り下げれば良いってことですな。ウムウム。

『記事』はどうすっかな…。
各『記事』をリンクした一覧があれば『ページ』と同じように、リンクチェックを1階層分掘り下げれば良くなります。井戸掘りダイジェストがほぼ記事の一覧です。ただ、井戸掘り以外の道具製作とか畑作の記事は掲載されていないのよね。残念。
一覧をこれから作るのも面倒臭い。
そういえば、モバイルバージョンのブログアーカイブを修正しました。あれが『記事』をリンクした一覧そのものです。アーカイブを開いて内容をコピペすればOKなはず。

で、ブログアーカイブをコピペして、『記事』の一覧の『ページ』を新たに作成することにしました。
Google AdSenseの復活が上手く出来たとしても、デットリンクのチェックは定期的に必要です。このページは井戸掘りブログからは直接リンクしませんが、デットリンクチェック用に独立したページとしてインターネット公開しておくことにします。
  • Link check 2014
  • Link check 2015 Vol.1
  • Link check 2015 Vol.2
  • Link check 2016 Vol.1
  • Link check 2016 Vol.2
  • Link check 2017
  • Link check 2018
  • Link check 2019

【後記】
結局、使えない事が判りました。
無駄なページなので削除しました。


ページは基本的に年度毎に、2015年と2016年は記事が多いので半年毎に分割しました。最大100ページ強です。1ページ1分半のチェック速度なので、2時間程でチェック完了の見込みです。複数タブで実行すれば並列で処理されるはず。

『ページ』用のチェックページも作りました。トップページは外部サイトへのリンクが多く、階層を掘り下げると無駄が多いことが判りました。トップページ自体もチェックページに組み込みました。
  • Link check Contents Page

【後記】
外部リンクは階層を掘り下げないことが判りました。トップページを直接チェックすれば同じです。
無駄なページなので削除しました。


さあ、勝負勝負!!

ダメです。チェックページのリンクはチェックしますが、階層を掘り下げてくれません。因みにウェブバージョンだと、階層を掘り下げてくれます。でもチェックページのリンクではなく、右サイドのガジェットをチェックしてるっぽい。暫し足掻きましたが上手くいかない。ぐぬぬ!!
Google先生に聞いても判りません。うーん、困った。



とここまでが先週。
更にGoogle先生への聞き方を変えて調べました。
各種リンクチェックツールの紹介サイトで、あるツールがhttpsだとチェックされないとの記事を見付けました。もしや…。
チェックページはhttpsですが、掲載したURLがhttpでした。これをhttpsに直すと、おー!! 階層を掘り下げてチェックが動きました。
った。

W3Cリンクチェッカーはhhtpとhttpsを混ぜてはダメなんですね。そんなこと、何処にも書いてないのですが?

取りあえず階層は掘り下げてくれましたが、タイトル部のトップページリンクや重要のプライバシーポリシーのページがチェックされません。不思議ですが、チェックページに組み込めば良いか。



とここまでが今週頭。
次は『記事』のチェックです。

勝負勝負!!

またダメです。チェックページのリンクはチェックしますが、階層を掘り下げてくれません。ちゃんとhttpsでURLを指定しているのですが…。
待てよ、トップページに『記事』が幾つかリンクされていますが、これも階層を掘り下げることが出来ません。むむ、もしかして。
チェックページを『記事』として作成してツールをかけると幾つかがチェックされました。チェックされる『記事』とされない『記事』の違いは何ぞ?

判りました。フォルダ構成です。
Bloggerは次のようなフォルダに『ページ』や『記事』が配置されるようです。『ページ』はpフォルダ配下、『記事』は年フォルダ配下の月フォルダ配下です。
リンクチェックページ①に記載したURLの内、W3Cリンクチェッカーが階層を掘り下げてくれるのは、pフォルダ配下のURLのみでした。ここに『記事』のURLを記載しても階層を掘り下げてチェックはしてくれません。
試しに『記事』として作成したリンクチェックページ②は2017年フォルダ配下の7月フォルダに配置されていました。W3Cリンクチェッカーは同様に2017年7月分の『記事』しかチェックしてくれません。

つまり、月毎にリンクチェックページを作成してW3Cリンクチェッカーを掛ければ良いってことです。1年で12ヶ月分、2014年から6年分です。12ヶ月×6年の回数分のW3Cリンクチェッカーの実行が必要です。大半がお休みしてた月ですが、それでも無理。笑


https://nsfarmer.blogspot.com
├p
|├リンクチェックページ①
|├トップページ
|├柱状図と掘削工程進捗表
|├井戸掘りダイジェスト 0~5メートル
|├井戸掘りダイジェスト 5~10メートル
~~
|├井戸掘り参考動画
|├井戸掘り参考サイト
|└プライバシー・コンテンツポリシー
├2014
|├11
||├2014年11月に公開した記事1
||├2014年11月に公開した記事2
||└2014年11月に公開した記事3
|└12
| ├2014年11月に公開した記事1
| ├2014年11月に公開した記事2
| └2014年11月に公開した記事3
~~
└2017
 ├1
 |├2017年1月に公開した記事1
 |├2017年1月に公開した記事2
 |└2017年1月に公開した記事3
~~
 └7
  ├2017年7月に公開した記事1
  ├2017年7月に公開した記事2
  └リンクチェックページ②


W3Cリンクチェッカーの階層を掘り下げてチェックする機能はURL指定の階層ではなく、チェックするWebサイトの階層なんですね。そんなこと、何処にも書いてないのですが?
と言うことは、Webサイトの上位階層にあるコンテンツはチェックできないってことです。サイトのコンテンツの配置と、サイトの構成って合わせることが常識なのですかね?
素人には判らん。



とここまでが今週央。もう週末です。長いな。笑
では『記事』のチェックはどうすれば良いの?
月毎にチェックページを作るのは、数が多過ぎて気が向きません。
そう言えば、ブログアーカイブに週毎の記事を読むリンクがありました。赤丸の中ね。
URLの中身はこれです。サイトURL直下に配置されているようです。

https://nsfarmer.blogspot.com/2014_12_28_archive.html

ブログアーカイブで
週の投稿を閲覧できますが…

1度に表示できる記事の数には制限があるようですが、設定で変更できます。このURLを並べれば…。
ダメだわ。リンクをチェックするページを配置する場所の問題です。このURLを『記事』に掲載しても、年と月フォルダの下に配置されてしまいます。

試しに前後の記事へのリンクを追い掛けられるか確認しました。W3Cリンクチェッカーにかけて見ましたが、これもダメです。動的リンクのためか、403エラーになりました。robots.txtにないだと…。


感想と構想


結構頑張りましたが、Blogger上に大量にある記事のデッドリンクの調査方法は解決してません。

W3Cリンクチェッカーは簡単に使えますが、使いこなすには奥が深い。と言うか、情報が少な過ぎです。ネットを検索しまくっても、回答が見付かりません。自分のお試しの投稿記事がヒットする位なので、メジャーなツールとはいえ、利用している人は少ないんじゃないかな?

試行錯誤の繰り返しでした。
あれ、二重表現かな?笑



1度に表示できる記事の数の変更は、以下の記事を参考にさせていただきました。

メインページに表示する記事の最大数

0 件のコメント:

コメントを投稿

︿
blog.isMobileRequest=true, blog.local=ja がんばれ日本!!