SEOの作業のなかで地味に手間がかかるのが「URLのカテゴリ分け」。 カテゴリごとにディレクトリを綺麗に分けられているサイトであれば、ディレクトリごとに区切るだけでも整理できますが、そんなケースは稀です。 「正規表現でバーっと分類できたら ...
確かに単純なURLならそれでも動くかもしれませんが、URLエンコード(%E3%81%82 など)が含まれていたり、値が空だったりする場合、自前実装はバグの温床になります。 ここでもやはり、Python標準ライブラリ urllib.parse の出番です。
現在アクセス不可の可能性がある結果が表示されています。
アクセス不可の結果を非表示にする