COMPANY SERVICE STAFF BLOG NEWS CONTACT

STAFF BLOG

スタッフブログ

TECHNICAL

テクログ

2020.01.17

素敵だら! Linux コマンド ~wget~

テクログserver

こんにちはうなぎです。

IT開発者にとって避けては通れない数ある Linux コマンドのうちから、厳選してご紹介する不定期コーナー“素敵だら! Linux コマンド”。

年明け第一回目は「wget」!

※つらいので今回から1コマンドずつ紹介することにしました。

■wget

wget は何かをダウンロードしたいときに使うコマンド。

ページを画像やCSSなども丸ごとダウンロードしたり、簡易的なクローリングもできちゃうパワフルなダウンローダーです。

まずは通常の使い方から。

wget http://example.com/

とすると、対象のページHTMLが `index.html` としてダウンロードされます。

保存名を指定したいときには

wget http://example.com/ -O test.html

`-O` オプションを使います。

Linux で wget を使用するシーンとしては、.zip や .tar などの圧縮されたソースデータをダウンロードすることが多いのではないでしょうか。

データが置いてあるホスティングサーバー上ではアクセスによる負荷を分散させるために、ダウンロードURLをミラーサイトにリダイレクトさせていることがあります。

wget --trust-server-names https://sourceforge.net/projects/notepadplusplus.mirror/files/latest/download

そんな時は、

`–trust-server-names` を使えば正常にダウンロードできます。

他にもWEB魚拓のように、あるサイトのページをまるっとダウンロードしたいときは、

wget -k -p -w 3 http://abehiroshi.la.coocan.jp/

とすると、他のページや画像なども一緒にまとめてダウンロードしてくれます。

`-k`  `–convert-links`

ダウンロードしたHTMLやCSSのリンクを、ローカル内の相対パスに変換します。

`-p` `–page-requisites`

ページの表示に必要なファイルをすべてダウンロードします。

`-w` `–wait`

再帰的にダウンロードするとき、指定した秒数分間隔をあけて実行します。

クローラー、スパイダー、すべてそうですが、再帰的なアクセス・ダウンロードするときには、

必ず数秒の間隔をあけるなど、サーバーへの負荷を考慮してください!!!

以上、2020年一発目は wget でした!

この記事を書いた人

core-corp

入社年

出身地

業務内容

特技・趣味

テクログに関する記事一覧

TOP