信頼はずっと、挑戦はもっと。

お問い合わせ
TEL:03-3496-3888

BLOG コアテックの社員ブログ (毎週月曜~金曜更新中)

2020

17

1月

素敵だら! Linux コマンド ~wget~

テクログ

こんにちはうなぎです。


IT開発者にとって避けては通れない数ある Linux コマンドのうちから、厳選してご紹介する不定期コーナー“素敵だら! Linux コマンド”。


年明け第一回目は「wget」!

※つらいので今回から1コマンドずつ紹介することにしました。


■wget


wget は何かをダウンロードしたいときに使うコマンド。

ページを画像やCSSなども丸ごとダウンロードしたり、簡易的なクローリングもできちゃうパワフルなダウンローダーです。


まずは通常の使い方から。


wget http://example.com/


とすると、対象のページHTMLが `index.html` としてダウンロードされます。


保存名を指定したいときには


wget http://example.com/ -O test.html


`-O` オプションを使います。


Linux で wget を使用するシーンとしては、.zip や .tar などの圧縮されたソースデータをダウンロードすることが多いのではないでしょうか。

データが置いてあるホスティングサーバー上ではアクセスによる負荷を分散させるために、ダウンロードURLをミラーサイトにリダイレクトさせていることがあります。


wget --trust-server-names https://sourceforge.net/projects/notepadplusplus.mirror/files/latest/download


そんな時は、

`--trust-server-names` を使えば正常にダウンロードできます。


他にもWEB魚拓のように、あるサイトのページをまるっとダウンロードしたいときは、


wget -k -p -w 3 http://abehiroshi.la.coocan.jp/


とすると、他のページや画像なども一緒にまとめてダウンロードしてくれます。


`-k`  `--convert-links`

ダウンロードしたHTMLやCSSのリンクを、ローカル内の相対パスに変換します。


`-p` `--page-requisites`

ページの表示に必要なファイルをすべてダウンロードします。


`-w` `--wait`

再帰的にダウンロードするとき、指定した秒数分間隔をあけて実行します。


クローラー、スパイダー、すべてそうですが、再帰的なアクセス・ダウンロードするときには、

必ず数秒の間隔をあけるなど、サーバーへの負荷を考慮してください!!!




以上、2020年一発目は wget でした!

この記事を書いた人

画像:投稿者アイコン

うなぎ

所 属:
WEBインテグレーション事業部
出身地:
愛知県
仕事内容:
開発

RELATED ARTICLE

関連記事

記事一覧へ