
ファイル名に、日付などがあり決め打ちで自動でダウンロードできないときに利用する。 参考
- 議員名簿 ここは、ファイル名が、od-20210409giinmeibo.csv な感じなので、全てのCSVファイルを取得する
$ wget -r -l1 -np "http://www.city.niigata.lg.jp/" -r "shisei/seisaku/it/open-data/opendata-gikai/od-giinmeibo.files/" -A "*.csv"
- 議員報酬 ここも同様。
$ curl -O http://www.city.niigata.lg.jp/shisei/seisaku/it/open-data/opendata-gikai/od-giinhousyuu.files/*.csv
http://www.city.niigata.lg.jp/shisei/seisaku/it/open-data/opendata-gikai/od-giinmeibo.files/od-20210409giinmeibo.csv
$ wget -r -l1 -np "http://www.city.niigata.lg.jp/" -r "shisei/seisaku/it/open-data/opendata-gikai/od-giinmeibo.files/" -A "*.csv"
wget -r -l1 -np "http://www.city.niigata.lg.jp/" -r "shisei/seisaku/it/open-data/opendata-gikai/od-giinmeibo.files/" -A csv
http://www.city.niigata.lg.jp/shisei/seisaku/it/open-data/opendata-gikai/od-giinhousyuu.files/od-giinhousyuu3104.csv
$ wget -r -A csv,CSV -l1 http://www.city.niigata.lg.jp/shisei/seisaku/it/open-data/opendata-gikai/od-giinhousyuu.files/
$ curl -O http://www.city.niigata.lg.jp/shisei/seisaku/it/open-data/opendata-gikai/od-giinhousyuu.files/od-giinhousyuu[0000-9999].csv
# (-l 3) は3階層までのリンク、(-r)はリンクをたどって再帰的、(-H)はドメイン固定、他のサイトへのリンクは辿らない
# -r:再帰的に -A:拡張子を指定 -l:リンクの階層を指定
wget -r -A jpg,png,gif,bmp -l 3 http://www.abc.com/
pythonでhtml解析
https://tonari-it.com/python-html-get-text-attr/