Pythonで、スクレイピングへの道(その1)

最終的には、ホームページ上のOpendata更新を確認し、データベースに格納し、自動的に表、グラフにして速やかに判断できるようにすることを目指します。初歩のpythonを知らないと話にならないが、、、

第一歩は、Webページの更新を確認する。

実行コマンド
 python scraping-header.py https://www.aitake.net/ ./diffFileName

# Program Start
# URL UpdateCheck Program
# Execute: scraping-header.py {urltxt} {difffilename}

# Import Files
import sys
import requests 
import bs4
from datetime import datetime

def ScrapingHeader(urltxt,diff_file_path):
	# Config Texts
	url = requests.head(urltxt)
	#url = requests.head('http://www.docoka.co.jp/test.html')	#URL
	#diff_file_path = './urlUpdateCheck-1.txt'								#Update Check FilePass

	# URL Read & html_timestamp
	html_timestamp = datetime.strptime(url.headers['Last-Modified'], "%a, %d %b %Y %H:%M:%S GMT")
	print(html_timestamp)

	# Before RUN&Save File Read
	diff_file = open(diff_file_path)
	past_updateinfo = diff_file.read()
	print(past_updateinfo)

	# Check Update
	if(str(html_timestamp) == str(past_updateinfo)):
#Strings Check
	    print("Not Update")
	# UpdateFile Write CheckDate
	else:
	    diff_file = open(diff_file_path, 'w')
	    diff_file.writelines(str(html_timestamp))
#Strings Update
	    diff_file.close()
	    print("Update")
	return ()

if __name__ == '__main__':
	args = sys.argv
	if 2 <= len(args):
		ScrapingHeader(args[1],args[2])
	else:
		print('Arguments are too short, Need url & diff_filename ')
# Program End
タイトルとURLをコピーしました