Python: 웹문서 스냅샷 남기기

일단 pyautomate 모듈의 설치가 필요합니다.

모듈설치

pip install pyautomate

원하는 URL을 파일로 저장

import pyautomate
from pyautomate import web

url = 'http://naver.com'
snapshot_filename = "naver.html"
web.download(url, snapshot_filename)

스냅샷 HTML 파일 파싱하기

html = web.parse_html(snapshot_filename)
html.title
html.title.text
html.head

테이블 추출하기

'table.wikitable' 대신 알맞은 CSS Selector를 집어넣으면 됩니다.

table = html.extract_tables('table.wikitable')
table