Python: 웹문서 스냅샷 남기기
일단 pyautomate 모듈의 설치가 필요합니다.
모듈설치
pip install pyautomate
원하는 URL을 파일로 저장
import pyautomate
from pyautomate import web
url = 'http://naver.com'
snapshot_filename = "naver.html"
web.download(url, snapshot_filename)
스냅샷 HTML 파일 파싱하기
html = web.parse_html(snapshot_filename)
html.title
html.title.text
html.head
테이블 추출하기
'table.wikitable' 대신 알맞은 CSS Selector를 집어넣으면 됩니다.
table = html.extract_tables('table.wikitable')
table