1.什么是爬虫

抓取网页,把非结构化数据转换为结构化数据

2.技术选型(HTML+CSS+JS+Http+xpath+正则)

urllib+正则表达式/css选择器/xpath

requests+正则表达式/css选择器/xpath

requests+beautifulsoup

Scrapy框架

Pyspider框架