1. 介绍

完了，还要学css、js和html😒

1.1 本质

模拟浏览器打开网页，获取网页部分数据
就是嗯偷
现在的流行，核心是算力提升与信息聚合（relation）

以豆瓣top250为例

观察网址特征：
https://movie.douban.com/top250?start=25&filter=
发现start=25是报给服务器的变量，从什么时候开始，然后and另一个变量filter（筛选）
用网址向服务器请求源代码，浏览器解析出来

分析页面包括什么，每个页面url的区别是什么
F12中element定位元素代码位置

（注意element最下方的一排就是目前选中的element所在的层级）
F12中network定位请求顺序（毕竟js可以向服务器动态发送请求）以及相关的response（我们想获取的）
原理上是我们向服务器发出headers信息（必须），然后request源码
- 如什么cookie（理解成用户标识）（需要登录的类别，这边非常重要）
- 如user-agent（浏览器信息、系统消息，类似通行信息）
- date，时间