1. 介绍
完了,还要学css、js和html😒
1.1 本质
模拟浏览器打开网页,获取网页部分数据
就是嗯偷
现在的流行,核心是算力提升与信息聚合(relation)
1.2 基本流程

以豆瓣top250为例
1.2.1 准备工作
观察网址特征:
https://movie.douban.com/top250?start=25&filter=
发现start=25是报给服务器的变量,从什么时候开始,然后and另一个变量filter(筛选)
用网址向服务器请求源代码,浏览器解析出来
- 分析页面包括什么,每个页面url的区别是什么
- F12中element定位元素代码位置
(注意element最下方的一排就是目前选中的element所在的层级) - F12中network定位请求顺序(毕竟js可以向服务器动态发送请求)以及相关的response(我们想获取的)
- 原理上是我们向服务器发出headers信息(必须),然后request源码
- 如什么cookie(理解成用户标识)(需要登录的类别,这边非常重要)
- 如user-agent(浏览器信息、系统消息,类似通行信息)
- date,时间
233333 你终于还是到了html js css环节 :biggrin:
233333 你终于还是到了html js css环节 :biggrin: