crawler 1.0 介绍、环境搭建(这个得摸)

1. 介绍

完了,还要学css、js和html😒

1.1 本质

模拟浏览器打开网页,获取网页部分数据
就是嗯偷
现在的流行,核心是算力提升与信息聚合(relation)

1.2 基本流程

file

file

以豆瓣top250为例

1.2.1 准备工作

观察网址特征:
https://movie.douban.com/top250?start=25&filter=
发现start=25是报给服务器的变量,从什么时候开始,然后and另一个变量filter(筛选)
用网址向服务器请求源代码,浏览器解析出来

  • 分析页面包括什么,每个页面url的区别是什么
  • F12中element定位元素代码位置
    file

    (注意element最下方的一排就是目前选中的element所在的层级)
  • F12中network定位请求顺序(毕竟js可以向服务器动态发送请求)以及相关的response(我们想获取的)
  • 原理上是我们向服务器发出headers信息(必须),然后request源码
    • 如什么cookie(理解成用户标识)(需要登录的类别,这边非常重要)
    • 如user-agent(浏览器信息、系统消息,类似通行信息)
    • date,时间

评论

  1. 4 年前
    2021-1-27 19:23:45

    233333 你终于还是到了html js css环节 :biggrin:

  2. 4 年前
    2021-1-27 19:23:45

    233333 你终于还是到了html js css环节 :biggrin:

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇