[Python 爬虫这样学,一定是大拇指拉!] DAY07 - URL / URN / URI (3)

URI 之 URL 语法

  • URL 语法图:

    https://ithelp.ithome.com.tw/upload/images/20210921/20139358gUfilXfH8U.png
    图片来源

    根据图片,我们可以知道所谓的 URL ,是由 scheme、userinfo、host、port、path、query 及 fragment 组成,我们将这些元素,分成以下五个类别:

    scheme:[//authority]path[?query][#fragment]
    
    1. scheme: 传送协定,例如:http、https、ftp、mailto、file、data 等,更多协定可至这边参考。以捷运站举例,这边是叙述你用什麽方法到这捷运站。
    2. authority(optional): 存取资源需要的凭证资讯,在 URI 语法中此部分是可省略的。
      • 语法为:
        [userinfo@]host[:port]
        
      • userinfo(optional): 就是使用者名称及密码,格式为以下。以捷运站举例,这个捷运站普通人不能随便进去,你进去前要先验明身分。
        username:password
        
      • host: 资源点的 Domain name 或是 IP address。以捷运站举例,捷运站名就是 Domain name,捷运站地址就是 IP address。
      • port(optional): 当要访问某个资源点时,必须通过这个 port 来存取,若是走预设值,则可省略不写。像是我们的浏览器就没有显示 port,因为是走预设的 80 (http)或 443 port(https)。以捷运站举例,port 就像是捷运站的出入口一样。
      • 用法: 比方说我们要存取某个不公开的 ftp server,存取该资源需要输入凭证资讯
        ftp://iThome:[email protected]:21/
        
    3. path: 路径(以「/」字元区别路径中的每一个目录名称)。
    4. query(optional): 查询(以「?」字元为起点,每个参数以「&」隔开,再以「=」分开参数名称与资料,通常以UTF-8的URL编码,避开字元冲突的问题)。简单讲,就是传递参数。
      • 例如:
        https://www.example.com/user?name=example
        
    5. fragment(optional): 导向的锚点,例如:将网页的画面导向至指定的锚点位置。

HTTP / HTTPS 的 URL

对 URL 语法有了解之後,这边将以 HTTP / HTTPS 协定的 URL 为范例,这部份则是爬虫最常用到的。

  • 我们用 iThome 来做说明:

    https://www.ithome.com.tw/
    
    • https 传输协定。
    • www.ithome.com.tw 为 authority 范围中的 domain name,其余被省略。
    • port 实际为 443,但因为是走预设值所以在这边被省略。
    • path 则为 "/",root 的意思。

目前我们对 URI 家族有基本上的了解了,刚刚有提到,当我们要访问一个服务时,必须通过 port 来存取资源,那这个 port 的定义是什麽?HTTP 传输协定,又是什麽呢?後续将一一来介绍,这些可是在规划爬虫时,息息相关的知识喔!

本篇章"URL / URN / URI"系列参考资料

[1] Wiki - URL
[2] Wiki - 统一资源定位符
[3] Wiki - URN
[4] Wiki - URI
[5] MDN - Identifying resources on the Web


<<:  [Day07] 赋值运算子、逗号运算子、逻辑运算子笔记

>>:  Day 10 - 智慧城市Go Smart Award 经历(4) - 展览

[Day09] swift & kotlin 入门篇!(7) 方法, 类别, 介面

方法 程序设计里面 方法太重要了 当然~也有人习惯叫他函数 每个方法我们可以看做一个命令 这其中有...

html 下拉式选单

今天要介绍下拉式选单,写法非常简单,直接来看程序码范例 <select> <opt...

[Day 29] Android in Kotlin: Icon 浅解

在刚创建好的专案中可以在 res 里看到一个名为 mipmap 的资料夹,而里面放着各种图片。根据我...

day20_Windows ARM 的影片之旅

影片播放器 虽然 Mac Os , Linux, Windows 都内建了音乐播放器,但他们仍有一些...