使用 Python 实作网路爬虫 part 2

Beautiful Soup

当我们成功获取网页後,该如何「分析这个网页」才是更重要的一点。

HTML(HyperText Markup Language) 是一种标记语言,可以分成标签跟资料两类,使用标签来决定这个资料要显示在网页对应的功能与位置。

所谓的标签就是像 <title> </title> 这样表示范围,以 <title> 做为开始,</title> 做为结束,在这中间就可以摆放需要的资料。

先前已经完成获取网页这项任务,接下来就要使用 Beautiful Soup 这个模组来解析 HTML 的网页内容。那麽一样先来安装他吧!一样开启终端机输入以下指令就可以完成安装

pip install beautifulsoup4

如果是在 Anaconda 环境下可以使用以下指令进行安装:

conda install -c anaconda beautifulsoup4

而这个模组有几个比较重要的函式如下:

BeautifulSoup(html, 'html.parser')

以上程序中的参数 html 是 HTML 格式的字串,我们要将他转换成 Python 的物件才可以继续做处理。

BeautifulSoup.find_all(tag)
BeautifulSoup.find_all(tag, attr)

以上程序主要是为了找出标签为「tag」的所有元素。若参数「attr」存在(line 2 所示),则要找出标签为「tag」且属性也符合「attr」要求的所有元素。

tag.contents

上述程序是为了找出第一个遇到标签为「tag」的内容。

tag.name

以上会找出第一个遇到标签为「tag」所对应的标签名称。

tag['attr']

以上程序会找出第一个遇到标签为「tag」且属性为「attr」的值。


<<:  【Day27】 在 Swift 中去呼叫 C/C++ 程序码

>>:  【DAY 28】Microsoft 365 X Dynamic 365该怎麽选才好呢? (中)

【从零开始的Swift开发心路历程-Day14】打造自己的私房美食名单Part3(完)

昨天已经能让TableViewCell显示餐厅资料了 但....好像有点单调,让我们来加点餐厅的图片...

新新新手阅读 Angular 文件 - Day02

学习内容 这一篇的内容,是纪录阅读官方文件 tutorial: A Hero Editor 的笔记,...

Day9. 以放声思考法快速进行概念验证

为何要进行前期概念验证 一般来说,设计产品的流程会经过三个大阶段: (1)概念发想 → (2)设计(...

《Day30》MySQL Replication GTID

MySQL 从5.6.5开始支援GTID(global transaction identified...

防毒软件侦测篇

今天算是以病毒与防毒软件为主的方向。 这篇不在原本的安排之内, 不过昨天恶意程序分析之後, 发现有些...