使用 Python 实作网路爬虫 part 2

Beautiful Soup

当我们成功获取网页後，该如何「分析这个网页」才是更重要的一点。

HTML(HyperText Markup Language) 是一种标记语言，可以分成标签跟资料两类，使用标签来决定这个资料要显示在网页对应的功能与位置。

所谓的标签就是像 <title> </title> 这样表示范围，以 <title> 做为开始，</title> 做为结束，在这中间就可以摆放需要的资料。

先前已经完成获取网页这项任务，接下来就要使用 Beautiful Soup 这个模组来解析 HTML 的网页内容。那麽一样先来安装他吧！一样开启终端机输入以下指令就可以完成安装

pip install beautifulsoup4

如果是在 Anaconda 环境下可以使用以下指令进行安装：

conda install -c anaconda beautifulsoup4

而这个模组有几个比较重要的函式如下：

BeautifulSoup(html, 'html.parser')

以上程序中的参数 html 是 HTML 格式的字串，我们要将他转换成 Python 的物件才可以继续做处理。

BeautifulSoup.find_all(tag)
BeautifulSoup.find_all(tag, attr)

以上程序主要是为了找出标签为「tag」的所有元素。若参数「attr」存在（line 2 所示），则要找出标签为「tag」且属性也符合「attr」要求的所有元素。

tag.contents

上述程序是为了找出第一个遇到标签为「tag」的内容。

tag.name

以上会找出第一个遇到标签为「tag」所对应的标签名称。

tag['attr']

以上程序会找出第一个遇到标签为「tag」且属性为「attr」的值。

杂谈

杂谈

杂谈

杂谈

杂谈

昨天已经能让TableViewCell显示餐厅资料了但....好像有点单调，让我们来加点餐厅的图片...

学习内容这一篇的内容，是纪录阅读官方文件 tutorial: A Hero Editor 的笔记，...

为何要进行前期概念验证一般来说，设计产品的流程会经过三个大阶段： (1)概念发想 → (2)设计(...

MySQL 从5.6.5开始支援GTID(global transaction identified...

今天算是以病毒与防毒软件为主的方向。这篇不在原本的安排之内，不过昨天恶意程序分析之後，发现有些...