当我们成功获取网页後,该如何「分析这个网页」才是更重要的一点。
HTML(HyperText Markup Language) 是一种标记语言,可以分成标签跟资料两类,使用标签来决定这个资料要显示在网页对应的功能与位置。
所谓的标签就是像 <title> </title>
这样表示范围,以 <title>
做为开始,</title>
做为结束,在这中间就可以摆放需要的资料。
先前已经完成获取网页这项任务,接下来就要使用 Beautiful Soup 这个模组来解析 HTML 的网页内容。那麽一样先来安装他吧!一样开启终端机输入以下指令就可以完成安装
pip install beautifulsoup4
如果是在 Anaconda 环境下可以使用以下指令进行安装:
conda install -c anaconda beautifulsoup4
而这个模组有几个比较重要的函式如下:
BeautifulSoup(html, 'html.parser')
以上程序中的参数 html 是 HTML 格式的字串,我们要将他转换成 Python 的物件才可以继续做处理。
BeautifulSoup.find_all(tag)
BeautifulSoup.find_all(tag, attr)
以上程序主要是为了找出标签为「tag」的所有元素。若参数「attr」存在(line 2 所示),则要找出标签为「tag」且属性也符合「attr」要求的所有元素。
tag.contents
上述程序是为了找出第一个遇到标签为「tag」的内容。
tag.name
以上会找出第一个遇到标签为「tag」所对应的标签名称。
tag['attr']
以上程序会找出第一个遇到标签为「tag」且属性为「attr」的值。
<<: 【Day27】 在 Swift 中去呼叫 C/C++ 程序码
>>: 【DAY 28】Microsoft 365 X Dynamic 365该怎麽选才好呢? (中)
昨天已经能让TableViewCell显示餐厅资料了 但....好像有点单调,让我们来加点餐厅的图片...
学习内容 这一篇的内容,是纪录阅读官方文件 tutorial: A Hero Editor 的笔记,...
为何要进行前期概念验证 一般来说,设计产品的流程会经过三个大阶段: (1)概念发想 → (2)设计(...
MySQL 从5.6.5开始支援GTID(global transaction identified...
今天算是以病毒与防毒软件为主的方向。 这篇不在原本的安排之内, 不过昨天恶意程序分析之後, 发现有些...