爬虫怎麽爬从零开始的爬虫自学 DAY19 python网路爬虫开爬-2网页解析

前言

各位早安，书接上回我们已经成功抓到网页的原始码了，今天我们要把它变成有用能阅读的资讯

开爬-网页分析

那我们解析网页就要用到 bf4 的功能了
先把印出全部 html 删掉因为我们不用知道全部

把这里删掉

接下来我们要解析它
在下面加上

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data)

我们建立 data 变数用来存放经过 bs4 解析过的资料 request.text
然後解析的格式用 "html.parser"
然後印出 data

可以看到虽然还是看不懂但是跟之前不同了
这是经过 bs4 解析整理过後的样子

开爬-网页抓取指定位置

我们先试着抓抓看最明显的网页标题
也就是这个东西

接下来我们开浏览器到网页原始码的地方

网页标题的原始码就在这

它的标签是 title

所以我们把 print(data) 加上 .title
变成

print(data.title)

现在程序码

import requests
import bs4

url = "https://www.ptt.cc/bbs/Stock/index.html"
#抓PTT股票版的网页原始码

request = requests.get(url)
#将网页资料利用requests套件GET下来

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data.title)
#解析网页原始码

执行结果

可以看到成功印出来了

那如果不希望它旁边有标签
就在 print(data.title) 里面加上 .text
变成

print(data.title.text)

执行结果

可以看到成功去掉标签了

从以上我们可以看出在我们抓取资料时要一层一层指定我们要的资料

今天的程序码

import requests
import bs4

url = "https://www.ptt.cc/bbs/Stock/index.html"
#抓PTT股票版的网页原始码

request = requests.get(url)
#将网页资料利用requests套件GET下来

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data.title.text)
#解析网页原始码

今天我们知道怎样解析资料并指定到想要的位置
明天我们要来以文章标题做目标进行更进阶一点的爬取资料]