当前位置: 首页 > 开发杂谈 >

爬虫怎麽爬 从零开始的爬虫自学 DAY19 python网路爬虫开爬-2网页解析

前言

各位早安,书接上回我们已经成功抓到网页的原始码了,今天我们要把它变成有用能阅读的资讯

开爬-网页分析

那我们解析网页就要用到 bf4 的功能了
先把印出全部 html 删掉 因为我们不用知道全部
https://ithelp.ithome.com.tw/upload/images/20211001/20140149WQImlmya7g.jpg
把这里删掉

接下来我们要解析它
在下面加上

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data)

我们建立 data 变数用来存放经过 bs4 解析过的资料 request.text
然後解析的格式用 "html.parser"
然後印出 data
https://ithelp.ithome.com.tw/upload/images/20211001/20140149OKdd9pellj.jpg
可以看到虽然还是看不懂 但是跟之前不同了
这是经过 bs4 解析整理过後的样子

开爬-网页抓取指定位置

我们先试着抓抓看最明显的网页标题
也就是这个东西
https://ithelp.ithome.com.tw/upload/images/20211001/20140149hGvXVVIlHa.jpg
接下来我们开浏览器到网页原始码的地方

网页标题的原始码就在这
https://ithelp.ithome.com.tw/upload/images/20211001/20140149JnfSk3ArX2.jpg
它的标签是 title

所以我们把 print(data) 加上 .title
变成

print(data.title)

现在程序码

import requests
import bs4

url = "https://www.ptt.cc/bbs/Stock/index.html"
#抓PTT股票版的网页原始码

request = requests.get(url)
#将网页资料利用requests套件GET下来

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data.title)
#解析网页原始码

执行结果
https://ithelp.ithome.com.tw/upload/images/20211001/2014014966CO1sXXtY.jpg
可以看到成功印出来了

那如果不希望它旁边有标签
就在 print(data.title) 里面加上 .text
变成

print(data.title.text)

执行结果
https://ithelp.ithome.com.tw/upload/images/20211001/20140149ChsJZrHELk.jpg
可以看到成功去掉标签了

从以上我们可以看出 在我们抓取资料时 要一层一层指定我们要的资料

今天的程序码

import requests
import bs4

url = "https://www.ptt.cc/bbs/Stock/index.html"
#抓PTT股票版的网页原始码

request = requests.get(url)
#将网页资料利用requests套件GET下来

data = bs4.BeautifulSoup(request.text, "html.parser")
print(data.title.text)
#解析网页原始码

今天我们知道怎样解析资料并指定到想要的位置
明天我们要来以文章标题做目标进行更进阶一点的爬取资料]


早安闲聊区

你知道吗?

鲸鱼的屍体放着会腐败发酵最後爆炸喔

每日二选一

如果可以的话你希望知道自己死掉的日期好好安排剩下时间还是不知道开心度日呢


相关文章:

  • [Day 12] 列表渲染v-for
  • 外贸人与客户谈判的一些注意事项
  • [Day 28] axios 这麽多API到底要放哪阿?
  • 怎样避免亚马逊review被删掉
  • GCP VPC防火墙
  • 跨境电商促销主题怎么定?这些细节要考虑
  • 【Day6】窗涵式,n_fft ,hop_length 到底什麽意思啊?
  • Day 11 (Bootstrap)
  • 并行程序的潜在问题 (一)
  • Day19 [PM杂技]word大型文件产制 -合并文件
  • Shopee中哪些违规会被扣分导致店铺没流量?
  • 做亚马逊失败的原因归结
  • Ruby、演算法学习心得(二) Big O notation。
  • Day 21: iOS也懂Koin喔?其实是KMM当工具人啦
  • 又一新兴市场崛起,这样的平台值得中国卖家入海吗?
  • WordPress 调试模式基本指南
  • Monzo Bank教程:英国银行卡申请教程【教你国内注册申请欧洲银行卡】
  • Google Play Store报错DF-DFERH-01怎么办
  • Linux入门:Linux文件操作教程(目录文件操作和系统资源占用情况操作)
  • 如何在Hositnger主机开启Cloudflare服务,Hositnger主机Cloudflare CDN使用教程
  • 数字人民币是什么?什么是数字人民币
  • WooCommerce 带动顾客购物的十种方法
  • 国外靠谱的VPS云服务器大全
  • Sendgrid使用教程:利用GitHub学生包每月发送15K邮件
  • 自建CDN教程:如何做一个自己的CDN
  • WordPress SEO怎么做?如何优化WordPress提升流量
  • 升级wordpress出错怎么办?wordpress升级502错误解决方法
  • 让 Rank Math SEO 输出关键词 keywords meta 字段信息
  • 美国花旗银行虚拟信用卡申请教程【国内怎么申请美国信用卡】
  • 免费VPS/腾讯云国际版/免费送300美金/有效期6个月