爬虫怎麽爬从零开始的爬虫自学 DAY18 python网路爬虫开爬-1网页抓取

前言

各位早安，书接上回我们已经搞定接下来会用到的套件的安装了，套件是很强大的工具可以帮助我们简化很多复杂程序码，接下来今天我们要开始期待已久的开爬时间

但是在这之前要麻烦你先做一件事
删除之前的练习档 string.py
为甚麽呢这要从小弟我开心的测试爬虫程序开始讲起
有一天在运行我自己的 test.py 测试档的时候不断出现这个结果

我就觉得奇怪怎麽会这样还跑出小明跟小白这超眼熟的阿
後来想起来这是之前练习档案的内容
阿奇怪怎麽我执行的是 test.py 报错就算了反而跑出别的档案的内容呢
後来经过我反覆确认及思考突然想通了原来是我取的名字太烂干扰到系统抓资料了阿
难怪会跑出 string.py 的内容
所以麻烦大家为了不要遇到问题
先找到它

然後果断按下删除键吧

开爬-网页抓取

首先第一步就是打开我们好久没用到的 crawler.py 档案编辑器
那在我们开爬之前我们要先知道我们想要抓取那些资讯
所以今天假设我是一个想了解股票资讯的年轻人
想要抓取PPT股票版的内容了解最近的事
所以首先找到目标网页 url (网址)
复制下来
接着先 import 要用的套件功能 requests bs4
接着建个变数放 url

这里补充一下在 python3 中 # (井字号) 後面的内容叫做注解是不会被程序执行到的

接着我们要用 requests 内的方法把网页内资料 GET 下来
再把它印出来看看

print(request.text) 意思是把 request 内的东西以文本形式印出
红色框住的地方开始就是抓到的网页内容是 html 格式的网页原始码
我先提醒一下这里抓到的内容都是网页实时更新的内容你们跟我不一样很正常

我们到目标网页上看看原始码

先对网页点右键再点检视网页原始码

就会看到这样的视窗这就是刚刚网页的 html 原始码

跟刚刚我们爬虫抓到的一样

今天的程序码

import requests
import bs4

url = "https://www.ptt.cc/bbs/Stock/index.html"
#抓PTT股票版的网页原始码
request = requests.get(url)
#将网页资料利用requests套件GET下来
print(request.text)
#将网页资料印出来

今天我们知道怎麽抓到资料
明天要来讲解析这些资料的方法还有怎麽抓取特定资料

早安闲聊区

你知道吗?

就连声控关灯也算是人工智慧喔

每日二选一

你觉得人工智慧发展下去会跟电影里一样毁灭人类吗

<<: Day30-30天的心得与作者的心声

>>: DAY 20-数位签章-ECDSA

爬虫怎麽爬从零开始的爬虫自学 DAY18 python网路爬虫开爬-1网页抓取

前言

开爬-网页抓取

早安闲聊区

你知道吗?

每日二选一

产生资料库 DbContext 实体原型

Day 24：专案06 - 股市趋势图01 | 单月股市API、Pandas

[DAY9]制作容器(八)

JavaScript入门 Day18_function介绍

Day09:09 - User服务(4) - 前端 - JWT token、修改个人资料

效率在哪里？别再开会开到死

Day 26: Server我也不要了，Mock Ktor 环境

Day 25. Hashicorp Vault: Diagnose Vault server

#11. Color theme switcher + Clock（原生JS版）

那些被忽略但很好用的 Web API / History