用 Python 畅玩 Line bot - 26：爬虫（一）

这次要尝试的是将爬虫与 line bot做结合，那你可以使用 line bot 就能够查询到本周上映的新片。

首先要安装下列套件

pipenv install requests
pipenv install BeautifulSoup4
pipenv install lxml

requests：用来处理 HTTP 请求
BeautifulSoup4、lxml：用来解析处理requests取得的数据

import requests
from bs4 import BeautifulSoup

#GET请求
r = requests.get('http://www.atmovies.com.tw/movie/new/')
r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')
print(soup)

为了避免抓取到的内容用 Unicode 解析时出现乱码，我们可以设定 encoding 为 utf-8。

再来因为想要挖的是本周新片的标题与网址，那我们可以先到网页那边看看他的原始码。

可以看到他的标题与网址部分是在 class 名称为 filmTitle 的 div 里面的 a 标签中。因此，我们可以将程序码改成下列样子。

import requests
from bs4 import BeautifulSoup

r = requests.get('http://www.atmovies.com.tw/movie/new/')
r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')

filmTitle = soup.select('div.filmTitle a')
print(filmTitle)

输出结果会是

[<a href="/movie/fwcn26679049/">瀑布 The Falls </a>,
<a href="/movie/fren47504818/">天兵阿荣 Ron's Gone Wrong </a>,
......
]

soup.select('div.filmTitle a')代表的是我们想要取得 class 名称为 filmTitle 的 div 中的 a 标签。

但我们只想要 a 标签内的文字跟网址部分，那就需要更精准的指令。

import requests
from bs4 import BeautifulSoup

r = requests.get('http://www.atmovies.com.tw/movie/new/')
r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')

filmTitle = soup.select('div.filmTitle a')
print(filmTitle[0].text)
print("http://www.atmovies.com.tw/" + filmTitle[0]['href'])

我们只要 filmTitle[0] 里的文字（也就是第一部电影的名称），所以使用filmTitle[0].text。
而 href 得内容只有 /movie/fren47504818/，还不是一个有效的网址，所以我们需要在前面加上 http://www.atmovies.com.tw/ 。

<<: 更新网格交易机器人

>>: Day 44. 之後..