Day23 爬取IG照片

因为最近要推甄了,差不多该做专题了,所以我来纪录一下过程。

步骤一

利用request套件爬取IG的AJAX,我是爬星巴克的粉专,这个好像叫做动态爬虫。下面这个是星巴克粉专有标注星巴克的AJAX。

url = "https://www.instagram.com/graphql/query/?query_hash=be13233562af2d229b008d2976b998b5&variables=%7B%22id%22%3A%22193366488%22%2C%22first%22%3A12%7D"

步骤二

然後解析回传的JSON档格式,他的格式如下,意思是
在["data"]下有["user"]
在["user"]下有["edge_user_to_photos_of_you"]
在["edge_user_to_photos_of_you"]下有["edges"]
在["edges"]下有第[i]篇贴文
在第[i]篇贴文下有["node"]
在["node"]下有["display_url"]
,看懂後把图片网址找出来。

["data"]["user"]["edge_user_to_photos_of_you"]["edges"][i]["node"]["display_url"]

步骤三

最後下载到电脑里。下载的方式很多种,我是用以下的方式,要注意要用OS套件锁定要存放的位置,不然照片会找不到喔。

urllib.request.urlretrieve(网址,位置)

步骤四

重复前三步骤。

以上是大概的思维,至於要怎麽丢到模型训练我也还在寻找


<<:  Day29 javascript RegExp介绍

>>:  Spring Framework X Kotlin Day 24 Performance Test

子查询最佳化

举一些子查询的例子方便大家容易理解 mysql> select m,n from (selec...

[Day11] 设定 DialogFlow 专案

在昨日我们已经完成Actions On Google的专案设定 接下来,我们将接续设定Dialog...

Line Bot 发送文字讯息外的格式 (Message types)

前几天了解该怎麽开发 LIFF App 的基本知识,在正式进入开发 LIFF App 之前,我们先来...

.NET Core第9天_MVC_Model的引入

在上一篇我们已经知道MVC路由和静态资源导入的方式 因此起手式 从新增专案.net core空专案到...

Swift纯Code之旅 Day16. 「页面传值?代理? Delegate?Protocol?(2)」

前言 目前已经将Protocol都设置完毕了,那现在就要来实作让其他的ViewController执...