首页 > 分享 > 一个简单的python网路爬虫示例——爬取《后来的我们》影评

一个简单的python网路爬虫示例——爬取《后来的我们》影评

花匠小妙招
2024-11-02 10:49

1.爬取第一页的所有影评

首先我们用百度搜索《后来的我们》影评，记录下此时的网址，如下：
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
在这里插入图片描述

右键当前页面，查看元素，我们可以发现在查看器中，所有的评论都是<p>来显示的，虽然后面的无关文字也有<p>来显示，但我们可以通过限制条件来只选出我们想要的评论。

在这里插入图片描述
接下来我们来选择网络，随便点击一个文件，在右边出现一个属性框，我们拉到最下面，记录下我们所用网页的User-Agent。

完成了所有准备工作，我们开始进行写代码。

为了完成我们的爬虫，我们需要导入两个库，一个是requests库，它用于向网页发送请求，具体用法详见linkhttps://m.cnblogs.com/xinz-study/p/9294452.html，另一个是bs4库中的BeautifulSoup类，用于获取网页的源码，具体用法详见linkhttps://m.jianshu.com/p/26a3632796dd。

完整代码如下：

# 需要调用的requests库和 bs4库中的BeautifulSoup工具 import requests from bs4 import BeautifulSoup num = 0 # 定义条数的初始值 # 定义一个变量url，为需要爬取数据我网页网址 url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P' # 获取这个网页的源代码，存放在req中，{ }中为不同浏览器的不同User-Agent属性，怎么获取前面已经介绍 req = requests.get(url,{ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'}) # 生成一个Beautifulsoup对象，用以后边的查找工作 soup = BeautifulSoup(req.text, 'html.parser') # 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中 xml

123456789101112131415161718