首先我们用百度搜索《后来的我们》影评,记录下此时的网址,如下:
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
右键当前页面,查看元素,我们可以发现在查看器中,所有的评论都是<p>来显示的,虽然后面的无关文字也有<p>来显示,但我们可以通过限制条件来只选出我们想要的评论。
接下来我们来选择网络,随便点击一个文件,在右边出现一个属性框,我们拉到最下面,记录下我们所用网页的User-Agent。
完成了所有准备工作,我们开始进行写代码。
为了完成我们的爬虫,我们需要导入两个库,一个是requests库,它用于向网页发送请求,具体用法详见linkhttps://www.cnblogs.com/xinz-study/p/9294452.html,另一个是bs4库中的BeautifulSoup类,用于获取网页的源码,具体用法详见linkhttps://www.jianshu.com/p/26a3632796dd。
完整代码如下:
# 需要调用的requests库和 bs4库中的BeautifulSoup工具 import requests from bs4 import BeautifulSoup num = 0 # 定义条数的初始值 # 定义一个变量url,为需要爬取数据我网页网址 url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P' # 获取这个网页的源代码,存放在req中,{ }中为不同浏览器的不同User-Agent属性,怎么获取前面已经介绍 req = requests.get(url,{ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'}) # 生成一个Beautifulsoup对象,用以后边的查找工作 soup = BeautifulSoup(req.text, 'html.parser') # 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中 xml
123456789101112131415161718相关知识
用Python爬虫获取网络园艺社区植物养护和种植技巧
用Python做兼职,轻松赚取零花钱,分享Python兼职经验
使用美汤从HTML中提取特定的标题
python玫瑰花代码简单
这个好玩!用Python识别花卉种类,并自动整理分类!
玫瑰花的python程序代码
Python实现识别花卉种类的示例代码
python 生成玫瑰花代码
python玫瑰花代码讲解
Python中的花——详解花的图形绘制
网址: 一个简单的python网路爬虫示例——爬取《后来的我们》影评 https://m.huajiangbk.com/newsview328308.html
上一篇: 魔芋是什么 |
下一篇: 花节日图片 |