大家好呀,我是summo,前面已经教会大家怎么去阿里云买服务器( 链接在这,需要自取),以及怎么搭建JDK、Redis、MySQL这些环境或者数据库。从这篇文章开始就进入正式的编码阶段了,我们从后端开始,先把热搜数据获取到,然后再开始前端部分。
本来我想把后端应用搭建和完成第一个爬虫分为两篇文章写的,但是想到墨迹三周还没看到效果,估计有些同学已经等不及了,所以我把这两篇文章合成一篇了,篇幅比较长,感兴趣的同学可以认真看下。因为后端应用初始化的时候涉及很多配置,有很多命名,建议大家写别急着个性化用自己的名字命名应用和配置,可以先用我的命名方式搭建一个出来,先成功再研究个性化,这样成就感很足,学习动力也强。
这个 摸鱼小网站主要使用的SpringBoot框架配合一些中间件实现,开发工具用的是idea社区版,建议不要下载人家的正式版然后破解,一来麻烦的很,二来社区版足够开发使用了, 点击这个可以下载idea社区版。
打开idea后,点击New Project,我们从一个空的maven项目开始,一步步把项目搭建出来。
我们输入name、GroupId、ArtifactId点击确定,如果你是老手可以自己搭建,如果你是新手建议跟我输的一样,因为后面还有很多地方要用的这些名字。
把src目录删掉,我们不需要,只留下pom.xml文件就行了。
接下来我们开始创建子module,创建方式如下图:
以summo-sbmy-start子module为例,输入如下的信息就可以创建一个module出来啦。
按照这个方式创建出如下的module出来。
这部分我现在不详细说,后面我会单独写一篇文章讲我的依赖和配置。如果刚才你的名字取得跟我一样,直接复制粘贴就完事了,如果名字不一样记得把名字给替换为你的。
(1)summo-sbmypom.xml内容如下:
(2)summo-sbmy-startpom.xml内容如下:
(3)summo-sbmy-commonpom.xml内容如下:
(4)summo-sbmy-daopom.xml内容如下:
(5)summo-sbmy-servicepom.xml内容如下:
(7)summo-sbmy-webpom.xml内容如下:
pom.xml配置贴好后,更新一下,把依赖包都下载下来。如果你发现下载的非常慢,把maven仓库的镜像换一下,换成阿里云的。镜像配置如下:
点击启动,打印如下就算成功
第一次写爬虫代码,我们找一个最简单,也是最安全的例子,抖音热搜。
为什么简单?
它就一个接口: https://www.iesdouyin.com/web/api/v2/hotsearch/billboard/word/,免登录也不需要参数,你们直接在浏览器上调用就可以把抖音的热搜数据获取到了;
为什么安全?
调用 https://www.iesdouyin.com/robots.txt接口,返回如下:
这个代表什么呢?
看到了吗,人家不仅允许你去爬,还提供了网站地图的链接,这也是他们为了提高谷歌、必应、百度等浏览器的收录的一种办法。所以,不用担心爬这些数据会怎么样了。
先上一张图,如下:
大概的步骤如下:
输入 https://www.iesdouyin.com/web/api/v2/hotsearch/billboard/word/链接,按下enter; 打开控制台,选择【全部】找到刚才调用的接口; 选中接口,右键打开菜单,选择复制里面的“以cURL格式复制”这一项。复制出来是这样的东西
能看懂吗?能看懂最好,看不懂也没有关系,不是给我们看的,给Postman看的。Postman是一个http接口调用工具非常好用,电脑上没有Postman的同学就去下载一个。
打开你的Postman软件,按照我下面这张图操作:
按照我上面的步骤,将cURL命令导入Postman,可以快速生成一个调用请求,如下图:
这个方式也可以用在我们平时调试接口,比如说有一个接口报错了,需要不断地叫前端重试一下,再重试一下,非常麻烦。这个时候你就可以叫前端把这个cURL复制给你,自己动手重试,就不用麻烦别人啦。
在Postman的右上角有一个Code snippet,可以直接生成你想要的调用代码,啥Java、Python、NodeJs都有,不用自己写,复制就可以运行。咋样,Postman没有白骗你下载吧!
代码如下
在summo-sbmy-job这个module下,创建一个文件夹com.summo.sbmy.job.douyin,创建DouyinHotSearchJob.java,代码如下
这个爬虫代码会在启动的时候执行一次,然后每一小时执行一次。这样,我们的第一个定时爬虫就做好了。如果以上的内容你都看不懂,那就直接复制我这代码吧,鱼和渔都给你了。
这一篇配置文件很多,篇幅很长,大家要耐心和细心一些,不然很容易出错。这里给出的配置是按照最终版给的,到时开发的时候不用担心少依赖或者少包,至于原理和选型后面再单独说吧。我觉得看一个Java程序员经验丰不丰富从他搭建的脚手架就可以看出来,因为脚手架不像代码一样有标准,它是由框架和插件构成的,适合你就用,没有什么是必须的。
还有就是爬虫,可能有些同学会失望,这玩意咋这么简单,一点技术含量都没有。简单的原因一是热搜接口都是免登无校验的,二是因为我已经给你们趟了一条路出来,饭喂到嘴里了。后面还有很多热搜爬虫,有些也挺麻烦的,不用急,我会慢慢公布。
大多数同学大多数时间都只是在干CRUD的活,也没有独立建站的经验,虽然没有但是可以学!现在不会练练就会!100块钱的实操经验绝对比100块钱买的专栏更有意义更有用!
最后, 自建摸鱼网站,各大网站热搜一览,上班和摸鱼很配哦!
相关知识
基于springboot模式鲜花售卖商城花店网站的设计与实现 nqs65限时秒杀
鲜花售卖网站的设计与实现(源码+开题报告)
基于Python爬虫的电商网站彩妆数据的分析与研究
基于Python+django的爬虫的李宁品牌销售数据分析系统设计与实现(源码+文档+部署讲解等)
java“花花世界”网站(源码+开题报告)
ios移动端应用服务器端开发教程,iOS下个人完成移动端、后端(简易版)一条龙
Java基于Vue+SpringBoot的植物科普健康系统
ssm/php/node/python花卉网站(源码+mysql+文档)
jsp网上花店网站资源
京东爬虫
网址: 《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫 https://m.huajiangbk.com/newsview949299.html
上一篇: 妙码生花/BuildAdmin |
下一篇: layui快速搭建一个后台管理系 |