首页 > 分享 > 《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫

《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫

花匠小妙招
2024-12-07 19:16

一、前言

大家好呀，我是summo，前面已经教会大家怎么去阿里云买服务器（链接在这，需要自取），以及怎么搭建JDK、Redis、MySQL这些环境或者数据库。从这篇文章开始就进入正式的编码阶段了，我们从后端开始，先把热搜数据获取到，然后再开始前端部分。

本来我想把后端应用搭建和完成第一个爬虫分为两篇文章写的，但是想到墨迹三周还没看到效果，估计有些同学已经等不及了，所以我把这两篇文章合成一篇了，篇幅比较长，感兴趣的同学可以认真看下。因为后端应用初始化的时候涉及很多配置，有很多命名，建议大家写别急着个性化用自己的名字命名应用和配置，可以先用我的命名方式搭建一个出来，先成功再研究个性化，这样成就感很足，学习动力也强。

二、后端应用搭建

这个摸鱼小网站主要使用的SpringBoot框架配合一些中间件实现，开发工具用的是idea社区版，建议不要下载人家的正式版然后破解，一来麻烦的很，二来社区版足够开发使用了，点击这个可以下载idea社区版。

1. maven项目搭建

打开idea后，点击New Project，我们从一个空的maven项目开始，一步步把项目搭建出来。

我们输入name、GroupId、ArtifactId点击确定，如果你是老手可以自己搭建，如果你是新手建议跟我输的一样，因为后面还有很多地方要用的这些名字。

把src目录删掉，我们不需要，只留下pom.xml文件就行了。

接下来我们开始创建子module，创建方式如下图：

以summo-sbmy-start子module为例，输入如下的信息就可以创建一个module出来啦。

按照这个方式创建出如下的module出来。

2. pom.xml配置

这部分我现在不详细说，后面我会单独写一篇文章讲我的依赖和配置。如果刚才你的名字取得跟我一样，直接复制粘贴就完事了，如果名字不一样记得把名字给替换为你的。

（1）summo-sbmy

pom.xml内容如下：

（2）summo-sbmy-start

pom.xml内容如下：

（3）summo-sbmy-common

pom.xml内容如下：

（4）summo-sbmy-dao

pom.xml内容如下：

（5）summo-sbmy-service

pom.xml内容如下：

（7）summo-sbmy-web

pom.xml内容如下：

pom.xml配置贴好后，更新一下，把依赖包都下载下来。如果你发现下载的非常慢，把maven仓库的镜像换一下，换成阿里云的。镜像配置如下：

3. application.properties配置

4. logback-spring.xml配置

5. 创建启动类

点击启动，打印如下就算成功

三、实现抖音热搜爬虫

第一次写爬虫代码，我们找一个最简单，也是最安全的例子，抖音热搜。

1. 爬虫方案评估

为什么简单？
它就一个接口： https://m.iesdouyin.com/web/api/v2/hotsearch/billboard/word/，免登录也不需要参数，你们直接在浏览器上调用就可以把抖音的热搜数据获取到了；

为什么安全？
调用 https://m.iesdouyin.com/robots.txt接口，返回如下：

这个代表什么呢？

看到了吗，人家不仅允许你去爬，还提供了网站地图的链接，这也是他们为了提高谷歌、必应、百度等浏览器的收录的一种办法。所以，不用担心爬这些数据会怎么样了。

2. 获取链接的cURL代码

先上一张图，如下：

大概的步骤如下：

输入 https://m.iesdouyin.com/web/api/v2/hotsearch/billboard/word/链接，按下enter；打开控制台，选择【全部】找到刚才调用的接口；选中接口，右键打开菜单，选择复制里面的“以cURL格式复制”这一项。

复制出来是这样的东西

能看懂吗？能看懂最好，看不懂也没有关系，不是给我们看的，给Postman看的。Postman是一个http接口调用工具非常好用，电脑上没有Postman的同学就去下载一个。

3. 使用Postman生成调用代码

打开你的Postman软件，按照我下面这张图操作：

按照我上面的步骤，将cURL命令导入Postman，可以快速生成一个调用请求，如下图：

这个方式也可以用在我们平时调试接口，比如说有一个接口报错了，需要不断地叫前端重试一下，再重试一下，非常麻烦。这个时候你就可以叫前端把这个cURL复制给你，自己动手重试，就不用麻烦别人啦。

在Postman的右上角有一个Code snippet，可以直接生成你想要的调用代码，啥Java、Python、NodeJs都有，不用自己写，复制就可以运行。咋样，Postman没有白骗你下载吧！

代码如下

4. 将代码迁移到应用中

在summo-sbmy-job这个module下，创建一个文件夹com.summo.sbmy.job.douyin，创建DouyinHotSearchJob.java，代码如下

这个爬虫代码会在启动的时候执行一次，然后每一小时执行一次。这样，我们的第一个定时爬虫就做好了。如果以上的内容你都看不懂，那就直接复制我这代码吧，鱼和渔都给你了。

四、小结一下

这一篇配置文件很多，篇幅很长，大家要耐心和细心一些，不然很容易出错。这里给出的配置是按照最终版给的，到时开发的时候不用担心少依赖或者少包，至于原理和选型后面再单独说吧。我觉得看一个Java程序员经验丰不丰富从他搭建的脚手架就可以看出来，因为脚手架不像代码一样有标准，它是由框架和插件构成的，适合你就用，没有什么是必须的。

还有就是爬虫，可能有些同学会失望，这玩意咋这么简单，一点技术含量都没有。简单的原因一是热搜接口都是免登无校验的，二是因为我已经给你们趟了一条路出来，饭喂到嘴里了。后面还有很多热搜爬虫，有些也挺麻烦的，不用急，我会慢慢公布。
大多数同学大多数时间都只是在干CRUD的活，也没有独立建站的经验，虽然没有但是可以学！现在不会练练就会！100块钱的实操经验绝对比100块钱买的专栏更有意义更有用！

最后，自建摸鱼网站，各大网站热搜一览，上班和摸鱼很配哦！