准备工具:
1.Navicat Premium 17
3.WPS或者office
1.运行采集任务
2.当任务结束之后,双击子比社区采集【自己命名为准】,进入之后点击其它设置-排除重复设置里面有个重复网址库,记录下来。
3.找到你安装火车头的根目录,桌面上有快捷方式直接选中之后右键打开文件所在位置,如果还是快捷方式就再选中之后右键查找,不行就直接到你安装目录里面搜索文件名。
4.进入目录如下,不同版本文件可能有所差异但是不重要
5。里面有个Data目录,这目录下主要放的是数据库以及采集日志等。此时打开之前记录的重复网址库对应的数字文件夹,SpiderResult.db3这个里面就是放的采集下来的数据。
6.打开软件Navicat Premium 17 将这个数据库直接拖入左侧双击点开
7.注意里面有两个表,第一个Content是放的文章信息,第二个DownloadFile放的是采集图片网址以及本地保存图片路径
第一个表Content
(1)ID就是排序,已采已发1代表有0代表没有,标题内容时间都是自己定,PageUrl就是原文链接可以不用管。
(2)如果用execl形式修改,上方有个工具点击导出
(3)然后就是选择导出形式,选择完成之后可以直接点击我框的位置直接导出,中间可以不用修改,如果需要修改导出路径就点下一步
(4)导出之后可以为模板进行修改,修改完成时候保存文件再进行导入,导入还是在工具选项里面。
(5)然后就选择修改文件路径,选择完成之后点下一步,其它的都是默认的。最后一步之前要注意一下,一般选择第三个就好追加或更新,当然具体还是根据自己使用需求。这个第一个表到这里基本就结束了,如果需要修改图片路径就看第二个表
第二个表DownloadFile
Id | PreUrl | TrueUrl | SaveUrl | ReplaceUrl | Status | Upload | Type | PageUrl | ContentId |
(1)id根据顺序排列就可以了
(2)PreUrl原文章图片地址,如https://www.xxx.net/data/attachment/forum/202404/19/213110us99hhcxdh37suhd.jpg
(3)TrueUrl为原文章图片实际地址,和(2)有点区别但是不大,这两个地址可以不用管
(4)SaveUrl就是下载下来的图片路径,如E:\图片下载\xxx\wp-content/uploads/2024/04/1615786808882861.jpg,这个是和你文章里面的一一对应,
(5)ReplaceUrl采集器文章显示路径一般为wp-content/uploads/2024/04/1615786808882861.jpg,这些路径实际是你下载图片时候填的路径,如果没有采集就按照(4)里面的随便进行填写,不过只需要图片后面一部分就行,不用完整路径
(6)下面这三个就按照导出的数据进行填写,可以不进行更改
Status | Upload | Type |
(7)PageUrl采集页链接可以不用管
(8)ContentId这个是最重要的,这个里面的序号对应的是你第一个表里面的序号和文章关联的,是可以重复的。比如你文章排序344,此时这个ContentId就是344,这个文章有多个图片那么都是344关联。
暂无评论内容