发表时间 : 2024年11月14日
在自制的通用网站内容采集工具中增加了一个功能,这个功能在使用率上也是经常使用到的。之前的采集只针对那些网站序号连续的,对于那些比如按日期时间命名的网页就采集不到。
为了解决这个问题,今天发了半个小时的工作完成了一个附加功能,先通过分页导航获得每个页面有效的需采集的页面地址,加入到“地址”表中,然后采集。
今天试了一个例子,到央视网养生频道里下载了一个“保健一品堂”的栏目内容,网站这个栏目下有美体、养颜、性趣、误区四个栏目,看了一下感觉“误区”内容不好就没采集那个。
截图下方有显示“共有记录数”,截图包含了表的所有字段列。该数据提供ACCESS数据库文件(扩展名是MDB)以及EXCEL文件(扩展名是XLS)。
为了解决这个问题,今天发了半个小时的工作完成了一个附加功能,先通过分页导航获得每个页面有效的需采集的页面地址,加入到“地址”表中,然后采集。
今天试了一个例子,到央视网养生频道里下载了一个“保健一品堂”的栏目内容,网站这个栏目下有美体、养颜、性趣、误区四个栏目,看了一下感觉“误区”内容不好就没采集那个。
截图下方有显示“共有记录数”,截图包含了表的所有字段列。该数据提供ACCESS数据库文件(扩展名是MDB)以及EXCEL文件(扩展名是XLS)。
购买联系
QQ 36498753 | 微信 WebDataBase | 旺旺 linshengling | 支付宝 linshengling@163.com |