先看搜索证据
Google 的抓取规则文档强调它用于告诉爬虫哪些网址可请求,适合把抓取边界从口头判断变成文件规则。
把可抓取的日报、专题、资源库与不希望抓取的测试、参数、低价值路径分开,而不是只维护默认抓取规则文件。
被看见不等于被选择
真正有用的问题不是页面有没有出现过,而是搜索问题、页面承诺和下一步动作是否服务同一个读者任务。
先核对页面路径
- 列出站点网址类型:公开索引、公开但低优先级、测试页、接口、参数页,并对应抓取或不索引策略
- 先选一个低风险任务或工具入口验证权限、日志、失败处理和人工接管,不要直接接入关键生产流程
哪些还要核验
规则不清时,爬虫会浪费抓取注意力,也可能把低价值路径纳入搜索判断。原始来源保留在文末,方便把公告事实、证据和本站判断分开看。