Scrapy常见问题及解决方法

Scrapy常见问题及解决方法。

  1. 403 Forbidden

可能是User Agent的问题,在settings.py中配置USER_AGENT

  1. [DEBUG] 403 Forbidden by robots.txt

robots.txt不让抓,直接忽略它即可。settings.py中修改

ROBOTSTXT_OBEY = False
  1. 获取A链接的文本和链接
title = a1.css("::text").get()
# href = a1.css("::attr(href)").get()
# 两种方式都行,后者更简练
href = h2.attrib['href']

Leave a Comment

豫ICP备19001387号-1