fphammerle
/
docker-scrapy-ping


			
							1234567891011121314151617181920212223242526
							import re

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class PingSpider(CrawlSpider):

    name = "ping"

    custom_settings = {
        # default: 3 min
        "DOWNLOAD_TIMEOUT": 30,  # [s]
        # WORKAROUND
        # [boto] ERROR: Unable to read instance data, giving up
        "DOWNLOAD_HANDLERS": {"s3": None},
    }

    def __init__(self, start_url):
        self.start_urls = [start_url]
        self.rules = (
            Rule(LinkExtractor(allow="^" + re.escape(start_url))),
            Rule(LinkExtractor(tags="img", attrs="src", deny_extensions=set())),
            Rule(LinkExtractor(tags="link", attrs="href", deny_extensions=set())),
        )
        super(PingSpider, self).__init__()