博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python2.7.3 --- scrapy举例
阅读量:5861 次
发布时间:2019-06-19

本文共 1093 字,大约阅读时间需要 3 分钟。

hot3.png

scrapy举例

0,安装scrapy

详细的请查阅这里

1,创建项目

sudo scrapy startproject dmoz

2,编写蜘蛛

到dmoz根目录下面的dmoz/spiders目录下面,创建dmoz_spider.py

内容如下:

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider):    name = "dmoz.org"    allowed_domains = ["dmoz.org"]    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"    ]    def parse(self, response):        hxs = HtmlXPathSelector(response)        sites = hxs.select('//ul/li')        items = []        for site in sites:            item = DmozItem()            item['title'] = site.select('a/text()').extract()            item['link'] = site.select('a/ ').extract()            item['desc'] = site.select('text()').extract()            items.append(item)        return items

3,执行蜘蛛

到项目的顶级目录执行

scrapy crawl dmoz.org --set FEED_URI=items.json --set FEED_FORMAT=json

4,查看结果

会在你当前执行的目录下面看到一个items文件

cat items.json

 

转载于:https://my.oschina.net/zhangdapeng89/blog/59555

你可能感兴趣的文章
主成分分析(PCA)中的误差表示
查看>>
你了解ABBYY PDF Transformer+吗
查看>>
怎么给PDF文档和扫描文件里的机密信息提高保护
查看>>
Mysql提供sequence服务
查看>>
前嗅ForeSpider教程:采集需要登陆的网页内容
查看>>
SID 的变化
查看>>
Python学习--subprocess
查看>>
基于bootstrap的简单响应式菜单
查看>>
如何在同一篇文章里不同位置引用同一篇参考文献
查看>>
程序员不可不知的Linux性能工具
查看>>
马哥——linux学习要求——计算机基础
查看>>
ssh+mysql实现的Java web论坛系统源码
查看>>
Tornado框架的初步使用
查看>>
C# Web应用调试开启外部访问
查看>>
PostgreSQL Redo 出错的恢复
查看>>
centos 6.5 配置nginx+Tomcat负载均衡群集
查看>>
为什么寄存器比内存快?
查看>>
PowerMock介绍
查看>>
【转载】try-catch
查看>>
Collections笔记
查看>>