目前而言，已经用python编写了一个网络爬虫抓取页面，和一个简单的前端

网络爬虫，已经有很多高手写过，我基本上奉行了拿来主义，
得益于python完善的lib，这个网络爬虫实现起来非常的简单:

使用urllib2从对应的url地址抓取html

一个需要注意的地方是，有部分网站会限制爬虫访问，所以我加入了headers用于模拟浏览器访问。
这个方法差强人意，但是我也没有找到一个更完善的办法。

抓取到页面后，基于HTMLParser做了html的解析:

基本上，要说的就是HTMLParser使用方法见文档，HTMLParser预先了定义了一组虚接口handle_starttag，handle_data和handle_endtag，使用者通过重载这三个接口，来实现对html中的tag进行处理，进而完整的解析抓取到的html。

然后基于抓取到的页面做了前端的搜索功能。

搜索引擎

0 (0%)

好评

0 (0%)

中评

0 (0%)

差评

娜迦源码博客

浏览店铺收藏店铺

娜迦源码博客

微信：娜迦源码博客

已认证

已缴纳 2999.00 元保证金

店内导航

源码

搜索引擎

1 最新BAOCMS.V5.1白金一键安装版，宝CMS原版程序源码分享，手机WAP+微信版，源码无加密

2 10月最新小猪微店系统源码分享，PIGCMS微店分销系统，微信接入，可对接微米及小猪O2O

3 仿禾今微信全民红包营销 6.0商业版插件

4 微信营销cms

5 168开奖网源码，完美运行，实时开奖

6 2019区块鱼/区块链系统/理财系统/华登区块链/区块宠物养殖系统

7 追梦企业网站管理系统（zmcms） v1.4 UTF-8 build20141031

8 永利国际彩票支付对接版带控杀+PC+WAP手机版

9 迪士尼三 - 迪士尼3功能加强版带独立代理系统+WAP手机版+网页采集结算可设置中奖率+自动计划+...

10 乐彩40多种 pc端加手机端

搜索引擎

1 最新BAOCMS.V5.1白金一键安装版，宝CMS原版程序源码分享，手机WAP+微信版，源码无加密

2 10月最新小猪微店系统源码分享，PIGCMS微店分销系统，微信接入，可对接微米及小猪O2O

3 仿禾今微信全民红包营销 6.0商业版插件

4 微信营销cms

5 168开奖网源码，完美运行，实时开奖

6 2019区块鱼/区块链系统/理财系统/华登区块链/区块宠物养殖系统

7 追梦企业网站管理系统（zmcms） v1.4 UTF-8 build20141031

8 永利国际彩票支付对接版 带控杀+PC+WAP手机版

9 迪士尼三 - 迪士尼3功能加强版带独立代理系统+WAP手机版+网页采集结算可设置中奖率+自动计划+...

10 乐彩40多种 pc端加手机端

8 永利国际彩票支付对接版带控杀+PC+WAP手机版