入关键字搜集各查找引擎的网址、域名、标题、描绘等信息
支撑百度、搜狗、谷歌、必应、yahoo、360等。每个关键词600到800条,搜集比如
关键词可以趁便查找引擎参数,就跟网页里输入关键词查找相同,
如百度里查找效果网址中有必要包含bbs的关键词,则输入“关键词 inurl:bbs.”
保存模板可引证的数据:#网址#
搜集的原始网址
#标题#
网址对应的网页标题
#域名#
原始网址的域名部分,如“http://www.6666a.cn/123.htm”中的“test.6666a.cn”
#顶级域名#
取原始网址的顶级域名部分,如“http://www.6666a.cn/123.htm”中的“6666a.cn”
#描绘#
网页标题下面的一段描绘文字
Excel导出:
csv是一种文本表格,能被Excel兼容显现为多列多行的数据。只要在保存模板中设置为:
"#网址#","#标题#","#描绘#"
这种格式就是csv格式,运用引号围住每个项目,多个项目运用逗号隔开,然后保存扩展名填为csv即可
问题集锦:
1.为什么搜集一段时间之后,无法搜集?
这或许搜集多了被查找引擎约束。一般换个IP(如运用VPN换IP)即可持续搜集,假设不换,只能等待查找引擎吊销屏蔽之后才华持续搜集。百度的屏蔽时间一般半小时到数小时。
不过,现在即使出现验证码屏蔽,软件也会弹出验证码手动输入的(百度、谷歌)
2.不同批次关键词搜集的效果为什么会存在部分网址重复?
尤其是只引证了 #域名# 或 #顶级域名# 之后,这种部分网址重复的情况比较多。这也是正常的,因为每个网站的内页或许包含许多主题,不同关键词都或许搜集到该网站的不同内页,当引证域名后,相同网站的不同内页的域名效果天然就相同了。
另外,软件里的自动去重,是针对本次搜集的效果内部进行去重,以前搜集的效果是不在本次去重规划的。假设两次搜集的效果存在部分网址重复,可以把他们兼并一同,运用软件去重(水淼·文本去重打乱器)。
3.为什么搜集回来的网址的主题与关键词不符?
是因为引证了 #域名# 或 #顶级域名# 后,取的是域名部分,域名翻开的是该网站的主页,而搜集的原网址或许不是主页,而是该网站的某一篇文章的内页,该内页包含关键词主题,因而被查找引擎录入,软件才华搜集得到。但取域名后,你翻开的域名主页就不必定包含该关键词。
为了比对搜集是否正确,可以在保存模板里输入:#标题#
,保存为htm文件,搜集完后可以自己翻开该文件查看比对。
1、本资源所有言论和图片纯属会员个人意见,与本97社区立场无关
2、所发布的一切资源、源码和教程及软件仅限用于学习和研究目的
3、不得将上述内容用于商业或者非法用途否则,一切后果请用户自负。
4、本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内删除
5、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
97社区资源网 » 水淼·关键词网址采集器v2.2.3.2
小迪
VIP
分享到: