ZennoPoster是我博客里面介绍了很多次的自动神器,它有很多用途,不管是数据采集,发布,还是各种定制任务都是毫无压力。
今天分享一个ZennoPoster的应用思路和案例:用来采集手机号和邮箱。而且都是定向群体,可以向他们推广企业服务类产品,比如各种企业服务,软件,SEO服务之类。
采集目标:各类企业信息发布平台(黄页),以下以 顺企网作为举例 (b2b.11467.com)
采集流程和脚本制作注意事项:
- 点击进入城市分类,再选择行业类目,再选择子行业,直到出现企业列表
2、采集列表页每个公司介绍的具体网址,步骤如下:用ZP的Project Maker打开这个列表页,查看源代码,然后观察要采集链接的代码特征,截取前后的代码,然后打开正则表达式测试器,把前后代码放进去测试,看是否能够得到正确的值,注意一般要选择最短匹配,如果符合我们要求,就可以复制这个正则表达式待用。
3、从project maker的左边工具栏,拖一个数据处理工具到右边编辑区,选择分析结果,将上一步测试的正则表达式复制张贴过去。新建一个列表company_url ,并将所有的通过正则表达式获得的结果放入这个列表。
4、因为公司列表有多个页面,page1、2、20等,因此,我们可以利用变量和逻辑判断工具制作一个循环执行,先制定一个初始变量例如 page_number=1,每采集一个页面,就增加1,直到采集完所有的列表页面后,保存所有的网址到本地电脑txt文件。
5、接着就是采集具体的公司介绍页面数据,我们先用project maker 打开一个具体的企业介绍页面。选择你要采集的网页元素。例如,要采集公司名称(不是必须的),鼠标点选黑色标题,右键选择检查页面元素,然后观察右边的元素树,可以看到这个标题,是使用H1标签的,因此非常容易定位,只需要在元素树那里选择h1标签,然后选择至操作编辑器,然后选择适合定义的元素,属性选择fulltagename刚好合适,只有唯一值,然后选择动作 Get(取值),选择innertext(文本字符),看到测试结果正确显示了公司名称,正是我们要取的值,然后点击添加至项目,就完成公司名称的采集了。
6、接着我们采集联系方式,通过元素树的观察,手机号,邮箱等都是相同的dd标签,有很多相同的,很难直接定位。只能先缩小范围,先把联系方式这一块的html代码单独采集出来,再用正则表达式处理。
用div标签定位,id选择contact,是唯一的,然后动作用 get,提取这联系方式这一块的html值,保存到一个变量。
7、然后把这一段html值放入正则表达式测试器,测试获得手机号码和邮箱的表达式,方法同上,只需要找到所需值的前后的代码,不需要懂复杂的正则表达式就可以获得。
8、这样我们就可以采集到公司名称,负责人手机,邮箱三项数据。
9、每访问一个公司介绍网址,就能得到一条数据。如果一个列表有1000条数据,我们就先设置一个变量为1,每次访问提取了一个网址,变量加1,继续下一条,不断循环,一直到 if 判断语句,符合条件,比如变量 number<1000, 不成立 (采集完了),那么就跳出循环,执行下一步,保存数据。
保存数据有多种方式,可以采用写入文件,也可以写入表格等。这里用最简单的写入文件,每采集一条就保存一条,(每个条目用逗号隔开,分别是公司名,邮箱,手机号,其他,这样的格式导入到excel表格也方便),勾选最下面的附加到文件, 和在末尾添加行,可以逐条自动增加新的一行保存(如果不勾选这两项,就会不断地被覆盖,保存到永远是最后一条哦)
10、 为了避免出错和方便管理,建议每次只采集一个子分类,用Excel做采集记录和整理,每采集一个子分类就做一个标记,逐个分类采集,这样你将来使用数据的使用也方便分类。
Zennoposter这一类的自动化软件,是从事繁琐工作的好帮手,你只需要花半个小时写一个脚本,设定好运行。几天下来,可能就有了几万,这只几十万的宝贵数据,是不是很节省时间和精力呢?
数据也是资产,有了这些数据,你就可以将它们转化为收入。因为行业性质非常明显,其实这种类型数据还是很容易找到需求点和对应产品的。我在本站曾经分享过具体案例,利用Zennoposter 采集精准邮箱,然后用Zennoposter写的邮件群发,推广教程,一天收入几千元。
以上只是对ZP的一个用法的介绍和举例,学会了它,你真的可以打造完全是属于自己的自动化赚钱管道。
如果你希望系统学习Zennoposter,可以参考我原创的ZP教程,里面有我多年的使用经验总结,还有好多实例脚本参考学习。