羽方慢慢的已经习惯了每天的工作,也熟悉了hon的使用,在工作中更是完成越来越多的任务,协助者范平海完成分配的任务。
八月份的一天,范平海给他分配了一个任务,是做一个爬虫的项目,主要是给蜀川的一个运营商局点做的,两个人分配了任务,范平海负责整个代码的架构设计和内容的检测模块,而羽方主要负责爬虫的获取和解析模块。
说道这里,我们先普及一下爬虫的概念,爬虫呢,也就是网络爬虫,有时候也称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。羽方他们要完成的爬虫,自然是一个程序了,是限定了网络域名的简单爬虫。
羽方接到了任务以后,自然是马不停蹄的开始了工作。首先是查找资料,怎么获取网页内容,然后通过什么样的接口传递给网页解析模块,这些内容都需要设计的。虽然说主要的设计工作由范平海完成,但是羽方也必须考虑网页获取以及模块内部的设计工作。
首先羽方确认了要使用多线程来进行开发,因为很明显获取网页的操作是一个io耗时的操作,这种操作非常适合使用多线程来进行的,所以就确定了使用多线程来开发。至于获取网页内容的网络库,就直接使用系统的urllib库就好了。至于接口,范平海和前端的同事侯东确定定了使用mysql数据库来进行数据传递,所以爬取的结果把内容文件路径使用数据库来传递就可以了。
代码虽然不算很复杂,但是羽方还是写了将近一个星期的时间,才完成了代码的编写工作。之后是和范平海一起进行代码的联调工作,不过由于范平海这段时间还有其他的任务,所以主要是羽方在进行联调。经过了两天左右的联调,总算是把第一个版本给完成了,就等着到二十五号在蜀川那边部署了。
二十三号的时候,工程部的同事张朋出差到了蜀川的运营商局点,和局点的人进行沟通和准备相应的软硬件系统,以便于接下来的系统部署工作。下午上班的时候,范平海突然对羽方说:“蜀川的那个项目你后天支持一下安装和测试吧,我需要到新疆出差一趟,到了那边网络都不通,到时候有问题的话电话进行沟通吧。”
“我来支持?可是我都不会啊?”羽方心里一突。
“没事的,这个项目没有那么重要,就当是你的第一个项目支持了。你尽力就好,如果有不会的就问一下工程部的张朋,还是很简单的。”范平海安慰似的说道。
“好吧,我试一试,到时候有问题的话再问你。”羽方也是无奈,只能这么说。
“嗯,好的。你能行的。”
就这样,范平海去新疆出差了,而羽方则需要自己对蜀川的爬虫项目进行支持。
二十五号,张朋发消息说蜀川那边的机器已经部署好了,问需要安装那些软件,然后程序应该这么部署,同时让羽方把程序打包发送给他。
羽方:“需要安装activel,其他的应该就不需要了。然后程序放在d盘下面,新建一个spider目录好了。”
张朋:“好的,你稍等,我装一下。”
十分钟后,张朋回复到:“已经装好了,怎么运行啊?”
羽方:“你把程序解压缩,然后执行up。py就可以了。”
张朋:“解压缩了,可是怎么执行啊?在运行里吗?我刚才执行了,可是黑屏幕一闪就没有了啊。这样是执行成功了吗?”
羽方:“没有成功,不是在运行里,是在命令提示符下。你先运行cup。py。”
张朋:“好的。还是不行啊,提示hon不是一个有效的命令。”
羽方:“你安装activehon了吗?然后把目录添加到系统路径里。”
张朋:“安装了啊。路径怎么添加啊?在哪里添加?你给我截图一下吧。”
羽方:“好的,你稍等。”
羽方把配置系统环境变量h的截图发给了张朋。
张朋:“配置环境变量啊,这个我会。好了,又提示数据库没有配置,应该怎么配置啊?”
羽方:“奥,对了。你先到d:。py里面配置一下数据库和文件目录。然后再执行程序。”
张朋:“好。”
又是十分钟过去了。张朋:“还是不行啊,程序一启动就死了。”
..
就这样,一个上午过去了,程序还是没有运行起来。到了吃饭的时候,羽方心里还在想着出现的那些问题。总觉的有什么配置给配错了,可是又搞不明白。
下午上班的时候,羽方先给范平海打了一个电话,说明了一下上午遇到的问题,总是一启动就崩溃。然后范平海让他通过ssh把配置文件传给他,并告诉了羽方使用ssh的方法。
羽方传过去以后,范平海很快就看到了,然后打电话回来告诉他说有一个配置错了,应该写关键字路径的地方写错了,没有写全路径,还让他确认一下关键字列表是否传给了张朋,数据库是否正确建立了对应的表结构。
羽方赶紧张朋确认,果然关键字没有传过去,然后张朋就在关键字路径的地方设置了一个文件夹的路径,导致了解析关键字列表的时候程序直接崩溃了。于是羽方赶紧把关键字列表的文件传递给了张朋,然后张朋执行程序还是不行。再次确认之后,发现张朋创建的数据库表结构有点老了,也就是说少了一个字段,导致程序无法正常执行。
羽方再次导
喜欢程序员修炼生涯请大家收藏:(m.shudai.cc),书呆网更新速度最快。