数据爬虫是什么意思,网络爬虫的用处解释

大家都知道,互联网是由海浪构成的,因为人人都可以在里面冲浪。

数据爬虫是什么意思,网络爬虫的用处解释

但很多人不知道的是,相比于浪花,互联网上最多的东西,其实是爬虫。

言下之意就是你的网线生虫了。

爬虫其实是一门计算机中的技术,它被广泛应用于搜索引擎。

常见的搜索引擎有百度、Google、Bing等。

搜索引擎的工作原理大致分为爬取信息、存储、建立索引、排序、检索等环节,其中第一阶段就是使用专用程序收集网页数据,这个程序通常称为蜘蛛(Spider)或爬虫(Crawler)。

搜索引擎从已知的数据库出发,访问这些网页并抓取文件。

搜索引擎通过这些爬虫从一个网站爬到另一个网站,跟踪网页中的链接,访问更多的网页,这个过程称为爬行,这些新的网址会被存入数据库等待搜索。

简而言之,爬虫就是通过不间断地访问互联网,然后从中获取你指定的信息并返回给你。

而我们的互联网上,随时都有无数的爬虫在爬取数据,并返回给使用者。

除了搜索引擎,爬虫还可以完成很多别的事情。

2018年春运期间,12306网站访问量的日峰值一度达到了1500亿,平均每个中国人一天访问了近100次12306网站。

可是你转念一想,就算是抢票,好像也没见过谁一天上一百多次12306啊!

其实12306超高访问量的幕后黑手,就是传说中的

数据爬虫是什么意思,网络爬虫的用处解释

当你在抢票APP上点击抢票软件过后,APP上就会显示抢票次数。

事实上,APP每抢一次票就等于是利用爬虫访问了一次12306。

如果有余票的话,它就直接帮你拍下。

如果没有余票,那就过一会儿再来。

此时的爬虫就像一个死皮赖脸的油腻男,傍着12306这个如花似玉的小姑娘死活不撒手。

爬虫:美女,有票吗~~~?

12306:没有,滚!

几秒钟过后···

爬虫:美女,有票吗~~~?

12306:没有,滚!

几秒钟过后···

爬虫:美女,有票吗~~~?

12306:没有!!滚啊!!!

······

而这样的搭讪,春运的时候一天要发生1500亿次。

12306:老娘真难。

数据爬虫是什么意思,网络爬虫的用处解释

也正是这个原因,12306的服务器有着近乎恐怖的抗压能力。

每年双十一的时候,阿里巴巴都如临大敌,但淘宝双十一上亿的访问量跟12306的1500亿比起来还是差了很多。

而且每年双十一就一天,春运却有整整一个月!

12306:老娘太难了!!

即便如此,每年双十一刚开始的时候,淘宝偶尔还是会出现卡顿、断网的现象。

事实上,对于绝大多数网站和APP来说,能够同时保证上百万用户的无压力使用就已经很不错了,上亿访问量的情况基本上都不存在。

因此爬虫的爬取功能不仅可以获取数据,还可以作为一种攻击方式,让一个网站在短时间内访问量激增,进而导致网站崩溃。

所以人们不得不制订了相关的法律法规,限制人们对爬虫的使用。

而我们在登录网站时输入的各种各样的奇葩验证码,在某些方面也是为了增加爬虫访问网站的难度。

数据爬虫是什么意思,网络爬虫的用处解释

可是再严格的规范,也防不住有些头铁的犯罪分子,以及···技术小白。

早在小编还在读书的时候,就已经听过无数的悲剧。

很多小白刚学会编写爬虫,就兴致勃勃地丢到了网络上准备试一试水。

然而有些人在开发的时候却忘了给爬虫设定一个访问频率,结果爬虫顿时化身加特林菩萨,以毫秒为单位疯狂访问目标网站,对目标网站进行了一场物理超度。

数据爬虫是什么意思,网络爬虫的用处解释

最终的结局除了目标网站崩溃,还有就是看守所里又多了一个秃头程序员。

也许正是因为这些悲剧太多吧,小编的下一届学弟学妹们就多了一堂课——信息安全法律基础···

数据爬虫是什么意思,网络爬虫的用处解释

随着人工智能的发展,爬虫识别白百合和王珞丹的能力可能比人类还要强,各大网站的验证码也是因此越来越复杂。

但其实每个技术诞生之初都是无罪的,无奈有些人拿着这些技术去做一些不法的勾当,使得技术本身也不再纯洁。

而对技术的污染,最后的恶果还是得由我们自己吃下。

12306不得不耗费更多的精力开发新技术来屏蔽抢票软件,并且自己开发出了候补购票的功能,来满足大家的抢票需求。

各大网站的开发人员也不得不耗费大量精力开发各种新奇的验证码,而用户也不得不花费更多的时间去解锁验证码。

而这种技术带来的便利和痛苦并存的状态,将一直伴随着人类文明···

派优网部分新闻资讯、展示的图片素材等内容均为用户自发上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习交流。用户通过本站上传、发布任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们一经核实,立即删除。并对发布账号进行封禁。
(0)
派大星的头像派大星

相关推荐

返回顶部