网络爬虫程序员被抓，我们还敢爬虫吗？细数那些Java爬虫技术

发布时间：2019-10-19 22:10:05 所属栏目：优化来源：架构之路

导读：最近，某大数据科技公司因为涉嫌非法抓取某招聘网站用户的简历信息，公司被查封，负责编写抓取程序的程序员也将面临坐牢。事情的大概经过是这样的：某大数据科技公司老板丢给一个小小的程序员一个网站，告诉他把这个网站的数据抓取下来，咱们做一做分析

最近，某大数据科技公司因为涉嫌非法抓取某招聘网站用户的简历信息，公司被查封，负责编写抓取程序的程序员也将面临坐牢。

网络爬虫程序员被抓，我们还敢爬虫吗？细数那些JAVA爬虫技术

事情的大概经过是这样的：

某大数据科技公司老板丢给一个小小的程序员一个网站，告诉他把这个网站的数据抓取下来，咱们做一做分析。这个小小的程序员就吭哧吭哧的写了一段抓取代码，测试了一下，程序没问题，可以正常的把这个网站的数据给抓取下来，然后就毫不犹豫的上线了。过了几天，这个小小的程序员发现抓取的速度有点慢啊，然后他就将1个线程改成10个线程，发布上线，开始抓取，程序跑的没毛病。

过了一段时间，网站主的老板发现最近网站访问量激增，并且还经常宕机。然后组织公司程序员排查系统问题，经过排查发现，系统某一个接口频繁访问，遂怀疑有人恶意攻击，于是就报案了。警察通过访问来源IP顺藤摸瓜，查到小小程序员所在的公司，把公司全员200人全部扣留调查，这名小小程序员由于负责抓取程序的编写，将面临坐牢。小小程序员一脸懵逼，我只负责老板交给我的任务，我犯什么法了?

看了这个新闻，程序员朋友还不赶快将你的爬虫程序下线，要不下一个抓的就是你，怕不怕?

爬虫技术对于大多数程序员来说一点不陌生，大多数程序员都干过爬虫的事情吧!我记得我刚毕业入职的第一家公司我就是负责爬虫的。主要爬取各大高校官网的新闻资讯信息，然后利用这些信息给高校做手机微官网。当然，我们是经过了大多数高校的默认的。

今天我们暂且不论爬虫是否违法，这个问题我们也论不清楚。国内现在这么多做大数据分析公司，他们可以提供各种数据分，他们的数据是从哪里来的?有几家是正当来源?恐怕大多都是爬来的。今天我们细数那些java爬虫技术。

一、Jsoup

的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。这也是我最早使用的爬虫技术。

二、HtmlUnit

HtmlUnit是一款java的无界面浏览器程序库。它可以模拟HTML文档，并提供相应的API，允许您调用页面，填写表单，点击链接等操作。它是一种模拟浏览器以用于测试目的的方法。使用HtmlUnit你就感觉你是在操作浏览器，他对于css和js都可以很好的支持。

三、Selenium

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11)，Mozilla Firefox，Safari，Google Chrome，Opera等。

Selenium我觉得是最好的爬虫工具了，因为它完全模拟浏览器。由程序掉起浏览器，模拟人的操作。关于Selenium在我的文章[Selenium利器!解放测试程序员的双手]有专门讲解。

最后，爬虫有风险，使用需谨慎。希望广大程序员朋友在使用爬虫技术的时候，要有数据隐私的意识。

以下内容来源网络：

如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。

除此之外，根据相关规定，对于违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，窃取或者以其他方法非法获取公民个人信息的，均可构成成“侵犯公民个人信息罪”，处三年以下有期徒刑或者拘役，并处或者单处罚金;情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

（编辑：甘孜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

当SEO 为啥你的网页内	怎样将网站SEO与品牌结
网站优化的影响条件是	一个新网站做SEO需要多