主页 > 技术领域 >

数据采集原理

2018-05-01 21:59

在很早之前,写过一篇文章,和今天这篇文章内容一样,但是早就丢了,今天抽几分钟时间来重写下,那就是,市面上的代表性采集软件的采集原理都是怎样呢?

代表性的采集软件

现在来说,在“平民”数据采集的行业,火车采集器是很有代表性的,在说火车采集器之前,我们先来说说,“专业采集”和“平民采集”。

所谓的平民采集

什么是平民采集呢?就是普通站长们,用的一些采集软件,比如火车采集器、ET采集器等等,可以满足80%的站长们,用这些软件来填充数据内容,或者用来24X7不间断的数据更新。

平民采集:用软件、简单、采集量少

专业采集

专业数据采集,有一部分用在站长领域,有一部分用在其他领域,一般专业采集,不会用到市面上的软件,什么火车采集器之类的软件,或许是定制专业的采集软件,或者是用其他的语言写泛匹配,采集速度非常快,可能一天就采集几百万的数据,比如,最近,用Python写爬虫的,就很多,在短时间内,可以抓取非常非常多的数据,这个,是火车采集软件不可比拟的。

专业采集:专业定制、泛采集、速度快、数量多

采集原理

这里的采集原理,我们只说现在常用的采集软件,它们的原理是怎样呢?

要知道,软件,和人不一样,没有和我们人一样的逻辑思维,打开一个网页,知道那些内容是我们需要的,哪些是不需要的,软件,在没有一定的规则之前,是不知道这些的。

如果,我们给它配置一些规则呢?

网页,在软件的眼里边,都是html/CSS/JS等源码,它们也只认识这些,我们只需要告诉软件,开始和结束,那么,他们就知道,中间,就是我们需要的啦,很简单,如下图:

如上图,只要,我们告诉采集软件,把开始点定位“<div class="body-main">”,结束点,定为,“<div class="dashang">”,那么软件就知道,哦,中间的,就是我们需要的内容,这就是,所谓的采集软件,其实,专业也好、平民采集也罢,采集软件基本都一样,只不过,专业采集来说的泛采集,更加复杂而已。


小强博客

小强博客

1990年人士,8年互联网经验。
商业服务
  • (1)黑白帽SEO高端外包服务
  • (2)黑白帽SEO高端顾问
  • (3)中大型程序开发
  • (4)中大型数据库优化与开发
  • (5)高端培训(技术 & 思维)
  • (6)指定网站入侵扫描 & 安全检测
  • (7)指定服务器入侵扫描 & 安全检测
  • (8)黑灰色项目承接 & 合作 & 顾问
  • (9)开源CMS二次开发与BUG修复
  • (10)开源CMS模版设计开发与仿站
  • (11)小 & 中 & 大型网站从零开发
  • (12)品牌解决方案
  • (13)销量解决方案
  • (14)顾问与培训解决方案
  • 联系方式
  • QQ:97028048
  • 微信:zjkszq1990 & zZ683135
  • E-mail:adolph@timeandevent.com