
【火車(chē)頭采集器基本介紹】
火車(chē)采集器是一款專(zhuān)業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁(yè)中大量非結(jié)構(gòu)化的文本,圖片等資源信息,然后通過(guò)一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。并可以選擇發(fā)布到網(wǎng)站后臺(tái)、導(dǎo)入數(shù)據(jù)庫(kù)或者保存在本地Excel,Word等格式的文件中。火車(chē)采集器歷經(jīng)十年的升級(jí)更新,積累了大量用戶和良好口碑,是目前最受歡迎的網(wǎng)頁(yè)數(shù)據(jù)采集軟件。
【火車(chē)頭采集器軟件特色】
真正通用采集不限網(wǎng)頁(yè),不限內(nèi)容,支持多種擴(kuò)展,打破操作局限。采什么,如何采,都由您決定!
高效穩(wěn)定
分布式高速采集系統(tǒng),多個(gè)大型服務(wù)端同時(shí)穩(wěn)定運(yùn)作,快速分解任務(wù)量,最大化提升效率。
性價(jià)比高
高性能的產(chǎn)品,搭配親民的價(jià)格,“為客戶節(jié)約成本,提升價(jià)值”是火車(chē)采集器的服務(wù)理念。
數(shù)據(jù)精準(zhǔn)
內(nèi)置采集監(jiān)控系統(tǒng),實(shí)時(shí)報(bào)錯(cuò)及時(shí)修復(fù);采集發(fā)布時(shí)確保數(shù)據(jù)零遺漏,為用戶呈現(xiàn)最精準(zhǔn)的數(shù)據(jù)。
【火車(chē)頭采集器軟件功能】
-多線程高速并行采集系統(tǒng)任務(wù)分配至多個(gè)客戶端,同時(shí)運(yùn)行采集,效率倍增。

-多識(shí)別系統(tǒng)
配備正文識(shí)別、中文分詞識(shí)別、任意編碼識(shí)別等多種識(shí)別系統(tǒng),智能識(shí)別操作更輕松。

-可選驗(yàn)證方式
可選擇是否使用加密狗,隨時(shí)保障數(shù)據(jù)安全。

-全自動(dòng)運(yùn)行
無(wú)需人工值守操作,任務(wù)完成后自動(dòng)關(guān)機(jī)。

-替換功能
同義,近義詞替換、參數(shù)替換,偽原創(chuàng)必備技能。

-任意文件格式下載
圖片、壓縮文件、視頻等任意格式的文件都能輕松下載。

-系統(tǒng)運(yùn)行監(jiān)控
監(jiān)控?cái)?shù)據(jù)質(zhì)量,確保數(shù)據(jù)準(zhǔn)確性。

-支持多數(shù)據(jù)庫(kù)
支持Access/MySQL/MsSQL/Sqlite/Oracle多種類(lèi)型的數(shù)據(jù)庫(kù)保存及發(fā)布。

-無(wú)限級(jí)多頁(yè)采集
支持包含ajax請(qǐng)求數(shù)據(jù)在內(nèi)的多個(gè)頁(yè)面信息的無(wú)限級(jí)采集。

-支持?jǐn)U展
支持接口和插件擴(kuò)展,滿足各種采發(fā)需求。

【火車(chē)頭采集器軟件亮點(diǎn)】
幾乎所有網(wǎng)頁(yè)都能采集無(wú)論什么語(yǔ)言,無(wú)論什么編碼。
速度是普通采集器的7倍
火車(chē)采集器采用頂級(jí)系統(tǒng)配置,反復(fù)優(yōu)化性能,讓采集速度快到飛起來(lái)!
和復(fù)制/粘貼一樣準(zhǔn)確
采集/發(fā)布如同復(fù)制/粘貼一樣精準(zhǔn),用戶要的全都是精髓,怎能有遺漏!
網(wǎng)頁(yè)采集的代名詞
獨(dú)具十年歷練,成就業(yè)界領(lǐng)先品牌,想到網(wǎng)頁(yè)采集,就想到火車(chē)采集器!
【火車(chē)頭采集器安裝教程】
在起點(diǎn)軟件園下載火車(chē)頭采集器破解版安裝包,解壓后,雙擊進(jìn)入安裝界面點(diǎn)擊下一步,開(kāi)始安裝

選擇“我接受..”,下一步

選擇安裝位置后,點(diǎn)擊安裝

安裝中,需等待幾分鐘

安裝完成

【火車(chē)頭采集器使用教程】
火車(chē)頭采集器怎么采集圖片?首先我們打開(kāi)軟件,然后找到我們需要采集的任務(wù),點(diǎn)擊鼠標(biāo)雙擊進(jìn)入該任務(wù)的詳細(xì)設(shè)置。

接下來(lái)我們?cè)谠O(shè)置界面中選擇第二步,采集內(nèi)容規(guī)則。

在采集內(nèi)容規(guī)則中,我們會(huì)看到一個(gè)名為內(nèi)容的分類(lèi)也就是正文,我們雙擊,這個(gè)內(nèi)容。

此時(shí),我們會(huì)看到,在標(biāo)題編輯的頁(yè)面中,有一個(gè)下載圖片,剛下載圖片進(jìn)行打鉤,接下來(lái)我們?cè)O(shè)置文件存放的目錄,我們可以點(diǎn)擊,存放目錄右側(cè)的一個(gè)感嘆號(hào),然后會(huì)彈出一個(gè)下拉框,我們選擇命名格式即可。


圖片默認(rèn)保存在本地,那么圖片的位置在哪里呢?我們打開(kāi)軟件,然后找到Data\LocoySpider\647文件夾


在這個(gè)文件夾內(nèi),你會(huì)看到當(dāng)前所有下載的圖片。

火車(chē)頭采集器怎么發(fā)布數(shù)據(jù)到接口
首先我們打開(kāi)軟件,然后選擇你想要發(fā)布的采集任務(wù),雙擊接下來(lái)我們雙擊這項(xiàng)任務(wù)進(jìn)入到編輯任務(wù)界面,在這個(gè)界面中,我們選擇第三步發(fā)布內(nèi)容設(shè)置。


在發(fā)布內(nèi)容設(shè)置中,我們選擇方法一,用WEB發(fā)布到目標(biāo)網(wǎng)站,然后打勾。

當(dāng)我們進(jìn)行勾選后,我們選擇下方的WEB發(fā)布配置管理,

在外部配置管理界面中,我們選擇,想要發(fā)布的模塊,這里大家要注意一下,一定要有發(fā)布模塊,并且規(guī)則沒(méi)有問(wèn)題,才可以正確發(fā)布。


最后我們返回軟件初始界面,然后進(jìn)行發(fā)布,就可以發(fā)布到WEB網(wǎng)站上了。

火車(chē)頭采集器怎么從列表頁(yè)提取標(biāo)簽?
我們一般都是在第一步采集網(wǎng)址第二步建立標(biāo)簽采集內(nèi)容其實(shí)在第一步采集網(wǎng)址的時(shí)候也是可以建立標(biāo)簽采集內(nèi)容的,也就是采集列表頁(yè)的內(nèi)容。
這個(gè)功能的使用重點(diǎn)就是找的規(guī)律和格式?。。?!
第一步:采集網(wǎng)址規(guī)則,添加多級(jí)網(wǎng)址采集規(guī)則,選擇“手動(dòng)填寫(xiě)鏈接地址規(guī)則”,在右側(cè)腳本規(guī)則框里面填寫(xiě)我們上面找的規(guī)律,然后我們把要采集的網(wǎng)址和內(nèi)容用采集器的
標(biāo)簽和參數(shù)表示如下:

地址就用[參數(shù)]表示,在要采集的內(nèi)容就建立[標(biāo)簽:XXX]
實(shí)際鏈接地址,組合方式可可以只是參數(shù)還可以用標(biāo)簽還可以自己寫(xiě),就看自己需要了。
腳本規(guī)則里面的參數(shù)和實(shí)際鏈接那里的[參數(shù)1],[參數(shù)2],[參數(shù)n]是按照順序一一對(duì)應(yīng)的。
這里建立的標(biāo)簽名如果在第二步:采集內(nèi)容規(guī)則那里已經(jīng)存在了,是沒(méi)有辦法建立的,要先刪掉第二步那里已經(jīng)存在的標(biāo)簽或者換標(biāo)簽名字。
設(shè)置好了,采集器就按照這個(gè)格式循環(huán)匹配把符合這個(gè)格式的地址和內(nèi)容采集下來(lái),我們測(cè)試看下:

我們雙擊采集到的網(wǎng)址,進(jìn)入第二步:

是灰色的,也就是說(shuō)在第一步建立的標(biāo)簽是灰色的。

上圖我們?nèi)绻麖?fù)制一個(gè)地址來(lái)測(cè)試采集是采集不到從列表頁(yè)建立的標(biāo)簽內(nèi)容的,因?yàn)槲覀儤?biāo)簽是從第一步建立的,那么值也是從第一步采集到的,所以上面是從測(cè)試采集網(wǎng)址得到的地址,雙擊進(jìn)入第二步測(cè)試的。


































