試用 購買(mǎi)
留言論壇
當前頁(yè)面:熊貓智能采集軟件> 留言論壇

熊貓實(shí)戰經(jīng)驗的總結

作者: 管理員 | 閱讀: 37497/0   2016/8/3 10:16:17
 
這是對一個(gè)熊貓大型用戶(hù)使用過(guò)程中軟件操作改進(jìn)的意見(jiàn),分享在這兒。

====================================
正式運行的項目,運行設置注意事項:

1、可以去掉項目高級設置中“詳盡輸出日志”的默認勾選。并去掉“輸出調試日志”的勾選?梢詼p輕日志的壓力。進(jìn)而減少硬盤(pán)IO的操作,提高系統整體性能。

2、項目高級設置-采集-勾選“斷點(diǎn)續采時(shí)分析失敗的頁(yè)面不再訪(fǎng)問(wèn)”?梢蕴岣咝。

3、項目高級設置-采集-勾選“斷點(diǎn)續采時(shí)不檢查重復子項”。在存在重復子項的場(chǎng)合下,可以勾選此項提高效率。

4、項目高級設置-解析-勾選“使用高速解析模式”?梢燥@著(zhù)提高運行效率。新版本中,此項默認是勾選。老版本下配置的項目,此項未能勾選。

5、如果“選擇內容頁(yè)”里面采用的是中介方式,則可以勾選“項目高級設置-解析-"列表頁(yè)面不做仿瀏覽器解析"”?商岣咝。


6、重復數據的處理方式中。第一項和第二項,差別不大。第二項“檢查補充新增內容”,指某一條記錄下多個(gè)字段之間的數據補充。只有極少數場(chǎng)合下,才需要使用該功能。

6.1、正式運行的項目,除非特殊需要,一律選擇第三項“斷點(diǎn)續采”。

7、“選擇內容頁(yè)”的設置中,如果選擇“方式1:直接指定...”的設置方法,在對方網(wǎng)站改版導致配置失效的時(shí)候,系統會(huì )嘗試自動(dòng)進(jìn)行分析,用于補救。因此推薦使用“方式1”。

7.1、“選擇內容頁(yè)”的設置中,用中介方式,靈活性不足。不推薦使用。會(huì )導致配置很容易過(guò)期。
7.2、優(yōu)先嘗試使用“新建項目(快捷)”方式,在該方式無(wú)效的情況下,再改用“新建項目(標準)”模式。


8、對于搜索引擎的關(guān)鍵詞搜索,優(yōu)先使用“新建項目(關(guān)鍵詞)模式”。此種方式優(yōu)勢在于可以合并不同搜索引擎下,相同的搜索結果。避免不必要的重復訪(fǎng)問(wèn)?梢蕴岣咝。

8.1、中文搜索引擎的“有道”已經(jīng)關(guān)門(mén),其數據為調用360搜索的數據。因此有道的搜索沒(méi)有必要存在。騰訊的搜搜同樣已經(jīng)關(guān)門(mén)。

8.2、新建項目(關(guān)鍵詞搜索)模式下,出現的搜索引擎,是目前中文搜索引擎中有效的搜索。

9、“內容頁(yè)面模板管理”中,如果選擇的是自定義模板。則可以勾選“模板均失敗時(shí)改用自動(dòng)解析模式”,用于補救數據。此時(shí)系統在所有模板均分析失敗時(shí),調用“自動(dòng)解析”里面的設置進(jìn)行自動(dòng)解析、分析。


10,對于存在防采集的場(chǎng)合,可以打開(kāi)項目高級設置-“頁(yè)面訪(fǎng)問(wèn)參數”-勾選“同時(shí)使用動(dòng)態(tài)UserAgent”?梢燥@著(zhù)減少被K幾率。

10、如果被搜索引擎屏蔽搜索?梢源蜷_(kāi)項目高級設置-“云計算”-選擇“僅請求協(xié)助網(wǎng)頁(yè)的訪(fǎng)問(wèn)”,并勾選“只有列表頁(yè)的訪(fǎng)問(wèn)使用云請求”。此時(shí)基本就不會(huì )被搜索引擎屏蔽。前提是云計算處于可用狀態(tài)。

11、項目專(zhuān)屬數據庫文件data.mdb。要及時(shí)清理,一旦文件大小達到2G,就會(huì )出現ACCESS操作報錯的情況。項目日志文件同樣如此。


12、正文采集項,如果使用中介方式獲取正文,則需要對獲取的正文中的HTML代碼執行修繕操作。否則容易導致正文長(cháng)度過(guò)大、過(guò)長(cháng)。此項很重要,否則會(huì )導致采集系統、分揀系統效率低下。修繕正則語(yǔ)法:<.+?>

13、正文可以不入庫。項目高級設置-字段默認值-選擇主表-選擇“正文”。勾選“設置該字段默認值”-勾選“值不入庫”。由于數據會(huì )在采集的同時(shí),會(huì )發(fā)布到遠程服務(wù)器,因此本次保存的信息,只有url才有用途。正文可以不存儲,大幅度節約文件大小。節約硬盤(pán)IO。




友情鏈接: 建筑結構軟件 中國制造業(yè)博覽 飛翔下載 好特下載 當下軟件園 淘寶數據采集軟件 六度軟件下載 ZOL應用下載

Copyright @ 2011 t6bz.cn All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4

国产精品天干天干在线观看_人人妻人人澡人人爽欧美一区_久久亚洲精品AB无码播放_欧美多人混交免费观看