試用 購買(mǎi)
留言論壇
當前頁(yè)面:熊貓智能采集軟件> 留言論壇

希望能增加正則表達式、xpath定位和對json結構快速提取信息

作者: 2339083510 | 閱讀: 7536/2   2016/8/5 0:52:04
 
昨天在公司剛剛用上熊貓,立刻把我吸引上了。以前用網(wǎng)絡(luò )礦工,bug很多而且太多的頁(yè)面采不了,所以打算放棄了,特定在網(wǎng)上查了一下,決定試試看,學(xué)習一下熊貓采集
今天上班的話(huà),我打算學(xué)習一下熊貓,如果確實(shí)很牛,我就去和領(lǐng)導提一下,開(kāi)個(gè)付費賬戶(hù)。以前研究其它的采集軟件,學(xué)了很多,不想就拋棄了,希望這個(gè)軟件能支持這些功能(可能已經(jīng)支持了)
1.正則表達式
2.xpath定位和提煉信息
3.把json文本轉換成表格
4.允許用戶(hù)寫(xiě)一些復雜的腳本
5.把采集到的信息生成xls、csv(因為我是搞數據分析的,這對我來(lái)說(shuō)很有意義)
6.有一個(gè)通用的方案,支持使用者自己寫(xiě)一些腳本,以調用其它軟件的接口,比如我有時(shí)候很希望有一個(gè)簡(jiǎn)單的軟件,能把采集到的數據用一定的方式提交給一個(gè)代數系統,然后接收代數系統返回的結果,并進(jìn)行收錄


2 樓: 管理員 2016/8/5 8:46:56
 
你好! 熊貓兼容老式采集軟件的“標簽”操作方法,需要使用標簽定位的時(shí)候,請使用“中介方式”即可。

在標簽定位中,并不支持正則表達式,因為根據經(jīng)驗,不恰當的正則表達式會(huì )導致系統性能緩慢,CPU狂飆。因此對于復雜的標簽提取,可以使用中介方式中的“高級中介方式”。

對于xpath / json輸出的內容,可以用中介方式提取,然后利用下級子頁(yè)面中的子表功能進(jìn)行批量提取即可。很簡(jiǎn)單的。

熊貓提供有一個(gè)功能強大、靈活的“結果的修繕”功能,實(shí)現對原始獲取的結果數據的深度清洗、加工,里面支持正則語(yǔ)法。配合項目高級設置中的“字段默認值”的相互間的賦值功能,可以實(shí)現復雜的數據加工。


5、熊貓的采集結果,默認是自動(dòng)存儲在項目專(zhuān)屬文件夾下的data.mdb文件中。為offic.access軟件格式,用office.excel軟件也可以直接打開(kāi)查看,也可以用excel打開(kāi)后,另存為需要的xls,csv格式。

6、熊貓有數據模擬發(fā)布功能。為萬(wàn)能模式,借助已有的人工發(fā)布頁(yè)面進(jìn)行發(fā)布。

如果你的采集需求比較復雜,可以加熊貓QQ2607374426,給你遠程演示一下。


3 樓: 2016/8/5 9:26:59
 
我先用用看,不懂再發(fā)帖詢(xún)問(wèn),非常感謝你的答復


友情鏈接: 建筑結構軟件 中國制造業(yè)博覽 飛翔下載 好特下載 當下軟件園 淘寶數據采集器 六度軟件下載 ZOL應用下載

Copyright @ 2011 t6bz.cn All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4

国产精品天干天干在线观看_人人妻人人澡人人爽欧美一区_久久亚洲精品AB无码播放_欧美多人混交免费观看