試用 購買(mǎi)
留言論壇
當前頁(yè)面:熊貓智能采集軟件> 留言論壇

關(guān)于子頁(yè)面的采集結果

作者: 殷冰 | 閱讀: 4209/2   2021/3/19 15:50:28
 
所需采集的內容只有通過(guò)內容頁(yè)面的子頁(yè)面來(lái)采集,不采集內容頁(yè)面,把子頁(yè)面鏈接分析后采集到標題和內容,可是,內容頁(yè)面是不同的,可是這些不同的內容頁(yè)面可能會(huì )出現重復的子頁(yè)面的所需采集的鏈接,結果,就會(huì )得到若干個(gè)同樣的標題和內容的數據,如何去重呢?只保留第一次子頁(yè)面采集到的內容,第二次及以后采集到的相同鏈接的子頁(yè)面的內容數據時(shí)可以直接判斷過(guò)濾或者廢棄呢?這些子頁(yè)面可能是不同一級頁(yè)面的超鏈接,謝謝!


2 樓: 管理員 2021/3/22 12:16:09
 
不是很明白你描述的意思,請你直接把要采集的頁(yè)面的網(wǎng)址發(fā)來(lái)看看。如果需要保密該網(wǎng)址,可以直接私信網(wǎng)站客服QQ或微信。


友情鏈接: 建筑結構軟件 中國制造業(yè)博覽 飛翔下載 好特下載 當下軟件園 通用數據采集器 六度軟件下載 ZOL應用下載

Copyright @ 2011 t6bz.cn All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4

国产精品天干天干在线观看_人人妻人人澡人人爽欧美一区_久久亚洲精品AB无码播放_欧美多人混交免费观看