在seo優(yōu)化的過程中,經(jīng)常會遇到日志中有很多無效抓取,或者同一頁面收錄多個等問題,那怎樣引導蜘蛛正確抓取?避免造成一些不必要的收錄和抓取?
無效抓取的原因
通過我們對搜索引擎抓取策略的了解,我們知道搜索引擎會通過互聯(lián)網(wǎng)鏈接和目錄等形式分布式抓取,那導致我們出現(xiàn)無效抓取的原因也不外乎是以下5點:
robots.txt未設(shè)置完善,導致無關(guān)路徑被抓取;
程序規(guī)則適配未設(shè)置,導致單一頁面重復收錄;
網(wǎng)頁鏈接布局重復,導致無關(guān)頁面頻繁被抓取;
css、js等相關(guān)文件未做合并,導致抓取資源占取較大;
404頁面未配置,導致的無效頁面抓取;
而這些文件和規(guī)則的配置,通常seo都會做,但做的還不夠,必須正確配置才能將搜索引擎分配給我們的抓取資源合理利用,況且如果結(jié)構(gòu)不合理或無效文件抓取過多也會給搜索引擎造成質(zhì)量較差的印象。
正確配置的方式方法
關(guān)于robots配置
在robots中,除了對目錄的屏蔽還有對鏈接的屏蔽規(guī)則。
我們不希望搜索url被抓取收錄,便可以通過規(guī)則來進行屏蔽,找到規(guī)則中共有的 ?s= 然后在它的后面加上 * 便可以形成規(guī)則。
關(guān)于程序配置
關(guān)于程序配置需要注意的點便是避免產(chǎn)出重復url,如果無法在程序端修改,那一定要在服務(wù)器端適配好跳轉(zhuǎn)規(guī)則,以免造成重復收錄。典型的案例就是翻頁重復問題,這個翻頁重復問題一般來說都是程序?qū)е碌模纾簑ww.xxx.com/news/和www.xxx.com/news/list_1.html
本質(zhì)上來說,這倆頁面URL雖然不同,但內(nèi)容缺是相同的,所以需要及時適配跳轉(zhuǎn)規(guī)則,避免無效抓取和重復收錄。
關(guān)于網(wǎng)頁鏈接布局
合理使用 nofollow 屬性,單一頁面出現(xiàn)重復鏈接或者無需抓取鏈接均可以使用 nofollow 屬性來解決。
關(guān)于css與js相關(guān)文件
對于搜索引擎來說,一切新的內(nèi)容都可以是被重視抓取的,但眾所周知網(wǎng)頁中的css和js文件對于seo來說并不需要占取大量抓取資源,為了合理性考慮,相關(guān)配置文件數(shù)量可少便少,可按照類型和用途進行歸類匯總。
另外我們之前也提到過,主域名的跳轉(zhuǎn)適配也需要在建站過程中進行正確配置,否則很有可能造成www和不帶www二者同時收錄的情況,也是權(quán)重不集中的體現(xiàn)。
本文標題: 如何提升搜索引擎抓取率 降低無效抓取
本文地址: http://3824dh.com/brand/news-87mc944bc.html
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com
2009-2024 黃頁88版權(quán)所有 京ICP備2023012932號-1 │ 京公網(wǎng)安備 11010802023561號 京ICP證100626
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com