在seo優化的過程中,經常會遇到日志中有很多無效抓取,或者同一頁面收錄多個等問題,那怎樣引導蜘蛛正確抓取?避免造成一些不必要的收錄和抓取?
無效抓取的原因
通過我們對搜索引擎抓取策略的了解,我們知道搜索引擎會通過互聯網鏈接和目錄等形式分布式抓取,那導致我們出現無效抓取的原因也不外乎是以下5點:
robots.txt未設置完善,導致無關路徑被抓取;
程序規則適配未設置,導致單一頁面重復收錄;
網頁鏈接布局重復,導致無關頁面頻繁被抓取;
css、js等相關文件未做合并,導致抓取資源占取較大;
404頁面未配置,導致的無效頁面抓取;
而這些文件和規則的配置,通常seo都會做,但做的還不夠,必須正確配置才能將搜索引擎分配給我們的抓取資源合理利用,況且如果結構不合理或無效文件抓取過多也會給搜索引擎造成質量較差的印象。
正確配置的方式方法
關于robots配置
在robots中,除了對目錄的屏蔽還有對鏈接的屏蔽規則。
我們不希望搜索url被抓取收錄,便可以通過規則來進行屏蔽,找到規則中共有的 ?s= 然后在它的后面加上 * 便可以形成規則。
關于程序配置
關于程序配置需要注意的點便是避免產出重復url,如果無法在程序端修改,那一定要在服務器端適配好跳轉規則,以免造成重復收錄。典型的案例就是翻頁重復問題,這個翻頁重復問題一般來說都是程序導致的,例如:www.xxx.com/news/和www.xxx.com/news/list_1.html
本質上來說,這倆頁面URL雖然不同,但內容缺是相同的,所以需要及時適配跳轉規則,避免無效抓取和重復收錄。
關于網頁鏈接布局
合理使用 nofollow 屬性,單一頁面出現重復鏈接或者無需抓取鏈接均可以使用 nofollow 屬性來解決。
關于css與js相關文件
對于搜索引擎來說,一切新的內容都可以是被重視抓取的,但眾所周知網頁中的css和js文件對于seo來說并不需要占取大量抓取資源,為了合理性考慮,相關配置文件數量可少便少,可按照類型和用途進行歸類匯總。
另外我們之前也提到過,主域名的跳轉適配也需要在建站過程中進行正確配置,否則很有可能造成www和不帶www二者同時收錄的情況,也是權重不集中的體現。
本文標題: 如何提升搜索引擎抓取率 降低無效抓取
本文地址: http://3824dh.com/brand/news-87mc944bc.html
內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com
2009-2025 黃頁88版權所有 京ICP備2023012932號-1 │ 京公網安備 11010802023561號 京ICP證100626
內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com