SEO設(shè)計(jì)過(guò)程的第一步是確保你的網(wǎng)站能夠被搜索引擎發(fā)現(xiàn)并爬行。說(shuō)起來(lái)容易,但做起來(lái)卻很難,因?yàn)橛性S多熱門(mén)網(wǎng)站設(shè)計(jì)和運(yùn)行架構(gòu)是爬蟲(chóng)無(wú)法理解的。
可索引的內(nèi)容
要想在搜索引擎中獲得好的排名,那么你的網(wǎng)站內(nèi)容,也就是呈現(xiàn)給網(wǎng)站訪客的材料,必須是HTML文本格式。例如,圖片和 Flash文件盡管能被搜索引擎爬廳,但搜索引擎卻很難分析這些內(nèi)容。因此這些文件便不適合向搜索引擎?zhèn)鬟f頁(yè)面相關(guān)性的信號(hào)。搜索引擎很難識(shí)別圖片的相關(guān)性,這是因?yàn)镚IF、JPEG或PNG格式的圖片文件內(nèi)含有極少的文本輸入字段(也就是文件名、標(biāo)題及l(fā)屬性)。因此,我們強(qiáng)烈建議你在這些字段中準(zhǔn)確詳細(xì)地對(duì)圖片進(jìn)行標(biāo)注,僅僅一個(gè)圖片是無(wú)法為網(wǎng)頁(yè)在相關(guān)搜索請(qǐng)求中獲得較高排名的;圖片識(shí)別技術(shù)不斷進(jìn)步,所以在不久的將來(lái),處理能力的局限性可能會(huì)妨礙搜索引擎在網(wǎng)絡(luò)搜索中廣泛運(yùn)用這種分析方法。
除了文本之外,谷歌允許用戶使用圖片作為搜索請(qǐng)求進(jìn)行搜索(不過(guò),用戶可以輸入文本對(duì)該搜索請(qǐng)求進(jìn)行補(bǔ)充說(shuō)明),上傳一張圖片,從桌面拖曳一張圖片,輸入圖片網(wǎng)址或在瀏覽器(安裝有插件的 Firefox及 Chrom測(cè)覽器)內(nèi)右擊圖片,用戶通常都能在網(wǎng)頁(yè)中找到該圖片的其他位置以進(jìn)行參考和研究,同時(shí)還會(huì)找到與該圖片的色調(diào)和內(nèi)容相似的其他圖片。這雖然不能立即改變圖片在SEO中的局面,但最起碼它給了我們一個(gè)提示,讓我們知道谷歌如何擴(kuò)充圖片內(nèi)容的通用相關(guān)性指示符。
對(duì)于 Flash文件,盡管可以爬取具體的w文件(最常見(jiàn)的Fash文件擴(kuò)展名)并且建立索引,而且當(dāng)用戶在運(yùn)行個(gè).sw文件搜索文件名中包含的具體的詞匯或短語(yǔ)時(shí),經(jīng)常也會(huì)碰到.w文件,但在通用查詢中,很少會(huì)返回一個(gè)Fash文件或者一個(gè)全部由Fash構(gòu)建的網(wǎng)站作為一個(gè)高度相關(guān)的搜索結(jié)果,這是因?yàn)槿鄙佟翱勺x性”的內(nèi)容。這并不是說(shuō),使用∏lash創(chuàng)建的網(wǎng)站本來(lái)就缺乏相關(guān)性,或者我們無(wú)法成功地優(yōu)化一個(gè)使用Fash的網(wǎng)站,而是從我們的經(jīng)驗(yàn)來(lái)看,IM格式的文件是較好的選擇。
可爬行的鏈接架構(gòu)
正如我們?cè)诘?章中講到的,搜索引擎會(huì)使用網(wǎng)頁(yè)中的鏈接來(lái)幫助它們發(fā)現(xiàn)其他的網(wǎng)頁(yè)或網(wǎng)站。出于這個(gè)原因,我們強(qiáng)烈建議你拿出時(shí)間來(lái)創(chuàng)建一個(gè)能被爬蟲(chóng)順利爬行的內(nèi)鏈架構(gòu)。許多網(wǎng)站會(huì)犯一些致命性的錯(cuò)誤,它們會(huì)隱藏或模糊其導(dǎo)航結(jié)構(gòu),限制了爬蟲(chóng)的讀取能力,從而導(dǎo)致網(wǎng)頁(yè)無(wú)法出現(xiàn)在搜索引擎的索引中,圖6-解釋了這個(gè)問(wèn)題是如何出現(xiàn)的。
谷歌爬蟲(chóng)已經(jīng)到達(dá)了頁(yè)面A,并看到了頁(yè)面B和的鏈接,但盡管頁(yè)面C和D可能是網(wǎng)站中比較重要的頁(yè)面,爬蟲(chóng)卻無(wú)法訪問(wèn)這些頁(yè)面(盡管知道了這些頁(yè)面的存在),這主要是因?yàn)槿鄙俚竭_(dá)這些頁(yè)面的、直接可爬行的鏈接點(diǎn)。在谷歌看來(lái),這類頁(yè)面便等同于不存在。如果吧蟲(chóng)無(wú)法在第一時(shí)間到達(dá)頁(yè)面,那么再好的內(nèi)容、再好的關(guān)鍵詞選擇、再好的營(yíng)銷策略都是無(wú)濟(jì)于事的。
下面是一些頁(yè)面可能無(wú)法被讀取的常見(jiàn)原因,使用提交格式的鏈接搜索爬蟲(chóng)幾乎不會(huì)去嘗試“提交”格式,因此僅通過(guò)某種格式才能訪問(wèn)的內(nèi)容或鏈接對(duì)搜索引擎是不可見(jiàn)的,甚至一些簡(jiǎn)單的格式也會(huì)起到反作用,如用戶注冊(cè)、搜索框或某些下拉列表。
使用難以解析的 Javascript的鏈接如果在鏈接中使用 Javascript,那么你可能會(huì)發(fā)現(xiàn)搜索引擎既不爬行,也不在意這些嵌入鏈接。2014年6月,谷歌宣布能夠爬行 Javascript和CSS。谷歌目前不僅能夠解析一些 Javascript,而且能夠訪問(wèn)些 Javascript鏈接。基于這一改變,谷歌能夠爬行你的 Javascrip和CSS文件。要預(yù)覽谷歌如何解析你的網(wǎng)站,你可以點(diǎn)擊Search Console-> Crawl->Fetch as google輸入你想要預(yù)覽的網(wǎng)址,選擇“ Fetchand Render”。
Java或其他插件中的鏈接
通常來(lái)講,搜索引擎不會(huì)查看嵌入在ava和插件中的鏈接。
Flash中的插件
從理論上來(lái)講,搜索引擎能夠發(fā)現(xiàn)Flash內(nèi)的鏈接,但是并不會(huì)過(guò)分依賴這個(gè)發(fā)現(xiàn)功能。Powerpoint和PDF文件中的鏈接搜索引擎有時(shí)會(huì)顯示在 Powerpoint文件或PDFA文件中看到的鏈接,這些鏈接被看作是與嵌入在HTM文件中的鏈接相似的。
指向 robots標(biāo)簽、re=” nofollow”或robots. tx限制頁(yè)面的鏈接.
robots. tx文件提供了一種能夠阻止網(wǎng)絡(luò)爬蟲(chóng)爬行網(wǎng)站頁(yè)面的方法,在鏈接中使用norodom屬性或者在包含鏈接的頁(yè)面中添加 content-” nofollow”屬性的元 robotsnofollow tag,指示搜索引擎不要通過(guò)鏈接越過(guò)鏈接權(quán)限內(nèi)容推送和搜索爬蟲(chóng)控制”部分詳細(xì)討論這個(gè)概念)。由于一些霸道的SEO從業(yè)者過(guò)度操控,鏈接中 nofollow屬性的有效性已大打折扣,更多這方面的內(nèi)容請(qǐng)參見(jiàn)谷歌Matt cutts博客“網(wǎng)頁(yè)排名實(shí)踐”。
鏈接所在的頁(yè)面含有成干上萬(wàn)個(gè)鏈接之前,谷歌曾建議每個(gè)頁(yè)面最多包含100個(gè)鏈接,若超出這個(gè)數(shù)值,它便會(huì)停止從該頁(yè)面爬行其他的鏈接,但是隨著時(shí)間的推移,這個(gè)建議也漸漸過(guò)時(shí)了,我們更多時(shí)候會(huì)將其看作一個(gè)通過(guò)頁(yè)面排名的策略性指導(dǎo)意見(jiàn),如果一個(gè)頁(yè)面內(nèi)包含200個(gè)鏈接,那么任何一個(gè)鏈接都不會(huì)獲得較高的網(wǎng)頁(yè)排名。通過(guò)限制鏈接的數(shù)量來(lái)設(shè)法控制網(wǎng)頁(yè)排名,這通常是個(gè)不錯(cuò)的主意。有些工具能夠統(tǒng)計(jì)每個(gè)頁(yè)面活躍的鏈接數(shù)量,如 Screaming frog.
在框架或內(nèi)嵌框架中的鏈接
從嚴(yán)格意義上來(lái)講,在框架和內(nèi)嵌框架中的鏈接都能夠被爬行,但框架和內(nèi)嵌框架在組織機(jī)制和追蹤方面給搜索引擎帶來(lái)了結(jié)構(gòu)性的問(wèn)題。除非你是一位資深用戶,非常清楚搜索引擎在技術(shù)層面是如何索引和追蹤框架內(nèi)的鏈接的,否則最好不要將鏈接放在框架內(nèi),以免岀現(xiàn)不能被爬行的問(wèn)題。我們將在6.2節(jié)“創(chuàng)建最佳的信息架構(gòu)”中詳細(xì)討論框架和內(nèi)嵌框架。
XML站點(diǎn)地圖
谷歌、 Yahoo l!和Bing(原來(lái)是MSN搜索,然后是實(shí)時(shí)搜索)都支持一個(gè)叫XML站點(diǎn)地圖的協(xié)議,谷歌在2005年首先宣布了這一協(xié)議,之后是 Yahoo!,然后在2006年,MSN搜索也宣布支持這協(xié)議。使用站點(diǎn)地圖協(xié)議,你可以向搜索引擎提交一個(gè)列表,列出所有你希望能夠被搜索引擎爬行和索引的網(wǎng)址。
將網(wǎng)址添加到站點(diǎn)地圖文件中并不能保證該網(wǎng)址就一定能被爬行或索引,但它能夠吸引搜索引擎發(fā)現(xiàn)和索引一些本來(lái)沒(méi)有被注意到的頁(yè)面。
該程序是對(duì)搜索引擎常規(guī)基于鏈接的爬行的一種補(bǔ)充,而不是替代。站點(diǎn)地圖的優(yōu)點(diǎn)主要如下:
對(duì)于一些搜索引擎通過(guò)其常規(guī)吧行所獲取的頁(yè)面,搜索引擎會(huì)使用你提供的元數(shù)據(jù)來(lái)改善爬行你的網(wǎng)站的方式;如內(nèi)容最后一次修改的時(shí)間(最后修改日期頁(yè)面被修改的頻率(修改頻率等元數(shù)據(jù)。
對(duì)于它們不知道的一些頁(yè)面,搜索引擎會(huì)使用你提供的附加網(wǎng)址來(lái)增加爬行的覆蓋范圍。
對(duì)于一些可能有多個(gè)副本的網(wǎng)址,搜索引擎會(huì)使用XML站點(diǎn)地圖數(shù)據(jù)來(lái)選擇一個(gè)比較標(biāo)準(zhǔn)的版本。
XML站點(diǎn)地圖的認(rèn)證和注冊(cè)可能會(huì)提供一些正面的可信任權(quán)威信號(hào)。
站點(diǎn)地圖的爬行內(nèi)置優(yōu)點(diǎn)可能還有其他積極的作用,如提高排名或內(nèi)部鏈接的廣泛度。
在( google search console中注冊(cè)站點(diǎn)地圖,能夠幫助你更好地了解自己的網(wǎng)站是否遇到了索引、爬行或內(nèi)容重復(fù)的問(wèn)題。谷歌反垃圾小隊(duì)的前隊(duì)長(zhǎng) Matt cutts是這樣解釋XM站點(diǎn)地圖的:
假設(shè)網(wǎng)站有A、B、C三個(gè)頁(yè)面,我們通過(guò)常規(guī)的鏈接爬行找到了頁(yè)面A和B,之后你創(chuàng)建一個(gè)站點(diǎn)地圖,列出了頁(yè)面B和C,那么現(xiàn)在我們就有機(jī)會(huì)(但不一定)吧行頁(yè)面C,我們也不會(huì)因?yàn)槟銢](méi)有將頁(yè)面A列在站點(diǎn)地圖內(nèi)而放棄它,而且我們也不會(huì)因?yàn)槟阍谡军c(diǎn)地圖中列出了一個(gè)我們不知道的頁(yè)面,就能保證我們爬行該頁(yè)面,但如果之前我們出于某些原因沒(méi)有看到頁(yè)面C的鏈接,或者我們雖然知道頁(yè)面C而頁(yè)面網(wǎng)址因包含參數(shù)過(guò)多或因其他一些原因而被拒絕了,那么有了站點(diǎn)地圖之后,我們就有可能會(huì)爬行頁(yè)面.
站點(diǎn)地圖使用的XML格式非常簡(jiǎn)單,你可以在htp:www.Sitemaps.org/了解這一格式。對(duì)于網(wǎng)站來(lái)講,XML站點(diǎn)地圖是一個(gè)非常有用且在某些情況下可以說(shuō)是非常重要的工具,尤其是,如果你有理由相信網(wǎng)站沒(méi)有被充分索引,那么XMI站點(diǎn)地圖就能夠幫助你使更多的頁(yè)面被索引。隨著網(wǎng)站規(guī)模的不斷擴(kuò)大XMI站點(diǎn)地圖文件的價(jià)值也日漸凸顯出來(lái),因?yàn)檎军c(diǎn)地圖能夠吸引更多的流量流向新增的網(wǎng)址。
創(chuàng)建一個(gè)XM站點(diǎn)地圖
創(chuàng)建XML站點(diǎn)地圖的第一步是創(chuàng)建一個(gè)正確格式下的XML站點(diǎn)地圖,因?yàn)閯?chuàng)建一個(gè)XM站點(diǎn)地圖需要一定的技術(shù)知識(shí),因此你最好從一開(kāi)始就讓自己的開(kāi)發(fā)團(tuán)隊(duì)參與到XML站點(diǎn)地圖.
你可以使用以下工具創(chuàng)建XML站點(diǎn)地圖.
XML站點(diǎn)地圖生成器這是一個(gè)簡(jiǎn)單的腳本,你可以安裝該腳本以自動(dòng)生成并提交站點(diǎn)地圖。站點(diǎn)地圖生成器能夠根據(jù)網(wǎng)址列表、用戶訪問(wèn)日志,或一個(gè)具有與URL對(duì)應(yīng)的靜態(tài)文件的目錄路徑創(chuàng)建這些站點(diǎn)地圖,下面是幾個(gè)XML站點(diǎn)地圖生成器的例子Source Forge net s谷歌sitemap genXml-sitemaps.comSitemapGen-eratorSitemaps PalGsite crawler簡(jiǎn)單的文本你可以向谷歌提供一個(gè)簡(jiǎn)單的文本文件,文件每行僅一個(gè)網(wǎng)址。不過(guò),谷歌建議,如果網(wǎng)站有文本站點(diǎn)地圖文件那么你最好使用站點(diǎn)地圖協(xié)議,借助站點(diǎn)地圖生成器從該文本文件中生成一個(gè)站點(diǎn)地圖。網(wǎng)站聚合內(nèi)容摘要谷歌接受網(wǎng)站聚合內(nèi)容摘要(RSS2.0和Atom1.0摘要。需要注意的是,摘要可能僅提供與最近網(wǎng)址相關(guān)的信息。
確定在站點(diǎn)地圖文件中包含哪些內(nèi)容
在創(chuàng)建站點(diǎn)地圖文件的過(guò)程中,你需要注意一些情況,看看網(wǎng)站的哪些位置有多個(gè)指向同一條內(nèi)容的網(wǎng)址:包括“唯一的”偏好的(標(biāo)準(zhǔn)的)網(wǎng)址版本,因?yàn)樗阉饕婵赡軙?huì)認(rèn)為在站點(diǎn)地圖文件中指定的網(wǎng)址更適合某個(gè)內(nèi)容的網(wǎng)址,所以你可以使用站點(diǎn)地圖文件提示搜索引擎哪個(gè)網(wǎng)址是更適合某個(gè)特定頁(yè)面的。
另外需要注意不要在站點(diǎn)地圖中添加什么樣的內(nèi)容。例如,不要添加多個(gè)指向同一內(nèi)容的網(wǎng)址,不要添加一些僅是頁(yè)碼標(biāo)記的頁(yè)面(或同一內(nèi)容的交替排列次序),更不要將網(wǎng)站中價(jià)值不大的頁(yè)面添加到站點(diǎn)地圖中。最重要的是,確保站點(diǎn)地圖文件中的所有網(wǎng)址均不含追蹤參數(shù)。
移動(dòng)設(shè)備站點(diǎn)地圖。對(duì)于目標(biāo)是移動(dòng)設(shè)備中的內(nèi)容,我們可以使用移動(dòng)設(shè)備站點(diǎn)地圖,移動(dòng)設(shè)備信息被保存在一個(gè)獨(dú)立的站點(diǎn)地圖文件中,該文件中不包含任何與非移動(dòng)網(wǎng)址相關(guān)的信息。谷歌支持非移動(dòng)標(biāo)記、 XHTML移動(dòng)配置文件WML(WAP12)及 CHTMI。視頻站點(diǎn)地圖。在站點(diǎn)地圖中添加與視頻相關(guān)的信息,會(huì)提升視頻被搜索引孳發(fā)現(xiàn)的機(jī)會(huì)。谷歌支持以下的視頻格式:mpg、mpeg、mp4、m4v、mov、wmv、asf、avi、ra、ram、rm、flv、及.swf等.
圖片站點(diǎn)地圖。將圖像添加到站點(diǎn)地圖文件中能夠增加圖片的可見(jiàn)性。你除了可以在站點(diǎn)地圖文件中添加頁(yè)面網(wǎng)址,還可以列出出現(xiàn)在這些頁(yè)面中的圖片。每個(gè)頁(yè)面最多能列出1000張圖片,將專門(mén)的圖片標(biāo)簽與網(wǎng)址相關(guān)聯(lián)。在站點(diǎn)地圖中列出圖片,這并不會(huì)增加這些圖片被索引的機(jī)會(huì),但如果你列出其中一些圖片,而未列出其他的一些圖片,那么那些未被列出的圖片會(huì)被認(rèn)為不重要.
上傳站點(diǎn)地圖文件
站點(diǎn)地圖文件完成之后,將其上傳到你的網(wǎng)站,并放置在你希望搜索引擎爬行的目錄的最頂端(通常來(lái)講,是根目錄),如www.yoursite:com/sitemap.xml。你可以在提交的站點(diǎn)地圖中添加多個(gè)子域,然后在( google Search( Console驗(yàn)證站點(diǎn)地圖對(duì)每個(gè)子域的作用,盡管通常來(lái)講,如果每個(gè)子域在( google search( insole都有自己相對(duì)應(yīng)的站點(diǎn)地圖和配置文件,那么我們可能更容易了解索引的實(shí)際情況。
管理和更新ⅪM站點(diǎn)地圖
ⅹML站點(diǎn)地圖被接受、網(wǎng)站被爬行之后,監(jiān)測(cè)運(yùn)行結(jié)果,若有問(wèn)題,隨時(shí)更新站點(diǎn)地圖。在谷歌中,你可以返回到Google Search Console賬戶,查看與XML站點(diǎn)地圖相關(guān)的統(tǒng)計(jì)數(shù)據(jù)和運(yùn)行診斷報(bào)告,只須點(diǎn)擊你想檢測(cè)的網(wǎng)站即可,另外,你還能從谷歌中找到一些與常見(jiàn)問(wèn)題相關(guān)的FAQ,如爬行慢、索引較少Bing中的XML站點(diǎn)地圖。另外,你可能還應(yīng)該在增加大星或一組關(guān)鍵頁(yè)面之后,更新你的站點(diǎn)地圖文件。
如果僅僅是更新現(xiàn)有網(wǎng)址中的內(nèi)容么便沒(méi)有必要更新XML站點(diǎn)地圖,而且如果是刪除頁(yè)面,也沒(méi)有必要去更新站點(diǎn)地圖,因?yàn)樗阉饕嬷皇遣荒芘佬羞@些頁(yè)面而己,但要在提要中出現(xiàn)大量零散的頁(yè)面之前,更新站點(diǎn)地圖。另外,在你添加新內(nèi)容并刪除一些無(wú)效頁(yè)面之后,一定要記得更新你的站點(diǎn)地圖文件。谷歌和Bing會(huì)定期重新加載站點(diǎn)地圖,因此除非站點(diǎn)地圖位置發(fā)生改變,否則你無(wú)須重新向谷歌或Bng提交站點(diǎn)地圖。
使用 Site map-網(wǎng)站 robots.txt文件中的指令,使谷歌和Bing能自動(dòng)發(fā)現(xiàn)你的XML站點(diǎn)地圖的位置。如果你要定期地在網(wǎng)站中添加或刪除些新的頁(yè)面,那么你可能希望借助一個(gè)工具或希望網(wǎng)站開(kāi)發(fā)者有這個(gè)能力,能夠使XML站點(diǎn)地圖定期重新生成所有最近口的網(wǎng)址,許多網(wǎng)站借助自動(dòng)運(yùn)行腳本每天重新生成XM站點(diǎn)地圖。谷歌和其他大型搜索引擎通過(guò)爬行鏈接發(fā)現(xiàn)和索引網(wǎng)站。谷歌XML站點(diǎn)地圖是一種在谷歌中填充網(wǎng)址的方式,添加你希望被爬行的網(wǎng)址,以便進(jìn)行更深入的爬行和索引;這就導(dǎo)致了長(zhǎng)尾搜索能力的提高,通過(guò)創(chuàng)建和更新這個(gè)XML文件,確保谷歌能夠識(shí)別你的整個(gè)網(wǎng)站,進(jìn)而讓更多的人發(fā)現(xiàn)你的網(wǎng)站。另外,XML站點(diǎn)地圖還能幫助所有的搜索引擎弄清楚,哪個(gè)網(wǎng)址是比較標(biāo)準(zhǔn)的(如果有多個(gè)指向同一內(nèi)容的網(wǎng)址)。