什麼是網頁設計?背景
認識網頁設計Q & A

認識網頁設計 - 網站內部SEO (On-Site)

重複內容 - Duplicate Content

什麼是重複(Duplicate Content)的內容?

重複的內容是指,相同的內容出現在網際網路上多個地方。 「一個地方」被定義為唯一網址(URL),因此如果相同的內容出現在多個網址上,則表示您的網站內容重複。

雖然在技術上不是一種懲罰,但重複的內容有時還會影響搜尋引擎的排名。 如Google所稱,在互聯網上的多個位置存在多個“明顯相似”的內容時,搜尋引擎可能很難決定哪個版本與給定的搜尋查詢更相關。

為什麼重複的內容很重要?

以搜尋引擎來說

重複的內容可能會對搜尋引擎提出三個主要問題:

  1. 他們不知道哪個版本包含/不包括在他們的索引中。

  2. 他們不知道是否將連結指標(網站信任評分,網站權威評分,文字連結,反向連結價值...等)指哪一個頁面,或保持它為多個分開的版本。

  3. 他們不知道要為查詢結果排名哪個網頁版本。

以網站所有者來說

當存在重複的內容時,網站所有者可能遭受排名和流量損失,這些損失通常來自兩個主要問題:

  1. 為了提供最佳搜尋體驗,搜尋引擎很少會顯示同一內容的多個網頁版本,因此最有可能是,被迫選擇其中一個版本,這會稀釋了其他版本的曝光度。

  2. 鏈接公平可能會被進一步稀釋,因為其他網站也必須在重複之間進行選擇。 而不是所有的入站鏈接指向一個內容,他們鏈接到多個片斷,在重複之間傳播鏈接公平。 由於入站鏈接是排名因素,因此這會影響一段內容的搜尋可見性。

重複內容如何發生的?

在絕大多數情況下,網站所有者不會故意創建重複的內容,但是,這並不表示不會發生,實際上據估計,高達29%的網頁內容實際上是重複的內容!

讓我們來看看一些最常見的重複內容是無意中創建的:

1.網址變體

網址參數(如點擊跟踪和某些分析代碼)可能會導致重複的內容問題,這個可能性的問題,不僅僅會由參數本身產生,還包括這些參數在URL中出現的順序。

程式碼範例

www.newscan.com.tw/blue-widgets?color=blue 重複於 www.newscan.com.tw/blue-widgets

www.newscan.com.tw/blue-widgets?color=blue&cat=3 重複於 www.newscan.com.tw/blue-widgets?cat=3&color=blue

同樣,session ID是常見的重複內容發生原因,當瀏覽網站的每一個用戶,網址參數URL中有不同session ID時,就會發生這種情況。

當多個版本的網頁被索引時,友善列印的內容也會導致重複的內容問題。

www.newscan.com.tw/blue-widgets 重複於 www.newscan.com.tw/print/blue-widgets

這裡的一個警訊是,可能的話,比較好的避免方式是,不添加URL參數或URL的替代版本(其中包含的信息通常可以通過scripts傳遞)。

HTTP與HTTPS或WWW與非WWW頁面

如果您的網站在“www.site.com”和“site.com”上有不同的版本(帶有或不帶有“www”),並且在這兩個版本中都有相同的內容,你應該已經有創建了每個版本的重複網頁。
這同樣適用於在http://和https://上維護版本的網站。如果網頁的兩個版本都是存在的並且可以被搜索引擎可以檢索的,應該也是會遇到重複的內容問題。

擷取或是拷貝內容

內容不僅包括部落格文章或編輯內容,還包括產品訊息網頁,在自己的網站上重新發布您的部落格內容,有可能是一個更為常見的重複內容來源,但電子商務網站也存在一個共同的問題:產品資訊,如果很多不同的網站出售相同的商品,而且他們都使用製造商對這些商品的描述,那麼相同的內容就會出現在網路上的多個位置。

如何解決重複的內容問題

修復重複內容的主要宗旨,就是指定哪個內容是【最正確的】。

只要網站上的內容可以在多個網址上找到,就應該對搜索引擎進行規範化處理,我們來看看三種主要方法:
使用301重定向到正確的URL,rel = "canonical " 屬性,或使用 Google Search Console中的參數處理工具。

301轉址

在許多情況下,處理重複內容的最佳方法是設置301轉址從「重複」網頁到原始內容網頁。

當多個排名好的網頁被合併成一個頁面時,他們不僅不再相互競爭,他們也創造一個更強的相關性和整體流行訊息,這將對「正確」頁面排名良好的能力產生良好的影響。

Rel="canonical"

處理重複內容的另一個選項是使用rel = canonical屬性。 這告訴搜索引擎一個特定的網頁應該被視為一個指定的URL副本,所有的連結、內容指標和搜索引擎將導入於這個網頁的【排名權重】並且應該被記錄到指定的URL。

rel =“canonical”屬性是網頁HTML表頭的一部分,如下:

程式碼範例

<head >
...[其他程式碼]...
<link href= "來源網頁連結 " rel="canonical " / >
...[其他程式碼]...
</head >

rel = canonical 屬性添加到每個重複的網頁的HTML表頭上面,將上述範例“來源網頁連結”部分由你的原始網頁的替換連結(請保留引號),該屬性傳遞與301重定向相同數量的連結權限(排名能力),並且由於它在網頁(而不是服務器)上修復,所以通常需要較少的時間執行修復。

Meta Robots Noindex

在處理重複內容時,使用Meta Robots標籤是很有用的,當放入“noindex,follow”時。 通常稱為Meta Noindex,Follow和技術上稱為content =“noindex,follow”添加這些Meta Robots標記到的每個單獨頁面的HTML頭部,應該可以從搜索引擎索引中排除。

程式碼範例

<head >
...[其他程式碼]...
<meta name= "robots " content= "noindex,follow " >
...[其他程式碼]...
</head >

上述 Meta Robots 標籤允許搜索引擎抓取網頁上的連結,但不讓這些連結包含在該索引中。

有一點非常重要,即使您要求Google不要抓取重複的網頁,Google仍然有可能將其編入索引,因為Google有明確提醒您不要在您的網站上限制對重複內容的抓取訪問。(搜索引擎希望能夠看到你的代碼中可能的錯誤,是因為希望可以排除意外因素,這使得他們可以在不確定的狀況下做出一個「可能是自動的」“呼叫判定”。

使用Meta Robots 解決與分頁有關的重複內容問題的一個好的方式。

Google Search Console 中的主網域和參數處理

Google Search Console可讓您設定網站的主要網域( https://newscan.com.tw/ 替代為 https://www.newscan.com.tw/ ) 與指定Googlebot 可能使用不同的方式抓取各種網址參數(參數處理)。

Google根據您的URL結構和重複內容問題的原因,設置您的主選域名稱或參數處理(或兩者都設置)可能會提供一個解決方案。

使用參數處理作為處理重複內容的主要方法的主要缺點是您所做的更改僅適用於Google,使用Google Search Console的任何規則都不會影響Bing或任何其他搜索引擎的抓取工具如何解讀您的網站; 除了調整Search Console中的設置之外,您還需要將網站站長工具用於其他搜索引擎。。

處理重複內容的其他方法

  1. 在整個網站內部進行連結時保持一致,例如如果網站管理員確定域名的版本為www.example.com/,則所有內部連結應該轉到http://www.example.com/example而不是http://example.com/ 頁面(注意缺少www)。

  2. 在組合文章內容時,請確保組合網頁將正確連結導回原始內容,而不是使用URL變體方式。

  3. 添加一個額外的保護措施,以防止文章內容被盜取並且被竊取SEO權重,明智的做法是添加一個自我指向的 rel = canonical 連結到您的現有網頁,這是一個canonical的屬性,指向它已經在的URL,重點是挫敗文章盜取者的努力。

雖然並不是所有的文章盜取都會經由來源代碼(完整的HTML代碼),但有些會,對於那些有盜取來源代碼的,只要有使用 rel = canonical標籤將確保您的網站的版本被認為是“原始”內容。


資料來源:https://moz.com/learn/seo/duplicate-content

歡迎推廣本文,請務必連結(LINK)本文出處:新視野網頁設計