深入了解 BERT：Google 如何用雙向語言理解改變 NLP 與搜尋體驗

在自然語言處理（NLP）的發展史上，BERT 幾乎可以說是一個分水嶺。它由 Google 研究團隊提出，最早以論文形式於 2018 年公開，並在 2019 年正式發表。BERT 全名為 Bidirectional Encoder Representations from Transformers，中文常譯為「雙向編碼器表示的變換器」。它的關鍵突破，在於不再只用單向方式理解文字，而是能同時參考詞語前後文，讓模型更接近人類理解語意的方式。原始論文指出，BERT 在 11 項 NLP 任務上取得新的 state-of-the-art 成績，包括 GLUE、MultiNLI 與 SQuAD 等重要基準。

BERT 的重要性不只在學術界。Google 也在 2019 年表示，已把 BERT 模型應用在 Search 的排名與 featured snippets 理解上，幫助搜尋系統更準確理解查詢中的語境與意圖，尤其對較長、較口語、以及介系詞會明顯影響意思的查詢特別有幫助。當時 Google 說明，BERT 會幫助 Search 更好理解美國英文約十分之一的搜尋查詢。

什麼是 BERT？

BERT 是一種建立在 Transformer encoder 架構上的預訓練語言模型。與早期很多語言模型不同，它不是只從左到右或只從右到左讀句子，而是透過深度雙向表示，在每一層同時參考左右文脈，來理解詞在句子中的真正語義。原始論文將這點視為 BERT 最核心的設計差異，也是它能在多項任務中大幅提升表現的主因。

更精準地說，BERT 不是一個專門為單一任務打造的模型，而是一種先大規模預訓練、再針對特定任務微調的通用語言表示方法。研究團隊指出，預訓練完成的 BERT 模型，只需要在上方加入一個額外輸出層，就能套用到問答、自然語言推論、分類、序列標註等不同任務，而不需要為每個任務重做一套複雜架構。

BERT 為什麼是 NLP 的重要突破？

在 BERT 之前，很多語言模型雖然也有「上下文」概念，但多半仍帶有單向限制。例如模型可能只能從左往右預測下一個字，或把左右方向分開建模後再拼接。BERT 則透過 masked language modeling，讓模型能在訓練時學會同時融合左右資訊，真正建立深度雙向語言表示。Google 研究部落格也用「bank」這類多義詞舉例，說明傳統 context-free 表示對「銀行」與「河岸」可能給出同一個向量，但 BERT 會依句子語境產生不同表示。

這個改變帶來的意義很大。它讓語言模型從「看到字」進一步走向「理解字在句中的角色」，也讓許多原本需要高度手工特徵工程的任務，能透過同一套預訓練模型加上少量微調就取得很強的結果。原始論文直接指出，BERT 降低了對重度任務專屬架構設計的依賴，並在句子級與 token 級任務上都取得顯著進展。

BERT 的核心理念

1. 雙向語境理解

BERT 的「B」代表 Bidirectional，也就是雙向。它最大的特色，是能同時利用單詞前後的上下文來判斷語意，而不是只看左邊或只看右邊。原始論文明確表示，BERT 透過 masked language model 目標，克服了傳統語言模型的單向限制，讓模型可以建立深度雙向表示。

這件事在真實語言中非常重要。因為許多詞語的意思，往往不是由字面本身決定，而是由整個句子決定。像英文中的 bank、stand、right 這類詞，如果沒有上下文，很容易誤解。Google 在 Search 的 BERT 說明裡也特別強調，BERT 能更好掌握字詞組合所表達的不同意思與意圖。

2. 預訓練與微調

BERT 採用兩階段流程：先在大規模未標註文本上做 pre-training，學語言的一般規律；再在特定任務資料上做 fine-tuning，把通用語言能力調整到某個具體用途上。Google 研究團隊在開源文章中指出，這種方式能讓小資料量任務也受益，因為模型已先從大量文字中學到語言結構與語意關係。

這種設計的好處在於「一套骨架，多種用途」。無論是情感分析、問答、命名實體識別，甚至句子對關係判斷，BERT 都可以用相近架構完成。對研究者與工程師來說，這比每個任務都從零訓練一套模型有效率得多。

BERT 的技術原理

1. 基於 Transformer Encoder

BERT 的底層架構是 multi-layer bidirectional Transformer encoder。原始論文指出，BERT 基於 Vaswani 等人提出的 Transformer 實作，並採用 encoder 型態而非 decoder 型態。這也是為什麼 BERT 特別擅長理解任務，而不是天生就拿來做自回歸式文字生成。

論文中也給出了兩個經典版本：BERT-base 與 BERT-large。BERT-base 使用 12 層 Transformer blocks、768 維 hidden size、12 個 attention heads，總參數約 1.1 億；BERT-large 則是 24 層、1024 維 hidden size、16 個 heads，總參數約 3.4 億。這些規模在當年已相當可觀，也直接說明了為什麼 BERT 需要不錯的訓練硬體支援。

2. Masked Language Modeling（MLM）

BERT 的第一個預訓練任務，是 Masked Language Modeling。做法是隨機選取一部分 token，把它們遮住，讓模型根據上下文去預測原本的詞。原始論文寫得很清楚：BERT 在訓練中隨機選擇 15% 的 WordPiece tokens 作為預測目標。這種方式讓模型不是單純背誦順序，而是真正去理解被遮掉詞前後的語境。

BERT 還做了一個很巧妙的處理：被選中的 token 並不總是直接替換成 [MASK]。論文中提到，這 15% 的目標 token 之中，80% 會換成 [MASK]，10% 換成隨機 token，另外 10% 保持不變。這樣做是為了降低預訓練與微調之間的落差，因為實際下游任務中通常不會出現 [MASK] 這個標記。

3. Next Sentence Prediction（NSP）

BERT 的第二個預訓練任務是 Next Sentence Prediction。它會給模型兩段文字，讓模型判斷第二段是不是原文中真正接在第一段後面的句子。論文指出，這個任務是為了幫助模型學習句子之間的關係，特別對問答與自然語言推論這類需要理解句間關聯的任務有幫助。

不過，NSP 後來也成為研究界討論的焦點。RoBERTa 論文指出，他們透過更長訓練、更大 batch、更大量資料、移除 NSP、使用較長序列與動態 masking，能讓模型表現進一步提升；ALBERT 則進一步提出 Sentence Order Prediction（SOP），認為這種更聚焦句間連貫性的任務，對多句輸入任務更有幫助。這也代表 BERT 雖然是經典，但它的設計不是不可挑戰的聖經。機器學習界很少有這種東西。

4. 輸入表示方式

BERT 的輸入不只是把字塞進去而已。原始論文說明，模型使用 WordPiece embeddings 與 30,000 詞彙表，並透過 [CLS] 作為整體序列表示、[SEP] 作為句子分隔符號，再加上 token embeddings、segment embeddings 與 position embeddings 共同組成輸入。這種設計讓 BERT 能夠同時處理單句與句對任務。

這也是為什麼 BERT 很適合拿來做分類、推論與問答。舉例來說，分類任務通常直接使用 [CLS] 的最終 hidden state 作為整段文字的聚合表示；問答與序列標註則會更多依賴每個 token 的 contextualized representation。

5. 預訓練資料來源

原始 BERT 使用 BooksCorpus（約 8 億字）與 English Wikipedia（約 25 億字）作為預訓練語料。論文特別強調，使用文件層級、具有長距離連續上下文的資料很重要，因為這有助於學習跨句與長距離語意關係。

BERT 可以做什麼？

BERT 的用途很廣，從研究到產品都用得上。原始論文與 Google 的開源說明都提到，BERT 可以套用到問答、自然語言推論、情感分析、文字分類、命名實體識別等多種任務，而且只要做少量結構調整與微調，就能產生很強表現。

在商業與產品場景中，BERT 類模型也常被用在搜尋理解、客服問答、文件分類、語意相似度比對、法務文件分析與推薦系統前處理等地方。雖然「機器翻譯」常被泛泛列入應用範圍，但更精準地說，BERT 本身更偏向理解型任務；純生成型任務通常更常見於 encoder-decoder 或 decoder-only 架構。不過 BERT 作為語言理解骨幹，的確深刻影響了後來各類 NLP 系統的設計方向。

BERT 對 Google Search 與 SEO 的意義

對 SEO 讀者來說，BERT 最值得注意的不是學術指標，而是它如何影響搜尋理解。Google 官方說明很直白：BERT 是 Google 用來理解「字詞組合如何表達不同意思與意圖」的 AI 系統。換句話說，Google 不再只是比對幾個表面關鍵字，而是更重視查詢語句裡的上下文關係。

2019 年 Google 公開介紹 BERT in Search 時，特別強調它對較長、較口語、以及介系詞影響重大的查詢很有幫助。例如查詢中的 to、for、no 這類以前容易被忽略的字，在 BERT 的語境理解下可能變成理解意圖的關鍵。這對 SEO 的直接啟示是：內容不應只為關鍵字而寫，而要為真實語意與真實問題而寫。搜尋引擎越來越能理解自然語言，刻意堆砌不自然關鍵字的寫法，往往只會讓文章看起來像在跟演算法吵架。

也因此，BERT 並不是一個單純的「排名懲罰器」或「加分器」，而是讓 Google 更能理解查詢與內容之間的語意對應。對內容經營者來說，真正重要的做法包括：回答清楚問題、使用自然語言、讓主題脈絡完整、把修飾語與條件寫明白、避免為了塞關鍵字而破壞可讀性。這些原則雖然聽起來樸實，但在 BERT 出現後反而更合理，因為 Google 對語意的理解能力明顯變強了。

BERT 的限制

雖然 BERT 很強，但它也不是沒有代價。Google 在 BERT 應用到 Search 的文章中提到，部分 BERT 模型複雜到需要新的硬體支援，Google 甚至首次在搜尋服務中使用較新的 Cloud TPUs 來提供結果。這也反映出 BERT 類模型在推論與訓練上都相對吃資源。

此外，BERT 的預訓練策略後來也被後續研究修正。例如 RoBERTa 指出原始 BERT 可能「undertrained」；ALBERT 認為原始 NSP 並不總是理想；DistilBERT 則從部署效率角度切入，透過知識蒸餾把模型縮小約 40%、速度提升約 60%，同時保留約 97% 的語言理解能力。這些後續工作都說明，BERT 是里程碑，但不是終點。

BERT 之後的重要衍生模型

RoBERTa

RoBERTa 全名是 A Robustly Optimized BERT Pretraining Approach。它的核心觀點不是「推翻 BERT」，而是證明只要把訓練策略調好，BERT 類模型本身就還能更強。RoBERTa 論文指出，他們的主要改動包括：訓練更久、使用更大 batch、更多資料、移除 NSP、用更長序列，以及改成動態 masking。結果顯示，這些調整足以讓模型在 GLUE、RACE、SQuAD 等基準上達到或超越當時其他後續方法。

ALBERT

ALBERT 全名是 A Lite BERT。它的目標是讓模型更省參數、更容易擴展。論文提出兩個主要參數縮減技巧：factorized embedding parameterization 與 cross-layer parameter sharing。此外，ALBERT 也引入 SOP，聚焦句子順序與篇章連貫性。作者指出，一個接近 BERT-large 的 ALBERT 配置能用 18 倍更少的參數、約 1.7 倍更快的速度訓練，同時在 GLUE、RACE、SQuAD 上拿到很強結果。

DistilBERT

DistilBERT 走的是輕量化路線。論文說明，它透過預訓練階段的知識蒸餾，讓模型體積縮小約 40%，推論速度快約 60%，同時保留約 97% 的語言理解能力。對需要部署在資源有限環境、邊緣裝置或延遲要求較高的應用來說，這類模型特別實用。

常見誤解

誤解一：BERT 就是「Google 排名演算法」

不完全正確。更精準地說，BERT 是 Google Search 使用的一種 AI 系統，用來理解字詞組合、語意與搜尋意圖，而不是單獨存在的一個神祕排名按鈕。Google 的官方 ranking systems guide 也是這樣描述的。

誤解二：BERT 會讓「精準關鍵字」失效

也不對。關鍵字仍然重要，但 BERT 讓 Google 更能理解查詢的整體意思，而不是只看某幾個孤立詞彙。這代表 SEO 更應重視查詢意圖、語句自然度與語意完整性，而不是執著於某個詞出現幾次。

誤解三：BERT 是用來生成文章的

BERT 本質上是 encoder-based、偏理解型的模型。它非常適合分類、抽取、比對與語意理解，但不是以自回歸生成為核心設計。這也是它和後來大量生成式模型在用途上的重要差異。

常見問題 QA

BERT 是哪一年推出的？

BERT 最早於 2018 年以 arXiv 論文公開，並在 2019 年正式發表；Google 也在 2018 年開源相關模型與程式碼。

BERT 最大的技術突破是什麼？

最大的突破是透過 MLM 建立深度雙向語言表示，讓模型能同時利用前後文理解詞義，而不是受限於單向語言模型。

BERT 和 GPT 最大差別是什麼？

原始論文與 Google 研究說明都指出，BERT 是雙向 Transformer encoder，擅長理解任務；而早期 GPT 採單向預訓練，更偏向生成方向。簡單說，BERT 更像「懂你在說什麼」，GPT 更像「接著幫你往下說」。

BERT 對 SEO 最大的啟示是什麼？

重點不是塞更多關鍵字，而是寫出更自然、更完整、更符合搜尋意圖的內容。因為 Google 透過 BERT 類系統更能理解上下文、介系詞與查詢細節。

BERT 現在還重要嗎？

很重要。即使後續已出現 RoBERTa、ALBERT、DistilBERT 以及更多更新模型，BERT 仍然是現代 NLP 與搜尋語意理解的重要里程碑，也是理解後續語言模型發展的基礎。

結論

BERT 之所以重要，不只是因為它在幾個 benchmark 上拿了漂亮分數，而是它重新定義了機器如何理解語言。它讓 NLP 從「看字面」大幅邁向「看語境」，也讓 Google Search 在處理自然語言查詢時更接近人類理解方式。從技術角度看，BERT 以雙向 Transformer encoder、MLM 與預訓練／微調框架，建立了一條後來被大量模型沿用與改造的主路線；從 SEO 角度看，它則提醒我們，搜尋引擎正越來越懂人話，所以內容策略也該越來越像寫給人，而不是寫給關鍵字密度表。

網頁已經進入新時代，好網站不再需要花大錢！

有網頁設計需求請與我們聯絡，新視野設計提供多種方案供您選擇。