Claude 3.7 Sonnet 完整評測:目前最強 AI 模型究竟有多厲害?

前言

如果你最近在 AI 圈子裡打滾,應該已經聽到很多人在討論 Claude 3.7 Sonnet。不管是 Reddit 上的工程師社群、台灣的科技 Discord 群組,還是各種 AI 工具評比文章,這個名字出現的頻率越來越高。

Anthropic(安索比克)這家公司成立於 2021 年,由前 OpenAI 的研究團隊創立,一直以來走的是比較低調但紮實的路線。他們不像 OpenAI 那樣每次發布都搞得像科技演唱會,但每次推出的模型都讓人不得不重新評估「最強 AI 模型」的標準。

Claude 3.7 Sonnet 是目前 Anthropic 旗下最新、也被公認最強的模型之一。它最特別的地方在於引入了「延伸思考模式」(Extended Thinking)——讓 AI 在回答之前,真的「想一想」。這個功能聽起來好像很稀鬆平常,但實際跑起來的效果,說實話讓我蠻驚訝的。

這篇文章我會從實際使用的角度出發,帶你全面了解 Claude 3.7 Sonnet 的能力、限制、適合的使用情境,以及它和競爭對手相比究竟差在哪、強在哪。如果你正在考慮要不要升級訂閱方案、或者在幫公司選 AI 工具,這篇評測應該能幫你做出更清楚的判斷。


Claude 3.7 Sonnet 是什麼?從頭認識 Anthropic 的旗艦模型

Anthropic 公司背景

要評測 Claude 3.7,得先稍微了解它背後的公司。Anthropic 的創辦人 Dario Amodei 和 Daniela Amodei 兄妹,原本是 OpenAI 的核心成員,後來因為對 AI 安全的方向有不同看法,才出來另起爐灶。

Anthropic 主打的是「憲法 AI」(Constitutional AI)的研究方向——也就是說,他們的模型從訓練階段就內建了一套價值觀和行為準則,而不只是靠後期的人工標注來修正行為。這讓 Claude 系列模型在安全性和可靠性上,有著其他模型比較難複製的底層優勢。

到了 2025 年,Anthropic 已累計獲得超過 70 億美元的投資,Google 和 Amazon 都是主要股東。這樣的資金規模,代表他們在算力和研究上的投入絕對不手軟。

Claude 3.7 Sonnet 的定位

Claude 的產品線分成三個層級:Haiku(快速輕量)、Sonnet(均衡效能)、Opus(最強推理)。Sonnet 這個名字本身就很有意思——十四行詩,代表的是在固定形式中追求最高表達。

Claude 3.7 Sonnet 在 2025 年 2 月正式推出,是 Anthropic 目前最主力的商業模型。它在保持高速回應的前提下,把推理能力拉到了接近 Opus 的水準——而且加入了延伸思考這個殺手鐧,讓它在複雜問題上的表現直接升了一個層次。

主要規格一覽:
– 上下文視窗(Context Window):20 萬個 Token
– 延伸思考模式:支援,思考 Token 上限可達 8 萬
– 支援多模態(Multimodal):可處理文字、圖片、PDF
– API 價格:輸入 $3 / 百萬 Token,輸出 $15 / 百萬 Token
– 訓練資料截止日期:2025 年初


延伸思考模式:Claude 3.7 最重要的新功能

什麼是延伸思考模式?

這是 Claude 3.7 Sonnet 最值得深入講的功能,也是它和前代模型差異最大的地方。

簡單說,延伸思考模式讓模型在給你正式答案之前,先進行一個「內部推理」的過程。這個過程你可以選擇讓它顯示出來(也就是你會看到一段 <thinking> 的內容),或者讓它在背景默默跑完,只給你最終結論。

類似的概念在 OpenAI 的 o1、o3 系列也有,叫做「Chain-of-Thought」(思維鏈推理)。但 Claude 3.7 的實作方式有幾個不同之處:

  1. 可控的思考預算:你可以指定思考 Token 的上限,從幾千到八萬都行,讓你在速度和深度之間自己調節
  2. 思考過程透明:Anthropic 沒有隱藏思考過程,你可以真的看到模型怎麼想的
  3. 在標準 API 呼叫中整合:不需要換模型,同一個 Claude 3.7 Sonnet 就可以切換

延伸思考在實際測試中的表現

我用幾個不同類型的題目測試了延伸思考的效果。

數學推理測試:
題目是一道 AMC(美國數學競賽)的難題。一般模式下,Claude 3.7 給了一個解法,但犯了一個中途的代數錯誤。打開延伸思考之後,它在思考階段自己發現了這個錯誤,修正後給出正確答案。思考過程長達約 2,000 個 Token,清楚呈現了「發現問題→回溯→重新計算」的過程。

程式碼除錯測試:
給了一段有三個 Bug 的 Python 程式。一般模式找出了兩個,延伸思考找出了全部三個,還主動提出了一個潛在的效能問題。

模糊問題測試:
問了一個故意模糊的商業策略問題。延伸思考模式下,模型在內部先列出了五種可能的解讀方式,然後選了最可能的詮釋角度再作答,最後也在回答結尾提示使用者「如果我的理解有誤,請進一步說明」。

結論:延伸思考對複雜的推理、多步驟問題、以及需要自我檢查的任務幫助非常顯著。但對簡單問答或創意寫作,它的加成效果有限,反而會讓回應時間拉長。懂得什麼時候開、什麼時候關,才是用好 Claude 3.7 的關鍵。


程式碼能力深度測試:工程師真的能用嗎?

Benchmark 數字說了什麼

在各大 AI 能力評估基準測試中,Claude 3.7 Sonnet 的程式碼表現相當亮眼:

  • SWE-bench Verified(軟體工程真實問題解決率):70.3%,超越 GPT-4o 的 38.8%,也高於 o1 的 48.9%
  • HumanEval(程式碼生成):92%
  • MBPP(Python 程式問題解決):90.5%

SWE-bench 特別值得一提,因為它用的是 GitHub 上真實存在的 issue,測的是模型能不能寫出可以通過單元測試的修復程式碼——而不是那種「看起來像正確答案」的假代碼。70% 以上的通過率,在業界是相當突出的成績。

實際工程任務測試

任務一:從需求文件生成完整後端 API

給了一份三百字的需求說明,要求用 FastAPI 寫一個用戶認證系統,包含 JWT(JSON 網頁令牌)、密碼雜湊、以及基本的 CRUD(新增、讀取、更新、刪除)操作。

Claude 3.7 生成了約 350 行的程式碼,涵蓋:
– 完整的資料模型設計
– 安全的密碼儲存(bcrypt 雜湊)
– JWT 的發行與驗證邏輯
– 完整的錯誤處理
– 基本的單元測試框架

值得注意的是:它主動加入了速率限制(Rate Limiting)的提示,說明這在生產環境是必要的安全措施,但因為需求沒有指定,就先以 TODO 備註標記。這種「做到位、但不越線」的判斷力,比很多模型都要好。

任務二:除錯一段複雜的非同步 JavaScript

給了一段有競態條件(Race Condition)問題的 async/await 程式碼。Claude 3.7 不只找到了問題,還解釋了為什麼這段程式碼在大部分情況下會正常運作、卻在某些特定時序下會出錯——這種對「為什麼」的解釋能力,對初學者非常有幫助。

程式碼能力的限制

公平說,Claude 3.7 也不是萬能的。以下幾個情境表現較弱:

  • 大型程式庫的全域架構理解:如果你把整個 monorepo 丟給它,它有時會對不同模組之間的依賴關係理解不夠精準
  • 特定冷門框架:訓練資料截止日期之後出現的新框架或版本更新,它當然不知道
  • 超長程式碼的前後一致性:當生成的程式碼超過幾千行,後段有時會出現命名不一致的小問題

寫作與創意能力:內容創作者需要知道的事

寫作風格的多樣性

Claude 一直以來都被認為是「最會寫作的 AI 模型」,Claude 3.7 延續了這個傳統。

我測試了幾個不同的寫作場景:

新聞稿寫作:給了一個科技產品發表的基本資訊,要求寫成符合媒體規格的新聞稿。Claude 3.7 不只寫了正確格式,還主動提醒我倒金字塔結構的重要性,並在稿件中埋入了三個有新聞價值的角度——這是很多行銷人員需要人工審稿才能做到的判斷。

技術文件翻譯:把一段英文的 API 說明文件翻成繁體中文,並要求保留專業術語。翻譯品質相當高,對於有多種翻譯可能的術語,它會在括號內標注原文,方便讀者對照。

創意小說段落:這裡比較主觀,但我的感受是 Claude 3.7 的創意寫作比前代有明顯進步,特別是在長篇敘事的節奏掌握上。它比較不會陷入那種「AI 式的平淡敘述」——就是那種雖然語法正確、但讀起來毫無生氣的文字。

長文一致性

20 萬 Token 的上下文視窗,理論上可以處理大約 150,000 個中文字的輸入。但「能塞進去」和「真的有理解」是兩回事。

我的測試結論是:Claude 3.7 在 10 萬 Token 以內的內容,前後一致性很好;超過這個範圍之後,對細節的記憶會開始有輕微的衰減,但在主題層面的掌握仍然可靠。這對需要處理長篇文件摘要、合約分析、書稿校對的使用者,是個值得注意的實際限制。


與 GPT-4o 和 Gemini 1.5 Pro 的比較

三大模型正面對決

這是很多人最想知道的問題:Claude 3.7 和 OpenAI、Google 的競品相比,到底誰更強?

誠實說,這個問題沒有一個適用所有情境的答案。讓我用幾個維度來比較:

評估面向Claude 3.7 SonnetGPT-4oGemini 1.5 Pro
程式碼生成★★★★★★★★★☆★★★★☆
數學推理★★★★★★★★★☆★★★★☆
長文處理★★★★★★★★☆☆★★★★★
創意寫作★★★★★★★★★☆★★★★☆
多語言支援★★★★☆★★★★★★★★★☆
圖片理解★★★★☆★★★★★★★★★★
安全性/可靠性★★★★★★★★★☆★★★★☆
回應速度★★★★☆★★★★★★★★★☆

Claude 3.7 明顯勝出的領域:
– 複雜推理(尤其開啟延伸思考後)
– 程式碼品質與除錯能力
– 遵循複雜指令的精準度
– 拒絕有問題請求時給出的詳細解釋

GPT-4o 仍有優勢的領域:
– 整合生態系統(ChatGPT 插件、DALL-E、語音功能)
– 回應速度(特別是 GPT-4o mini)
– 中文以外的多語言口語對話品質

Gemini 1.5 Pro 的特殊優勢:
– 原生整合 Google Workspace(Gmail、Docs、Drive)
– 影片理解能力目前其他兩家都追不上
– 對 Google 服務的上下文理解

我的選擇建議

如果你是軟體工程師或技術工作者:Claude 3.7 應該是你的主力,配合 Cursor 或 VS Code 的 Claude 插件使用效果最好。

如果你是內容創作者或行銷人員:Claude 3.7 在寫作上很強,但如果你高度依賴圖片生成,GPT-4o 因為有 DALL-E 整合,生態系可能更方便。

如果你在企業環境使用 Google Workspace:Gemini 的整合優勢就很難被取代。


安全性與可靠性:為什麼這件事比你想的重要

Anthropic 的 Constitutional AI 方法論

這個部分很多評測文章都略過,但我覺得值得認真講,因為它直接影響你在工作中能不能信任這個工具。

Anthropic 使用的「憲法 AI」(Constitutional AI,簡稱 CAI)訓練方法,簡單說就是:給 AI 一套明確的原則,讓它學會自我批判和修正,而不只是靠人工標注員告訴它「這個答案好、那個答案不好」。

這個方法的好處體現在幾個地方:

  1. 拒絕有害請求時的解釋更清晰:Claude 不只說「我不能做這件事」,它會解釋為什麼,並在可能的情況下提供替代方案
  2. 對模糊情境的處理更細緻:不是非黑即白的拒絕,而是能理解語境
  3. 在壓力測試下更穩定:即使你用各種方式嘗試繞過限制(越獄攻擊),Claude 的行為一致性通常比競品好

Hallucination(幻覺)問題的現況

AI 幻覺——也就是模型自信滿滿地講出錯誤資訊——是所有 LLM(大型語言模型)目前都面臨的問題。Claude 3.7 沒有完全解決這個問題,但在幾個方面有明顯改善:

  • 知道自己不知道:當被問到它不確定的事情,Claude 3.7 明顯更傾向說「我不確定,建議你查證」,而不是硬掰一個聽起來合理的答案
  • 引用來源的謹慎度:它不會隨便捏造書名或論文標題(這在 GPT-3 時代是惡名昭彰的問題),但仍然不建議直接把它提供的引用拿去用,應該自行查證

使用原則:把 Claude 3.7 當作知識淵博的顧問,而不是百科全書。它給你的方向和框架通常很可靠,但具體的數字、日期、法規細節,你還是要自己核實。


實際使用場景:哪些工作最適合 Claude 3.7?

高度適合的使用情境

1. 軟體開發全流程輔助

從需求分析、架構設計、程式碼撰寫、除錯,到撰寫技術文件,Claude 3.7 可以參與整個開發流程。特別是配合 Cursor 編輯器使用,它可以直接在你的程式碼庫裡操作,理解檔案之間的關係,給出更有針對性的建議。

2. 複雜文件分析與摘要

把一份 100 頁的合約、研究報告或財務文件丟給它,要求它摘要重點、找出潛在風險點、或者回答你的特定問題——這類任務 Claude 3.7 處理得相當好,特別是 20 萬 Token 的超長上下文視窗讓它可以一口氣讀完整份文件。

3. 學習與教學輔助

無論是學習新的程式語言、理解複雜的技術概念、或者備考各種專業證照,Claude 3.7 的解釋能力很強。它特別擅長用「類比」的方式讓你理解困難的概念,而不只是重複教科書上的定義。

4. 商業分析與策略規劃

給它市場資料、競爭對手資訊、或者公司的內部數據,它能幫你整理成有邏輯的分析框架。雖然它沒有即時的市場資料(訓練資料有截止日期),但對於分析框架和商業邏輯的掌握相當強。

5. 多步驟 Workflow 的 Agent 任務

Claude 3.7 特別適合作為 AI Agent(智能代理)的核心模型。如果你在用 n8n、Make.com 或自己開發的 Agent 框架,Claude 3.7 在理解複雜指令、做多步驟規劃、以及在不確定時主動詢問澄清這幾點上,表現都相當可靠。

相對不適合的情境

  • 需要即時資訊的任務:最新新聞、今天的股價、剛發布的產品規格
  • 高度個人化的情感支持:它能理解並回應,但畢竟不是人
  • 需要精確法律或醫療建議:它可以幫你理解基本概念,但不能取代專業人士的意見

如何上手 Claude 3.7 Sonnet:使用建議

一般使用者的入門方式

Step 1:訂閱 Claude.ai

前往 claude.ai,免費版可以使用 Claude 3.5 Sonnet,要用到 Claude 3.7 Sonnet 需要升級到 Pro 方案,目前定價是每月 $20 美元(與 ChatGPT Plus 相同)。

Pro 方案包含:
– 優先使用 Claude 3.7 Sonnet
– 更高的每日使用量上限
– 延伸思考模式
– Projects(專案)功能,可以讓 Claude 記住跨對話的脈絡

Step 2:學會有效提示(Prompt Engineering)

Claude 3.7 對指令的理解能力很強,但你給的指令越清楚,結果越好。幾個基本技巧:

  • 給角色:「你是一位有十年經驗的 Python 後端工程師…」
  • 給格式要求:「用 Markdown 格式輸出,包含標題、列點和程式碼區塊」
  • 給限制條件:「不要超過 500 字」「只使用 Python 標準函式庫」
  • 給例子:如果你有特定的輸出格式,直接給它看一個範例

Step 3:善用 Projects 功能

這是很多人沒有充分利用的功能。你可以建立一個專案,上傳相關文件,並給 Claude 一段「系統說明」——比如你的公司背景、你的寫作風格偏好、或者你希望它遵循的特定規則。之後在這個專案裡的所有對話,它都會記得這些脈絡。

開發者的進階使用

如果你是開發者,可以透過 Anthropic API 存取 Claude 3.7 Sonnet:

import anthropic

client = anthropic.Anthropic(api_key="your_api_key")

# 使用延伸思考模式
response = client.messages.create(
    model="claude-3-7-sonnet-20250219",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 分配給思考過程的 Token 數
    },
    messages=[{
        "role": "user",
        "content": "請解決這個複雜的演算法問題..."
    }]
)

API 定價相對合理:輸入 Token $3 / 百萬,輸出 Token $15 / 百萬。對個人開發者或小型專案來說,每個月的費用通常在幾美元到幾十美元之間。

提升效率的進階技巧

技巧一:把常用的提示模板存起來

如果你每天都在做類似的任務,花時間寫一個精準的提示模板,然後存到 Projects 或 Notion 裡,每次複製貼上就好。初期的時間投資,長期能省很多時間。

技巧二:分段處理超長任務

雖然 Claude 3.7 有 20 萬 Token 的上下文,但並不是所有情況都值得一次餵給它所有資料。複雜任務可以拆成幾個步驟,每次只專注一個子任務,品質往往更好。

技巧三:請它自我評估

在得到一個重要的輸出之後,可以繼續問:「這個答案有哪些潛在的問題或盲點?」這個簡單的步驟常常能讓你得到更全面的分析。

如果你想在系統性的環境中學習這些技能、並且有人帶著你從零開始實戰,可以了解一下 BMA Labs——這是高培創辦的 AI 實戰學習社群,專門為非技術背景的人設計,每週有直播課程帶你用 Claude、GPT 這類工具真正解決工作問題,不只是看影片、而是做中學。


結論:Claude 3.7 Sonnet 值得你認真對待

在評測了各種場景之後,我的整體結論是:Claude 3.7 Sonnet 目前是市面上最強的通用 AI 模型之一,特別在程式碼能力和複雜推理上確立了新的標準。

它不是在所有方面都完美的神器——沒有即時資訊、圖片生成需要另外找工具、超長文件仍然有細節記憶的限制。但它在「真正解決工作問題」這件事上的可靠性,比我用過的任何一個版本都要高。

延伸思考模式是這次最值得注意的創新。它不只是讓 AI「看起來更聰明」,而是真的改變了它處理困難問題的方式——讓模型能夠自我檢查、發現假設、修正錯誤。這對要把 AI 用在高風險場景(比如商業決策、程式碼審查、文件分析)的使用者,是個很有意義的進步。

在 AI 工具快速演進的今天,我不會說 Claude 3.7 是「永遠的最強」——三個月後很可能又有新的模型出來。但就此刻來說,如果你只能選一個 AI 工具認真學、認真用,Claude 3.7 Sonnet 絕對值得你把它列在清單最前面。


常見問題 FAQ

Q1:Claude 3.7 Sonnet 和 Claude 3.5 Sonnet 差在哪裡?

最主要的差異是延伸思考模式——這是 3.7 版才有的功能。在複雜推理、數學計算和程式碼生成上,3.7 的表現明顯優於 3.5,特別是開啟延伸思考之後。如果你目前用 3.5 已經很滿意,處理一般工作任務其實也夠用;但要挑戰比較困難的問題,升級是值得的。

Q2:Claude 3.7 可以免費使用嗎?

免費版的 claude.ai 目前只提供 Claude 3.5 Sonnet 的存取。要使用 Claude 3.7 Sonnet,需要訂閱 Claude Pro(每月 $20 美元)或 Claude Team(每月 $25 美元/人)。對開發者來說,也可以透過 Anthropic API 按量計費使用,適合使用量不穩定的情況。

Q3:延伸思考模式會讓回應變慢嗎?

會。啟用延伸思考之後,Claude 需要先跑完思考過程才給你最終答案,根據問題複雜度和設定的思考 Token 上限,額外等待時間從幾秒到幾十秒不等。對於需要即時互動的場景,建議只在真正需要深度推理的任務上開啟,日常對話還是用一般模式就好。

Q4:Claude 3.7 的繁體中文能力怎麼樣?

整體不錯,但有幾點值得注意。它的中文能力在閱讀理解、翻譯、以及正式寫作上表現很好;但在非常口語化的台灣用語(比如網路用語、特定地區俚語)上,偶爾會出現用語不夠道地的情況。跟 GPT-4o 比,兩者在繁體中文上的差距已經不大,可以根據你的使用需求自己測試看看。

Q5:把機密資料丟給 Claude 安全嗎?

這是企業用戶最常問的問題。Anthropic 在隱私政策上說明,Claude.ai 的對話預設不會用來訓練模型(你可以在設定中確認)。但如果你是透過 API 使用,有更嚴格的資料隱私控制選項。如果你的資料是真正的機密(客戶個資、商業機密、法律文件),建議使用 Claude Enterprise 版本,或者先和法務確認你們公司的 AI 使用政策。

Q6:Claude 3.7 適合完全沒有技術背景的人使用嗎?

完全適合。你不需要懂任何程式或 AI 知識,只要能打字、能描述你的問題,就能使用。Claude 3.7 特別擅長把複雜概念解釋得簡單易懂,即使你用中文提問也沒問題。入門建議就是先從你工作中最花時間的重複性任務開始——寫信、整理資料、製作摘要——用這些具體任務慢慢培養使用習慣。

Q7:Claude 3.7 可以上網搜尋資訊嗎?

原生的 Claude 3.7 沒有即時上網的能力,訓練資料有截止日期。但如果你透過 Claude.ai 使用,Anthropic 有時會提供整合搜尋工具的測試功能;另外,透過 API 整合,你可以自己加入網路搜尋工具(Tool Use 功能)來擴充它的能力。這方面的架構設計,也是 AI Agent 開發中常見的應用模式。

Q8:如何判斷 Claude 3.7 給的答案是否可信?

幾個實用的判斷原則:事實性問題(數字、日期、法規)一定要自行查證;框架性問題(分析方法、思考架構)通常可靠性較高;程式碼要在實際環境跑過才算數。另外,如果你對某個答案有疑慮,直接問它「這個答案你有多確定?有哪些部分你比較不確定?」——Claude 3.7 通常會誠實說明它的信心程度,這比很多模型都要可靠。


本文評測基於截至 2025 年初的公開資訊及實際測試結果。AI 模型持續更新演進,建議以官方最新說明為準。

📺 延伸學習影片

想更深入了解這個主題?以下影片提供詳細的實作教學:

Claude 3.7 Sonnet 完整評測:目前最強 AI 模型究竟有多厲害?

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端