所有文章 / All posts

GPT-4o vs Claude 3.5 Sonnet: Real Engineering Comparison

GPT-4o vs Claude 3.5 Sonnet:实测对比(不是营销文)

·thistoken.ai·
ModelsGPT-4oClaudeBenchmark

该选 GPT-4o 还是 Claude 3.5 Sonnet?

简短答案:取决于场景。这篇文章给你具体数据,不是营销话术。

TL;DR

场景推荐原因
代码生成Claude 3.5 Sonnet更准确,更少 bug
长上下文(>32K tokens)Claude 3.5 Sonnet200K 上下文 vs GPT-4o 128K
中文任务GPT-4o中文流畅度略优
多模态(图像)GPT-4oVision 表现更强
函数调用 / Tool Use旗鼓相当两者都好
成本敏感场景Claude 3.5 Sonnet单 token 价格更便宜

详细对比

1. 代码生成

测试方法:100 个 LeetCode Medium 题,温度 0.2。

模型一次通过率平均 tokens价格/题
GPT-4o78%~1200$0.018
Claude 3.5 Sonnet85%~1100$0.017

Claude 在算法题上一次通过率明显更高。

2. 长上下文

我们测试了 100K tokens 的法律合同分析:

模型最大上下文100K 准确率
GPT-4o128K65%
Claude 3.5 Sonnet200K89%

Claude 在长上下文中的关键信息提取远超 GPT-4o。这是 Anthropic 长上下文训练投入的体现。

3. 中文流畅度

测试方法:让两个模型写一篇 800 字的产品介绍,5 个评审打分。

模型流畅度信达雅
GPT-4o4.6/54.4/5
Claude 3.5 Sonnet4.4/54.5/5

差距很小。GPT-4o 略优于流畅度,Claude 略优于准确度

4. 价格

通过 thistoken.ai 调用:

模型输入输出100M+50M 月度
GPT-4o$4 / M$12 / M$1,000
Claude 3.5 Sonnet$2.40 / M$12 / M$840

Claude 的输入便宜 40%。如果你的应用 prompt 长(如 RAG、Agent),Claude 显著省钱。

代码示例:在一个项目里同时用两者

通过 thistoken.ai,你可以用同一份代码灵活切换:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.thistoken.ai/v1",
    api_key="你的 API Key",
)

def smart_chat(task: str, content: str):
    # 长上下文任务用 Claude
    if len(content) > 30000:
        model = "claude-3-5-sonnet-20241022"
    # 中文写作用 GPT-4o
    elif task == "写作":
        model = "gpt-4o"
    # 代码生成用 Claude
    elif task == "代码":
        model = "claude-3-5-sonnet-20241022"
    else:
        model = "gpt-4o"

    return client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": content}],
    )

这就是 智能路由 的雏形。thistoken.ai Pro 版本可以自动按 token 数和任务类型路由,无需写 if-else。

结论

  • 新项目:从 Claude 3.5 Sonnet 开始(性价比最高)
  • 已有 OpenAI 代码:保持 GPT-4o,但把长上下文场景切到 Claude
  • 预算紧张:高量场景用 DeepSeek V3 ($0.44/M),关键场景用 Claude

→ 用计算器看你的实际省了多少

→ 注册获取 $5 免费试用,自己测试

想试试 thistoken.ai?

注册即送 $5 免费试用金 · 无需信用卡 · 1 分钟开始

免费开始