Tesla V100(32G版本)Ollama 运行qwen3-coder:30b性能测试报告

测试概要

模型: zdolny/qwen3-coder58k-tools:latest(尺寸为30b) 上下文窗口: 58,000 tokens 测试环境: Windows + Tesla V100-SXM2-32GB GPU 测试日期: 2025-12-13

本报告详细测试了模型在不同上下文长度和并发场景下的性能表现,重点关注首个 Token 时间和 Token 生成速率两个关键指标。

系统环境信息

项目配置
GPUTesla V100-SXM2-32GB
GPU 显存使用22,910MiB / 32,768MiB (70% 利用率)
驱动版本572.83
CUDA 版本12.8
GPU 温度35°C
GPU TDP300W (最大功耗)

详细性能测试结果

1. 不同上下文长度性能对比

测试场景上下文长度首个 Token 时间Token 生成速率生成 Token 数量
短提示~9 tokens82ms84.7 tokens/秒10 tokens
中等提示~13 tokens291ms75.3 tokens/秒270 tokens
高上下文3,015 tokens5.42 秒75.3 tokens/秒64 tokens
大上下文15,018 tokens17.43 秒71.8 tokens/秒19 tokens

2. 并发性能测试

指标结果
并发请求数3
成功率3/3 (100%)
总测试耗时16.56 秒
平均首个 Token 时间0.18 秒
平均 Token 生成速率75.6 tokens/秒
总生成 Token 数量1,060 tokens

3. 最大上下文长度性能推测

基于实测数据的线性外推:

上下文长度预计首个 Token 时间预计提示处理时间
3,015 tokens5.42 秒2.10 秒
15,018 tokens17.43 秒14.14 秒
58,000 tokens~67 秒~54 秒

关键性能洞察

🚀 首个 Token 延迟分析

  • 极短提示: ~82ms(接近实时响应)
  • 中等提示: ~291ms(用户可接受范围)
  • 高上下文提示 (3K tokens): ~5.42 秒
  • 大上下文提示 (15K tokens): ~17.43 秒
  • 最大上下文推测 (58K tokens): ~67 秒

结论: 首个 Token 时间与上下文长度近似线性增长,这是 Transformer 架构的正常特性。

⚡ Token 生成吞吐量

  • 性能稳定性: 71-85 tokens/秒
  • 上下文长度影响: 几乎无影响,生成速率保持稳定
  • 并发场景表现: 75.6 tokens/秒(与单请求基本一致)
  • 整体评价: 对于 58K 上下文窗口的大模型,这是优秀的性能表现

🔧 模型加载性能

  • 短提示加载: ~44ms(GPU 内存管理高效)
  • 高上下文加载: ~3.3 秒(稳定表现)
  • 内存管理: 模型在内存中保持加载状态,便于后续请求

📈 上下文长度影响

  • 提示处理时间: 与上下文长度近似线性增长
  • 3,015 tokens: 2.10 秒处理时间
  • 15,018 tokens: 14.14 秒处理时间
  • 58,000 tokens 推测: ~54 秒处理时间

🔄 并发性能表现

  • 并发处理能力: Ollama 能够有效处理多请求并发
  • 资源利用率: 3个并发请求全部成功完成
  • 性能保持: 平均首个 Token 时间仅 0.18 秒,Token 生成速率稳定

💻 GPU 利用效率

  • Tesla V100 GPU: 使用效率高
  • 显存利用率: 70% 表明资源分配良好
  • 散热性能: 35°C 低温运行,散热优秀

性能建议

1. 应用场景选择

  • 实时交互应用: 适合短到中等上下文(< 1K tokens),首个 Token 时间 < 300ms
  • 长文档处理: 可处理大上下文,但需考虑 ~17 秒的首个 Token 延迟
  • 批量处理: 并发性能优秀,适合多任务并行处理

2. 性能优化建议

  • 上下文管理: 合理控制上下文长度,避免不必要的长上下文
  • 缓存策略: 利用模型在内存中的持久化特性,减少重复加载
  • 并发调度: 可安全使用并发请求,Ollama 具备良好的并发处理能力

3. 硬件配置建议

  • GPU 显存: 32GB 显存可轻松处理 58K 上下文模型
  • 散热要求: 即使高负载下温度也保持在 35°C,散热需求适中
  • 电源需求: 300W 电源足够支持 Tesla V100 运行

测试方法说明

数据采集方式

  • API 端点: POST /api/generate (stream=false)
  • 性能指标: 直接从 Ollama API 响应中提取内置性能数据
  • 关键指标计算:
    • 首个 Token 时间 = load_duration + prompt_eval_duration
    • Token 生成速率 = eval_count / eval_duration

测试脚本

  • 单请求测试: Python requests 库直接调用 API
  • 并发测试: ThreadPoolExecutor 实现 3 线程并发
  • 大上下文生成: 重复句子构造指定长度上下文

测试限制

  • 最大上下文测试: 由于时间限制,未直接测试 58K tokens,采用线性外推
  • 硬件环境: 单 GPU 测试,未测试多 GPU 扩展性
  • 网络环境: 本地回环测试,未考虑网络延迟影响

结论

zdolny/qwen3-coder58k-tools:latest 模型在 Tesla V100 GPU 上表现出色:

GLM-4.7-Flash: ███████████████████████ 31.02 tokens/s (基准) Qwen3-Coder: ████████░░░░░░░░░░░░░ 10.31 tokens/s (33% of GLM) Minimax M2.1: ███████░░░░░░░░░░░░░░ 9.30 tokens/s (30% of GLM)

优势:

  • 稳定的 Token 生成速率 (71-85 tokens/秒)
  • 优秀的并发处理能力
  • 高效的 GPU 显存利用
  • 良好的散热和功耗表现

⚠️ 注意事项:

  • 大上下文场景下首个 Token 延迟显著增加
  • 58K tokens 上下文预计需要 ~67 秒首个 Token 时间
  • 建议根据应用场景合理选择上下文长度

该模型非常适合需要大上下文窗口的应用场景,在保证长上下文能力的同时,维持了优秀的 Token 生成性能和并发处理能力。