在Ollama上测试Deepseek-R1

将两个 deepseek-r1 模型与两个基础模型进行比较

DeepSeek’s 第一代推理模型,其性能可与 OpenAI-o1 相媲美,包括基于 Llama 和 Qwen 的 DeepSeek-R1 的六个密集模型。

Ollama 模型库 最近添加了一组基于 Llama 3.1 和 3.3 以及 Qwen 2 的 DeepSeek 模型。

Llama 站在伦敦街头,旁边是 Deepseek-r1 的标志 上面是一张 AI 生成图像(由 Flux 1 dev 模型生成),展示了 Llama 站在伦敦街头 Deepseek-r1 标志旁边的场景。

在这篇文章中,我将比较两个 DeepSeek-r1 模型与其基础模型 Llama 3.1 和 Qwen2。

TL;DR - 测试结果总结

  • 最佳结果:llama3.1:8b-instruct-q4_K_M
  • 两个 DeepSeek-r1 模型 deepseek-r1:7b-qwen-distill-q4_K_Mdeepseek-r1:8b-llama-distill-q4_K_M - 表现不佳。
模型 测试 1 测试 2 测试 3 测试 4 总计
deepseek-r1:7b-qwen-distill-q4_K_M 3 3 2 2 10
deepseek-r1:8b-llama-distill-q4_K_M 3 2 4 1 10
llama3.1:8b-instruct-q4_K_M 4 4 2 4 14
qwen2.5:7b-instruct-q4_K_M 3 3 3 3 12

评论

  • 测试 1 中 - 所有模型表现良好,但 llama3.1:8b-instruct-q4_K_M 因提供了 相似性差异性 部分而获得额外加分。
  • 测试 2 中 - deepseek-r1:8b-llama-distill-q4_K_M 生成的响应太短,llama3.1:8b-instruct-q4_K_M 因 比较摘要 而获得额外加分。
  • 测试 3 中 - 不喜欢 llama3.1:8b-instruct-q4_K_M 的左倾倾向,deepseek-r1:8b-llama-distill-q4_K_M 生成了平衡且结构良好的结果。
  • 测试 4 中 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%;deepseek-r1:8b-llama-distill-q4_K_M - 在性别认同、DEI 和受害化方面失去了所有内容。llama3.1:8b-instruct-q4_K_M - 结构良好且 切中要点 的响应。

安装 Ollama

https://ollama.com 安装 Ollama 服务器。

如需详细说明,请参见 安装 Ollama 并配置模型位置

拉取 DeepSeek-r1 模型、Llama 3.1 和 Qwen 2 模型

在这里我测试的是 DeepSeek 模型 7b-qwen-distill-q4_K_M8b-llama-distill-q4_K_M, Llama 模型:llama3.1:8b-instruct-q4_K_M 和 Qwen 2.5 模型:qwen2.5:7b-instruct-q4_K_M

下载 DeepSeek-r1、Llama3.1 和 Qwen2.5 模型

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

运行 DeepSeek-r1 模型

运行 DeepSeek-r1 和其他 LLM 模型

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Please see sample prompts and responses in the English version of this post. You can select the language on the right.

结论

我原本对Depseek-r1模型寄予了更高的期望。
期望它们的表现会优于基础模型。
但也许这些模型太小了,或者可能是r2版本——表现会更好。
让我们拭目以待。

有用的链接