在Ollama上测试Deepseek-R1
将两个 deepseek-r1 模型与两个基础模型进行比较
DeepSeek’s 第一代推理模型,其性能可与 OpenAI-o1 相媲美,包括基于 Llama 和 Qwen 的 DeepSeek-R1 的六个密集模型。
Ollama 模型库 最近添加了一组基于 Llama 3.1 和 3.3 以及 Qwen 2 的 DeepSeek 模型。
上面是一张 AI 生成图像(由 Flux 1 dev 模型生成),展示了 Llama 站在伦敦街头 Deepseek-r1 标志旁边的场景。
在这篇文章中,我将比较两个 DeepSeek-r1 模型与其基础模型 Llama 3.1 和 Qwen2。
TL;DR - 测试结果总结
- 最佳结果:
llama3.1:8b-instruct-q4_K_M
- 两个 DeepSeek-r1 模型
deepseek-r1:7b-qwen-distill-q4_K_M
和deepseek-r1:8b-llama-distill-q4_K_M
- 表现不佳。
模型 | 测试 1 | 测试 2 | 测试 3 | 测试 4 | 总计 |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
评论
- 在 测试 1 中 - 所有模型表现良好,但 llama3.1:8b-instruct-q4_K_M 因提供了
相似性
和差异性
部分而获得额外加分。 - 在 测试 2 中 - deepseek-r1:8b-llama-distill-q4_K_M 生成的响应太短,llama3.1:8b-instruct-q4_K_M 因
比较摘要
而获得额外加分。 - 在 测试 3 中 - 不喜欢 llama3.1:8b-instruct-q4_K_M 的左倾倾向,deepseek-r1:8b-llama-distill-q4_K_M 生成了平衡且结构良好的结果。
- 在 测试 4 中 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%;deepseek-r1:8b-llama-distill-q4_K_M - 在性别认同、DEI 和受害化方面失去了所有内容。llama3.1:8b-instruct-q4_K_M - 结构良好且
切中要点
的响应。
安装 Ollama
从 https://ollama.com 安装 Ollama 服务器。
如需详细说明,请参见 安装 Ollama 并配置模型位置
拉取 DeepSeek-r1 模型、Llama 3.1 和 Qwen 2 模型
在这里我测试的是 DeepSeek 模型 7b-qwen-distill-q4_K_M、8b-llama-distill-q4_K_M, Llama 模型:llama3.1:8b-instruct-q4_K_M 和 Qwen 2.5 模型:qwen2.5:7b-instruct-q4_K_M
下载 DeepSeek-r1、Llama3.1 和 Qwen2.5 模型
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
运行 DeepSeek-r1 模型
运行 DeepSeek-r1 和其他 LLM 模型
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Please see sample prompts and responses in the English version of this post. You can select the language on the right.
结论
我原本对Depseek-r1模型寄予了更高的期望。
期望它们的表现会优于基础模型。
但也许这些模型太小了,或者可能是r2版本——表现会更好。
让我们拭目以待。