Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3 和 Phi - 大语言模型测试
下一轮LLM测试
目录
不久之前发布了。让我们跟上进度并
测试Mistral Small与其他LLMs的性能表现。
在此之前我们已经进行了:
我们如何测试
在这里我们测试LLMs的摘要能力:
- 我们有40个样本文本,并使用问题和摘要提示运行LLM (类似于perplexica的方法)
- 使用嵌入模型对摘要进行重排序
- 正确答案的数量除以总问题数,得出模型的性能
测试结果
前五名的平均正确答案百分比:
- 82%:phi3 - 14b-medium-128k-instruct-q4_0
- 81%:llama3.1 - 8b-instruct-q8_0
- 81%:mistral-small - 22b-instruct-2409-q4_0
- 79%:mistral-nemo - 12b-instruct-2407-q6_K
- 79%:llama3.2 - 3b-instruct-q8_0
所有这些模型都表现良好。
我想将一些注意力转向Mistral模型组。语言质量略优于平均水平。
另一个要点是,一个小小的3.2b模型llama3.2:3b-instruct-q8_0在它的尺寸下表现非常出色,而且它是所有模型中最快的。
详细测试结果
模型名称、参数、量化 | 大小 | 测试1 | 测试2 | 平均 |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |