Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3 和 Phi - 大语言模型测试

下一轮LLM测试

不久之前发布了。让我们跟上进度并
测试Mistral Small与其他LLMs的性能表现。

在此之前我们已经进行了：

汽车正在加速

我们如何测试

在这里我们测试LLMs的摘要能力：

前五名的平均正确答案百分比：

所有这些模型都表现良好。

我想将一些注意力转向Mistral模型组。语言质量略优于平均水平。

另一个要点是，一个小小的3.2b模型llama3.2:3b-instruct-q8_0在它的尺寸下表现非常出色，而且它是所有模型中最快的。

模型名称、参数、量化	大小	测试1	测试2	平均
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75