Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 및 Phi - LLM 테스트
LLM 테스트 다음 라운드
Page content
얼마 전에 출시되었습니다. 지금 바로 확인하고
다른 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
이전에 우리는 다음과 같은 테스트를 진행했습니다:
테스트 방법
여기서 우리는 LLM의 요약 능력을 테스트합니다:
- 40개의 샘플 텍스트가 있으며, 질문과 요약 프롬프트를 사용하여 LLM을 실행합니다 (Perplexica와 유사한 방식으로 perplexica을 사용)
- 임베딩 모델을 사용하여 요약 결과를 재정렬
- 정답 수를 총 질문 수로 나누면 모델의 성능을 알 수 있습니다
테스트 결과
평균 정답 비율이 높은 상위 5개 모델:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
모든 모델들이 좋은 성능을 보였습니다.
Mistral 모델 그룹에 주목할 필요가 있습니다. 언어의 질이 평균보다 약간 더 좋습니다.
또한, 작은 3.2b 모델인 lama3.2:3b-instruct-q8_0은 크기와 비례하여 매우 좋은 결과를 보였으며, 이 중 가장 빠른 모델입니다.
상세 테스트 결과
모델 이름, 파라미터, 양자화 | 크기 | 테스트 1 | 테스트 2 | 평균 |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |