Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 및 Phi - LLM 테스트

LLM 테스트 다음 라운드

Page content

얼마 전에 출시되었습니다. 지금 바로 확인하고
다른 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.

이전에 우리는 다음과 같은 테스트를 진행했습니다:

차량이 속도를 내고 있습니다

테스트 방법

여기서 우리는 LLM의 요약 능력을 테스트합니다:

  • 40개의 샘플 텍스트가 있으며, 질문과 요약 프롬프트를 사용하여 LLM을 실행합니다 (Perplexica와 유사한 방식으로 perplexica을 사용)
  • 임베딩 모델을 사용하여 요약 결과를 재정렬
  • 정답 수를 총 질문 수로 나누면 모델의 성능을 알 수 있습니다

테스트 결과

평균 정답 비율이 높은 상위 5개 모델:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

모든 모델들이 좋은 성능을 보였습니다.

Mistral 모델 그룹에 주목할 필요가 있습니다. 언어의 질이 평균보다 약간 더 좋습니다.

또한, 작은 3.2b 모델인 lama3.2:3b-instruct-q8_0은 크기와 비례하여 매우 좋은 결과를 보였으며, 이 중 가장 빠른 모델입니다.

상세 테스트 결과

모델 이름, 파라미터, 양자화 크기 테스트 1 테스트 2 평균
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

유용한 링크