Qwen 3.6 27B e 35B MTP versus Padrão em GPU de 16GB
MTP versus decodificação padrão na RTX 4080 — benchmarks reais
Testei o desempenho da Decodificação Especulativa (Previsão de Múltiplos Tokens, MTP) nos modelos Qwen 3.6 27B e 35B em uma RTX 4080 com 16 GB de VRAM.