云大语言模型提供商
大型语言模型提供商简要列表
使用大型语言模型(LLM)的成本并不高,可能不需要购买新的高性能GPU。
以下是一份云上LLM提供商列表,列出了他们托管的LLM。
LLM提供商 - 原始
Anthropic LLM模型
Anthropic开发了一组先进的大型语言模型(LLMs),这些模型属于“Claude”品牌。这些模型适用于各种应用场景,强调安全性、可靠性和可解释性。
Claude模型的主要变体
模型 | 优势 | 应用场景 |
---|---|---|
Haiku | 速度、效率 | 实时、轻量级任务 |
Sonnet | 平衡的能力与性能 | 通用应用 |
Opus | 高级推理、多模态 | 复杂、高风险任务 |
Claude 3系列中的所有模型都可以处理文本和图像,其中Opus在多模态任务中表现出特别强的性能。
技术基础
- 架构: Claude模型是生成式预训练变压器(GPTs),经过训练以预测大量文本中的下一个单词,然后针对特定行为进行微调。
- 训练方法: Anthropic使用一种称为宪法AI的独特方法,通过让模型根据一套原则(“宪法”)进行自我批评和修订响应,以指导模型变得有帮助且无害。这一过程进一步通过人工智能反馈的强化学习(RLAIF)进行优化,其中使用AI生成的反馈来使模型输出与宪法保持一致。
可解释性和安全性
Anthropic在可解释性研究上投入大量资源,以了解其模型如何表示概念并做出决策。诸如“字典学习”之类的技术有助于将内部神经元激活映射到人类可解释的特征,使研究人员能够追踪模型如何处理信息并做出决策。这种透明度旨在确保模型按预期行为,并识别潜在的风险或偏见。
企业与实际应用
Claude模型部署在各种企业场景中,包括:
- 客户服务自动化
- 运营(信息提取、摘要)
- 法律文件分析
- 保险理赔处理
- 编程辅助(生成、调试、代码解释)
这些模型通过如Amazon Bedrock等平台提供,使其可以集成到业务工作流程中。
研究与开发
Anthropic继续推进AI对齐、安全性和透明性的科学,旨在构建不仅强大而且值得信赖并符合人类价值观的模型。
总而言之,Anthropic的Claude模型代表了LLM开发的领先方法,结合了最先进的能力,并高度重视安全性、可解释性和实际企业使用。
OpenAI LLM模型(2025)
OpenAI提供了一套全面的大型语言模型(LLMs),最新一代强调多模态、扩展上下文和针对编程和企业任务的专门能力。截至2025年5月,主要模型如下所示。
关键OpenAI LLMs
模型 | 发布日期 | 多模态 | 上下文窗口 | 专长 | API/ChatGPT可用性 | 微调 | 著名基准/功能 |
---|---|---|---|---|---|---|---|
GPT-3 | 2020年6月 | 否 | 2K tokens | 文本生成 | 仅API | 是 | MMLU ~43% |
GPT-3.5 | 2022年11月 | 否 | 4K–16K tokens | 聊天、文本任务 | ChatGPT免费/API | 是 | MMLU 70%,HumanEval ~48% |
GPT-4 | 2023年3月 | 文本+图像 | 8K–32K tokens | 高级推理 | ChatGPT Plus/API | 是 | MMLU 86.4%,HumanEval ~87% |
GPT-4o (“Omni”) | 2024年5月 | 文本+图像+音频 | 128K tokens | 多模态、快速、可扩展 | ChatGPT Plus/API | 是 | MMLU 88.7%,HumanEval ~87.8% |
GPT-4o Mini | 2024年7月 | 文本+图像+音频 | 128K tokens | 成本效益高、快速 | API | 是 | MMLU 82%,HumanEval 75.6% |
GPT-4.5 | 2025年2月* | 文本+图像 | 128K tokens | 中间阶段、改进准确性 | API(预览,已弃用) | 否 | MMLU ~90.8% |
GPT-4.1 | 2025年4月 | 文本+图像 | 1M tokens | 编程、长上下文 | 仅API | 计划中 | MMLU 90.2%,SWE-Bench 54.6% |
GPT-4.1 Mini | 2025年4月 | 文本+图像 | 1M tokens | 性能与成本平衡 | 仅API | 计划中 | MMLU 87.5% |
GPT-4.1 Nano | 2025年4月 | 文本+图像 | 1M tokens | 经济型、超快 | 仅API | 计划中 | MMLU 80.1% |
*GPT-4.5是一个短暂的预览版本,现已弃用,取而代之的是GPT-4.1。
模型亮点
- GPT-4o(“Omni”):整合文本、视觉和音频输入/输出,提供接近实时的响应和128K-token上下文窗口。它是ChatGPT Plus和API的当前默认模型,在多语言和多模态任务中表现出色。
- GPT-4.1:专注于编程、指令遵循和极长上下文(高达100万tokens)。截至2025年5月,它仅通过API提供,微调计划中但尚未可用。
- Mini和Nano变体:为实时或大规模应用提供成本效益高、延迟优化的选项,以牺牲部分准确性换取速度和价格。
- 微调:除最新模型(如截至2025年5月的GPT-4.1)外,大多数模型均可微调,允许企业根据特定领域或任务定制模型。
- 基准测试:新模型在标准测试(MMLU、HumanEval、SWE-Bench)中持续优于旧模型,GPT-4.1在编程和长上下文理解方面创下新纪录。
应用场景范围
- 文本生成与聊天:GPT-3.5、GPT-4、GPT-4o
- 多模态任务:GPT-4V、GPT-4o、GPT-4.1
- 编程与开发工具:GPT-4.1、GPT-4.1 Mini
- 企业自动化:所有模型,支持微调
- 实时、成本效益高的应用:Mini/Nano变体
2025年OpenAI的LLM生态系统高度多样化,模型适用于从简单聊天到高级多模态推理和大规模企业部署的一切。最新模型(GPT-4o、GPT-4.1)在上下文长度、速度和多模态集成方面突破了界限,而Mini和Nano变体则针对生产使用中的成本和延迟问题。
MistralAI LLM模型(2025)
MistralAI迅速扩展了其大型语言模型(LLMs)组合,提供开源和商业解决方案,强调多语言、多模态和代码中心能力。以下是其主要模型及其特点的概述。
模型名称 | 类型 | 参数 | 专长 | 发布日期 |
---|---|---|---|---|
Mistral Large 2 | LLM | 123B | 多语言、推理 | 2024年7月 |
Mistral Medium 3 | LLM | 前沿级 | 编程、STEM | 2025年5月 |
Pixtral Large | 多模态LLM | 124B | 文本 + 视觉 | 2024年11月 |
Codestral | 代码LLM | 专有 | 代码生成 | 2025年1月 |
Mistral Saba | LLM | 专有 | 中东、南亚语言。 | 2025年2月 |
Ministral 3B/8B | 边缘LLM | 3B/8B | 边缘/手机 | 2024年10月 |
Mistral Small 3.1 | 小型LLM | 专有 | 多模态、高效 | 2025年3月 |
Devstral Small | 代码LLM | 专有 | 代码工具使用、多文件 | 2025年5月 |
Mistral 7B | 开源 | 7B | 通用用途 | 2023–2024 |
Codestral Mamba | 开源 | 专有 | 代码、mamba 2架构。 | 2024年7月 |
Mathstral 7B | 开源 | 7B | 数学 | 2024年7月 |
旗舰与商业模型
- Mistral Large 2:2025年的旗舰模型,拥有1230亿参数和128K-token上下文窗口。它支持数十种语言和超过80种编程语言,在高级推理和多语言任务中表现出色。
- Mistral Medium 3:2025年5月发布,该模型在效率和性能之间取得平衡,尤其在编程和STEM相关任务中表现突出。
- Pixtral Large:2024年11月发布的1240亿参数多模态模型(文本和视觉),专为需要语言和图像理解的任务设计。
- Codestral:专为代码生成和软件工程设计,最新版本于2025年1月发布。Codestral针对低延迟、高频代码任务进行了优化。
- Mistral Saba:专注于中东和南亚语言,2025年2月发布。
- Mistral OCR:2025年3月推出的光学字符识别服务,可从PDF中提取文本和图像,用于下游AI处理。
边缘和小型模型
- Les Ministraux(Ministral 3B, 8B):一组专为边缘设备优化的模型,在性能和效率之间取得平衡,适用于手机和资源受限的硬件部署。
- Mistral Small:一款领先的多模态小型模型,v3.1于2025年3月发布,专为效率和边缘用例设计。
- Devstral Small:一款最先进的代码模型,专注于工具使用、代码库探索和多文件编辑,2025年5月发布。
开源和专用模型
- Mistral 7B:最受欢迎的开源模型之一,被社区广泛采用和微调。
- Codestral Mamba:第一个开源“mamba 2”模型,2024年7月发布。
- Mistral NeMo:一个强大的开源模型,2024年7月发布。
- Mathstral 7B:一个专为数学设计的开源模型,2024年7月发布。
- Pixtral(12B):一个用于文本和图像理解的较小多模态模型,2024年9月发布。
支持服务
- Mistral Embed:为下游任务提供最先进的语义文本表示。
- Mistral Moderation:检测文本中的有害内容,支持安全部署。
MistralAI的模型可通过API和开源发布获得,重点关注多语言、多模态和代码中心应用。其开源方法和合作伙伴关系促进了AI生态系统中快速创新和广泛采用。
Meta LLM模型(2025)
Meta的大型语言模型(LLM)家族,称为Llama(Large Language Model Meta AI),是目前最突出的开源和研究驱动的AI生态系统之一。最新一代Llama 4标志着在能力、规模和模态方面的重大飞跃。
模型 | 参数 | 模态 | 架构 | 上下文窗口 | 状态 |
---|---|---|---|---|---|
Llama 4 Scout | 17B (16专家) | 多模态 | MoE | 未指定 | 已发布 |
Llama 4 Maverick | 17B (128专家) | 多模态 | MoE | 未指定 | 已发布 |
Llama 4 Behemoth | 未发布 | 多模态 | MoE | 未指定 | 正在训练中 |
Llama 3.1 | 405B | 文本 | 密集 | 128,000 | 已发布 |
Llama 2 | 7B, 13B, 70B | 文本 | 密集 | 较短 | 已发布 |
最新的Llama 4模型
-
Llama 4 Scout:
- 170亿个活跃参数,16个专家,混合专家(MoE)架构
- 本机多模态(文本和视觉),开放权重
- 可在单个H100 GPU上运行(使用Int4量化)
- 专为效率和广泛可访问性设计
-
Llama 4 Maverick:
- 170亿个活跃参数,128个专家,MoE架构
- 本机多模态,开放权重
- 可在单个H100主机上运行
- 更多专家多样性,增强推理能力
-
Llama 4 Behemoth(预览):
- 尚未发布,作为Llama 4系列的“教师”模型
- 在STEM基准测试(如MATH-500、GPQA Diamond)中优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro
- 代表Meta迄今为止最强大的LLM
Llama 4的关键功能:
- 首个本机多模态模型(文本和图像),开放权重
- 无与伦比的上下文长度支持(细节未指定,但专为长文本任务设计)
- 使用先进的混合专家架构构建,以提高效率和可扩展性
Llama 3系列
-
Llama 3.1:
- 4050亿参数
- 128,000-token上下文窗口
- 在超过15万亿token上训练
- 支持多种语言(最新版本新增八种语言)
- 目前发布的最大开源模型
-
Llama 3.2和3.3:
- 后续改进和部署,包括专门用例(如Llama 3.2部署在国际空间站)
-
Llama 2:
- 早期一代,有7B、13B和70B参数版本
- 仍广泛用于研究和生产
开源与生态系统
- Meta对开源AI有坚定的承诺,为开发者和研究人员提供模型和库。
- Llama模型驱动了Meta平台上的许多AI功能,并在更广泛的AI社区中被广泛采用。
总结:
Meta的Llama模型已发展成为世界上最先进、开放和多模态的LLM之一,Llama 4 Scout和Maverick在效率和能力方面领先,而Llama 3.1在开源规模和上下文长度方面创下新纪录。生态系统设计用于广泛可访问性、研究和各种使用案例的集成。
Qwen LLM模型(2025)
Qwen是阿里巴巴的大型语言模型(LLMs)家族,以其开源可用性、强大的多语言和编程能力以及快速迭代而著称。Qwen系列现在包括多个主要版本,每个版本都有独特的优势和创新。
世代 | 模型类型 | 参数 | 关键功能 | 开源 |
---|---|---|---|---|
Qwen3 | 密集、MoE | 0.6B–235B | 混合推理、多语言、代理 | 是 |
Qwen2.5 | 密集、MoE、VL | 0.5B–72B | 编程、数学、128K上下文、VL | 是 |
QwQ-32B | 密集 | 32B | 数学/编程专注,32K上下文 | 是 |
Qwen-VL | 视觉-语言 | 2B–72B | 文本 + 图像输入 | 是 |
Qwen-Max | MoE | 专有 | 复杂、多步骤推理 | 否 |
最新世代和旗舰模型
-
Qwen3(2025年4月)
- 代表阿里巴巴目前最先进的LLMs,推理、指令遵循、工具使用和多语言性能方面有重大改进。
- 提供密集和混合专家(MoE)架构,参数大小范围从0.6B到235B。
- 引入“混合推理模型”,可以在“思考模式”(用于复杂推理、数学和代码)和“非思考模式”(用于快速、通用聊天)之间切换。
- 在创意写作、多轮对话和基于代理的任务中表现出色,支持超过100种语言和方言。
- 许多变体提供开放权重,使Qwen3对开发者和研究人员高度可访问。
-
Qwen2.5(2025年1月)
- 以广泛的尺寸(0.5B到72B参数)发布,适用于移动和企业应用。
- 在18万亿token数据集上训练,上下文窗口高达128,000 tokens。
- 在编程、数学推理、多语言流利度和效率方面有重大升级。
- 专门模型如Qwen2.5-Math针对高级数学任务。
- Qwen2.5-Max是一个大规模的MoE模型,预训练在超过20万亿token上,并通过SFT和RLHF进行微调,擅长复杂、多步骤任务。
-
QwQ-32B(2025年3月)
- 专注于数学推理和编程,在性能上与更大模型竞争,同时计算效率高。
- 32B参数大小,32K token上下文窗口,根据Apache 2.0开源。
多模态和专用模型
-
Qwen-VL系列
- 集成视觉变压器的视觉-语言模型(VL),支持文本和图像输入。
- Qwen2-VL和Qwen2.5-VL提供从2B到72B的参数大小,大多数变体开源。
-
Qwen-Max
- 为复杂和多步骤推理提供顶级推理性能,可通过API和在线平台使用。
模型可用性和生态系统
- Qwen模型根据Apache 2.0许可证(除某些最大变体)开源,并可通过阿里云、Hugging Face、GitHub和ModelScope访问。
- Qwen家族在消费电子、游戏和企业AI等行业被广泛采用,拥有超过90,000家企业用户。
Qwen家族的关键功能
- 多语言掌握: 支持100多种语言,在翻译和跨语言任务中表现出色。
- 编程和数学: 在代码生成、调试和数学推理方面表现领先,有专门针对这些领域的模型。
- 扩展上下文: 上下文窗口高达128,000 tokens,适用于详细、长文本任务。
- 混合推理: 能够在复杂和通用任务中切换模式,以实现最佳性能。
- 开源领导: 许多模型完全开源,促进了社区的快速采用和研究。
总结:
Qwen模型在开源LLM开发方面处于领先地位,Qwen3和Qwen2.5提供最先进的推理、多语言和编程能力,覆盖广泛的模型尺寸,并在行业中得到广泛应用。它们的混合推理、大上下文窗口和开源可用性使它们成为研究和企业应用的首选。
LLM 提供商 - 代理商
Amazon AWS Bedrock LLM 模型(2025)
Amazon Bedrock 是一个完全托管的无服务器平台,提供对来自 Amazon 和顶级 AI 公司的众多领先大型语言模型(LLMs)和基础模型(FMs)的访问。它旨在简化生成式 AI 在企业应用程序中的集成、定制和部署。
支持的模型提供商和家族
Amazon Bedrock 提供了目前最广泛的 LLM 选择,包括来自以下公司的模型:
- Amazon(Nova 系列)
- Anthropic(Claude)
- AI21 Labs(Jurassic)
- Cohere
- Meta(Llama)
- Mistral AI
- DeepSeek(DeepSeek-R1)
- Stability AI
- Writer
- Luma
- Poolside(即将推出)
- TwelveLabs(即将推出)
这种多样性使组织可以根据其特定需求混合和匹配模型,并且只需进行少量代码更改即可升级或切换模型。
Amazon 自有的模型:Nova
- Amazon Nova 是 Amazon 最新一代的基础模型,专为高性能、效率和企业集成而设计。
- Nova 模型支持文本、图像和视频输入,并通过在专有公司数据上进行推理,使 Retrieval Augmented Generation(RAG)表现优异。
- 它们针对代理应用进行了优化,能够执行与组织 API 和系统交互的复杂、多步骤任务。
- Nova 支持自定义微调和蒸馏,使客户可以根据自己的标记数据集创建私有、定制化的模型。
第三方和专用模型
- DeepSeek-R1:一款高性能、完全托管的 LLM,适用于高级推理、编码和多语言任务,现已在 Bedrock 上提供。
- Meta Llama、Anthropic Claude、AI21 Jurassic、Mistral、Cohere 等:每个模型在语言、编码、推理或多模态方面都有其独特的优势,覆盖了广泛的企业和研究用例。
- 市场:Bedrock 市场提供了超过 100 个受欢迎、新兴和专用的 FMs,可通过托管端点访问。
定制和适应
- 微调:Bedrock 允许使用您自己的数据对模型进行私有微调,为您的组织创建一个安全、定制化的模型副本。您的数据不会用于重新训练基础模型。
- 检索增强生成(RAG):Bedrock 的知识库允许您通过上下文和最新的公司数据来丰富模型响应,自动为结构化和非结构化数据执行 RAG 工作流程。
- 蒸馏:将大型教师模型的知识转移到较小、高效的学员模型中,以实现成本效益高的部署。
模型评估
- LLM 作为评委:Bedrock 提供了一个模型评估工具,您可以使用 LLM 作为评估者对模型(包括 Bedrock 以外的模型)进行基准测试和比较。这有助于选择符合特定质量和负责任 AI 标准的最佳模型。
部署和安全
- 无服务器和可扩展:Bedrock 处理基础设施、扩展和安全性,使组织能够专注于应用程序逻辑。
- 安全性和合规性:数据在传输和静止时均加密,并符合 ISO、SOC、HIPAA、CSA 和 GDPR 标准。
总结:
Amazon Bedrock 提供了一个统一、安全的平台,用于访问、定制和部署一系列领先的 LLM,包括 Amazon 自有的 Nova 模型和一流的第三方 FMs,支持微调、RAG 和高级评估工具,以支持企业级生成式 AI 应用程序。
Groq LLM 模型(2025)
Groq 本身并不是 LLM 的开发者,而是一家专注于使用其专有的语言处理单元(LPU)技术,实现领先的大型语言模型(LLMs)超快速、低延迟部署的硬件和云推理提供商。GroqCloud™ 使开发人员能够以前所未有的速度和效率运行各种前沿的、公开可用的 LLM。
GroqCloud 上支持的 LLM
截至 2025 年,GroqCloud 为越来越多的顶级 LLM 提供高性能推理,包括:
- Meta Llama 3(8B,70B)
- Mistral Mixtral 8x7B SMoE
- Google Gemma 7B
- DeepSeek
- Qwen
- Whisper(语音转文本)
- Codestral、Mamba、NeMo 等
GroqCloud 定期更新以支持新的和受欢迎的开源和研究模型,使其成为开发人员和企业的多功能平台。
关键功能和优势
- 超低延迟:基于 LPU 的推理引擎实时提供响应,基准测试显示其速度优势显著优于传统的 GPU 基于推理。
- OpenAI API 兼容性:开发人员只需更改几行代码即可从 OpenAI 或其他提供商切换到 Groq,得益于 API 兼容性。
- 可扩展性:Groq 的基础设施优化了从小型到大型部署,支持从单个开发人员到企业级应用程序的一切。
- 成本效益:Groq 提供具有竞争力、透明的 LLM 推理定价,提供免费、按需付费和企业级选项。
- 区域可用性:GroqCloud 全球运营,如沙特阿拉伯的达曼数据中心等主要数据中心,支持全球需求。
示例模型和定价(截至 2025 年)
模型 | 上下文窗口 | 定价(每百万个 token) | 用例 |
---|---|---|---|
Llama 3 70B | 8K | $0.59(输入) / $0.79(输出) | 通用用途 LLM |
Llama 3 8B | 8K | $0.05(输入) / $0.10(输出) | 轻量级任务 |
Mixtral 8x7B SMoE | 32K | $0.27(输入/输出) | 多语言、编码 |
Gemma 7B Instruct | — | $0.10(输入/输出) | 指令遵循 |
生态系统和集成
- Groq 为 Orq.ai 等平台提供支持,使团队能够构建、部署和扩展具有实时性能和可靠性的 LLM 应用程序。
- 由于 API 兼容性和广泛的模型支持,从其他提供商迁移变得容易。
总结:
Groq 不创建自己的 LLM,但通过 GroqCloud 为广泛的顶级开源和研究 LLM(如 Llama、Mixtral、Gemma、DeepSeek、Qwen)提供行业领先的、超快速的推理。其 LPU 硬件和云平台因其速度、可扩展性、成本效率和 开发者友好 集成而受到重视。