AI - Page 3 - Rost Glukhov | 개인 사이트 및 기술 블로그

로컬에서 대규모 언어 모델(LLM) 실행 는 프라이버시, 비용 관리, 오프라인 기능을 위해 점점 더 인기를 끌고 있습니다. 2025년 4월에 Docker가 Docker Model Runner (DMR), AI 모델 배포를 위한 공식 솔루션을 발표하면서 상황은 크게 변화했습니다.

AI의 미래는 AI가 더 똑똑한 모델을 의미하는 것 이상입니다. 그것은 더 똑똑한 실리콘을 의미합니다.
LLM 추론을 위한 전용 하드웨어는 비트코인 채굴이 ASIC으로 전환했던 것과 유사한 혁명을 일으키고 있습니다.

DGX Spark 대 Mac Studio: NVIDIA의 개인용 AI 슈퍼컴퓨터 가격 비교 분석

**NVIDIA DGX Spark**는 실제 제품이며, 2025년 10월 15일에 판매가 시작되며, CUDA 개발자들이 로컬 LLM 작업을 수행하기 위해 통합된 NVIDIA AI 스택이 포함된 제품을 대상으로 합니다. 미국 MSRP는 $3,999이며, 영국/독일/일본의 경우 VAT 및 채널 비용으로 인해 가격이 더 높습니다. AUD/KRW 공식 가격표는 아직 널리 공개되지 않았습니다.

Ollama용 Go 클라이언트: SDK 비교 및 Qwen3/GPT-OSS 예제

이 가이드는 사용 가능한 Go SDKs for Ollama에 대한 종합적인 개요를 제공하고, 그 기능 세트를 비교합니다.

다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다.
지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다:

Ollama의 GPT-OSS 모델은 특히 LangChain, OpenAI SDK, vllm 및 기타 프레임워크와 함께 사용될 때 구조화된 출력을 처리하는 데 반복적인 문제가 있습니다.

구조화된 출력으로 LLM 제한: Ollama, Qwen3 및 Python 또는 Go

대규모 언어 모델(LLMs) 은 강력하지만, 실제 운영 환경에서는 일반적인 문장이 아닌 예측 가능한 데이터를 원합니다. 즉, 앱에 입력할 수 있는 속성, 사실 또는 구조화된 객체를 원합니다. 이에 대해 LLM 구조화된 출력을 살펴보겠습니다.

여기서 저는 새로운 버전의 Ollama가 모델에 할당하는 VRAM의 양을 이전 버전과 비교하고 있습니다.
새로운 버전은 더 나쁘다고 보입니다.

Ollama은 LLM을 로컬에서 실행하는 데 사용되는 가장 인기 있는 도구 중 하나로 빠르게 자리 잡았습니다.
간단한 CLI와 간소화된 모델 관리 기능 덕분에, 클라우드 외부에서 AI 모델을 사용하고자 하는 개발자들에게 필수적인 선택지가 되었습니다.
하지만 많은 유망한 플랫폼과 마찬가지로, 이미 **Enshittification**의 징후가 나타나고 있습니다.

로컬에서 호스팅된 Ollama는 대형 언어 모델을 자신의 컴퓨터에서 실행할 수 있게 해줍니다. 하지만 명령줄을 통해 사용하는 것은 사용자 친화적이지 않습니다. 다음은 로컬 Ollama에 연결되는 **ChatGPT 스타일의 인터페이스**를 제공하는 여러 오픈 소스 프로젝트입니다.

The Pragmatic Engineer 뉴스레터가 며칠 전에 발표한 설문 조사 통계에 따르면, 2025년 중반의 프로그래밍 언어, IDE, AI 도구의 인기 및 기타 데이터가 포함되어 있습니다.

NVIDIA는 곧 NVIDIA DGX Spark를 출시할 예정입니다. 이는 Blackwell 아키텍처를 기반으로 한 소형 AI 슈퍼컴퓨터로, 128GB 이상의 통합 RAM과 1 PFLOPS의 AI 성능을 제공합니다. LLM을 실행하는 데 매우 적합한 장비입니다.

Ollama와 Qwen3 Reranker 모델을 사용한 문서 재정렬 - Go로

표준 Ollama에는 직접적인 재정렬 API가 없기 때문에, 쿼리-문서 쌍의 임베딩을 생성하고 이를 점수화하여 Qwen3 재정렬기 사용으로 재정렬하기(GO)를 구현해야 합니다.

한 여름의 추운 날, 호주에서는 여름이 아니라 겨울이죠…
AI 모델을 훈련하여 비캡된 콘크리트 강화 철근을 감지하는 것이 급한 필요성을 느꼈습니다…

이 테스트에서는 Ollama에 호스팅된 다양한 LLM이 Hugo 페이지를 영어에서 독일어로 번역하는 방법을 비교하고 있습니다. https://www.glukhov.org/ko/post/2025/06/translation-quality-comparison-llms-on-ollama/ "comparison how different LLMs hosted on Ollama translate Hugo page from English to German".

테스트한 세 페이지는 서로 다른 주제를 다루고 있으며, 마크다운 형식으로 구성되어 있습니다. 헤더, 목록, 표, 링크 등이 포함되어 있습니다.

Ollama와 Qwen3 Embedding LLM을 사용한 텍스트 재정렬 - Go로

이 작은
Reranking Go 코드 예제는 Ollama를 호출하여 쿼리와 각 후보 문서에 대한 임베딩을 생성
그런 다음 코사인 유사도에 따라 내림차순으로 정렬합니다.

AI

도커 모델 러너 vs 올라마: 어떤 것을 선택해야 할까?

LLM ASIC의 등장: 추론 하드웨어가 중요한 이유

DGX Spark 대 Mac Studio: NVIDIA의 개인용 AI 슈퍼컴퓨터 가격 비교 분석

Ollama용 Go 클라이언트: SDK 비교 및 Qwen3/GPT-OSS 예제

비교: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS 구조화된 출력 문제

구조화된 출력으로 LLM 제한: Ollama, Qwen3 및 Python 또는 Go

Ollama 새 버전 - v0.12.1에서의 메모리 할당 모델 스케줄링

올라마 엔시티피케이션 - 초기 징후

로컬 올라마 인스턴스의 채팅 UI

프로그래밍 언어 및 소프트웨어 개발자 도구의 인기

NVIDIA DGX Spark - 새로운 소형 AI 슈퍼컴퓨터

Ollama와 Qwen3 Reranker 모델을 사용한 문서 재정렬 - Go로

텐서플로우를 사용한 객체 감지

Hugo 페이지 번역 품질 비교 - Ollama 상의 LLMs

Ollama와 Qwen3 Embedding LLM을 사용한 텍스트 재정렬 - Go로