ANI

Imatanisa Ikhodi ye-Claude namamodeli endawo

nimda June 12, 2026

0 2 10 minutes read

Imatanisa Ikhodi ye-Claude namamodeli endawo

# Isingeniso

Amaseshini okubhala amakhodi e-Ajenti ayabiza. Iseshini eyodwa Yekhodi ye-Claude — amafayela okufunda, ikhodi yokubhala, ukuhlola okwenziwayo, ukuphindaphinda — ingashisa amathokheni amaningi ngokuphindwe ka-10–50 kunengxoxo nje yengxoxo. Esikalini, lokho kuhlanganisa ngokushesha. Engeza imikhawulo yesilinganiso engaphazamisa ukuhamba komsebenzi okuhlala isikhathi eside maphakathi neseshini, kanye nokuncika ku-API yenkampani yangaphandle engashintsha amanani, iphoqelele izinqubomgomo eziqinile, noma yehle nganoma isiphi isikhathi, futhi icala lencazelo yendawo liba lula.

Amamodeli endawo ngo-2026 mahle ngokwanele. Emisebenzini ye-Claude Code asingatha nsuku zonke – ukugcwaliswa kwekhodi, ukulungisa kabusha, ukulungisa iphutha, incazelo ye-codebase – imodeli ekhethwe kahle esebenza endaweni ihlanganisa iningi lamacala okusetshenziswa kwangempela ngezindleko zethokheni eziyiziro futhi ngaphandle kwemingcele yesilinganiso. Lesi sihloko sihlanganisa izinkomba ezintathu ezingemuva (U-Ollama, I-LM Studiofuthi llama.cpp), imvelo eguquguqukayo kanye namafayela okumisa ukuze kuxhunywe intambo ngayinye ku-Claude Code, ithebula elikhethiwe lamamodeli okufanele asetshenziswe, kanye nezixazululo zokuxazulula izinkinga zezinkinga ozozishaya ngempela.

# Ixhumeka kanjani Ikhodi ye-Claude kunoma iyiphi imodeli yendawo

Indlela ilula kunezinye iziqondiso eziyenza ibukeke. Ikhodi ye-Claude ithumela izicelo ngefomethi ye-API yemilayezo ye-Anthropic. Ngokuzenzakalelayo lezo zicelo ziya kumaseva e-Anthropic. Ukusetha ANTHROPIC_BASE_URL iziqondisa kabusha kunoma iyiphi iseva ekhuluma ifomethi efanayo, manje ehlanganisa i-Ollama, i-LM Studio, kanye ne-llama.cpp ngokomdabu.

Ngokombhalo osemthethweni we-Claude Code environment variables, okuguquguqukayo okubalulekile kulokhu kusetha yizi:

ANTHROPIC_BASE_URL: iqondisa kabusha zonke izingcingo ze-API kusuka eziphakelini ze-Anthropic kuya kunoma iyiphi i-URL oyisethayo. Setha lokhu ekhelini lakho leseva ye-inference yendawo.
ANTHROPIC_API_KEY: ukhiye we-API othunyelwe kunhlokweni yesicelo. Amaseva endawo ngokuvamile akunaki ukuqinisekiswa, ngakho-ke lokhu kuvame ukusethwa kuyunithi yezinhlamvu yesimeli efana nokuthi “wendawo“noma”ulala.”
ANTHROPIC_AUTH_TOKEN: enye inhlokweni yombhali. Amanye amaseva asendaweni ahlola lokhu esikhundleni sokhiye we-API. Isethe kusimeli esifanayo.

ANTHROPIC_DEFAULT_SONNET_MODEL, ANTHROPIC_DEFAULT_HAIKU_MODELfuthi ANTHROPIC_DEFAULT_OPUS_MODEL: Ikhodi ye-Claude ngaphakathi icela amamodeli ahlukene ahlukene kuye ngomsebenzi. Lezi ziguquko ezintathu zikhomba isigaba ngasinye egameni lemodeli yangakini. Ngaphandle kwabo, uClaude Code uthumela izicelo claude-sonnet-4-20250514 kuseva yangakini, ezonqaba isicelo ngoba ayikho imodeli enjalo ekhona endaweni.

NgoJanuwari 2026, u-Ollama wengeze ukwesekwa komdabu kwe-Anthropic Messages API, okwakuwushintsho lobuchwepheshe olwenze lokhu kugeleza komsebenzi kusebenze ngaphandle kwama-proxies okuhumusha. I-LM Studio ingeze owomdabu /v1/messages isiphetho kunguqulo 0.4.1. I-llama.cpp ibe nokusekelwa okuqondile kwe-Anthropic API isikhathi eside. Bobathathu manje bakhuluma iphrothokholi yomdabu kaClaude Code.

Umdwebo wezakhiwo ohlanzekile obonisa i-Claude Code, i-Ollama, i-LM Studio kanye ne-llama.cpp

Umdwebo wezakhiwo ohlanzekile obonisa i-Claude Code, i-Ollama, i-LM Studio, ne-llama.cpp | Isithombe nguMbhali

# Ingemuva 1: U-Ollama

U-Ollama uyisiqalo esifanele. Iphatha yonke inkimbinkimbi yokuphathwa kwamamodeli – ukulanda izisindo, ukulinganisa, ukwabiwa kwe-GPU ne-CPU, kanye nokuphakela – ngemuva kwesixhumi esibonakalayo somugqa womyalo (CLI). Umyalo owodwa wokufaka, umyalo owodwa wokudonsa imodeli, okuguquguqukayo kwemvelo okumbalwa okumele kulungiswe. Isebenza njengensizakalo yangemuva ngemuva kokufaka, ngakho-ke asikho isidingo sokuqalisa iseva esenziwa ngesandla.

Okudingekayo

macOS, Linux, noma Windows (WSL2 inconywe ku-Windows)
Okungenani i-RAM engu-16 GB yokusetshenziswa okungokoqobo (kunconyiwe okungu-32 GB)
I-GPU eno-8+ GB VRAM ye-GPU inference, noma i-CPU kuphela ene-RAM eyanele
I-Ollama v0.14.0 noma eyakamuva iyadingeka ukuze kusekelwe i-Anthropic Messages API

Faka i-Ollama:

# macOS and Linux -- one command install
curl -fsSL  | sh

# Verify the version -- must be 0.14.0+ for Claude Code compatibility
ollama version
# Expected: ollama version is 0.14.x or higher

# Windows: download the installer from 
# Native Windows support has improved significantly in recent releases

Ngemva kokufaka, i-Ollama iqala ngokuzenzakalelayo njengesevisi yangemuva echwebeni 11434. Ungaqinisekisa ukuthi iyasebenza:

# Check the Ollama server is live
curl 

# Expected response:
# Ollama is running

Donsa imodeli yekhodi:

# GLM-4.7-Flash -- recommended starting point
# Strong tool calling, 128K context, fits on 8 GB VRAM
# Apache 2.0 license
ollama pull glm-4.7-flash:latest

# Qwen3-Coder -- strong code generation and instruction following
# Requires 20+ GB VRAM for the full model
ollama pull qwen3-coder

# Devstral-Small -- specifically designed for agentic coding workflows
# Community-tested for Claude Code compatibility
# 24B, requires 16+ GB VRAM
ollama pull devstral-small-2:24b

# Verify the model is downloaded and ready
ollama list
# Shows all pulled models with their sizes and modification dates

// Ilungiselela Ikhodi ka-Claude ukuze isebenzise i-Ollama

Inketho 1: Ukuthunyelwa kweShell (isikhathi setheminali yamanje kuphela)

# Redirect Claude Code to your local Ollama server
export ANTHROPIC_BASE_URL="

# Local servers do not require real authentication
# Set these to any non-empty string -- Ollama ignores the value
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"

# Map Claude Code's model tier requests to your local model name
# Claude Code internally requests sonnet/haiku/opus -- these variables
# translate those tier names to whatever model you have pulled locally
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"

# Launch Claude Code -- it will now use Ollama instead of the Anthropic API
claude

Inketho 2: ~/.claude/settings.json (unomphela, kusebenza kuzo zonke izikhathi)

Le ndlela isinda ekuqalisweni kabusha kwetheminali futhi isebenza njalo uma wethula Ikhodi ye-Claude. UClaude Code ufunda okuguquguqukayo kwemvelo kusuka settings.json ekuqaleni ukuze zisebenze noma kanjani claude yethulwa.

Dala noma hlela ~/.claude/settings.json:

{
  "env": {
    "ANTHROPIC_BASE_URL": "
    "ANTHROPIC_API_KEY": "ollama",
    "ANTHROPIC_AUTH_TOKEN": "ollama",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7-flash:latest"
  }
}

Inketho 3: .env ifayela kuhla lwemibhalo yephrojekthi (ukukhishwa kwephrojekthi ngayinye)

Uma ufuna iphrojekthi ethile ukusebenzisa imodeli ehlukile ngenkathi ugcina izilungiselelo zakho zomhlaba wonke ku-Anthropic API:

# .env in your project root -- loaded automatically by Claude Code
ANTHROPIC_BASE_URL=
ANTHROPIC_API_KEY=ollama
ANTHROPIC_AUTH_TOKEN=ollama
ANTHROPIC_DEFAULT_SONNET_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_HAIKU_MODEL=qwen3-coder
ANTHROPIC_DEFAULT_OPUS_MODEL=qwen3-coder

Qinisekisa uxhumano:

# Launch Claude Code with a simple test
claude

# Inside Claude Code, run a basic prompt:
# > What model are you running?
# A local model should respond without making any Anthropic API calls.

# To confirm no external calls are being made, run with verbose logging:
claude --verbose

# Look for lines showing requests going to localhost:11434
# rather than api.anthropic.com

Ukulandelana okuphelele kokusebenza kusuka ekuqaleni:

curl -fsSL  | sh          # 1. Install Ollama
ollama pull glm-4.7-flash:latest                       # 2. Pull model (~4 GB)
export ANTHROPIC_BASE_URL="     # 3. Redirect Claude Code
export ANTHROPIC_API_KEY="ollama"                      # 4. Set placeholder auth
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
claude                                                  # 5. Launch

# Ingemuva 2: I-LM Studio

I-LM Studio iyisinqumo esifanele uma ufuna isixhumi esibonakalayo sokuphequlula nokuphatha amamodeli kunokuba usebenze ngokuphelele kutheminali. Kusukela kunguqulo engu-0.4.1, ihlanganisa i-Anthropic-compatible yomdabu /v1/imiyalezo i-endpoint — indlela efanayo elindelwe yi-Claude Code — ngakho-ke asikho isendlalelo sokuhumusha esidingekayo.

Okudingekayo:

macOS, Windows, noma Linux
I-GPU ene-6+ GB VRAM inconyiwe (i-CPU kuphela ingenzeka kodwa ihamba kancane)
Landa kusuka ku-lmstudio.ai noma usebenzise isifaki se-CLI kumaseva angenakhanda

Faka futhi ulungiselele i-LM Studio:

# On a server or VM without a GUI -- CLI installer
curl -fsSL  | bash

# Or download the desktop app from  for GUI use

Izinyathelo zokusetha i-GUI:

Vula i-LM Studio bese usesha imodeli yekhodi (sesha “qwen coder” noma “devstral”).
Landa imodeli. I-LM Studio iphatha ukukhetha kokulinganisa ngokuzenzakalelayo.
Iya ku Iseva Yasendaweni ithebhu (i <> isithonjana kubha eseceleni yesokunxele).
Setha usayizi womongo. I-LM Studio incoma ukuthi kuqalwe okungenani ngamathokheni angu-25,000 futhi kukhushulwe ukuze kube nemiphumela engcono.
Chofoza Qala Iseva.
Qaphela imbobo (okuzenzakalelayo: 1234) bese ukopisha igama lemodeli njengoba kukhonjisiwe.

Qaphela: Kopisha isihlonzi semodeli kahle. I-LM Studio ibonisa iyunithi yezinhlamvu okuyiyonayona okudingeka udlule kuyo ANTHROPIC_DEFAULT_SONNET_MODEL. Ukungafani lapha imodi yokwehluleka evame kakhulu.

Lungiselela Ikhodi ka-Claude:

# Set the base URL to LM Studio's local server
export ANTHROPIC_BASE_URL="
export ANTHROPIC_API_KEY="lm-studio"
export ANTHROPIC_AUTH_TOKEN="lm-studio"

# Replace the model name with what LM Studio shows for your loaded model
# Copy it exactly -- including any version suffix or quantization tag
export ANTHROPIC_DEFAULT_SONNET_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen2.5-coder-32b-instruct"
export ANTHROPIC_DEFAULT_OPUS_MODEL="qwen2.5-coder-32b-instruct"

Noma ngokuphikelela ukungena ~/.claude/settings.json:

{
  "env": {
    "ANTHROPIC_BASE_URL": "
    "ANTHROPIC_API_KEY": "lm-studio",
    "ANTHROPIC_AUTH_TOKEN": "lm-studio",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen2.5-coder-32b-instruct",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen2.5-coder-32b-instruct",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen2.5-coder-32b-instruct"
  }
}

Isebenza kanjani:

# 1. Start the LM Studio server from the GUI (Local Server tab > Start Server)
# 2. Set environment variables
export ANTHROPIC_BASE_URL="
export ANTHROPIC_API_KEY="lm-studio"
export ANTHROPIC_AUTH_TOKEN="lm-studio"
export ANTHROPIC_DEFAULT_SONNET_MODEL="your-model-name-here"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="your-model-name-here"
export ANTHROPIC_DEFAULT_OPUS_MODEL="your-model-name-here"
# 3. Launch
claude

# Ingemuva 3: llama.cpp

llama.cpp kuyisinqumo esifanele uma udinga ukulawula okuqondile phezu kwemingcele ye-inference — uhlobo lwe-quantization, ukumiswa kwenqolobane ye-KV, usayizi weqoqo, isibalo sentambo – noma uma usebenzisa iseva futhi ufuna okungaphezulu okuphansi kakhulu. Inosekelo lwe-Anthropic Messages API, ngakho-ke awukho ummeleli noma isendlalelo sokuhumusha esidingekayo.

Okudingekayo:

Ifayela lemodeli yefomethi ye-GGUF (landa ku-Hugging Face; sesha izinguqulo ze-“GGUF” zanoma iyiphi imodeli)
I-CUDA-GPU enamandla ye-GPU inference, noma i-CPU kuphela ngokuqonda okunensayo
I-CMake kanye ne-C++ compiler yokwakhiwa komthombo (ku-Linux/CUDA, umthombo uyanconywa)

Faka i-llama.cpp:

# macOS -- Homebrew is simplest
brew install llama.cpp

# Linux with CUDA -- build from source for best GPU performance
git clone 
cd llama.cpp
cmake -B build -DGGML_CUDA=ON          # Enable CUDA acceleration
cmake --build build --config Release   # Build
# Binaries in ./build/bin/

# Linux CPU-only build
cmake -B build
cmake --build build --config Release

# Windows -- pre-built binaries available at:
# 
# Download the CUDA or CPU variant matching your hardware

Landa imodeli ye-GGUF:

# Install the Hugging Face CLI if you do not have it
pip install huggingface-hub

# Download GLM-4.7-Flash in Q4_K_XL quantization (~4.5 GB)
# This quantization offers a good size/quality balance for coding
huggingface-cli download unsloth/GLM-4.7-Flash-GGUF 
  GLM-4.7-Flash-UD-Q4_K_XL.gguf 
  --local-dir ./models/

# Or download Qwen3-Coder in Q4 quantization (~15 GB for 32B)
huggingface-cli download Qwen/Qwen3-Coder-32B-Instruct-GGUF 
  qwen3-coder-32b-instruct-q4_k_m.gguf 
  --local-dir ./models/

Qala iseva ye-llama.cpp:

# Start llama-server with Anthropic API support and a 128K context window
llama-server 
  --model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf 
  --alias "glm-4.7-flash"           # This name goes in ANTHROPIC_DEFAULT_SONNET_MODEL
  --port 8001 
  --ctx-size 131072                 # 128K context -- important for large codebases
  --flash-attn                      # Memory-efficient attention, improves speed
  --n-gpu-layers 99                  # Offload all layers to GPU; remove for CPU-only

# For CPU-only inference (no GPU):
llama-server 
  --model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf 
  --alias "glm-4.7-flash" 
  --port 8001 
  --ctx-size 32768                  # Reduce context size on CPU to keep memory manageable
  --threads 8                        # Match your CPU core count

Amafulegi angukhiye achaziwe:

--alias: iyunithi yezinhlamvu yegama lemodeli i-Claude Code izothumela ngezicelo. Setha ANTHROPIC_DEFAULT_SONNET_MODEL ukufanisa lokhu ngqo.
--ctx-size: iwindi lokuqukethwe kumathokheni. 131072 = 128K. Okukhudlwana kungcono ekuhlaziyeni i-codebase kodwa kusebenzisa i-VRAM eyengeziwe. Nciphisa uma uthola amaphutha angaphandle kwenkumbulo.
--flash-attn: I-Flash Attention inciphisa i-VRAM ephezulu ngokucubungula ukunaka kumabhulokhi amancane. Inike amandla noma nini uma isakhiwo sakho sikusekela.
--n-gpu-layers 99: ilayisha zonke izendlalelo ze-transformer ku-GPU. Iseva isebenzisa ngokuzenzakalela izendlalelo ezimbalwa uma i-VRAM iqinile.

Lungiselela Ikhodi ka-Claude:

export ANTHROPIC_BASE_URL="
export ANTHROPIC_API_KEY="llama-cpp"
export ANTHROPIC_AUTH_TOKEN="llama-cpp"

# Must match the --alias you passed to llama-server exactly
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash"

Isebenza kanjani:

# Terminal 1: start the llama.cpp server
llama-server 
  --model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf 
  --alias "glm-4.7-flash" 
  --port 8001 
  --ctx-size 131072 
  --flash-attn 
  --n-gpu-layers 99

# Terminal 2: configure and launch Claude Code
export ANTHROPIC_BASE_URL="
export ANTHROPIC_API_KEY="llama-cpp"
export ANTHROPIC_AUTH_TOKEN="llama-cpp"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash"
claude

# Okuphelele `settings.json`

Ukuthunyelwa okuhlukile kwemvelo kuhlala kuphela inqobo nje uma kuseshini yetheminali. Ukuze uthole ukucushwa okuhlala isikhathi eside, sebenzisa ~/.claude/settings.json. Ikhodi ka-Claude ifunda okuguquguqukayo kuleli fayela ekuqaleni ukuze kusebenze kungakhathaliseki ukuthi u-Claude wethulwe kanjani – kusukela kutheminali, kumsebenzi we-VS Code, noma kuskripthi.

Nansi into elungele ukukhiqiza settings.json nakho konke okuguquguqukayo kuchaziwe:

{
  "env": {
    "ANTHROPIC_BASE_URL": "

    "ANTHROPIC_API_KEY": "ollama",
    "ANTHROPIC_AUTH_TOKEN": "ollama",

    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.7-flash:latest",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7-flash:latest",

    "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
  }
}

Kungani CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS: "1" okubalulekile:

Lapho usebenzisa i-Claude Code ngokusebenzisa i-backends engeyona eye-Anthropic, i-Claude Code yengeza amafulegi we-beta wokuhlola we-Anthropic ukuze acele izihloko – amafulegi lawo amaseva enkampani yangaphandle nawendawo angawaboni. Lokhu kubangela Error: Unexpected value(s) for the anthropic-beta header kumaseva amaningi asendaweni. Isetha lokhu okuguquguqukayo ukuze "1" ihlubula lezo zihloko ngaphambi kokuthi isicelo siphume, okuqeda iphutha ngaphandle kokuthikameze noma yimuphi umsebenzi owumongo wekhodi ye-Claude.

Ukushintsha phakathi kwama-backend:

Uma usebenza ngama-backends amaningi – i-Ollama ukuze isetshenziswe nsuku zonke, i-Anthropic API yemisebenzi eyinkimbinkimbi – indlela ehlanzekile igcina imibhalo yegobolondo ehlukene kunokuhlela settings.json emuva naphambili:

# use-local.sh -- switch to Ollama
export ANTHROPIC_BASE_URL="
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
echo "Claude Code → local Ollama (glm-4.7-flash)"

# use-anthropic.sh -- switch back to the Anthropic API
unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
unset ANTHROPIC_DEFAULT_SONNET_MODEL
unset ANTHROPIC_DEFAULT_HAIKU_MODEL
unset ANTHROPIC_DEFAULT_OPUS_MODEL
# ANTHROPIC_API_KEY should already be set to your real key in your rc file
echo "Claude Code → Anthropic API"

Thola noma yisiphi isikripthi kuseshini yakho yamanje:

source ./use-local.sh
claude

# When you need the real API for a complex task:
source ./use-anthropic.sh
claude

# Amamodeli Asendaweni Ahamba Phambili Ekhodi ye-Claude ngo-2026

I-Hardware iyisibophezelo esikhulu. Ukuze Ikhodi ye-Claude enamamodeli endawo isebenziseke ngempela emisebenzini yokubhala amakhodi kunokuba nje idemo, hlose u-32 GB we-RAM — inkumbulo ehlanganisiwe ye-Apple Silicon noma i-PC RAM. I-16 GB iyasebenza ngamamodeli amancane we-quantized kanye nokukhishwa kwe-CPU, kodwa isivinini sokukhiqiza sizohamba kancane kakhulu emisebenzini yezinyathelo eziningi.

Imodeli	I-VRAM Iyadingeka	Umongo	Amandla	Ilayisensi	Donsa Umyalo
glm-4.7-flash	8GB	128K	Ukushaya kwethuluzi, kuyashesha, kuphansi kwe-VRAM	I-Apache 2.0	`ollama pull glm-4.7-flash`
i-devstral-encane-2:24b	16 GB	32K	Ukugeleza kwekhodi ye-Agentic	I-Apache 2.0	`ollama pull devstral-small-2:24b`
Ikhodi ye-qwen3	20 GB	128K	Ukukhiqizwa kwekhodi, imiyalelo	I-Apache 2.0	`ollama pull qwen3-coder`
qwen3.5:27b	20 GB	256K	Okuqinile nxazonke, umongo omkhulu	I-Apache 2.0	`ollama pull qwen3.5:27b`
igama 4:26b	20 GB	256K	Ukucabanga, 77% ibhentshi lekhodi	Ilayisensi yeGemma	`ollama pull gemma4:26b`

# Ukuxazulula Izinkinga Ezivamile

Uxhumano lwenqatshiwe ngenkathi kwethulwa Ikhodi ye-Claude: Iseva ye-inference ayisebenzi. Lolu wudaba oluvame kakhulu futhi okulula ukuluxilonga.

# Check if Ollama is running
curl 
# Expected: "Ollama is running"

# Check if LM Studio server is running
curl 
# Should return a JSON list of loaded models

# Check if llama-server is running
curl 
# Should return {"status":"ok"}

# If not running -- start the server first, then launch Claude Code
ollama serve          # Ollama
# LM Studio: use the GUI Local Server tab
# llama.cpp: run the llama-server command from the Backend 3 section

Imodeli ayitholakali noma iphutha lemodeli elingaziwa: Igama lemodeli kweyakho ANTHROPIC_DEFAULT_SONNET_MODEL ayifani nalokho iseva ekwaziyo.

# List all models Ollama has available
ollama list

# The model name in ANTHROPIC_DEFAULT_SONNET_MODEL must match EXACTLY
# including the tag -- "glm-4.7-flash:latest" not "glm-4.7-flash"

# Verify with a direct API call to confirm what the server sees
curl

Amakholi ethuluzi ahlulekayo noma amaphutha okubuyisela: Kumakholi amathuluzi okusakaza, asetshenziswa yi-Claude Code lapho enza imisebenzi noma imibhalo, inguqulo ye-Ollama engu-0.14.3-rc1 noma eyakamuva iyadingeka. Izinguqulo zangaphambilini ochungechungeni lwe-0.14.x bezinosekelo lwekholi yethuluzi lokusakaza-bukhoma olungaphelele.
```
# Check your Ollama version
ollama version

# If below 0.14.3, update Ollama
curl -fsSL  | sh
```
anthropic-beta iphutha likanhlokweni:
Uzobona: Error: Unexpected value(s) for the anthropic-beta header. Lokhu kwenzeka ngoba Ikhodi ka-Claude yengeza amafulegi e-beta okuhlola e-Anthropic athile amaseva endawo angawazi. Yilungise ngokungeza lokhu kweyakho settings.json env block:
```
"CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
```

Ibuyela ku-Anthropic API:

# Shell session -- unset the redirect variables
unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
unset ANTHROPIC_DEFAULT_SONNET_MODEL
unset ANTHROPIC_DEFAULT_HAIKU_MODEL
unset ANTHROPIC_DEFAULT_OPUS_MODEL

# Then make sure your real API key is set
echo $ANTHROPIC_API_KEY
# Should show your sk-ant-... key, not a placeholder

# If you used settings.json -- remove or comment out the env block
# and restart Claude Code

Isivinini sokukhiqiza kancane: Emisebenzini ye-Claude Code ye-agent, isivinini sokukhiqiza sibalulekile ngoba ikholi yethuluzi ngalinye uhambo nokubuya. Uma isivinini singanele:
- Shintshela kumodeli encane noma enamandla kakhulu (Q4_K_M esikhundleni se-Q8).
- Nika amandla --flash-attn ku-llama.cpp uma ingasethiwe.
- Yehlisa usayizi womongo (--ctx-size); okuqukethwe okukhudlwana kuyanensa ukugcwalisa kusengaphambili.
- Ku-Ollama, setha OLLAMA_NUM_GPU_LAYERS=99 endaweni yakho ukuze uphoqelele ukulayishwa kwe-GPU okuphezulu.

# Isiphetho

Okwakukade kudinga ama-adaptha nama-hacks antekenteke manje kuyinqubo enezinyathelo ezinhlanu. Faka i-backend, donsa imodeli, setha okuguquguqukayo kwemvelo okuthathu, kanye nemizila ye-Claude Code emshinini wakho wasendaweni esikhundleni se-Anthropic's API. Ukucushwa kuthatha ngaphansi kwemizuzu emihlanu uma usulande imodeli.

Umphumela ongokoqobo uwumsizi wokubhala amakhodi ongabizi lutho ukuwusebenzisa ngemva kokusetha, awunayo imikhawulo yesilinganiso, ogcina ikhodi yakho ngokuphelele emshinini wakho, futhi umboza iningi lamakesi okusebenzisa amakhodi wangempela kumazinga ekhwalithi abengatholakali kumamodeli endawo ngonyaka odlule. Qala ngo-Ollama futhi glm-4.7-flash – inesidingo esiphansi kakhulu sezingxenyekazi zekhompiyutha, ukusekela okungaguquguquki kakhulu kokushayela ucingo, kanye nendlela eshesha kakhulu yokusethwa kokusebenza. Uma lokho sekusebenza, khuphula imodeli ngokusekelwe kuhadiwe yakho kanye nezinga lekhwalithi olidinga ngempela.

Shithu Olumide ungunjiniyela wesofthiwe nombhali wezobuchwepheshe othanda ukusebenzisa ubuchwepheshe obuphambili ekwenzeni izindaba ezithokozisayo, oneso elibukhali lemininingwane kanye nekhono lokwenza imiqondo eyinkimbinkimbi ibe lula. Ungathola futhi i-Shittu Twitter.

Source link

nimda June 12, 2026

0 2 10 minutes read