Гайды

Ollama: как запустить языковую модель на своём компьютере

Пошаговый гайд по установке Ollama и запуску Llama 3, Mistral, Phi-3 на своём компьютере. Системные требования, команды, настройка.

Запуск языковых моделей на собственном железе перестал быть уделом исследователей. Ollama — open-source инструмент, который позволяет запустить Llama 3, Mistral, Gemma и десятки других моделей одной командой в терминале. Без регистрации, без API-ключей, без отправки данных на чужие серверы.

Зачем запускать LLM локально

У облачных API — ChatGPT, Claude, Gemini — три ограничения, которые критичны для части задач. Конфиденциальность: данные уходят на серверы провайдера. Стоимость: при интенсивном использовании счёт растёт быстро. Зависимость: сервис может упасть, изменить политику или заблокировать доступ из определённых регионов.

Локальные модели решают все три проблемы. Данные не покидают ваш компьютер. Единственная статья расходов — электричество. Работа не зависит от внешних сервисов и интернет-соединения.

Компромисс — качество. Модели, которые помещаются на потребительском GPU (7–14 млрд параметров), уступают GPT-4 или Claude 3.5 в сложных задачах. Но для генерации текста, работы с кодом, суммаризации и анализа документов — их достаточно.

Установка Ollama

macOS и Linux

Установка занимает одну команду:

curl -fsSL https://ollama.com/install.sh | sh

На macOS также доступно настольное приложение — загружается с ollama.com. После установки Ollama работает как фоновый сервис и предоставляет REST API на порту 11434.

Windows

Скачайте установщик с ollama.com. Требуется Windows 10 или новее. После установки Ollama доступна из PowerShell и командной строки.

Системные требования

Минимальные требования зависят от размера модели:

Модели 7B (Llama 3 8B, Mistral 7B): 8 ГБ RAM, желательно GPU с 6+ ГБ VRAM
Модели 13B: 16 ГБ RAM, GPU с 10+ ГБ VRAM
Модели 70B: 48+ ГБ RAM, GPU с 48+ ГБ VRAM или распределение по нескольким GPU

Без GPU модель будет работать на CPU — медленнее, но работоспособно. Генерация на CPU для модели 7B — 5–15 токенов в секунду. На современном GPU (RTX 4090) — 80–120 токенов в секунду.

Первый запуск

Скачивание и запуск модели — одна команда:

ollama run llama3.1

Ollama загрузит модель (4–5 ГБ для 8B-версии в квантизации Q4) и откроет интерактивный чат в терминале. Первый запуск займёт несколько минут на загрузку, последующие — секунды.

Другие популярные модели:

# Mistral 7B — быстрая, хорошо работает с кодом
ollama run mistral

# Gemma 2 9B от Google — баланс качества и скорости
ollama run gemma2

# Phi-3 Mini от Microsoft — компактная и точная
ollama run phi3

# Qwen 2.5 14B — сильная модель от Alibaba
ollama run qwen2.5:14b

# DeepSeek Coder V2 — специализация на коде
ollama run deepseek-coder-v2

Управление моделями

Ollama хранит модели локально и предоставляет набор команд для управления:

# Список установленных моделей
ollama list

# Информация о модели: размер, квантизация, параметры
ollama show llama3.1

# Удаление модели для освобождения места
ollama rm mistral

# Загрузка модели без запуска
ollama pull gemma2

Модели хранятся в ~/.ollama/models на Linux/macOS. При нехватке места — начните с удаления неиспользуемых моделей.

API для интеграции

Ollama предоставляет REST API, совместимый с форматом OpenAI. Это значит, что большинство приложений, написанных для API OpenAI, работают с Ollama без изменений — достаточно заменить базовый URL.

# Генерация текста
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Объясни квантовые вычисления в трёх предложениях",
  "stream": false
}'

# Chat API (формат OpenAI-compatible)
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3.1",
  "messages": [{"role": "user", "content": "Привет!"}]
}'

Интеграция с Python через библиотеку ollama:

import ollama

response = ollama.chat(
    model='llama3.1',
    messages=[{'role': 'user', 'content': 'Напиши функцию сортировки на Python'}]
)
print(response['message']['content'])

Кастомные модели через Modelfile

Ollama позволяет создавать кастомные модели с заданным системным промптом и параметрами. Для этого используется файл Modelfile:

FROM llama3.1

SYSTEM "Ты — технический писатель. Пиши на русском языке. Отвечай конкретно и по существу."

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

# Создание кастомной модели
ollama create my-writer -f Modelfile

# Запуск
ollama run my-writer

Это удобно для повторяющихся задач: создайте модель-ассистента для кодирования, модель для перевода или модель для суммаризации — каждая с оптимальными настройками.

Графические интерфейсы

Терминальный интерфейс удобен разработчикам, но для остальных есть графические оболочки, которые подключаются к Ollama по API:

Open WebUI — веб-интерфейс, похожий на ChatGPT. Запускается в Docker одной командой. Поддерживает историю чатов, загрузку документов, мультимодальные модели.
Jan — настольное приложение для Windows, macOS, Linux. Встроенная поддержка Ollama.
Chatbox — лёгкий клиент, подключается к Ollama и облачным API одновременно.

# Запуск Open WebUI через Docker
docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui ghcr.io/open-webui/open-webui:main

Производительность и оптимизация

Несколько рекомендаций для ускорения работы:

GPU ускорение — Ollama автоматически использует NVIDIA GPU (через CUDA) и Apple Silicon (через Metal). Для AMD GPU на Linux поддерживается ROCm. Проверить, используется ли GPU: ollama ps показывает, где загружена модель.

Квантизация — модели в Ollama хранятся в квантизованном формате GGUF. По умолчанию используется Q4_0 — 4-битная квантизация. Это уменьшает размер модели в 4 раза по сравнению с fp16 при незначительной потере качества. Для задач, требующих максимальной точности, можно использовать Q8 или fp16 версии.

Контекстное окно — по умолчанию 2048 токенов. Для работы с длинными текстами увеличьте через num_ctx:

ollama run llama3.1 --num-ctx 32768

Учитывайте, что увеличение контекста пропорционально увеличивает потребление памяти.

Когда Ollama — правильный выбор

Ollama оптимален для экспериментов с моделями, разработки прототипов, работы с конфиденциальными данными и как локальный бэкенд для приложений. Для задач, требующих максимального качества ответов (сложный анализ, креативное письмо, работа с большим контекстом) — облачные модели по-прежнему опережают локальные. Оптимальная стратегия: локальные модели для рутинных задач, облачные API — для задач, где качество критично.

Часто задаваемые вопросы

Какой компьютер нужен для запуска Ollama?

Для небольших моделей (7B параметров): 8 ГБ ОЗУ и любой современный процессор. Для комфортной работы рекомендуется 16 ГБ ОЗУ. Для крупных моделей (13B+) нужна дискретная видеокарта с 8+ ГБ VRAM (RTX 3060 или лучше).

Какие модели можно запустить через Ollama?

Ollama поддерживает сотни моделей: Llama 3 (Meta), Mistral, Qwen2.5 (Alibaba), Gemma 2 (Google), Phi-4 (Microsoft), DeepSeek и многие другие. Полный список: ollama.com/library

Как установить Ollama на Windows?

Скачайте установщик с ollama.com, запустите. Ollama устанавливается как системный сервис. После установки откройте терминал и выполните: ollama pull llama3.2 — модель скачается автоматически.

Чем Ollama лучше локального запуска через Python?

Ollama — это готовый сервер с REST API, управлением моделями и OpenAI-совместимым интерфейсом. Не нужно вручную настраивать среду, зависимости и квантизацию. Запуск через Python требует глубоких технических знаний.