Ollama: как запустить языковую модель на своём компьютере
Пошаговый гайд по установке Ollama и запуску Llama 3, Mistral, Phi-3 на своём компьютере. Системные требования, команды, настройка.
Запуск языковых моделей на собственном железе перестал быть уделом исследователей. Ollama — open-source инструмент, который позволяет запустить Llama 3, Mistral, Gemma и десятки других моделей одной командой в терминале. Без регистрации, без API-ключей, без отправки данных на чужие серверы.
Зачем запускать LLM локально
У облачных API — ChatGPT, Claude, Gemini — три ограничения, которые критичны для части задач. Конфиденциальность: данные уходят на серверы провайдера. Стоимость: при интенсивном использовании счёт растёт быстро. Зависимость: сервис может упасть, изменить политику или заблокировать доступ из определённых регионов.
Локальные модели решают все три проблемы. Данные не покидают ваш компьютер. Единственная статья расходов — электричество. Работа не зависит от внешних сервисов и интернет-соединения.
Компромисс — качество. Модели, которые помещаются на потребительском GPU (7–14 млрд параметров), уступают GPT-4 или Claude 3.5 в сложных задачах. Но для генерации текста, работы с кодом, суммаризации и анализа документов — их достаточно.
Установка Ollama
macOS и Linux
Установка занимает одну команду:
curl -fsSL https://ollama.com/install.sh | shНа macOS также доступно настольное приложение — загружается с ollama.com. После установки Ollama работает как фоновый сервис и предоставляет REST API на порту 11434.
Windows
Скачайте установщик с ollama.com. Требуется Windows 10 или новее. После установки Ollama доступна из PowerShell и командной строки.
Системные требования
Минимальные требования зависят от размера модели:
- Модели 7B (Llama 3 8B, Mistral 7B): 8 ГБ RAM, желательно GPU с 6+ ГБ VRAM
- Модели 13B: 16 ГБ RAM, GPU с 10+ ГБ VRAM
- Модели 70B: 48+ ГБ RAM, GPU с 48+ ГБ VRAM или распределение по нескольким GPU
Без GPU модель будет работать на CPU — медленнее, но работоспособно. Генерация на CPU для модели 7B — 5–15 токенов в секунду. На современном GPU (RTX 4090) — 80–120 токенов в секунду.
Первый запуск
Скачивание и запуск модели — одна команда:
ollama run llama3.1Ollama загрузит модель (4–5 ГБ для 8B-версии в квантизации Q4) и откроет интерактивный чат в терминале. Первый запуск займёт несколько минут на загрузку, последующие — секунды.
Другие популярные модели:
# Mistral 7B — быстрая, хорошо работает с кодом
ollama run mistral
# Gemma 2 9B от Google — баланс качества и скорости
ollama run gemma2
# Phi-3 Mini от Microsoft — компактная и точная
ollama run phi3
# Qwen 2.5 14B — сильная модель от Alibaba
ollama run qwen2.5:14b
# DeepSeek Coder V2 — специализация на коде
ollama run deepseek-coder-v2Управление моделями
Ollama хранит модели локально и предоставляет набор команд для управления:
# Список установленных моделей
ollama list
# Информация о модели: размер, квантизация, параметры
ollama show llama3.1
# Удаление модели для освобождения места
ollama rm mistral
# Загрузка модели без запуска
ollama pull gemma2Модели хранятся в ~/.ollama/models на Linux/macOS. При нехватке места — начните с удаления неиспользуемых моделей.
API для интеграции
Ollama предоставляет REST API, совместимый с форматом OpenAI. Это значит, что большинство приложений, написанных для API OpenAI, работают с Ollama без изменений — достаточно заменить базовый URL.
# Генерация текста
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Объясни квантовые вычисления в трёх предложениях",
"stream": false
}'# Chat API (формат OpenAI-compatible)
curl http://localhost:11434/v1/chat/completions -d '{
"model": "llama3.1",
"messages": [{"role": "user", "content": "Привет!"}]
}'Интеграция с Python через библиотеку ollama:
import ollama
response = ollama.chat(
model='llama3.1',
messages=[{'role': 'user', 'content': 'Напиши функцию сортировки на Python'}]
)
print(response['message']['content'])Кастомные модели через Modelfile
Ollama позволяет создавать кастомные модели с заданным системным промптом и параметрами. Для этого используется файл Modelfile:
FROM llama3.1
SYSTEM "Ты — технический писатель. Пиши на русском языке. Отвечай конкретно и по существу."
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192# Создание кастомной модели
ollama create my-writer -f Modelfile
# Запуск
ollama run my-writerЭто удобно для повторяющихся задач: создайте модель-ассистента для кодирования, модель для перевода или модель для суммаризации — каждая с оптимальными настройками.
Графические интерфейсы
Терминальный интерфейс удобен разработчикам, но для остальных есть графические оболочки, которые подключаются к Ollama по API:
- Open WebUI — веб-интерфейс, похожий на ChatGPT. Запускается в Docker одной командой. Поддерживает историю чатов, загрузку документов, мультимодальные модели.
- Jan — настольное приложение для Windows, macOS, Linux. Встроенная поддержка Ollama.
- Chatbox — лёгкий клиент, подключается к Ollama и облачным API одновременно.
# Запуск Open WebUI через Docker
docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui ghcr.io/open-webui/open-webui:mainПроизводительность и оптимизация
Несколько рекомендаций для ускорения работы:
GPU ускорение — Ollama автоматически использует NVIDIA GPU (через CUDA) и Apple Silicon (через Metal). Для AMD GPU на Linux поддерживается ROCm. Проверить, используется ли GPU: ollama ps показывает, где загружена модель.
Квантизация — модели в Ollama хранятся в квантизованном формате GGUF. По умолчанию используется Q4_0 — 4-битная квантизация. Это уменьшает размер модели в 4 раза по сравнению с fp16 при незначительной потере качества. Для задач, требующих максимальной точности, можно использовать Q8 или fp16 версии.
Контекстное окно — по умолчанию 2048 токенов. Для работы с длинными текстами увеличьте через num_ctx:
ollama run llama3.1 --num-ctx 32768Учитывайте, что увеличение контекста пропорционально увеличивает потребление памяти.
Когда Ollama — правильный выбор
Ollama оптимален для экспериментов с моделями, разработки прототипов, работы с конфиденциальными данными и как локальный бэкенд для приложений. Для задач, требующих максимального качества ответов (сложный анализ, креативное письмо, работа с большим контекстом) — облачные модели по-прежнему опережают локальные. Оптимальная стратегия: локальные модели для рутинных задач, облачные API — для задач, где качество критично.
Часто задаваемые вопросы
Какой компьютер нужен для запуска Ollama?
Для небольших моделей (7B параметров): 8 ГБ ОЗУ и любой современный процессор. Для комфортной работы рекомендуется 16 ГБ ОЗУ. Для крупных моделей (13B+) нужна дискретная видеокарта с 8+ ГБ VRAM (RTX 3060 или лучше).
Какие модели можно запустить через Ollama?
Ollama поддерживает сотни моделей: Llama 3 (Meta), Mistral, Qwen2.5 (Alibaba), Gemma 2 (Google), Phi-4 (Microsoft), DeepSeek и многие другие. Полный список: ollama.com/library
Как установить Ollama на Windows?
Скачайте установщик с ollama.com, запустите. Ollama устанавливается как системный сервис. После установки откройте терминал и выполните: ollama pull llama3.2 — модель скачается автоматически.
Чем Ollama лучше локального запуска через Python?
Ollama — это готовый сервер с REST API, управлением моделями и OpenAI-совместимым интерфейсом. Не нужно вручную настраивать среду, зависимости и квантизацию. Запуск через Python требует глубоких технических знаний.
Читайте также
- Что такое LLM и как работают языковые модели
- Open WebUI: веб-интерфейс для локальных моделей
- Квантизация нейросетей: как уменьшить модель
Подробнее: Как настроить локальную языковую модель