Запуск моделей ИИ: Ollama, vLLM и Open WebUI

Михаил
8 мин. на прочтение
302
18 Dec 2025
19 Dec 2025

Введение

Эта статья поможет вам развернуть популярные ИИ-модели (DeepSeek, Qwen, Mistral, Microsoft Phi, Google Gemma и др.) локально с использованием Docker, Ollama и Open WebUI. Вы получите полноценный чат-бот с веб-интерфейсом, работающий на вашем сервере или компьютере.

1. Установка Docker и Docker Compose

Шаг 1: Установите Docker

Скачайте и установите Docker Desktop для Windows/Mac или Docker Engine для Linux.
Убедитесь, что Docker Compose установлен (обычно идёт вместе с Docker Desktop).

Шаг 2: Проверьте установку

docker --version docker-compose --version

2. Запуск Ollama для управления моделями

Ollama — это инструмент для запуска и управления ИИ-моделями локально.

Шаг 1: Запустите контейнер Ollama

docker run -d --restart always -v ollama:/root/.ollama -p 11434:11434 --name ollama --cpus=16 -e OLLAMA_NUM_PARALLEL=16 ollama/ollama:latest

-e OLLAMA_NUM_PARALLEL=16 — ограничивает количество потоков для снижения нагрузки на CPU.
--cpus=16 — ограничивает количество потоков для снижения нагрузки на CPU (если не работает первый вариант).

Например:

docker run -d --restart always \
 -v /opt/ollama:/root/.ollama \
 -p 11434:11434 \
 --name ollama \
 --cpus=16 \
 -e OLLAMA_NUM_PARALLEL=16 \
 ollama/ollama:latest

Шаг 2: Скачайте нужные модели

Выберите и скачайте модели из списка ниже (замените на нужное имя):

Модель	Команда для загрузки	Размер	Описание
DeepSeek R1 7B	`docker exec -it ollama ollama pull deepseek-r1:7b`	7B	Мощная модель для рассуждений
DeepSeek R1 Distill 1.5B	`docker exec -it ollama ollama pull deepseek-r1:1.5b`	1.5B	Облегчённая версия DeepSeek
Qwen2 7B	`docker exec -it ollama ollama pull qwen2:7b`	7B	Модель от Alibaba
Mistral 7B	`docker exec -it ollama ollama pull mistral:7b`	7B	Популярная открытая модель
Mixtral 8x7B	`docker exec -it ollama ollama pull mixtral:8x7b`	8x7B	MoE-архитектура, высокая производительность
Microsoft Phi-3 Mini	`docker exec -it ollama ollama pull phi3:mini`	~3.8B	Компактная модель от Microsoft
Google Gemma 7B	`docker exec -it ollama ollama pull gemma:7b`	7B	Модель от Google
Meta Llama 3.1 8B	`docker exec -it ollama ollama pull llama3.1:8b`	8B	Последняя версия от Meta

Пример:

docker exec -it ollama ollama pull qwen2:7b
docker exec -it ollama ollama pull mistral:7b

Примеры моделей для программистов:

docker exec -it ollama ollama pull deepcoder:latest

docker exec -it ollama ollama pull qwen3-coder:30b

docker exec -it ollama ollama pull deepseek-coder:33b

Посмотреть и подобрать модель по вкусу

Шаг 3: Проверьте список загруженных моделей

docker exec -it ollama ollama list

3. Запуск Open WebUI для веб-интерфейса

Open WebUI — это веб-интерфейс для взаимодействия с моделями.

Шаг 1: Запустите контейнер Open WebUI

docker run -d --restart always -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Шаг 2: Откройте веб-интерфейс

Перейдите в браузере по адресу: http://localhost:9783.

4. Настройка Open WebUI для работы с моделями

Шаг 1: Настройте подключение к Ollama

В интерфейсе Open WebUI перейдите в Settings.
Выберите вкладку Model.
Укажите:
- Model Provider: Ollama
- API Host: http://host.docker.internal:11434 (или http://localhost:11434, если Ollama запущен на хосте)
- В выпадающем списке моделей выберите нужную (например, qwen2:7b).

5. Оптимизация и советы

1. Ограничение ресурсов

Если нагрузка на CPU слишком высокая, уменьшите количество потоков:

docker stop ollama
docker rm ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama -e OLLAMA_NUM_PARALLEL=8 ollama/ollama:latest

Например:

docker run -d --restart always -p 9783:8080 -v /opt/open-webui-data:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

2. Выбор модели

Для слабых компьютеров (8–16 ГБ RAM) выбирайте модели 1.5B–7B.
Для мощных серверов (32+ ГБ RAM, GPU) можно использовать Mixtral 8x7B или Llama 3.1 70B.

3. Обновление моделей

Чтобы обновить модель, удалите старую и скачайте заново:

docker exec -it ollama ollama rm qwen2:7b
docker exec -it ollama ollama pull qwen2:7b

6. Пример Docker Compose (для удобства)

Создайте файл docker-compose.yml:

version: '3.8'
services:
 ollama:
   image: ollama/ollama:latest
   container_name: ollama
   environment:
     - OLLAMA_NUM_PARALLEL=16
     - OLLAMA_KEEP_ALIVE=5m
   volumes:
     - ollama:/root/.ollama
   ports:
     - "11434:11434"
   restart: unless-stopped
 open-webui:
   image: ghcr.io/open-webui/open-webui:main
   container_name: open-webui
   depends_on:
     - ollama
   volumes:
     - open-webui:/app/backend/data
   ports:
     - "9783:8080"
   restart: unless-stopped
volumes:
 ollama:
 open-webui:

Запустите:

docker-compose up -d

7. Заключение

Теперь у вас есть локальный ИИ-чат с поддержкой DeepSeek, Qwen, Mistral, Microsoft Phi, Google Gemma и других моделей! Вы можете:

Переключаться между моделями в Open WebUI.
Использовать разные модели для разных задач.
Настраивать количество потоков и ресурсов под свои нужды.