Запуск моделей ИИ: Ollama, vLLM и Open WebUI

  • Михаил
  • 8 мин. на прочтение
  • 49
  • 18 Dec 2025
  • 19 Dec 2025

Введение

Эта статья поможет вам развернуть популярные ИИ-модели (DeepSeek, Qwen, Mistral, Microsoft Phi, Google Gemma и др.) локально с использованием Docker, Ollama и Open WebUI. Вы получите полноценный чат-бот с веб-интерфейсом, работающий на вашем сервере или компьютере.


1. Установка Docker и Docker Compose

Шаг 1: Установите Docker

  • Скачайте и установите Docker Desktop для Windows/Mac или Docker Engine для Linux.
  • Убедитесь, что Docker Compose установлен (обычно идёт вместе с Docker Desktop).

Шаг 2: Проверьте установку

docker --version docker-compose --version


2. Запуск Ollama для управления моделями

Ollama — это инструмент для запуска и управления ИИ-моделями локально.

Шаг 1: Запустите контейнер Ollama

docker run -d --restart always -v ollama:/root/.ollama -p 11434:11434 --name ollama --cpus=16 -e OLLAMA_NUM_PARALLEL=16 ollama/ollama:latest

  • -e OLLAMA_NUM_PARALLEL=16 — ограничивает количество потоков для снижения нагрузки на CPU.
  • --cpus=16 — ограничивает количество потоков для снижения нагрузки на CPU (если не работает первый вариант).

Например:

docker run -d --restart always \
 -v /opt/ollama:/root/.ollama \
 -p 11434:11434 \
 --name ollama \
 --cpus=16 \
 -e OLLAMA_NUM_PARALLEL=16 \
 ollama/ollama:latest

Шаг 2: Скачайте нужные модели

Выберите и скачайте модели из списка ниже (замените на нужное имя):

Популярные модели:

МодельКоманда для загрузкиРазмерОписание
DeepSeek R1 7Bdocker exec -it ollama ollama pull deepseek-r1:7b7BМощная модель для рассуждений
DeepSeek R1 Distill 1.5Bdocker exec -it ollama ollama pull deepseek-r1:1.5b1.5BОблегчённая версия DeepSeek
Qwen2 7Bdocker exec -it ollama ollama pull qwen2:7b7BМодель от Alibaba
Mistral 7Bdocker exec -it ollama ollama pull mistral:7b7BПопулярная открытая модель
Mixtral 8x7Bdocker exec -it ollama ollama pull mixtral:8x7b8x7BMoE-архитектура, высокая производительность
Microsoft Phi-3 Minidocker exec -it ollama ollama pull phi3:mini~3.8BКомпактная модель от Microsoft
Google Gemma 7Bdocker exec -it ollama ollama pull gemma:7b7BМодель от Google
Meta Llama 3.1 8Bdocker exec -it ollama ollama pull llama3.1:8b8BПоследняя версия от Meta

Пример:

docker exec -it ollama ollama pull qwen2:7b
docker exec -it ollama ollama pull mistral:7b
 

Примеры моделей для программистов:

docker exec -it ollama ollama pull deepcoder:latest

docker exec -it ollama ollama pull qwen3-coder:30b

docker exec -it ollama ollama pull deepseek-coder:33b

Посмотреть и подобрать модель по вкусу

Шаг 3: Проверьте список загруженных моделей

docker exec -it ollama ollama list


3. Запуск Open WebUI для веб-интерфейса

Open WebUI — это веб-интерфейс для взаимодействия с моделями.

Шаг 1: Запустите контейнер Open WebUI

docker run -d --restart always -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Шаг 2: Откройте веб-интерфейс


4. Настройка Open WebUI для работы с моделями

Шаг 1: Настройте подключение к Ollama

  1. В интерфейсе Open WebUI перейдите в Settings.
  2. Выберите вкладку Model.
  3. Укажите:
    • Model Provider: Ollama
    • API Host: http://host.docker.internal:11434 (или http://localhost:11434, если Ollama запущен на хосте)
    • В выпадающем списке моделей выберите нужную (например, qwen2:7b).

5. Оптимизация и советы

1. Ограничение ресурсов

  • Если нагрузка на CPU слишком высокая, уменьшите количество потоков:

docker stop ollama
docker rm ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama -e OLLAMA_NUM_PARALLEL=8 ollama/ollama:latest

Например:

docker run -d --restart always -p 9783:8080 -v /opt/open-webui-data:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

2. Выбор модели

  • Для слабых компьютеров (8–16 ГБ RAM) выбирайте модели 1.5B–7B.
  • Для мощных серверов (32+ ГБ RAM, GPU) можно использовать Mixtral 8x7B или Llama 3.1 70B.

3. Обновление моделей

  • Чтобы обновить модель, удалите старую и скачайте заново:

docker exec -it ollama ollama rm qwen2:7b
docker exec -it ollama ollama pull qwen2:7b


6. Пример Docker Compose (для удобства)

Создайте файл docker-compose.yml:

version: '3.8'
services:
 ollama:
   image: ollama/ollama:latest
   container_name: ollama
   environment:
     - OLLAMA_NUM_PARALLEL=16
     - OLLAMA_KEEP_ALIVE=5m
   volumes:
     - ollama:/root/.ollama
   ports:
     - "11434:11434"
   restart: unless-stopped
 open-webui:
   image: ghcr.io/open-webui/open-webui:main
   container_name: open-webui
   depends_on:
     - ollama
   volumes:
     - open-webui:/app/backend/data
   ports:
     - "9783:8080"
   restart: unless-stopped
volumes:
 ollama:
 open-webui:

Запустите:

docker-compose up -d


7. Заключение

Теперь у вас есть локальный ИИ-чат с поддержкой DeepSeek, Qwen, Mistral, Microsoft Phi, Google Gemma и других моделей! Вы можете:

  • Переключаться между моделями в Open WebUI.
  • Использовать разные модели для разных задач.
  • Настраивать количество потоков и ресурсов под свои нужды.