Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud - Chạy DeepSeek, Qwen, Llama AI nội bộ

Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud từ A-Z | Chạy DeepSeek, Qwen, Llama AI nội bộ

Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud từ A-Z | Chạy DeepSeek, Qwen, Llama AI nội bộ

 

Trong vài năm trở lại đây, AI đã trở thành công cụ không thể thiếu trong công việc, lập trình, chăm sóc khách hàng, phân tích dữ liệu và tự động hóa quy trình doanh nghiệp. Tuy nhiên, việc sử dụng các dịch vụ AI trực tuyến như ChatGPT, Claude hay Gemini thường đặt ra những vấn đề về chi phí, quyền riêng tư dữ liệu và khả năng tùy biến.

Đó là lý do Ollama đang trở thành một trong những nền tảng AI mã nguồn mở được cộng đồng công nghệ và doanh nghiệp quan tâm nhất hiện nay.

Ollama cho phép chạy các mô hình AI ngay trên máy tính cá nhân, VPS hoặc Cloud Server mà không cần phụ thuộc vào dịch vụ AI của bên thứ ba. Người dùng có thể triển khai các mô hình nổi tiếng như DeepSeek, Llama, Qwen, Gemma, Mistral và nhiều mô hình khác chỉ với vài lệnh đơn giản.

Những lợi ích nổi bật của Ollama

Bảo mật dữ liệu tốt hơn

Toàn bộ dữ liệu được xử lý trên máy chủ của doanh nghiệp hoặc cá nhân. Không cần gửi tài liệu nội bộ, mã nguồn hoặc dữ liệu khách hàng lên nền tảng AI bên ngoài.

Chi phí thấp

Sau khi triển khai thành công, doanh nghiệp có thể sử dụng AI không giới hạn mà không phải trả phí theo số lượng token hoặc lượt truy vấn.

Cài đặt đơn giản

So với nhiều framework AI khác, Ollama có thể được cài đặt và vận hành chỉ trong vài phút.

Tích hợp dễ dàng

Ollama hỗ trợ API REST, có thể kết nối với:

  • Open WebUI
  • Continue.dev
  • Dify
  • n8n
  • Flowise
  • LangChain
  • AutoGen
  • AnythingLLM

Hệ điều hành nào phù hợp để cài đặt Ollama?

Đối với PC và Laptop

Khuyến nghị:

  1. Ubuntu 24.04 LTS
  2. Ubuntu 26.04 LTS
  3. Windows 11 Pro

Ubuntu thường cho hiệu năng tốt hơn, tiêu tốn ít tài nguyên hơn và phù hợp cho lập trình viên.

Windows phù hợp với người dùng văn phòng hoặc mới bắt đầu làm quen với AI.

Đối với VPS và Cloud Server

Các hệ điều hành được khuyến nghị:

Hệ điều hành

Đánh giá

Ubuntu 24.04 LTS

⭐⭐⭐⭐⭐

Ubuntu 26.04 LTS

⭐⭐⭐⭐⭐

Debian 13

⭐⭐⭐⭐

Rocky Linux 10

⭐⭐⭐⭐

AlmaLinux 10

⭐⭐⭐⭐

Trong thực tế triển khai AI cho doanh nghiệp, Ubuntu LTS vẫn là lựa chọn phổ biến nhất nhờ độ ổn định cao và cộng đồng hỗ trợ lớn.

Yêu cầu phần cứng trước khi cài đặt Ollama

Chạy mô hình nhỏ từ 1B đến 3B

  • CPU 4 Core
  • RAM 8GB
  • SSD 50GB

Ví dụ:

  • Phi Mini
  • Qwen 3B
  • TinyLlama

Chạy mô hình phổ biến từ 7B đến 8B

  • CPU 8 Core
  • RAM 16GB
  • SSD NVMe 100GB

Ví dụ:

  • DeepSeek R1 8B
  • Llama 3 8B
  • Qwen 8B

Chạy mô hình lớn từ 14B đến 32B

  • CPU 16 Core trở lên
  • RAM 32GB đến 64GB
  • SSD NVMe tốc độ cao

Chạy mô hình 70B

Khuyến nghị sử dụng GPU:

  • NVIDIA RTX 4090
  • NVIDIA L40S
  • NVIDIA A100
  • NVIDIA H100

Hướng dẫn cài đặt Ollama trên Ubuntu 24.04 LTS và Ubuntu 26.04 LTS

Bước 1: Cập nhật hệ thống

sudo apt update

sudo apt upgrade -y

Bước 2: Cài đặt Curl

sudo apt install curl -y

Bước 3: Cài đặt Ollama

curl -fsSL https://ollama.com/install.sh | sh

Bước 4: Kiểm tra phiên bản

ollama version

Nếu hệ thống trả về thông tin phiên bản nghĩa là cài đặt đã thành công.

Bước 5: Kiểm tra dịch vụ

systemctl status ollama

Khởi động dịch vụ:

sudo systemctl start ollama

Cho phép khởi động cùng hệ thống:

sudo systemctl enable ollama

Chạy mô hình AI đầu tiên

Ví dụ chạy DeepSeek:

ollama run deepseek-r1:8b

Chạy Qwen:

ollama run qwen3

Chạy Gemma:

ollama run gemma3

Chạy Llama:

ollama run llama3

Lần đầu tiên hệ thống sẽ tự động tải mô hình từ Internet.

Mở API Ollama cho mạng LAN hoặc Internet

Mặc định Ollama chỉ lắng nghe trên địa chỉ localhost.

Để các ứng dụng khác có thể kết nối:

Mở file cấu hình:

sudo nano /etc/systemd/system/ollama.service

Thêm:

Environment="OLLAMA_HOST=0.0.0.0:11434"

Sau đó khởi động lại dịch vụ:

sudo systemctl daemon-reload

sudo systemctl restart ollama

Kiểm tra:

ss -tlnp | grep 11434

Nếu hiển thị:

0.0.0.0:11434

thì API đã sẵn sàng cho các ứng dụng khác kết nối.

Mở Firewall

Ubuntu UFW:

sudo ufw allow 11434/tcp

Kiểm tra:

sudo ufw status

Cài đặt Ollama trên Windows 11

Bước 1

Truy cập website chính thức của Ollama.

Bước 2

Tải bộ cài đặt cho Windows.

Bước 3

Chạy file cài đặt và hoàn tất quá trình setup.

Bước 4

Mở PowerShell:

ollama version

Bước 5

Chạy mô hình đầu tiên:

ollama run qwen3

Triển khai Ollama trên VPS và Cloud Server

Đây là lựa chọn được nhiều doanh nghiệp sử dụng khi muốn xây dựng hệ thống AI dùng chung cho nhân viên hoặc khách hàng.

Cấu hình đề xuất:

  • 8 vCPU
  • 16GB RAM
  • 100GB NVMe SSD

Sau khi cài đặt Ollama, có thể kết nối với các giao diện Web AI hiện đại như Open WebUI để tạo trải nghiệm tương tự ChatGPT.

Kết hợp Ollama với Open WebUI

Open WebUI là giao diện web mã nguồn mở rất phổ biến hiện nay.

Triển khai bằng Docker:

docker run -d \

--name open-webui \

-p 3000:8080 \

-v open-webui:/app/backend/data \

-e OLLAMA_BASE_URL=http://IP_SERVER:11434 \

ghcr.io/open-webui/open-webui:main

Sau khi hoàn tất:

http://IP_SERVER:3000

Người dùng sẽ có giao diện trò chuyện AI tương tự ChatGPT nhưng chạy hoàn toàn trên hạ tầng riêng.

Những lưu ý khi triển khai Ollama cho doanh nghiệp

Luôn sử dụng SSD NVMe

AI thường xuyên đọc ghi dữ liệu mô hình. SSD NVMe giúp giảm đáng kể thời gian phản hồi.

Ưu tiên RAM

Nếu ngân sách có hạn, nâng cấp RAM trước GPU sẽ mang lại hiệu quả tốt hơn đối với các mô hình từ 7B đến 14B.

Chọn CPU nhiều nhân

Khuyến nghị:

  • 8 vCPU
  • 16 vCPU
  • 32 vCPU

Tách riêng môi trường AI

Không nên chạy AI chung với các dịch vụ sản xuất quan trọng như Website, Database hoặc Mail Server.

CloudX hỗ trợ cài đặt Ollama miễn phí

CloudX hiện cung cấp dịch vụ VPS Cloud NVMe hiệu năng cao dành cho AI, Machine Learning và LLM.

Khách hàng sử dụng Cloud tại CloudX sẽ được hỗ trợ miễn phí:

  • Cài đặt Ollama
  • Cài đặt Open WebUI
  • Cài đặt DeepSeek
  • Cài đặt Qwen
  • Cài đặt Llama
  • Cài đặt Dify
  • Cài đặt Continue.dev
  • Cài đặt n8n
  • Tối ưu hiệu năng AI trên VPS và Cloud

Đội ngũ kỹ thuật CloudX có thể hỗ trợ từ bước triển khai ban đầu đến khi hệ thống AI hoạt động ổn định trong môi trường doanh nghiệp.

Kết luận

Ollama đang trở thành giải pháp triển khai AI nội bộ đơn giản và hiệu quả nhất hiện nay. Chỉ với một VPS hoặc Cloud Server cấu hình phù hợp, doanh nghiệp đã có thể xây dựng hệ thống AI riêng tư, tiết kiệm chi phí và chủ động hoàn toàn trong việc quản lý dữ liệu.

Đối với môi trường sản xuất, Ubuntu 24.04 LTS hoặc Ubuntu 26.04 LTS kết hợp với Cloud NVMe hiệu năng cao là lựa chọn được đánh giá tối ưu nhất về tốc độ, độ ổn định và khả năng mở rộng trong năm 2026.

 

BÀI VIẾT CÙNG CHUYÊN MỤC

Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud - Chạy DeepSeek, Qwen, Llama AI nội bộ
Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và ...

Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud từ A-Z | Chạy ...

Hướng dẫn cài đặt Continue.dev trên Ubuntu 26.04 LTS kết hợp Ollama và DeepSeek-Coder để thay thế GitHub Copilot
Hướng dẫn cài đặt Continue.dev trên Ubuntu 26.04 LTS ...

Hướng dẫn cài đặt Continue.dev trên Ubuntu 26.04 LTS kết hợp Ollama và ...

OpenClaw là gì? Hướng dẫn cài đặt OpenClaw trên Ubuntu 26.04 LTS và Windows 11 từ A-Z mới nhất 2026
OpenClaw là gì? Hướng dẫn cài đặt OpenClaw trên Ubuntu ...

OpenClaw là gì? Hướng dẫn cài đặt OpenClaw trên Ubuntu 26.04 LTS và Windows 11 ...

Hướng dẫn cài đặt MoneyPrinterTurbo trên Ubuntu 24.04 LTS từ A-Z
Hướng dẫn cài đặt MoneyPrinterTurbo trên Ubuntu 24.04 ...

Hướng dẫn cài đặt MoneyPrinterTurbo trên Ubuntu 24.04 LTS từ A-Z

Cài Đặt Docker Trên Ubuntu 26.04 LTS Chi Tiết Từ A-Z
Cài Đặt Docker Trên Ubuntu 26.04 LTS Chi Tiết Từ A-Z

cài đặt docker ubuntu 26.04 lts docker ubuntu 26.04 docker compose ubuntu 26 ...