Hướng dẫn cài đặt Ollama trên Ubuntu, Windows, VPS và Cloud từ A-Z | Chạy DeepSeek, Qwen, Llama AI nội bộ
Trong vài năm trở lại đây, AI đã trở thành công cụ không thể thiếu trong công việc, lập trình, chăm sóc khách hàng, phân tích dữ liệu và tự động hóa quy trình doanh nghiệp. Tuy nhiên, việc sử dụng các dịch vụ AI trực tuyến như ChatGPT, Claude hay Gemini thường đặt ra những vấn đề về chi phí, quyền riêng tư dữ liệu và khả năng tùy biến.
Đó là lý do Ollama đang trở thành một trong những nền tảng AI mã nguồn mở được cộng đồng công nghệ và doanh nghiệp quan tâm nhất hiện nay.
Ollama cho phép chạy các mô hình AI ngay trên máy tính cá nhân, VPS hoặc Cloud Server mà không cần phụ thuộc vào dịch vụ AI của bên thứ ba. Người dùng có thể triển khai các mô hình nổi tiếng như DeepSeek, Llama, Qwen, Gemma, Mistral và nhiều mô hình khác chỉ với vài lệnh đơn giản.
Những lợi ích nổi bật của Ollama
Bảo mật dữ liệu tốt hơn
Toàn bộ dữ liệu được xử lý trên máy chủ của doanh nghiệp hoặc cá nhân. Không cần gửi tài liệu nội bộ, mã nguồn hoặc dữ liệu khách hàng lên nền tảng AI bên ngoài.
Chi phí thấp
Sau khi triển khai thành công, doanh nghiệp có thể sử dụng AI không giới hạn mà không phải trả phí theo số lượng token hoặc lượt truy vấn.
Cài đặt đơn giản
So với nhiều framework AI khác, Ollama có thể được cài đặt và vận hành chỉ trong vài phút.
Tích hợp dễ dàng
Ollama hỗ trợ API REST, có thể kết nối với:
- Open WebUI
- Continue.dev
- Dify
- n8n
- Flowise
- LangChain
- AutoGen
- AnythingLLM
Hệ điều hành nào phù hợp để cài đặt Ollama?
Đối với PC và Laptop
Khuyến nghị:
- Ubuntu 24.04 LTS
- Ubuntu 26.04 LTS
- Windows 11 Pro
Ubuntu thường cho hiệu năng tốt hơn, tiêu tốn ít tài nguyên hơn và phù hợp cho lập trình viên.
Windows phù hợp với người dùng văn phòng hoặc mới bắt đầu làm quen với AI.
Đối với VPS và Cloud Server
Các hệ điều hành được khuyến nghị:
|
Hệ điều hành |
Đánh giá |
|
Ubuntu 24.04 LTS |
⭐⭐⭐⭐⭐ |
|
Ubuntu 26.04 LTS |
⭐⭐⭐⭐⭐ |
|
Debian 13 |
⭐⭐⭐⭐ |
|
Rocky Linux 10 |
⭐⭐⭐⭐ |
|
AlmaLinux 10 |
⭐⭐⭐⭐ |
Trong thực tế triển khai AI cho doanh nghiệp, Ubuntu LTS vẫn là lựa chọn phổ biến nhất nhờ độ ổn định cao và cộng đồng hỗ trợ lớn.
Yêu cầu phần cứng trước khi cài đặt Ollama
Chạy mô hình nhỏ từ 1B đến 3B
- CPU 4 Core
- RAM 8GB
- SSD 50GB
Ví dụ:
- Phi Mini
- Qwen 3B
- TinyLlama
Chạy mô hình phổ biến từ 7B đến 8B
- CPU 8 Core
- RAM 16GB
- SSD NVMe 100GB
Ví dụ:
- DeepSeek R1 8B
- Llama 3 8B
- Qwen 8B
Chạy mô hình lớn từ 14B đến 32B
- CPU 16 Core trở lên
- RAM 32GB đến 64GB
- SSD NVMe tốc độ cao
Chạy mô hình 70B
Khuyến nghị sử dụng GPU:
- NVIDIA RTX 4090
- NVIDIA L40S
- NVIDIA A100
- NVIDIA H100
Hướng dẫn cài đặt Ollama trên Ubuntu 24.04 LTS và Ubuntu 26.04 LTS
Bước 1: Cập nhật hệ thống
sudo apt update
sudo apt upgrade -y
Bước 2: Cài đặt Curl
sudo apt install curl -y
Bước 3: Cài đặt Ollama
curl -fsSL https://ollama.com/install.sh | sh
Bước 4: Kiểm tra phiên bản
ollama version
Nếu hệ thống trả về thông tin phiên bản nghĩa là cài đặt đã thành công.
Bước 5: Kiểm tra dịch vụ
systemctl status ollama
Khởi động dịch vụ:
sudo systemctl start ollama
Cho phép khởi động cùng hệ thống:
sudo systemctl enable ollama
Chạy mô hình AI đầu tiên
Ví dụ chạy DeepSeek:
ollama run deepseek-r1:8b
Chạy Qwen:
ollama run qwen3
Chạy Gemma:
ollama run gemma3
Chạy Llama:
ollama run llama3
Lần đầu tiên hệ thống sẽ tự động tải mô hình từ Internet.
Mở API Ollama cho mạng LAN hoặc Internet
Mặc định Ollama chỉ lắng nghe trên địa chỉ localhost.
Để các ứng dụng khác có thể kết nối:
Mở file cấu hình:
sudo nano /etc/systemd/system/ollama.service
Thêm:
Environment="OLLAMA_HOST=0.0.0.0:11434"
Sau đó khởi động lại dịch vụ:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Kiểm tra:
ss -tlnp | grep 11434
Nếu hiển thị:
0.0.0.0:11434
thì API đã sẵn sàng cho các ứng dụng khác kết nối.
Mở Firewall
Ubuntu UFW:
sudo ufw allow 11434/tcp
Kiểm tra:
sudo ufw status
Cài đặt Ollama trên Windows 11
Bước 1
Truy cập website chính thức của Ollama.
Bước 2
Tải bộ cài đặt cho Windows.
Bước 3
Chạy file cài đặt và hoàn tất quá trình setup.
Bước 4
Mở PowerShell:
ollama version
Bước 5
Chạy mô hình đầu tiên:
ollama run qwen3
Triển khai Ollama trên VPS và Cloud Server
Đây là lựa chọn được nhiều doanh nghiệp sử dụng khi muốn xây dựng hệ thống AI dùng chung cho nhân viên hoặc khách hàng.
Cấu hình đề xuất:
- 8 vCPU
- 16GB RAM
- 100GB NVMe SSD
Sau khi cài đặt Ollama, có thể kết nối với các giao diện Web AI hiện đại như Open WebUI để tạo trải nghiệm tương tự ChatGPT.
Kết hợp Ollama với Open WebUI
Open WebUI là giao diện web mã nguồn mở rất phổ biến hiện nay.
Triển khai bằng Docker:
docker run -d \
--name open-webui \
-p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://IP_SERVER:11434 \
ghcr.io/open-webui/open-webui:main
Sau khi hoàn tất:
http://IP_SERVER:3000
Người dùng sẽ có giao diện trò chuyện AI tương tự ChatGPT nhưng chạy hoàn toàn trên hạ tầng riêng.
Những lưu ý khi triển khai Ollama cho doanh nghiệp
Luôn sử dụng SSD NVMe
AI thường xuyên đọc ghi dữ liệu mô hình. SSD NVMe giúp giảm đáng kể thời gian phản hồi.
Ưu tiên RAM
Nếu ngân sách có hạn, nâng cấp RAM trước GPU sẽ mang lại hiệu quả tốt hơn đối với các mô hình từ 7B đến 14B.
Chọn CPU nhiều nhân
Khuyến nghị:
- 8 vCPU
- 16 vCPU
- 32 vCPU
Tách riêng môi trường AI
Không nên chạy AI chung với các dịch vụ sản xuất quan trọng như Website, Database hoặc Mail Server.
CloudX hỗ trợ cài đặt Ollama miễn phí
CloudX hiện cung cấp dịch vụ VPS Cloud NVMe hiệu năng cao dành cho AI, Machine Learning và LLM.
Khách hàng sử dụng Cloud tại CloudX sẽ được hỗ trợ miễn phí:
- Cài đặt Ollama
- Cài đặt Open WebUI
- Cài đặt DeepSeek
- Cài đặt Qwen
- Cài đặt Llama
- Cài đặt Dify
- Cài đặt Continue.dev
- Cài đặt n8n
- Tối ưu hiệu năng AI trên VPS và Cloud
Đội ngũ kỹ thuật CloudX có thể hỗ trợ từ bước triển khai ban đầu đến khi hệ thống AI hoạt động ổn định trong môi trường doanh nghiệp.
Kết luận
Ollama đang trở thành giải pháp triển khai AI nội bộ đơn giản và hiệu quả nhất hiện nay. Chỉ với một VPS hoặc Cloud Server cấu hình phù hợp, doanh nghiệp đã có thể xây dựng hệ thống AI riêng tư, tiết kiệm chi phí và chủ động hoàn toàn trong việc quản lý dữ liệu.
Đối với môi trường sản xuất, Ubuntu 24.04 LTS hoặc Ubuntu 26.04 LTS kết hợp với Cloud NVMe hiệu năng cao là lựa chọn được đánh giá tối ưu nhất về tốc độ, độ ổn định và khả năng mở rộng trong năm 2026.




