Cài Đặt Ollama Trên Ubuntu 26.04 LTS Chi Tiết Từ A-Z
Ollama là công cụ giúp bạn chạy các mô hình AI mã nguồn mở trực tiếp trên máy chủ, laptop, PC hoặc Cloud Server. Thay vì phải phụ thuộc hoàn toàn vào API bên ngoài, bạn có thể tự triển khai các model như Llama, DeepSeek, Qwen, Gemma, Mistral ngay trên hệ thống của mình để chủ động hơn về dữ liệu, hiệu năng và chi phí.
Trong bài viết này, CloudX sẽ hướng dẫn bạn cài đặt Ollama trên Ubuntu 26.04 LTS, tải model AI, chạy thử mô hình, mở API cho Open WebUI, cấu hình firewall, đổi thư mục lưu model sang ổ NVMe và xử lý một số lỗi thường gặp.
- Ollama là gì?
- Ollama dùng để làm gì?
- Yêu cầu hệ thống tối thiểu và khuyến nghị
- Cập nhật Ubuntu 26.04 LTS
- Cài đặt Ollama
- Kiểm tra dịch vụ Ollama
- Tải và chạy model AI đầu tiên
- Các lệnh quản trị model Ollama
- Sử dụng Ollama API
- Mở API Ollama cho Open WebUI hoặc server khác
- Firewall và bảo mật
- Đổi thư mục lưu model sang ổ NVMe
- Cài Ollama bằng Docker
- Tối ưu hiệu năng Ollama
- Lỗi thường gặp
- FAQ
- Kết luận
Ollama là gì?
Ollama là nền tảng giúp tải, quản lý và chạy các mô hình ngôn ngữ lớn trên máy cục bộ hoặc máy chủ riêng. Ollama cung cấp lệnh đơn giản để tải model, chạy chat, gọi API và tích hợp với các ứng dụng như Open WebUI, n8n, LangChain, Flowise hoặc các hệ thống AI nội bộ.
Điểm mạnh của Ollama là sự đơn giản. Chỉ với một vài câu lệnh, bạn có thể tải model AI và chạy trực tiếp trên Ubuntu mà không cần tự cấu hình môi trường phức tạp.
Ollama dùng để làm gì?
- Chạy AI local trên máy chủ riêng.
- Xây dựng chatbot nội bộ cho doanh nghiệp.
- Kết hợp với Open WebUI để có giao diện chat giống ChatGPT.
- Chạy model DeepSeek, Llama, Qwen, Gemma, Mistral.
- Dùng cho lập trình, phân tích tài liệu, hỏi đáp dữ liệu nội bộ.
- Tích hợp vào API backend, workflow automation hoặc hệ thống RAG.
- Giảm phụ thuộc vào API bên ngoài và tăng quyền kiểm soát dữ liệu.
Yêu cầu hệ thống tối thiểu và khuyến nghị
Ollama có thể chạy trên CPU, nhưng hiệu năng sẽ phụ thuộc nhiều vào số nhân CPU, RAM, tốc độ ổ cứng và GPU nếu có. Các model càng lớn thì càng cần nhiều RAM hoặc VRAM.
| Thành phần | Tối thiểu | Khuyến nghị cho Production |
|---|---|---|
| CPU | 2 vCPU | 4 - 16 vCPU tùy số lượng người dùng |
| RAM | 4 GB cho model nhỏ | 8 - 64 GB tùy model 3B, 7B, 14B, 32B |
| Disk NVMe | 40 GB | 100 - 500 GB NVMe nếu lưu nhiều model |
| GPU | Không bắt buộc | NVIDIA GPU nếu chạy model lớn hoặc nhiều người dùng |
| Hệ điều hành | Ubuntu 26.04 LTS | Ubuntu 26.04 LTS bản server sạch |
| Network | 100 Mbps | 1 Gbps hoặc cao hơn để tải model nhanh |
Bước 1: Cập nhật Ubuntu 26.04 LTS
Đầu tiên, cập nhật hệ thống và cài các công cụ cần thiết.
sudo apt update
sudo apt upgrade -y
sudo apt install -y curl wget git ca-certificates gnupg lsb-release nano ufw
Nếu hệ thống cập nhật Kernel hoặc thư viện quan trọng, bạn nên khởi động lại máy chủ.
sudo reboot
Bước 2: Cài đặt Ollama
Ollama cung cấp script cài đặt chính thức giúp quá trình triển khai trên Ubuntu nhanh và đơn giản.
Chạy lệnh sau:
curl -fsSL https://ollama.com/install.sh | sh
Sau khi cài đặt, Ollama thường được cấu hình chạy dưới dạng systemd service.
Bước 3: Kiểm tra dịch vụ Ollama
Kiểm tra phiên bản Ollama:
ollama --version
Kiểm tra trạng thái service:
sudo systemctl status ollama
Bật Ollama tự khởi động cùng hệ thống:
sudo systemctl enable ollama
sudo systemctl start ollama
Kiểm tra API mặc định của Ollama:
curl http://localhost:11434
Nếu dịch vụ hoạt động, bạn sẽ nhận được phản hồi từ Ollama.
Bước 4: Tải và chạy model AI đầu tiên
Để kiểm tra nhanh, bạn có thể tải model nhỏ trước. Model nhỏ phù hợp cho máy chủ ít RAM và dùng để thử nghiệm.
Tải Llama 3.2 3B
ollama pull llama3.2:3b
Chạy model:
ollama run llama3.2:3b
Tải DeepSeek R1 bản nhỏ
ollama pull deepseek-r1:1.5b
Chạy DeepSeek R1:
ollama run deepseek-r1:1.5b
Tải Qwen 2.5 Coder
ollama pull qwen2.5-coder:7b
Chạy Qwen Coder:
ollama run qwen2.5-coder:7b
Bước 5: Các lệnh quản trị model Ollama
Liệt kê các model đã tải:
ollama list
Xem model đang chạy:
ollama ps
Xóa model không cần dùng:
ollama rm llama3.2:3b
Xem thông tin model:
ollama show llama3.2:3b
Bước 6: Sử dụng Ollama API
Ollama cung cấp API trên cổng mặc định 11434. Bạn có thể gọi API bằng curl hoặc tích hợp vào ứng dụng backend.
Ví dụ gọi API generate:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2:3b",
"prompt": "Viết một đoạn giới thiệu ngắn về Cloud Server NVMe",
"stream": false
}'
Liệt kê danh sách model qua API:
curl http://localhost:11434/api/tags
Bước 7: Mở API Ollama cho Open WebUI hoặc server khác
Mặc định Ollama thường chỉ lắng nghe trên localhost. Nếu bạn cần cho Open WebUI container hoặc máy chủ khác kết nối, có thể cấu hình biến môi trường OLLAMA_HOST.
Tạo thư mục override systemd:
sudo mkdir -p /etc/systemd/system/ollama.service.d
Tạo file cấu hình override:
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Dán nội dung sau để Ollama lắng nghe trên mọi địa chỉ IP:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Reload systemd và khởi động lại Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Kiểm tra port Ollama:
ss -tlnp | grep 11434
Bước 8: Firewall và bảo mật
Nếu Ollama chỉ chạy local cho Open WebUI trên cùng máy chủ, bạn không cần mở port 11434 ra Internet.
Nếu cần cho một server khác trong mạng private truy cập, chỉ mở port cho IP cụ thể. Ví dụ cho phép IP 10.10.10.20 truy cập Ollama:
sudo ufw allow from 10.10.10.20 to any port 11434 proto tcp
sudo ufw status
Nếu máy chủ dùng Nginx hoặc Open WebUI, bạn có thể mở SSH, HTTP và HTTPS:
sudo ufw allow OpenSSH
sudo ufw allow 'Nginx Full'
sudo ufw enable
sudo ufw status
Bước 9: Đổi thư mục lưu model sang ổ NVMe
Model AI thường chiếm nhiều dung lượng. Nếu bạn có ổ NVMe riêng, nên chuyển thư mục lưu model sang phân vùng dung lượng lớn hơn.
Tạo thư mục lưu model:
sudo mkdir -p /data/ollama
sudo chown -R ollama:ollama /data/ollama
Tạo hoặc sửa file override systemd:
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Dán nội dung sau:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama"
Reload và khởi động lại Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Kiểm tra lại service:
sudo systemctl status ollama
Bước 10: Cài Ollama bằng Docker
Nếu muốn chạy Ollama trong container, bạn có thể dùng Docker.
Cài Docker nhanh:
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
sudo systemctl enable docker
sudo systemctl start docker
Chạy Ollama bằng Docker:
docker volume create ollama
docker run -d --name ollama --restart unless-stopped -p 11434:11434 -v ollama:/root/.ollama ollama/ollama:latest
Kiểm tra container:
docker ps
curl http://localhost:11434
Tải model trong container:
docker exec -it ollama ollama pull llama3.2:3b
docker exec -it ollama ollama run llama3.2:3b
Bước 11: Tối ưu hiệu năng Ollama
Để Ollama hoạt động ổn định hơn trong môi trường production, bạn nên lưu ý:
- Dùng model phù hợp với RAM và CPU hiện có.
- Ưu tiên ổ cứng NVMe để tải và đọc model nhanh hơn.
- Không chạy quá nhiều model cùng lúc trên máy cấu hình thấp.
- Dùng GPU NVIDIA nếu phục vụ nhiều người dùng hoặc model lớn.
- Kết hợp Open WebUI để quản lý người dùng và giao diện chat dễ dùng hơn.
- Không public API Ollama trực tiếp ra Internet.
Kiểm tra tài nguyên hệ thống:
htop
df -h
free -h
Xem log Ollama:
journalctl -u ollama -f
Lỗi thường gặp khi cài Ollama
1. Lệnh ollama không tồn tại
Kiểm tra lại quá trình cài đặt:
which ollama
ollama --version
Nếu không có kết quả, hãy chạy lại script cài đặt:
curl -fsSL https://ollama.com/install.sh | sh
2. Ollama không chạy
Kiểm tra service:
sudo systemctl status ollama
sudo journalctl -u ollama -xe
Khởi động lại Ollama:
sudo systemctl restart ollama
3. Không tải được model
Kiểm tra Internet và dung lượng ổ cứng:
ping -c 4 ollama.com
df -h
free -h
4. Open WebUI không kết nối được Ollama
Kiểm tra Ollama API:
curl http://localhost:11434/api/tags
ss -tlnp | grep 11434
Nếu Open WebUI chạy bằng Docker, hãy kiểm tra biến môi trường:
OLLAMA_BASE_URL=http://host.docker.internal:11434
Vì sao nên chạy Ollama trên Cloud Server NVMe CloudX?
Ollama cần tốc độ đọc ghi tốt khi tải model, lưu model và phục vụ nhiều truy vấn. Cloud Server NVMe của CloudX phù hợp để triển khai Ollama vì có hiệu năng ổn định, tốc độ lưu trữ cao và dễ nâng cấp tài nguyên.
- Phù hợp chạy Ollama, Open WebUI, LangChain, n8n, Flowise.
- Ổ cứng NVMe giúp tải và đọc model nhanh hơn.
- Dễ nâng cấp CPU, RAM, Disk theo nhu cầu.
- Phù hợp cho doanh nghiệp, trường học, trung tâm đào tạo và startup AI.
- Hỗ trợ triển khai Nginx, SSL, Firewall, Backup và giám sát hệ thống.
CloudX hỗ trợ cài đặt Ollama miễn phí
Khi sử dụng Cloud Server tại CloudX, bạn có thể được hỗ trợ cài đặt Ollama, Open WebUI, Docker, Nginx, PostgreSQL, Redis Stack, Canvas LMS, Moodle LMS và nhiều nền tảng mã nguồn mở khác.
CloudX phù hợp cho doanh nghiệp, trường học và đội ngũ kỹ thuật cần triển khai AI riêng, bảo mật dữ liệu và tối ưu chi phí vận hành.
FAQ - Câu hỏi thường gặp
Ollama có cần GPU không?
Không bắt buộc. Ollama có thể chạy trên CPU, nhưng nếu dùng model lớn hoặc nhiều người dùng, GPU sẽ giúp tăng tốc đáng kể.
Ollama có chạy được trên VPS không?
Có. Ollama có thể chạy trên VPS hoặc Cloud Server. Với model nhỏ, 4 GB RAM có thể thử nghiệm được. Với model lớn, nên dùng RAM cao hơn và ổ NVMe dung lượng lớn.
Ollama có dùng được với Open WebUI không?
Có. Open WebUI là một trong những giao diện phổ biến nhất để dùng Ollama qua trình duyệt.
Có nên mở port 11434 ra Internet không?
Không nên public port 11434 trực tiếp ra Internet. Nếu cần truy cập từ xa, nên dùng VPN, private network, firewall giới hạn IP hoặc reverse proxy có xác thực.
Model Ollama được lưu ở đâu?
Thông thường model được lưu trong thư mục của user chạy Ollama. Bạn có thể dùng biến môi trường OLLAMA_MODELS để chuyển model sang ổ NVMe riêng.
Kết luận
Ollama là lựa chọn rất phù hợp nếu bạn muốn chạy AI local trên Ubuntu 26.04 LTS một cách đơn giản, nhanh chóng và linh hoạt. Chỉ với vài câu lệnh, bạn có thể cài Ollama, tải model AI, gọi API và kết nối với Open WebUI để xây dựng hệ thống chatbot AI riêng.
Khi triển khai Ollama trên Cloud Server NVMe CloudX, bạn có thể chủ động hơn về hiệu năng, dữ liệu, bảo mật và khả năng mở rộng. Đây là nền tảng tốt để doanh nghiệp, trường học và đội ngũ kỹ thuật bắt đầu xây dựng các ứng dụng AI nội bộ.
Hệ sinh thái của CloudX
Trong quá trình thực hiện, nếu gặp bất kỳ khó khăn nào, bạn vui lòng liên hệ các kỹ thuật viên của CloudX để được nhanh chóng hỗ trợ.! Nếu thấy bài viết này hữu ích hãy subscribe để theo dõi những thông tin mới nhất từ CloudX nhé. Chúc các bạn thành công!
Hệ sinh thái của CloudX:
- Tư vấn miễn phí hệ thống CNTT cho doanh nghiệp
- Miễn phí đăng ký dùng thử Cloud Server, Cloud VPS, Hosting (lưu trữ website, phần mềm, xử lý dữ liệu)
- Xmail - Email tên miền doanh nghiệp
- Server vật lý, cho thuê chỗ đặt Server tại các Datacenter hàng đầu Việt Nam
- Dịch vụ quản trị máy chủ, Outsource CNTT, quản trị hệ thống mạng doanh nghiệp, IT Support
- Miễn phí cài đặt, vận hành quản trị Website trường học ảo E-Learning Canvas LMS (được đánh giá LMS E-Learning tốt nhất thế giới)
- Triển khai, quản trị Firewall cho doanh nghiệp
- Các giải pháp về Monitor, Alert Cảnh báo, Sao lưu - Backup dữ liệu từ xa cho máy chủ, Cloud, VPS.
- Thiết kế website chuyên nghiệp
Xin vui lòng liên hệ Hotline/Zalo: 0983.357.585 để được tư vấn tận tình




