Cài Đặt Ollama Trên Ubuntu 26.04 LTS Chi Tiết Từ A-Z

Hướng dẫn cài đặt Ollama trên Ubuntu 26.04 LTS để chạy AI local, tải model Llama, DeepSeek, Qwen, Gemma, mở API, cấu hình service, firewall và tối ưu Cloud Server NVMe.

Cài Đặt Ollama Trên Ubuntu 26.04 LTS Chi Tiết Từ A-Z

Ollama là công cụ giúp bạn chạy các mô hình AI mã nguồn mở trực tiếp trên máy chủ, laptop, PC hoặc Cloud Server. Thay vì phải phụ thuộc hoàn toàn vào API bên ngoài, bạn có thể tự triển khai các model như Llama, DeepSeek, Qwen, Gemma, Mistral ngay trên hệ thống của mình để chủ động hơn về dữ liệu, hiệu năng và chi phí.

Trong bài viết này, CloudX sẽ hướng dẫn bạn cài đặt Ollama trên Ubuntu 26.04 LTS, tải model AI, chạy thử mô hình, mở API cho Open WebUI, cấu hình firewall, đổi thư mục lưu model sang ổ NVMe và xử lý một số lỗi thường gặp.

Ollama là gì?

Ollama là nền tảng giúp tải, quản lý và chạy các mô hình ngôn ngữ lớn trên máy cục bộ hoặc máy chủ riêng. Ollama cung cấp lệnh đơn giản để tải model, chạy chat, gọi API và tích hợp với các ứng dụng như Open WebUI, n8n, LangChain, Flowise hoặc các hệ thống AI nội bộ.

Điểm mạnh của Ollama là sự đơn giản. Chỉ với một vài câu lệnh, bạn có thể tải model AI và chạy trực tiếp trên Ubuntu mà không cần tự cấu hình môi trường phức tạp.

Ollama dùng để làm gì?

  • Chạy AI local trên máy chủ riêng.
  • Xây dựng chatbot nội bộ cho doanh nghiệp.
  • Kết hợp với Open WebUI để có giao diện chat giống ChatGPT.
  • Chạy model DeepSeek, Llama, Qwen, Gemma, Mistral.
  • Dùng cho lập trình, phân tích tài liệu, hỏi đáp dữ liệu nội bộ.
  • Tích hợp vào API backend, workflow automation hoặc hệ thống RAG.
  • Giảm phụ thuộc vào API bên ngoài và tăng quyền kiểm soát dữ liệu.

Yêu cầu hệ thống tối thiểu và khuyến nghị

Ollama có thể chạy trên CPU, nhưng hiệu năng sẽ phụ thuộc nhiều vào số nhân CPU, RAM, tốc độ ổ cứng và GPU nếu có. Các model càng lớn thì càng cần nhiều RAM hoặc VRAM.

Thành phần Tối thiểu Khuyến nghị cho Production
CPU 2 vCPU 4 - 16 vCPU tùy số lượng người dùng
RAM 4 GB cho model nhỏ 8 - 64 GB tùy model 3B, 7B, 14B, 32B
Disk NVMe 40 GB 100 - 500 GB NVMe nếu lưu nhiều model
GPU Không bắt buộc NVIDIA GPU nếu chạy model lớn hoặc nhiều người dùng
Hệ điều hành Ubuntu 26.04 LTS Ubuntu 26.04 LTS bản server sạch
Network 100 Mbps 1 Gbps hoặc cao hơn để tải model nhanh
Gợi ý từ CloudX: Nếu mới bắt đầu, bạn có thể dùng 2 vCPU, 4 GB RAM để chạy model nhỏ. Nếu muốn chạy DeepSeek, Llama hoặc Qwen dung lượng lớn, nên dùng Cloud Server từ 4 vCPU, 8 GB RAM trở lên và ổ cứng NVMe dung lượng lớn.

Bước 1: Cập nhật Ubuntu 26.04 LTS

Đầu tiên, cập nhật hệ thống và cài các công cụ cần thiết.

sudo apt update
sudo apt upgrade -y
sudo apt install -y curl wget git ca-certificates gnupg lsb-release nano ufw

Nếu hệ thống cập nhật Kernel hoặc thư viện quan trọng, bạn nên khởi động lại máy chủ.

sudo reboot

Bước 2: Cài đặt Ollama

Ollama cung cấp script cài đặt chính thức giúp quá trình triển khai trên Ubuntu nhanh và đơn giản.

Chạy lệnh sau:

curl -fsSL https://ollama.com/install.sh | sh

Sau khi cài đặt, Ollama thường được cấu hình chạy dưới dạng systemd service.

Bước 3: Kiểm tra dịch vụ Ollama

Kiểm tra phiên bản Ollama:

ollama --version

Kiểm tra trạng thái service:

sudo systemctl status ollama

Bật Ollama tự khởi động cùng hệ thống:

sudo systemctl enable ollama
sudo systemctl start ollama

Kiểm tra API mặc định của Ollama:

curl http://localhost:11434

Nếu dịch vụ hoạt động, bạn sẽ nhận được phản hồi từ Ollama.

Bước 4: Tải và chạy model AI đầu tiên

Để kiểm tra nhanh, bạn có thể tải model nhỏ trước. Model nhỏ phù hợp cho máy chủ ít RAM và dùng để thử nghiệm.

Tải Llama 3.2 3B

ollama pull llama3.2:3b

Chạy model:

ollama run llama3.2:3b

Tải DeepSeek R1 bản nhỏ

ollama pull deepseek-r1:1.5b

Chạy DeepSeek R1:

ollama run deepseek-r1:1.5b

Tải Qwen 2.5 Coder

ollama pull qwen2.5-coder:7b

Chạy Qwen Coder:

ollama run qwen2.5-coder:7b
Cảnh báo: Model càng lớn thì càng cần nhiều RAM, CPU hoặc GPU. Không nên tải quá nhiều model khi dung lượng ổ cứng NVMe còn thấp.

Bước 5: Các lệnh quản trị model Ollama

Liệt kê các model đã tải:

ollama list

Xem model đang chạy:

ollama ps

Xóa model không cần dùng:

ollama rm llama3.2:3b

Xem thông tin model:

ollama show llama3.2:3b

Bước 6: Sử dụng Ollama API

Ollama cung cấp API trên cổng mặc định 11434. Bạn có thể gọi API bằng curl hoặc tích hợp vào ứng dụng backend.

Ví dụ gọi API generate:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Viết một đoạn giới thiệu ngắn về Cloud Server NVMe",
  "stream": false
}'

Liệt kê danh sách model qua API:

curl http://localhost:11434/api/tags

Bước 7: Mở API Ollama cho Open WebUI hoặc server khác

Mặc định Ollama thường chỉ lắng nghe trên localhost. Nếu bạn cần cho Open WebUI container hoặc máy chủ khác kết nối, có thể cấu hình biến môi trường OLLAMA_HOST.

Tạo thư mục override systemd:

sudo mkdir -p /etc/systemd/system/ollama.service.d

Tạo file cấu hình override:

sudo nano /etc/systemd/system/ollama.service.d/override.conf

Dán nội dung sau để Ollama lắng nghe trên mọi địa chỉ IP:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434" 

Reload systemd và khởi động lại Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Kiểm tra port Ollama:

ss -tlnp | grep 11434
Cảnh báo bảo mật: Không nên public API Ollama trực tiếp ra Internet. Nếu cần truy cập từ xa, hãy giới hạn bằng firewall, VPN, private network hoặc reverse proxy có xác thực.

Bước 8: Firewall và bảo mật

Nếu Ollama chỉ chạy local cho Open WebUI trên cùng máy chủ, bạn không cần mở port 11434 ra Internet.

Nếu cần cho một server khác trong mạng private truy cập, chỉ mở port cho IP cụ thể. Ví dụ cho phép IP 10.10.10.20 truy cập Ollama:

sudo ufw allow from 10.10.10.20 to any port 11434 proto tcp
sudo ufw status

Nếu máy chủ dùng Nginx hoặc Open WebUI, bạn có thể mở SSH, HTTP và HTTPS:

sudo ufw allow OpenSSH
sudo ufw allow 'Nginx Full'
sudo ufw enable
sudo ufw status

Bước 9: Đổi thư mục lưu model sang ổ NVMe

Model AI thường chiếm nhiều dung lượng. Nếu bạn có ổ NVMe riêng, nên chuyển thư mục lưu model sang phân vùng dung lượng lớn hơn.

Tạo thư mục lưu model:

sudo mkdir -p /data/ollama
sudo chown -R ollama:ollama /data/ollama

Tạo hoặc sửa file override systemd:

sudo nano /etc/systemd/system/ollama.service.d/override.conf

Dán nội dung sau:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama" 

Reload và khởi động lại Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Kiểm tra lại service:

sudo systemctl status ollama
Lưu ý: Nếu trước đó bạn đã tải model ở thư mục mặc định, cần copy hoặc tải lại model sang thư mục mới.

Bước 10: Cài Ollama bằng Docker

Nếu muốn chạy Ollama trong container, bạn có thể dùng Docker.

Cài Docker nhanh:

curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
sudo systemctl enable docker
sudo systemctl start docker

Chạy Ollama bằng Docker:

docker volume create ollama
docker run -d   --name ollama   --restart unless-stopped   -p 11434:11434   -v ollama:/root/.ollama   ollama/ollama:latest

Kiểm tra container:

docker ps
curl http://localhost:11434

Tải model trong container:

docker exec -it ollama ollama pull llama3.2:3b
docker exec -it ollama ollama run llama3.2:3b

Bước 11: Tối ưu hiệu năng Ollama

Để Ollama hoạt động ổn định hơn trong môi trường production, bạn nên lưu ý:

  • Dùng model phù hợp với RAM và CPU hiện có.
  • Ưu tiên ổ cứng NVMe để tải và đọc model nhanh hơn.
  • Không chạy quá nhiều model cùng lúc trên máy cấu hình thấp.
  • Dùng GPU NVIDIA nếu phục vụ nhiều người dùng hoặc model lớn.
  • Kết hợp Open WebUI để quản lý người dùng và giao diện chat dễ dùng hơn.
  • Không public API Ollama trực tiếp ra Internet.

Kiểm tra tài nguyên hệ thống:

htop
df -h
free -h

Xem log Ollama:

journalctl -u ollama -f

Lỗi thường gặp khi cài Ollama

1. Lệnh ollama không tồn tại

Kiểm tra lại quá trình cài đặt:

which ollama
ollama --version

Nếu không có kết quả, hãy chạy lại script cài đặt:

curl -fsSL https://ollama.com/install.sh | sh

2. Ollama không chạy

Kiểm tra service:

sudo systemctl status ollama
sudo journalctl -u ollama -xe

Khởi động lại Ollama:

sudo systemctl restart ollama

3. Không tải được model

Kiểm tra Internet và dung lượng ổ cứng:

ping -c 4 ollama.com
df -h
free -h

4. Open WebUI không kết nối được Ollama

Kiểm tra Ollama API:

curl http://localhost:11434/api/tags
ss -tlnp | grep 11434

Nếu Open WebUI chạy bằng Docker, hãy kiểm tra biến môi trường:

OLLAMA_BASE_URL=http://host.docker.internal:11434

Vì sao nên chạy Ollama trên Cloud Server NVMe CloudX?

Ollama cần tốc độ đọc ghi tốt khi tải model, lưu model và phục vụ nhiều truy vấn. Cloud Server NVMe của CloudX phù hợp để triển khai Ollama vì có hiệu năng ổn định, tốc độ lưu trữ cao và dễ nâng cấp tài nguyên.

  • Phù hợp chạy Ollama, Open WebUI, LangChain, n8n, Flowise.
  • Ổ cứng NVMe giúp tải và đọc model nhanh hơn.
  • Dễ nâng cấp CPU, RAM, Disk theo nhu cầu.
  • Phù hợp cho doanh nghiệp, trường học, trung tâm đào tạo và startup AI.
  • Hỗ trợ triển khai Nginx, SSL, Firewall, Backup và giám sát hệ thống.

CloudX hỗ trợ cài đặt Ollama miễn phí

Khi sử dụng Cloud Server tại CloudX, bạn có thể được hỗ trợ cài đặt Ollama, Open WebUI, Docker, Nginx, PostgreSQL, Redis Stack, Canvas LMS, Moodle LMS và nhiều nền tảng mã nguồn mở khác.

CloudX phù hợp cho doanh nghiệp, trường học và đội ngũ kỹ thuật cần triển khai AI riêng, bảo mật dữ liệu và tối ưu chi phí vận hành.

FAQ - Câu hỏi thường gặp

Ollama có cần GPU không?

Không bắt buộc. Ollama có thể chạy trên CPU, nhưng nếu dùng model lớn hoặc nhiều người dùng, GPU sẽ giúp tăng tốc đáng kể.

Ollama có chạy được trên VPS không?

Có. Ollama có thể chạy trên VPS hoặc Cloud Server. Với model nhỏ, 4 GB RAM có thể thử nghiệm được. Với model lớn, nên dùng RAM cao hơn và ổ NVMe dung lượng lớn.

Ollama có dùng được với Open WebUI không?

Có. Open WebUI là một trong những giao diện phổ biến nhất để dùng Ollama qua trình duyệt.

Có nên mở port 11434 ra Internet không?

Không nên public port 11434 trực tiếp ra Internet. Nếu cần truy cập từ xa, nên dùng VPN, private network, firewall giới hạn IP hoặc reverse proxy có xác thực.

Model Ollama được lưu ở đâu?

Thông thường model được lưu trong thư mục của user chạy Ollama. Bạn có thể dùng biến môi trường OLLAMA_MODELS để chuyển model sang ổ NVMe riêng.

Kết luận

Ollama là lựa chọn rất phù hợp nếu bạn muốn chạy AI local trên Ubuntu 26.04 LTS một cách đơn giản, nhanh chóng và linh hoạt. Chỉ với vài câu lệnh, bạn có thể cài Ollama, tải model AI, gọi API và kết nối với Open WebUI để xây dựng hệ thống chatbot AI riêng.

Khi triển khai Ollama trên Cloud Server NVMe CloudX, bạn có thể chủ động hơn về hiệu năng, dữ liệu, bảo mật và khả năng mở rộng. Đây là nền tảng tốt để doanh nghiệp, trường học và đội ngũ kỹ thuật bắt đầu xây dựng các ứng dụng AI nội bộ.

Hệ sinh thái của CloudX

Trong quá trình thực hiện, nếu gặp bất kỳ khó khăn nào, bạn vui lòng liên hệ các kỹ thuật viên của CloudX để được nhanh chóng hỗ trợ.! Nếu thấy bài viết này hữu ích hãy subscribe để theo dõi những thông tin mới nhất từ CloudX nhé. Chúc các bạn thành công!

Hệ sinh thái của CloudX:

  • Tư vấn miễn phí hệ thống CNTT cho doanh nghiệp
  • Miễn phí đăng ký dùng thử Cloud Server, Cloud VPS, Hosting (lưu trữ website, phần mềm, xử lý dữ liệu)
  • Xmail - Email tên miền doanh nghiệp
  • Server vật lý, cho thuê chỗ đặt Server tại các Datacenter hàng đầu Việt Nam
  • Dịch vụ quản trị máy chủ, Outsource CNTT, quản trị hệ thống mạng doanh nghiệp, IT Support
  • Miễn phí cài đặt, vận hành quản trị Website trường học ảo E-Learning Canvas LMS (được đánh giá LMS E-Learning tốt nhất thế giới)
  • Triển khai, quản trị Firewall cho doanh nghiệp
  • Các giải pháp về Monitor, Alert Cảnh báo, Sao lưu - Backup dữ liệu từ xa cho máy chủ, Cloud, VPS.
  • Thiết kế website chuyên nghiệp

Xin vui lòng liên hệ Hotline/Zalo: 0983.357.585 để được tư vấn tận tình

BÀI VIẾT CÙNG CHUYÊN MỤC

Không copy được giữa máy Windows và máy ảo qua mRemoteNG/RDP: Nguyên nhân và cách sửa
Không copy được giữa máy Windows và máy ảo qua ...

mRemoteNG Remote Desktop RDP Clipboard Redirection rdpclip.exe VPS Windows ...

Hướng dẫn bật Nested Virtualization trên ESXi để chạy Android Studio Emulator trong máy ảo Windows
Hướng dẫn bật Nested Virtualization trên ESXi để chạy ...

Nested Virtualization ESXi VMware Android Studio Android Emulator WHPX Hyper-V ...

PITR (Point In Time Recovery) là gì? Khôi phục Database về đúng thời điểm cần thiết
PITR (Point In Time Recovery) là gì? Khôi phục ...

PITR, Point In Time Recovery, PITR là gì, Database Recovery, PostgreSQL PITR, ...

Backup Database Full, Incremental, Differential khác nhau thế nào?
Backup Database Full, Incremental, Differential khác ...

Backup Database, Full Backup, Incremental Backup, Differential Backup, Backup ...

Database Cluster là gì? High Availability, Failover và Cluster Database hoạt động như thế nào?
Database Cluster là gì? High Availability, Failover và ...

Database Cluster, Database Cluster là gì, High Availability Database, Database ...