Ollama — هاستینگ ابری ایران‌کلاد

Ollama روی سرور ابری ایران‌کلاد

اجرای local LLM (Llama, Mistral, Phi و غیره). API سازگار با OpenAI، CPU/GPU.

این برنامه با یک کلیک روی یک سرور ابری اختصاصی در دیتاسنتر تهران نصب می‌شود. برخلاف میزبانی اشتراکی، دسترسی کامل ریشه (root) در اختیار شماست؛ یعنی می‌توانید نسخه‌ها را خودتان به‌روزرسانی کنید، افزونه نصب کنید و پیکربندی را کاملاً کنترل کنید. صورت‌حساب ساعتی است و هر زمان می‌توانید سرور را حذف کنید.

برای دسترسی امن از سراسر دنیا، دامنهٔ خود را وصل کنید تا گواهی SSL به‌صورت خودکار صادر شود. بک‌آپ خودکار روزانه از داشبورد فعال می‌شود و بازیابی تنها یک کلیک فاصله دارد.

چرا روی ایران‌کلاد؟

نصب یک‌کلیک

بدون پیکربندی دستی؛ برنامه و وابستگی‌هایش خودکار نصب و در چند دقیقه آماده می‌شوند.

دسترسی کامل ریشه

سرور کاملاً در اختیار شماست — root SSH، نصب هر چیز دلخواه، نه میزبانی محدود اشتراکی.

بک‌آپ خودکار

اسنپ‌شات روزانه از کل سرور با بازیابی یک‌کلیکی از داشبورد.

دامنه و SSL خودکار

دامنهٔ خود را وصل کنید؛ گواهی SSL خودکار صادر و تمدید می‌شود.

دیتاسنتر تهران

تأخیر پایین برای کاربران ایرانی و پهنای باند داخلی رایگان.

پایش و مقیاس

مصرف CPU/RAM/دیسک را ببینید و هر زمان سرور را ارتقا یا حذف کنید.

روش نصب گام‌به‌گام

1

سفارش سرور

برای CPU-only inference پلن ۸ گیگ RAM (مدل‌های ۷B parameter). برای ۱۳B+ پلن ۱۶+ گیگ. GPU plans با درخواست در دسترس است.
2

انتخاب Ollama

در مرحلهٔ سفارش Ollama را انتخاب کنید — Ollama runtime + systemd unit + REST API روی پورت ۱۱۴۳۴ خودکار نصب می‌شوند.
3

دانلود مدل

ollama pull llama3.1:8b (یا mistral:7b برای فارسی بهتر). دانلود از mirror Iran کنده، حدود ۴-۸ گیگ disk.
4

تست

curl http://localhost:11434/api/generate -d '{"model":"llama3.1:8b","prompt":"سلام"}' — یا با ollama run llama3.1:8b interactive.

سؤالات متداول

Ollama یا llama.cpp یا OpenAI API؟

Ollama wrapper روی llama.cpp با UX بهتر و model-management ساده‌تر. OpenAI API ساده‌تر ولی هر token هزینه دارد + دیتا به US می‌رود. Ollama: یک‌بار سرور بخر، unlimited inference، دیتا در ایران.

بدون GPU، چقدر سریع؟

پلن ۸ گیگ RAM با Llama 3.1 8B Q4_K_M: حدود ۵-۱۰ token/sec. برای chatbot قابل‌قبول، برای real-time apps کند. با AVX2 instructions روی CPU بهتر می‌شود.

بهترین مدل برای فارسی؟

aya-23-8b (Cohere) یا qwen2.5:7b (Alibaba، multilingual) از Llama 3.1 برای فارسی بهتر هستند. PersianLLaMa fine-tuned شده هم در huggingface.co/PartAI موجود است.

integration با LangChain / LlamaIndex / VoltAgent؟

بله — همه این framework‌ها Ollama را به‌طور native پشتیبانی می‌کنند. base_url=http://your-vm-ip:11434 در config. OpenAI-compatible API هم در /v1/chat/completions موجود.

multiple models همزمان

بله — ollama هر مدل را در RAM cache می‌کند تا load سریع باشد. ولی فقط یک مدل می‌تواند inference انجام دهد. اگر همزمانی نیاز دارید، یک سرور دوم یا upgrade پلن.

fine-tuning روی دیتای خودم؟

با Modelfile مدل را customize کنید (system prompt، parameter override). Full fine-tuning نیاز به GPU دارد — می‌توانید روی Colab Pro fine-tune و model را به Ollama push کنید.

Ollama — یک کلیک نصب روی VM شما