اجرای local LLM (Llama, Mistral, Phi و غیره). API سازگار با OpenAI، CPU/GPU.
اجرای local LLM (Llama, Mistral, Phi و غیره). API سازگار با OpenAI، CPU/GPU.
این برنامه با یک کلیک روی یک سرور ابری اختصاصی در دیتاسنتر تهران نصب میشود. برخلاف میزبانی اشتراکی، دسترسی کامل ریشه (root) در اختیار شماست؛ یعنی میتوانید نسخهها را خودتان بهروزرسانی کنید، افزونه نصب کنید و پیکربندی را کاملاً کنترل کنید. صورتحساب ساعتی است و هر زمان میتوانید سرور را حذف کنید.
برای دسترسی امن از سراسر دنیا، دامنهٔ خود را وصل کنید تا گواهی SSL بهصورت خودکار صادر شود. بکآپ خودکار روزانه از داشبورد فعال میشود و بازیابی تنها یک کلیک فاصله دارد.
بدون پیکربندی دستی؛ برنامه و وابستگیهایش خودکار نصب و در چند دقیقه آماده میشوند.
سرور کاملاً در اختیار شماست — root SSH، نصب هر چیز دلخواه، نه میزبانی محدود اشتراکی.
اسنپشات روزانه از کل سرور با بازیابی یککلیکی از داشبورد.
دامنهٔ خود را وصل کنید؛ گواهی SSL خودکار صادر و تمدید میشود.
تأخیر پایین برای کاربران ایرانی و پهنای باند داخلی رایگان.
مصرف CPU/RAM/دیسک را ببینید و هر زمان سرور را ارتقا یا حذف کنید.
سرور را بسازید، Ollama خودکار نصب میشود و در چند دقیقه آماده است — با دسترسی کامل و بکآپ خودکار.
سرور با Ollama بسازبرای CPU-only inference پلن ۸ گیگ RAM (مدلهای ۷B parameter). برای ۱۳B+ پلن ۱۶+ گیگ. GPU plans با درخواست در دسترس است.
در مرحلهٔ سفارش Ollama را انتخاب کنید — Ollama runtime + systemd unit + REST API روی پورت ۱۱۴۳۴ خودکار نصب میشوند.
ollama pull llama3.1:8b (یا mistral:7b برای فارسی بهتر). دانلود از mirror Iran کنده، حدود ۴-۸ گیگ disk.
curl http://localhost:11434/api/generate -d '{"model":"llama3.1:8b","prompt":"سلام"}' — یا با ollama run llama3.1:8b interactive.
Ollama wrapper روی llama.cpp با UX بهتر و model-management سادهتر. OpenAI API سادهتر ولی هر token هزینه دارد + دیتا به US میرود. Ollama: یکبار سرور بخر، unlimited inference، دیتا در ایران.
پلن ۸ گیگ RAM با Llama 3.1 8B Q4_K_M: حدود ۵-۱۰ token/sec. برای chatbot قابلقبول، برای real-time apps کند. با AVX2 instructions روی CPU بهتر میشود.
aya-23-8b (Cohere) یا qwen2.5:7b (Alibaba، multilingual) از Llama 3.1 برای فارسی بهتر هستند. PersianLLaMa fine-tuned شده هم در huggingface.co/PartAI موجود است.
بله — همه این frameworkها Ollama را بهطور native پشتیبانی میکنند. base_url=http://your-vm-ip:11434 در config. OpenAI-compatible API هم در /v1/chat/completions موجود.
بله — ollama هر مدل را در RAM cache میکند تا load سریع باشد. ولی فقط یک مدل میتواند inference انجام دهد. اگر همزمانی نیاز دارید، یک سرور دوم یا upgrade پلن.
با Modelfile مدل را customize کنید (system prompt، parameter override). Full fine-tuning نیاز به GPU دارد — میتوانید روی Colab Pro fine-tune و model را به Ollama push کنید.