Ubuntu服务器离线部署Ollama+Deepseek R1大模型实战记录
快速体验
- 打开 InsCode(快马)平台 https://www.inscode.net
- 输入框输入如下内容
帮我开发一个本地大语言模型部署系统,解决学术研究者在无网络环境下运行AI模型的需求。系统交互细节:1.支持Ollama离线安装 2.支持Deepseek R1模型加载 3.提供Open WebUI可视化界面 4.支持多GPU配置。注意事项:需提前下载好模型文件和环境依赖包。 - 点击'项目生成'按钮,等待项目生成完整后预览效果

环境准备与安装过程
-
Ollama离线安装方案 在无外网连接的Ubuntu 18服务器上,采用修改官方安装脚本的方式实现本地安装。关键步骤包括下载对应架构的安装包、修改install.sh脚本取消网络依赖、配置系统服务等。特别要注意安装目录权限设置和PATH环境变量配置。
-
模型文件处理技巧 从Hugging Face镜像站获取DeepSeek-R1的GGUF格式模型文件,按Ollama要求的目录结构存放。创建Modelfile文件指定模型位置时,使用相对路径更便于迁移。针对实验室3090显卡,选择32B Q4量化版本平衡性能和显存占用。
-
服务配置要点 修改systemd服务文件添加关键环境变量:
- OLLAMA_HOST设置为0.0.0.0:11434允许外部访问
- CUDA_VISIBLE_DEVICES指定使用的GPU编号
-
OLLAMA_MODELS定义模型存储路径并确保777权限
-
可视化界面部署 使用Docker运行Open WebUI容器时,特别注意:
- 通过host.docker.internal特殊域名连接宿主机服务
- 绑定持久化存储目录保存用户数据
- 首次启动需等待网络请求超时后关闭联网功能
- 第一个注册账户自动获得管理员权限
常见问题解决方案
-
脚本执行报错 遇到/bin/sh^M解释器错误时,使用sed命令转换文件换行符格式。安装完成后若服务启动失败,检查日志发现权限问题时,及时调整模型目录的访问权限。
-
容器连接问题 Open WebUI无法连接Ollama时,确认:
- OLLAMA_BASE_URL包含http://前缀
- 使用host.docker.internal而非127.0.0.1
-
宿主机的防火墙放行11434端口
-
性能优化建议 根据硬件情况调整:
- 多GPU环境明确指定CUDA_VISIBLE_DEVICES
- 大模型加载时监控显存使用情况
- 关闭不必要的WebUI功能减少资源占用
部署成果展示
完成部署后,通过浏览器访问31425端口即可使用可视化聊天界面。系统支持:
- 多用户管理功能
- 本地模型对话交互
- 对话历史记录保存
- 管理员配置界面

这套方案在InsCode(快马)平台上可以快速复现,平台已预置常用环境依赖,省去了手动配置的麻烦。实际测试从创建项目到部署完成仅需10分钟左右,比传统方式效率提升明显。对于需要快速搭建本地AI研究环境的开发者来说,这种一键生成+部署的方式确实很省心。








