在 linux 搭建 ollama 大模型推理服务
在 linux 安装 ollama 的注意事项
Ollama 目前仅支持 LLM、embedding 模型
直接安装 ollama
- 使用命令
lscpu
查看 CPU 架构,一般是 x86_64 - 在地址 Site Unreachable 下载安装包,如 "ollama-linux-amd64.tgz"
- 在以下地址下载 ollama 的安装脚本
1 | ## 下载地址1,浏览器中打开下面地址 https://ollama.com/install.sh |
- 修改 ollama 安装脚本
将以下内容
1 | if curl -I --silent --fail --location "https://ollama.com/download/ollama-linux-${ARCH}.tgz${VER_PARAM}" >/dev/null ; then |
修改为:
1 | $SUDO tar -xzf ollama-linux-amd64.tgz -C "$OLLAMA_INSTALL_DIR" |
- 管理员执行安装命令
sh install.sh
- 启动 ollama
有两种方式,一种是直接启动 ollama,即ollama serve
;另一种是将 ollama 命令启动为服务,启动命令查看以下文件
1 | # 指定模型路径及地址启动 |
注意:这里将 OLLAMA_HOST 设置为 0.0.0.0,如果使用默认设置 127.0.0.1,dify 无法连接到 ollama
使用 docker 安装 ollama
要开始使用 Docker 镜像,请使用以下命令。
CPU 仅用
1 | docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama |
Nvidia GPU
- 安装 Nvidia 容器工具包。
- 在 Docker 容器内运行 Olama
1 | docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama |
运行模型
现在您可以在容器内运行类似的 Llama 2 模型。
1 | docker exec -it ollama ollama run llama2 |
更多模型可以在 Olama 库中找到