在 linux 搭建 ollama 大模型推理服务

发表于 2024-02-24 更新于 2025-02-02 分类于 4-系统软件， A-Linux 阅读次数：本文字数： 2.1k 阅读时长 ≈ 2 分钟

在 linux 安装 ollama 的注意事项

Ollama 目前仅支持 LLM、embedding 模型

直接安装 ollama

使用命令 lscpu 查看 CPU 架构，一般是 x86_64
在地址 Site Unreachable 下载安装包，如 "ollama-linux-amd64.tgz"
在以下地址下载 ollama 的安装脚本

1 2	## 下载地址1，浏览器中打开下面地址 https://ollama.com/install.sh ## 下载地址2 https://github.com/ollama/ollama/blob/main/scripts/install.sh

修改 ollama 安装脚本
将以下内容

if curl -I --silent --fail --location "https://ollama.com/download/ollama-linux-${ARCH}.tgz${VER_PARAM}" >/dev/null ; then
    status "Downloading Linux ${ARCH} bundle"
    curl --fail --show-error --location --progress-bar \
        "https://ollama.com/download/ollama-linux-${ARCH}.tgz${VER_PARAM}" | \
        $SUDO tar -xzf - -C "$OLLAMA_INSTALL_DIR"
    BUNDLE=1
    if [ "$OLLAMA_INSTALL_DIR/bin/ollama" != "$BINDIR/ollama" ] ; then
        status "Making ollama accessible in the PATH in $BINDIR"
        $SUDO ln -sf "$OLLAMA_INSTALL_DIR/ollama" "$BINDIR/ollama"
    fi
else
    status "Downloading Linux ${ARCH} CLI"
    curl --fail --show-error --location --progress-bar -o "$TEMP_DIR/ollama"\
    "https://ollama.com/download/ollama-linux-${ARCH}${VER_PARAM}"
    $SUDO install -o0 -g0 -m755 $TEMP_DIR/ollama $OLLAMA_INSTALL_DIR/ollama
    BUNDLE=0
    if [ "$OLLAMA_INSTALL_DIR/ollama" != "$BINDIR/ollama" ] ; then
        status "Making ollama accessible in the PATH in $BINDIR"
        $SUDO ln -sf "$OLLAMA_INSTALL_DIR/ollama" "$BINDIR/ollama"
    fi
fi

修改为：

1	$SUDO tar -xzf ollama-linux-amd64.tgz -C "$OLLAMA_INSTALL_DIR"

管理员执行安装命令 sh install.sh
启动 ollama
有两种方式，一种是直接启动 ollama，即 ollama serve；另一种是将 ollama 命令启动为服务，启动命令查看以下文件

1 2	# 指定模型路径及地址启动 OLLAMA_MODELS=/mnt/wushaogui/LLM/ollama OLLAMA_HOST=0.0.0.0:11434 ollama serve

注意：这里将 OLLAMA_HOST 设置为 0.0.0.0，如果使用默认设置 127.0.0.1，dify 无法连接到 ollama

使用 docker 安装 ollama

要开始使用 Docker 镜像，请使用以下命令。

CPU 仅用

1	docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Nvidia GPU

安装 Nvidia 容器工具包。
在 Docker 容器内运行 Olama

1	docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

运行模型

现在您可以在容器内运行类似的 Llama 2 模型。

1	docker exec -it ollama ollama run llama2

更多模型可以在 Olama 库中找到