Ollama 常用环境变量参数的含义及优化设置建议

以下是 Ollama 常用环境变量参数的含义及优化设置建议，帮助你更好地配置 Ollama 以提升模型性能：

核心参数说明与性能优化建议

调试与基础配置
- OLLAMA_DEBUG：启用调试模式，输出详细日志（用于排查问题，正常使用建议关闭，值为1启用）。
- OLLAMA_HOST：指定服务监听地址（默认127.0.0.1:11434，如需局域网访问可设为0.0.0.0:11434）。
- OLLAMA_MODELS：自定义模型存储路径（默认~/.ollama/models，建议放在 SSD 上提升加载速度）。
GPU 加速优化
- OLLAMA_FLASH_ATTENTION：启用 Flash Attention 优化（需 GPU 支持，值为1启用，可显著提升大模型推理速度）。
- OLLAMA_GPU_OVERHEAD：调整 GPU 内存开销预留比例（默认10，单位 %，显存充足时可降低至5以利用更多显存）。
- CUDA_VISIBLE_DEVICES（NVIDIA）/HIP_VISIBLE_DEVICES（AMD）：指定使用的 GPU 设备（多卡环境下指定卡号，如0,1启用前两张卡）。
- OLLAMA_INTEL_GPU：启用 Intel GPU 加速（值为1，适用于 Xeon 等支持的 Intel 显卡）。
- HSA_OVERRIDE_GFX_VERSION（AMD）：强制指定 AMD GPU 架构（如10.3.0，解决部分显卡识别问题）。
内存与缓存管理
- OLLAMA_KV_CACHE_TYPE：指定 KV 缓存类型（可选cpu/gpu，建议gpu减少 CPU 内存占用，需足够显存）。
- OLLAMA_MAX_LOADED_MODELS：最大同时加载模型数（默认3，显存充足可增加，避免频繁加载）。
- OLLAMA_MULTIUSER_CACHE：启用多用户缓存共享（值为1，多用户场景提升缓存利用率）。
并发与性能调优
- OLLAMA_NUM_PARALLEL：设置并行推理数（默认1，根据 GPU 性能调整，如 RTX 4090 可设为2-4）。
- OLLAMA_MAX_QUEUE：请求队列最大长度（默认512，高并发场景可适当增大）。
- OLLAMA_SCHED_SPREAD：负载均衡策略（多卡时启用，值为1均衡分配任务到各 GPU）。
网络与安全
- HTTP_PROXY/HTTPS_PROXY：设置代理（下载模型时需访问外网可配置）。
- OLLAMA_ORIGINS：允许跨域请求的来源（如https://example.com，限制未授权访问）。
其他实用参数
- OLLAMA_KEEP_ALIVE：模型加载后保持活跃的时间（默认5m，频繁使用可设为1h减少重复加载）。
- OLLAMA_LOAD_TIMEOUT：模型加载超时时间（默认5m，大模型可延长至10m）。

性能优化配置示例

根据硬件环境，推荐以下设置（通过终端或环境变量配置文件生效）：

NVIDIA GPU（如 RTX 4090）：