Welcome 微信登录

首页 / 人工智能 / Ollama 常用环境变量参数的含义及优化设置建议

以下是 Ollama 常用环境变量参数的含义及优化设置建议,帮助你更好地配置 Ollama 以提升模型性能:

核心参数说明与性能优化建议

  1. 调试与基础配置
    • OLLAMA_DEBUG:启用调试模式,输出详细日志(用于排查问题,正常使用建议关闭,值为1启用)。
    • OLLAMA_HOST:指定服务监听地址(默认127.0.0.1:11434,如需局域网访问可设为0.0.0.0:11434)。
    • OLLAMA_MODELS:自定义模型存储路径(默认~/.ollama/models,建议放在 SSD 上提升加载速度)。
  2. GPU 加速优化
    • OLLAMA_FLASH_ATTENTION:启用 Flash Attention 优化(需 GPU 支持,值为1启用,可显著提升大模型推理速度)。
    • OLLAMA_GPU_OVERHEAD:调整 GPU 内存开销预留比例(默认10,单位 %,显存充足时可降低至5以利用更多显存)。
    • CUDA_VISIBLE_DEVICES(NVIDIA)/HIP_VISIBLE_DEVICES(AMD):指定使用的 GPU 设备(多卡环境下指定卡号,如0,1启用前两张卡)。
    • OLLAMA_INTEL_GPU:启用 Intel GPU 加速(值为1,适用于 Xeon 等支持的 Intel 显卡)。
    • HSA_OVERRIDE_GFX_VERSION(AMD):强制指定 AMD GPU 架构(如10.3.0,解决部分显卡识别问题)。
  3. 内存与缓存管理
    • OLLAMA_KV_CACHE_TYPE:指定 KV 缓存类型(可选cpu/gpu,建议gpu减少 CPU 内存占用,需足够显存)。
    • OLLAMA_MAX_LOADED_MODELS:最大同时加载模型数(默认3,显存充足可增加,避免频繁加载)。
    • OLLAMA_MULTIUSER_CACHE:启用多用户缓存共享(值为1,多用户场景提升缓存利用率)。
  4. 并发与性能调优
    • OLLAMA_NUM_PARALLEL:设置并行推理数(默认1,根据 GPU 性能调整,如 RTX 4090 可设为2-4)。
    • OLLAMA_MAX_QUEUE:请求队列最大长度(默认512,高并发场景可适当增大)。
    • OLLAMA_SCHED_SPREAD:负载均衡策略(多卡时启用,值为1均衡分配任务到各 GPU)。
  5. 网络与安全
    • HTTP_PROXY/HTTPS_PROXY:设置代理(下载模型时需访问外网可配置)。
    • OLLAMA_ORIGINS:允许跨域请求的来源(如https://example.com,限制未授权访问)。
  6. 其他实用参数
    • OLLAMA_KEEP_ALIVE:模型加载后保持活跃的时间(默认5m,频繁使用可设为1h减少重复加载)。
    • OLLAMA_LOAD_TIMEOUT:模型加载超时时间(默认5m,大模型可延长至10m)。

性能优化配置示例

根据硬件环境,推荐以下设置(通过终端或环境变量配置文件生效):
NVIDIA GPU(如 RTX 4090)
该文章为易网时代-编程资源站会员专属文章,请先登录后再进行查看。