OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1) OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434) OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”) OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量 OLLAMA_MAX_QUEUE: 请求队列的最大长度 OLLAMA_MODELS: 模型目录的路径 OLLAMA_NUM_PARALLEL: 最大并行请求数 OLLAMA_NOPRUNE: 启动时不修剪模型 blob OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔 OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型 OLLAMA_TMPDIR: 临时文件的位置 OLLAMA_FLASH_ATTENTION: 启用 Flash Attention OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测