字
字节笔记本
2026年2月22日
glm4v-cli 完全指南:GLM-4V 命令行工具安装与使用教程
本文详细介绍 glm4v-cli 工具的安装、配置和使用方法,帮助你在命令行中快速调用 GLM-4V 视觉模型分析本地图片。
工具简介
glm4v-cli 是一个跨平台的命令行工具,让你无需编写代码就能使用 GLM-4V 视觉模型分析本地图片。支持 Windows、macOS 和 Linux 系统。
功能特性
- 本地图片分析(支持 jpg/png/gif/webp/bmp 格式)
- 配置文件管理 API 地址和 Key
- 自定义提示词
- JSON 格式输出
- 自动 base64 编码
- 跨平台支持(Windows/macOS/Linux)
系统要求
- Node.js: >= 18.0.0
- 操作系统: Windows 10/11, macOS, Linux
安装方法
方式一:npm 全局安装(推荐)
bash
npm install -g glm4v-cli安装完成后,在任意目录都可以使用 glm4v 命令。
方式二:npx 临时使用
无需安装,直接运行:
bash
npx glm4v-cli analyze ./image.jpg验证安装
bash
glm4v --version输出示例:
1.0.1
初始配置
第一步:初始化配置文件
bash
glm4v init此命令会创建配置文件:
- Windows:
%APPDATA%\glm4v\config.json - macOS/Linux:
~/.config/glm4v/config.json
第二步:设置 API Key
bash
glm4v config --api-key your-api-key-here第三步:查看配置(可选)
bash
glm4v config --show输出示例:
text
当前配置:
API 地址: https://ai.bytenote.net/v1
API Key: ****7vOk
配置文件: /Users/pan/.config/glm4v/config.json基础使用
分析单张图片
bash
# macOS/Linux
glm4v analyze /path/to/image.jpg
# Windows
glm4v analyze C:\Users\YourName\Pictures\image.jpg输出示例:
text
📷 正在分析图片...
文件: /Users/pan/Downloads/icon.png
大小: 12.70 KB
类型: image/png
模型: glm-4v
✅ 分析完成
🤖 GLM-4V 回答:
这是一张应用图标,显示一个剪贴板图案...
📊 Token 使用:
- Prompt: 1674
- Completion: 92
- Total: 1766进阶用法
自定义提示词
默认提示词是"请详细描述这张图片的内容",你可以自定义:
bash
glm4v analyze ./photo.jpg -p "这张图片里有什么文字?"
glm4v analyze ./chart.png -p "分析这个图表的数据趋势"
glm4v analyze ./menu.jpg -p "提取菜单上的所有菜品和价格"JSON 格式输出
适合程序化处理结果:
bash
glm4v analyze ./image.jpg --json输出示例:
json
{
"content": "这是一张应用图标,显示一个剪贴板图案...",
"usage": {
"prompt_tokens": 1674,
"completion_tokens": 92,
"total_tokens": 1766
},
"raw": {
"choices": [...],
"usage": {...}
}
}使用不同模型
bash
# 使用轻量级模型
glm4v analyze ./image.jpg -m glm-4v-flash
# 指定 token 限制
glm4v analyze ./image.jpg -t 500组合选项
bash
glm4v analyze ./photo.png \
-p "描述图片风格" \
-t 800 \
--json跨平台使用示例
Windows
powershell
# PowerShell
glm4v analyze C:\Users\pan\Downloads\image.png
glm4v analyze "C:\Users\pan\Downloads\image.png" -p "描述这个图片"
# CMD
glm4v analyze C:\Users\pan\Downloads\image.png注意:如果路径包含空格,请使用引号包裹。
macOS
bash
glm4v analyze ~/Downloads/image.png
glm4v analyze /Users/pan/Downloads/image.png -p "这张图片里有什么?"Linux
bash
glm4v analyze ~/Pictures/image.jpg
glm4v analyze /home/user/pictures/image.jpg --json配置自定义 API 地址
如果你使用其他兼容 OpenAI API 格式的服务:
bash
glm4v config --api-url https://api.example.com/v1同时设置 API 地址和 Key:
bash
glm4v config \
--api-url https://api.example.com/v1 \
--api-key sk-xxxxxxxx实际应用场景
场景一:批量处理截图
bash
# 分析多张截图
for img in ~/Screenshots/*.png; do
echo "=== $img ==="
glm4v analyze "$img" -p "提取图片中的文字内容" --json >> results.json
done场景二:整理照片
bash
# 为照片生成描述
glm4v analyze ./vacation.jpg -p "描述这张照片的场景和氛围" > description.txt场景三:分析图表数据
bash
# 提取图表信息
glm4v analyze ./sales-chart.png -p "列出图表中的关键数据点"场景四:识别 UI 元素
bash
# 分析界面截图
glm4v analyze ./ui-screenshot.png -p "列出界面中的所有按钮和输入框"配置文件说明
配置文件是一个 JSON 文件,包含以下字段:
json
{
"apiUrl": "https://ai.bytenote.net/v1",
"apiKey": "your-api-key-here"
}配置文件位置:
| 系统 | 路径 |
|---|---|
| Windows | %APPDATA%\glm4v\config.json |
| macOS | ~/.config/glm4v/config.json |
| Linux | ~/.config/glm4v/config.json |
支持的图片格式
| 格式 | 扩展名 | MIME 类型 |
|---|---|---|
| JPEG | .jpg, .jpeg | image/jpeg |
| PNG | .png | image/png |
| GIF | .gif | image/gif |
| WebP | .webp | image/webp |
| BMP | .bmp | image/bmp |
使用限制
- 单张图片最大 10MB
- 需要 Node.js >= 18.0.0
- API 调用受限于你的账户额度
常见问题
Q: 安装后提示 "command not found"
A: npm 全局目录可能不在 PATH 中。
bash
# 查看 npm 全局目录
npm config get prefix
# 添加到 PATH(根据你的 shell 选择)
# Bash
echo 'export PATH="$PATH:$(npm config get prefix)/bin"' >> ~/.bashrc
# Zsh
echo 'export PATH="$PATH:$(npm config get prefix)/bin"' >> ~/.zshrcQ: Windows 上路径报错
A: 路径包含空格时使用引号包裹:
bash
glm4v analyze "C:\Users\My Name\Pictures\my image.png"Q: 提示 "API Key 未配置"
A: 运行以下命令设置 API Key:
bash
glm4v config --api-key your-api-keyQ: 图片格式不支持
A: 检查文件扩展名是否在支持列表中。如果不支持,先用工具转换:
bash
# 使用 ImageMagick 转换
magick input.bmp output.pngQ: 文件过大
A: 压缩图片后再分析:
bash
# 使用 ImageMagick 压缩
magick large-image.jpg -quality 80 compressed.jpg更新工具
bash
npm update -g glm4v-cli卸载工具
bash
npm uninstall -g glm4v-cli相关资源
总结
glm4v-cli 让 GLM-4V 视觉模型的使用变得简单直接。通过命令行即可快速分析本地图片,无需编写代码。支持自定义提示词、JSON 输出和跨平台使用,适合各种图片分析场景。
分享: