multi-modal-mcp

基于智谱 AI 的多模态 MCP (Model Context Protocol) 服务器，提供文本生成、图片生成、视频生成和多模态理解等功能。

功能特性

- 文本生成: 基于 GLM-4.7-Flash 模型，支持对话、写作、翻译、代码生成等多种文本生成任务
- 多模态理解: 基于 GLM-4.6V-Flash 模型，支持图片、视频、文档等多种媒体类型的智能分析与理解
- 图片生成: 基于 Cogview-3-Flash 模型，根据文本描述生成高质量图片
- 视频生成: 基于 CogVideoX-Flash 模型，根据文本描述生成高质量视频，支持图生视频

技术栈

- 语言: TypeScript (ESNext)
- 运行时: Node.js (>=18.19.0)
- 框架: mcp-framework (v0.2.2)
- HTTP 客户端: Axios (v1.13.2)
- 数据验证: Zod (v3.22.4)

安装

$3

``bash npm install -g multi-modal-mcp`

`$3`

`bash npx multi-modal-mcp@latest`

`配置`

在使用前，需要设置智谱 AI 的 API 密钥：

`bash export KEY="your-api-key"`

或在 MCP Inspector 中配置环境变量。

`使用方法`

`$3`

适用于本地开发和 MCP 客户端集成。

`bash npx multi-modal-mcp@latest`

`$3`

适用于 Web 应用和远程访问，服务器将在 http://localhost:3000/mcp 上运行。

`bash npx multi-modal-mcp@latest http`

或使用环境变量：

`bash TRANSPORT_TYPE=http npx multi-modal-mcp@latest`

`$3`

调试 stdio 模式:

`bash npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest`

调试 HTTP 模式:

`bash npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest http`

`$3`

#### stdio 模式配置

在 Claude Desktop 或其他 MCP 客户端的配置文件中添加：

`json { "mcpServers": { "multi-modal": { "command": "npx", "args": ["-y", "multi-modal-mcp@latest"], "env": { "KEY": "your-api-key" } } } }`

#### HTTP 模式配置

如果使用 HTTP 模式，客户端需要连接到 http://localhost:3000/mcp 端点。具体配置方式取决于客户端的实现。

`工具列表`

`$3`

基于 GLM-4.7-Flash 模型的文本生成工具，支持对话、写作、翻译、代码生成等多种文本生成任务。支持思考模式，可展示模型思考过程。通过温度参数控制生成文本的随机性和创造性。

参数:

- messages(string, 必填): 消息文本 -thinking (enum, 可选): 是否启用思考模式，可选值 enabled/disabled，默认 disabled-temperature (number, 可选): 温度参数，控制生成文本的随机性，范围 0-1，默认 1

`$3`

基于 GLM-4.6V-Flash 模型的多模态理解工具，支持图片、视频、文档等多种媒体类型的智能分析与理解。可执行 OCR 文字识别、表格解析、内容分析、缺陷检测、图像转提示词、视频标签提取、关键帧提取、时间线生成、脚本生成、视频问答、文档问答、文档对比等多种任务。支持同时处理多种媒体类型。

参数:

- media_content(array, 必填): 媒体内容列表，支持混合图片、视频、文档 -type (enum): 媒体类型，可选值 image_url/video_url/file_url-url(string): 媒体资源的 URL 地址 -question(string, 必填): 用自然语言描述您的需求 -thinking (enum, 可选): 是否启用思考模式，可选值 enabled/disabled，默认 disabled-temperature (number, 可选): 温度参数，控制生成文本的随机性，范围 0-1，默认 1

`$3`

基于 Cogview-3-Flash 模型的图片生成工具，根据文本描述生成高质量图片。支持多种尺寸选择，包括横屏、竖屏和方形等多种比例。可选择是否添加水印。适用于插画、设计素材、场景生成等多种应用场景。

参数:

- prompt(string, 必填): 图片的文本描述 -size (string, 可选): 图片尺寸，推荐 1024x1024(默认)、768x1344、864x1152、1344x768、1152x864、1440x720、720x1440。自定义尺寸需满足 512px-2048px 之间，被 16 整除，最大像素数不超过 2^21px -watermark_enabled (boolean, 可选): 是否添加水印，默认 false

`$3`

基于 CogVideoX-Flash 模型的视频生成工具，根据文本描述生成高质量视频。支持多种分辨率选择，包括 720p、1080p、2K、4K 等多种规格。支持质量优先和速度优先两种输出模式。可选择是否生成 AI 音效和添加水印。支持基于基础图像生成视频。采用异步处理机制，自动轮询任务状态直至完成。

参数:

- prompt(string, 必填): 视频的文本描述，最大输入长度为 512 个字符 -quality (enum, 可选): 输出模式，可选值 quality/speed，默认 speed-withAudio (boolean, 可选): 是否生成 AI 音效，默认 false-watermarkEnabled (boolean, 可选): 是否添加水印，默认 false-imageUrl(string, 可选): 用于内容生成的基础图像，支持 URL 或 Base64 编码图像 -size (enum, 可选): 视频分辨率，可选值 720x480/1024x1024/1280x960/960x1280/1920x1080/1080x1920/2048x1080/3840x2160，默认 1024x1024-fps (enum, 可选): 视频帧率，可选值 30/60，默认 30

`开发`

`$3`

`bash git clone https://gitee.com/juzijuzijuzi/multi-modal-mcp.git cd multi-modal-mcp`

`$3`

`bash npm install`

`$3`

`bash npm run build`

`$3`

`bash npm run watch`

`$3`

`bash npm start`

`$3`

`bash npm run debug``

API 密钥获取

1. 访问智谱 AI 开放平台
2. 注册并登录账号
3. 在控制台创建 API 密钥

许可证

MIT License

作者

橘子

multi-modal-mcp

基于智谱 AI 的多模态 MCP (Model Context Protocol) 服务器，提供文本生成、图片生成、视频生成和多模态理解等功能。

功能特性

技术栈

- 语言: TypeScript (ESNext)
- 运行时: Node.js (>=18.19.0)
- 框架: mcp-framework (v0.2.2)
- HTTP 客户端: Axios (v1.13.2)
- 数据验证: Zod (v3.22.4)

安装

$3

``bash npm install -g multi-modal-mcp`

`$3`

`bash npx multi-modal-mcp@latest`

`配置`

在使用前，需要设置智谱 AI 的 API 密钥：

`bash export KEY="your-api-key"`

或在 MCP Inspector 中配置环境变量。

`使用方法`

`$3`

适用于本地开发和 MCP 客户端集成。

`bash npx multi-modal-mcp@latest`

`$3`

适用于 Web 应用和远程访问，服务器将在 http://localhost:3000/mcp 上运行。

`bash npx multi-modal-mcp@latest http`

或使用环境变量：

`bash TRANSPORT_TYPE=http npx multi-modal-mcp@latest`

`$3`

调试 stdio 模式:

`bash npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest`

调试 HTTP 模式:

`bash npx @modelcontextprotocol/inspector npx multi-modal-mcp@latest http`

`$3`

#### stdio 模式配置

在 Claude Desktop 或其他 MCP 客户端的配置文件中添加：

`json { "mcpServers": { "multi-modal": { "command": "npx", "args": ["-y", "multi-modal-mcp@latest"], "env": { "KEY": "your-api-key" } } } }`

#### HTTP 模式配置

如果使用 HTTP 模式，客户端需要连接到 http://localhost:3000/mcp 端点。具体配置方式取决于客户端的实现。

`工具列表`

`$3`

参数:

`$3`

参数:

`$3`

参数:

`$3`

参数:

`开发`

`$3`

`bash git clone https://gitee.com/juzijuzijuzi/multi-modal-mcp.git cd multi-modal-mcp`

`$3`

`bash npm install`

`$3`

`bash npm run build`

`$3`

`bash npm run watch`

`$3`

`bash npm start`

`$3`

`bash npm run debug``

API 密钥获取

1. 访问智谱 AI 开放平台
2. 注册并登录账号
3. 在控制台创建 API 密钥

许可证

MIT License

作者

橘子

multi-modal-mcp

multi-modal-mcp

功能特性

技术栈

安装

$3

$3

配置

使用方法

$3

$3

$3

$3

工具列表

$3

$3

$3

$3

开发

$3

$3

$3

$3

$3

$3

API 密钥获取

许可证

作者

相关链接

multi-modal-mcp

multi-modal-mcp

功能特性

技术栈

安装

$3

$3

配置

使用方法

$3

$3

$3

$3

工具列表

$3

$3

$3

$3

开发

$3

$3

$3

$3

$3

$3

API 密钥获取

许可证

作者

相关链接

`$3`

`配置`

`使用方法`

`$3`

`$3`

`$3`

`$3`

`工具列表`

`$3`

`$3`

`$3`

`$3`

`开发`

`$3`

`$3`

`$3`

`$3`

`$3`

`$3`

`$3`

`配置`

`使用方法`

`$3`

`$3`

`$3`

`$3`

`工具列表`

`$3`

`$3`

`$3`

`$3`

`开发`

`$3`

`$3`

`$3`

`$3`

`$3`

`$3`