功能简介
YeLIn AI 提供强大的图像和视频理解能力,支持使用多种先进的 AI 模型对图像和视频进行深度分析和理解。通过统一的 OpenAI API 格式,您可以轻松实现图像识别、场景描述、OCR 文字识别、视频内容分析等功能。 🔍 智能视觉分析支持对象识别、场景理解、文字提取、情感分析、视频内容理解等多种视觉任务,让 AI 真正”看懂”图片和视频。
🌟 核心特性
- 🎯 多模型支持:GPT-5、Gemini 2.5 Pro/Flash 等顶级视觉模型
- 📸 灵活输入:支持 URL 链接和 Base64 编码(图片、视频)
- 🎬 视频理解:Gemini 系列支持视频内容分析(最长可达数分钟)
- 🌏 中文优化:完美支持中文场景理解和文字识别
- ⚡ 快速响应:高性能推理,秒级返回结果
- 💰 成本可控:多种模型选择,满足不同预算需求
📋 支持的视觉模型
| 模型名称 | 模型 ID | 图片支持 | 视频支持 | 特点 |
|---|---|---|---|---|
| GPT-5 ⭐ | gpt-5 | ✅ | ❌ | 最新模型,图片识别非常详细准确 |
| Gemini 2.5 Pro ⭐ | gemini-2.5-pro | ✅ | ✅ | 超长上下文,支持视频分析 |
| Gemini 2.5 Flash ⭐ | gemini-2.5-flash | ✅ | ✅ | 速度极快,性价比最高,支持视频 |
| GPT-4.1 Mini | gpt-4.1-mini | ✅ | ❌ | 轻量快速,成本低 |
| Claude 3.5 Sonnet | claude-3-5-sonnet | ✅ | ❌ | 理解深入,描述准确 |
🚀 快速开始
1. 基础示例 - 图片 URL
2. 本地图片示例 - Base64 编码
3. 高级示例 - 多图对比分析
🎬 视频内容分析
支持的视频模型
目前仅 Gemini 系列模型支持视频分析:gemini-2.5-pro- 详细准确,推荐用于复杂视频分析gemini-2.5-flash- 速度快,性价比高,适合批量处理
1. 基础视频分析 - URL 方式
2. 使用 OpenAI SDK
3. cURL 命令示例
4. 视频 + 图片混合分析
Gemini 支持在同一个请求中分析视频和图片:5. 本地视频分析 - Base64 编码
对于本地视频文件,可以使用 Base64 编码上传:- MP4:
data:video/mp4;base64,... - WebM:
data:video/webm;base64,... - MOV:
data:video/quicktime;base64,... - AVI:
data:video/x-msvideo;base64,...
视频分析最佳实践
- 文件大小:建议单个视频 ≤20 MB,超大视频可能导致处理时间过长
- 视频格式:支持 MP4、WebM、MOV、AVI 等主流格式
- 视频时长:短视频(< 5 分钟)效果最佳,超长视频建议分段处理
- 分辨率:高分辨率视频识别效果更好,但会增加处理时间
- 提示词优化:明确指出需要分析的内容(如”分析人物动作”、“提取对话内容”等)
视频分析应用场景
- 📹 内容审核:自动识别视频中的不当内容
- 🎓 教学视频分析:提取关键知识点和字幕
- 🛡️ 监控视频理解:异常行为检测和事件识别
- 🎬 广告素材分析:评估创意元素和情感传递效果
- 📊 体育赛事分析:识别运动员动作和比赛关键时刻
- 视频处理时间通常比图片长(取决于视频长度和复杂度)
- 建议使用
max_tokens参数限制输出长度,避免超额消费 - 对于隐私敏感的视频内容,请注意数据安全
🎯 常见应用场景
1. 商品识别与分析
2. 文档 OCR 识别
3. 医学影像辅助分析
4. 安全监控场景分析
💡 最佳实践
图片预处理建议
- 格式支持:JPEG、PNG、GIF、WebP 等主流格式
- 大小限制:建议单张图片不超过 20MB
- 分辨率:高分辨率图片会获得更好的识别效果
- 压缩优化:适度压缩以提高传输速度
提示词优化
错误处理
🔧 高级功能
1. 流式输出
对于长篇分析,可以使用流式输出获得更好的用户体验:2. 多轮对话
保持上下文进行深入分析:3. 结合函数调用
📊 性能对比
| 模型 | 图片支持 | 视频支持 | 响应速度 | 识别准确度 | 价格 |
|---|---|---|---|---|---|
| GPT-5 | ✅ | ❌ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | $$$ |
| Gemini 2.5 Pro | ✅ | ✅ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | $$ |
| Gemini 2.5 Flash | ✅ | ✅ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | $ |
| GPT-4.1 Mini | ✅ | ❌ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | $ |
🚨 注意事项
- 隐私保护:不要上传包含敏感信息的图片和视频
- 合规使用:遵守相关法律法规,不用于非法用途
- 结果验证:AI 分析结果仅供参考,重要决策需人工复核
- 成本控制:合理选择模型,避免不必要的开销
- 视频限制:视频分析仅支持 Gemini 系列,其他模型暂不支持
🔗 相关资源
- API 定价说明
- Chat Completions API - 了解更多关于对话 API 的信息