功能概述
Moderation API 可以检测文本中是否包含有害或不当内容,帮助您:- 内容过滤:自动过滤用户提交的不当内容
- 安全审核:在发布前检测潜在违规内容
- 合规检查:确保内容符合平台规范
- 风险预警:识别可能有害的内容类型
快速开始
基础示例
批量审核
检测类别
Moderation API 可以检测以下类别的内容:| 类别 | 说明 |
|---|---|
hate | 仇恨言论,针对特定群体的攻击 |
hate/threatening | 带有威胁性的仇恨言论 |
harassment | 骚扰性内容 |
harassment/threatening | 带有威胁性的骚扰 |
self-harm | 自我伤害相关内容 |
self-harm/intent | 表达自我伤害意图 |
self-harm/instructions | 自我伤害指导 |
sexual | 性相关内容 |
sexual/minors | 涉及未成年人的性内容 |
violence | 暴力内容 |
violence/graphic | 血腥暴力描述 |
响应结构
实用示例
1. 用户输入过滤
2. 聊天机器人安全层
3. 自定义阈值
4. 批量内容审核
最佳实践
1. 多层防护
2. 记录违规日志
3. 优雅处理
注意事项
重要提醒:- Moderation API 是辅助工具,不能替代人工审核
- 对于高风险场景,建议结合人工审核
- 审核结果可能存在误判,需要设置合理的处理流程
定价
Moderation API 目前免费使用,不计入 Token 消耗。常见问题
审核结果准确吗? Moderation API 基于 OpenAI 的模型,准确率较高,但不能保证 100% 准确。建议:- 重要场景结合人工审核
- 设置合理的阈值
- 提供申诉渠道