logo

视觉能力(Vision)

OpenAI 的多模态模型可以理解图像内容,适合做图片理解、OCR 辅助、表格识别等任务。

可以把 Vision 当成“会看图的分析师”。
它不只会说“这张图里有猫”,还可以做结构化抽取、界面问题定位、文档要点总结。

视觉理解示意

1. 基本示例(Responses API)

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.2",
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "图片里有什么?"},
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image.jpg"
                }
            ]
        }
    ]
)

print(response.output_text)

2. Node.js 示例

import OpenAI from 'openai';

const client = new OpenAI();

const response = await client.responses.create({
  model: 'gpt-5.2',
  input: [
    {
      role: 'user',
      content: [
        { type: 'input_text', text: '图片里有什么?' },
        { type: 'input_image', image_url: 'https://example.com/image.jpg' }
      ]
    }
  ]
});

console.log(response.output_text);

3. 典型场景

  • 图片内容描述与摘要
  • OCR 辅助(识别并结构化文本)
  • UI 截图分析与问题定位

读者导向:先落地哪个场景?

  1. 产品团队:先做 UI 截图分析,快速发现页面可用性问题。
  2. 运营团队:先做票据/表单 OCR,提升录入效率。
  3. 工程团队:先做图文问答,再逐步接入业务流程自动化。

4. 注意事项

  • 图片必须可公开访问或通过你自己的安全代理提供。
  • 大图建议先压缩,减少成本与延迟。
  • 对 OCR 结果应做二次校验。

常见误区

  • 把 Vision 当“零错误 OCR”:实际应有校验与人工兜底。
  • 图片喂得越大越好:大图未必更准,反而更慢更贵。
  • 只看一次输出:关键字段建议做二次确认或规则校验。

一句轻松提醒:
Vision 像“眼神很好但偶尔会脑补的实习生”,
适合让它先筛、先读、先标,再由规则或人工做最后拍板。

参考资料

OpenAI API 开发指南
AI Engineer

OpenAI API 开发指南

OpenAI API 是最广泛使用的 AI API 之一,提供 GPT-4、DALL-E、Whisper 等模型的访问。

OpenAI API 开发指南视觉能力

视觉能力(Vision)

OpenAI 的多模态模型可以理解图像内容,适合做图片理解、OCR 辅助、表格识别等任务。

可以把 Vision 当成“会看图的分析师”。
它不只会说“这张图里有猫”,还可以做结构化抽取、界面问题定位、文档要点总结。

视觉理解示意
视觉理解示意

#1. 基本示例(Responses API)

python
from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5.2", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "图片里有什么?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

#2. Node.js 示例

ts
import OpenAI from 'openai'; const client = new OpenAI(); const response = await client.responses.create({ model: 'gpt-5.2', input: [ { role: 'user', content: [ { type: 'input_text', text: '图片里有什么?' }, { type: 'input_image', image_url: 'https://example.com/image.jpg' } ] } ] }); console.log(response.output_text);

#3. 典型场景

  • 图片内容描述与摘要
  • OCR 辅助(识别并结构化文本)
  • UI 截图分析与问题定位

#读者导向:先落地哪个场景?

  1. 产品团队:先做 UI 截图分析,快速发现页面可用性问题。
  2. 运营团队:先做票据/表单 OCR,提升录入效率。
  3. 工程团队:先做图文问答,再逐步接入业务流程自动化。

#4. 注意事项

  • 图片必须可公开访问或通过你自己的安全代理提供。
  • 大图建议先压缩,减少成本与延迟。
  • 对 OCR 结果应做二次校验。

#常见误区

  • 把 Vision 当“零错误 OCR”:实际应有校验与人工兜底。
  • 图片喂得越大越好:大图未必更准,反而更慢更贵。
  • 只看一次输出:关键字段建议做二次确认或规则校验。

一句轻松提醒:
Vision 像“眼神很好但偶尔会脑补的实习生”,
适合让它先筛、先读、先标,再由规则或人工做最后拍板。

#参考资料

System Design

系统设计必备:核心概念 + 经典案例

快速掌握取舍与设计套路,备战系统设计面试。

进入 System Design →

相关路线图