Responses API 里的基本写法

from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "What is in this image?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

Vision with OpenAI API

Vision 能力最容易被高估，也最容易真正落地。高估，是因为很多人把它想成“零错误 OCR”；能落地，是因为截图分析、票据读取、表单初筛、图文问答这类任务，本来就非常适合让模型先看第一遍。

#更务实的定位

Vision 更适合当“第一道智能筛选”，不适合当“最后一道财务确认”。

适合的情况通常有：

本来就需要人工看图再录入
图片里同时有结构和语义
允许模型先做初筛，再由规则或人工复核

#Responses API 里的基本写法

python
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5",
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image?"},
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image.jpg"
                }
            ]
        }
    ]
)

print(response.output_text)

#图片输入可以怎么传

按官方 vision guide，你可以通过：

image URL
Base64-encoded data URL
file ID

把图片传给模型。

#`detail` 参数什么时候值得用

input_image 支持 detail: "low" | "high" | "auto"。

low：更省 token，更适合大致判断内容
high：更适合细节识别
auto：让模型自己决定

如果你只是做大致分类或描述，low 往往更省成本；只有在确实需要细节时，再上 high。

#常见误区

把 Vision 当零错误 OCR
图片越大越好
只看一次输出，不做规则或人工复核

Vision with OpenAI API

更务实的定位

Responses API 里的基本写法

图片输入可以怎么传

`detail` 参数什么时候值得用

常见误区

OpenAI API 开发指南

Vision with OpenAI API

#更务实的定位

#Responses API 里的基本写法

#图片输入可以怎么传

#`detail` 参数什么时候值得用

#常见误区

系统设计必备：核心概念 + 经典案例

相关指南

相关路线图

Vision with OpenAI API

更务实的定位

Responses API 里的基本写法

图片输入可以怎么传

detail 参数什么时候值得用

常见误区

Related pages

OpenAI API 开发指南

Vision with OpenAI API

#更务实的定位

#Responses API 里的基本写法

#图片输入可以怎么传

#detail 参数什么时候值得用

#常见误区

#Related pages

系统设计必备：核心概念 + 经典案例

相关指南

相关路线图

`detail` 参数什么时候值得用

#`detail` 参数什么时候值得用