logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

多模态 Prompt 设计

掌握文字、图片、视频联合输入的进阶 Prompt 技巧

Source: Google Cloud "Prompt Design in Vertex AI" Course Model Focus: Gemini 1.5 Series Estimated Time: 20 mins

什么是多模态 (Multimodal)?

传统的 AI 模型只能读文字。而 Multimodal AI (如 Google 的 Gemini) 可以同时理解和处理多种类型的数据:文字、图片、音频、视频、甚至是代码

Multimodal Input


为什么要用多模态 Prompt?

有些信息很难用语言描述,但通过一张图或一段视频就能瞬间传达。多模态设计能显著提升 AI 处理复杂任务的能力:

  • 图片转 JSON: 拍一张发票的照片,让 AI 直接提取出结构化的 JSON 数据。
  • 视频分析: 传一段监控视频,问 AI:“这个视频里什么时候出现了蓝色的货车?”
  • 代码纠错: 截取一段报错的 UI 界面,问 AI:“我的前端界面错位了,帮我检查 CSS 代码。”

多模态 Prompt 设计的最佳实践

设计好的多模态 Prompt 就像是写一份高质量的“产品说明书”。

1. Specific Instructions (具体指令)

不要只说“分析这张图”,而要说“提取图中所有商品的名称和价格,并列成表格”。

2. Contextual Padding (补充背景)

告诉 AI 图片是什么时候拍的,或者图片背景是什么。

"这张图是公司年度晚宴的照片,请帮我 identify 图中的高管并生成一段 brief 简介。"

3. Task Decomposition (任务分解)

对于复杂的图片或视频,分步骤提问:

  1. 描述图片中的整体环境。
  2. 定位核心物体。
  3. 执行具体的逻辑推理(如计算数量)。

进阶技巧:Image Focus (视觉对焦)

通过 Prompt 引导 AI 的注意力。

"请特别注意图片 左上角 的小字,那是我们的 product key,帮我将其 transcription 出来。"


实际应用 Use Cases

场景多模态输入预期输出
零售商品照片 + "描述其风格"吸引人的电商文案
物流库房截图 + "数一下箱子数量"自动库存盘点结果
法律扫描件 PDF核心条款总结 + 风险提示

挑战与限制

虽然 Gemini 很强大,但多模态仍有挑战:

  • Token 消耗: 图片和视频会占据大量的 Context Window (上下文窗口)。
  • 分辨率敏感: 过小的文字在低分辨率图片中可能无法识别。

Conclusion: 掌握多模态 Prompt 设计,意味着你不仅能让 AI “听话”,还能让 AI “看懂世界”。这是通往 AI Architect 的必经之路。