EDA 与可视化
描述统计 + 图表计划 + 解释
从“画图”到“讲故事”
传统 EDA (Exploratory Data Analysis) 需要手写大量 matplotlib 代码。在 AI 时代,我们的重点转向了假设验证和叙事设计。
AI 可视化三部曲
- 意图描述: 告诉 AI 你想看什么趋势(例如:"按月看销售额,并在图中标注出促销活动点")。
- 代码生成: 让 AI 生成 Plotly/Seaborn 代码(交互式图表优于静态图)。
- 洞察标注: 让 AI 自动分析图表中的异常点,并生成标注文本。
实战:用 AI 生成交互式图表
Plotly 是 Python 中最推荐的 AI 配合图表库,因为它的 JSON 结构容易被 AI 理解和生成。
Prompt: 请用 Plotly 画一个带滑动条的时间序列图
import plotly.express as px # AI 生成的代码通常非常精准 fig = px.line(df, x='date', y='sales', title='2024 年度销售趋势') fig.update_xaxes(rangeslider_visible=True) # 添加时间轴滑块 fig.add_annotation(x='2024-11-11', y=50000, text="双十一大促", showarrow=True) fig.show()
自动生成 EDA 报告
💡 Tips
Sweetviz / YData Profiling: 这两个库可以一键生成详细的 HTML 报告。
AI 配合: 把生成的 HTML 报告(或其摘要 JSON)喂给 LLM,让它总结出 "Top 3 业务风险"。
图表选择速查表
| 问题类型 | 推荐图表 | 原因 |
|---|---|---|
| 趋势变化 | 折线图/面积图 | 能直观看出时间变化 |
| 结构占比 | 堆叠柱状/圆环图 | 对比各项占比 |
| 分布情况 | 直方图/箱线图 | 观察异常值和离散度 |
| 相关关系 | 散点图/气泡图 | 发现变量间关系 |
AI 辅助图表解释
解释 Prompt
请根据下图给出解释,结构为: 1) 主要趋势 2) 异常点 3) 可能原因(标注假设) 4) 下一步验证