Gemini 内容生成

概述

Gemini API 端点允许您使用 Google 的 Gemini 模型以其原生格式生成内容。此端点遵循官方 Gemini API 规范，可轻松与现有的兼容 Gemini 的代码集成。

最新消息：现已支持 gemini-3-pro-preview！

快速开始

只需在官方 SDK 或请求中替换 Base URL 和 API Key 即可使用：

Base URL：https://wisdom-gate.juheapi.com（替换 generativelanguage.googleapis.com）
API Key：将 $GEMINI_API_KEY 替换为您的 $WISDOM_GATE_KEY

基础示例：文本生成

curl "https://wisdom-gate.juheapi.com/v1beta/models/gemini-3-pro-preview:generateContent" \
  -H "x-goog-api-key: $WISDOM_GATE_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "AI 是如何工作的？"
          }
        ]
      }
    ]
  }'

重要说明

模型差异不同的 Gemini 模型版本可能支持不同的请求参数并返回不同的响应字段。我们强烈建议查阅模型目录了解每个模型的完整参数列表和使用说明。

响应透传原则Wisdom Gate 通常不会在逆向格式之外修改模型响应，确保您收到与原始 Gemini API 提供商一致的响应内容。

流式支持Wisdom Gate 支持用于流式响应的服务器发送事件（SSE）。使用 streamGenerateContent 操作符并添加 ?alt=sse 参数即可启用实时流式传输，这对聊天应用很有用。

参考文档

有关 Gemini API 的更多详情，我们建议参阅 Gemini 官方文档。 Gemini 相关指南：

自动生成的文档请求参数和响应格式从 OpenAPI 规范自动生成。所有参数、其类型、描述、默认值和示例都直接从 openapi.json 提取。向下滚动查看交互式 API 参考。

常见问题

如何控制思考（Thinking）？

Gemini 模型支持”思考”过程以提高推理能力。控制方法取决于模型版本。详情请参阅官方文档：Gemini 思考指南

Gemini 3 系列（如 `gemini-3-pro-preview`）

使用 thinkingLevel 参数控制思考强度（"LOW" 或 "HIGH"）。

curl "https://wisdom-gate.juheapi.com/v1beta/models/gemini-3-pro-preview:generateContent" \
  -H "x-goog-api-key: $WISDOM_GATE_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{ "parts": [{ "text": "用简单的话解释量子物理。" }] }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingLevel": "LOW"
      }
    }
  }'

Gemini 2.5 系列（如 `gemini-2.5-pro`）

使用 thinkingBudget 参数控制思考的 Token 预算。

0：禁用思考。
-1：动态思考（模型自动决定，默认）。
> 0：设置特定的 Token 限制（例如，1024）。

curl "https://wisdom-gate.juheapi.com/v1beta/models/gemini-2.5-pro:generateContent" \
  -H "x-goog-api-key: $WISDOM_GATE_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{ "parts": [{ "text": "解决这个逻辑谜题。" }] }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingBudget": 1024
      }
    }
  }'

如何使用流式响应？

流式响应允许您在模型生成内容时逐步接收结果，降低感知延迟。详情请参阅官方文档：Gemini 文本生成 - 流式响应注意：URL 必须指向 streamGenerateContent，建议添加 ?alt=sse 以使用服务器发送事件格式。

curl "https://wisdom-gate.juheapi.com/v1beta/models/gemini-2.5-flash:streamGenerateContent?alt=sse" \
  -H "x-goog-api-key: $WISDOM_GATE_KEY" \
  -H 'Content-Type: application/json' \
  --no-buffer \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "解释 AI 是如何工作的"
          }
        ]
      }
    ]
  }'

如何维护对话上下文？

在 contents 数组中包含完整的对话历史：

conversation = [
    {
        "role": "user",
        "parts": [{"text": "什么是 Python？"}]
    },
    {
        "role": "model",
        "parts": [{"text": "Python 是一种编程语言..."}]
    },
    {
        "role": "user",
        "parts": [{"text": "它有什么优势？"}]
    }
]

response = requests.post(
    "https://wisdom-gate.juheapi.com/v1beta/models/gemini-3-pro-preview:generateContent",
    headers={
        "x-goog-api-key": "WISDOM_GATE_KEY",
        "Content-Type": "application/json"
    },
    json={"contents": conversation}
)

finishReason 是什么意思？

响应中的 finishReason 字段表示模型停止生成的原因：

值	含义
`STOP`	自然完成
`MAX_TOKENS`	达到 maxOutputTokens 限制
`SAFETY`	触发了安全过滤器
`RECITATION`	检测到训练数据背诵
`OTHER`	其他原因

如何控制成本？

使用 maxOutputTokens（在 generationConfig 中）限制输出长度
选择合适的模型（例如，gemini-2.5-flash 比 gemini-3-pro-preview 更经济）
精简提示词，避免冗余上下文
监控令牌消耗，查看响应中的 usageMetadata 字段
合理使用思考预算，控制推理模型的推理令牌使用

如何使用多模态输入（文本和图像）？

Gemini 通过 parts 数组支持多模态输入。您可以在单个请求中同时包含文本和图像：

data = {
    "contents": [
        {
            "parts": [
                {"text": "这张图片里有什么？"},
                {
                    "inlineData": {
                        "mimeType": "image/jpeg",
                        "data": "base64_encoded_image_data_here"
                    }
                }
            ]
        }
    ]
}

授权

Authorization

string

header

必填

Bearer token authentication. Include your API key in the Authorization header as 'Bearer YOUR_API_KEY'

路径参数

model

string

必填

The model identifier (e.g., 'gemini-pro', 'gemini-pro-vision')

operator

string

必填

The operation to perform. Use 'generateContent' for standard requests, or 'streamGenerateContent?alt=sse' for streaming responses with Server-Sent Events format.

请求体

application/json

contents

object[]

必填

Array of content parts that make up the conversation

显示子属性

systemInstruction

object

System instruction to guide the model's behavior

显示子属性

generationConfig

object

Configuration for content generation

显示子属性

safetySettings

object[]

Safety settings for content filtering

显示子属性

响应

Successful content generation response

candidates

object[]

必填

Array of generated content candidates

显示子属性

usageMetadata

object

Token usage statistics for the request

显示子属性

promptFeedback

object

Feedback about the prompt, including safety ratings

显示子属性

Text Models

Image Models

Video Models

Error Handling

概述

快速开始

基础示例：文本生成

重要说明

参考文档

常见问题

如何控制思考（Thinking）？

Gemini 3 系列（如 `gemini-3-pro-preview`）

Gemini 2.5 系列（如 `gemini-2.5-pro`）

如何使用流式响应？

如何维护对话上下文？

finishReason 是什么意思？

如何控制成本？

如何使用多模态输入（文本和图像）？

授权

路径参数

请求体

响应

Text Models

Image Models

Video Models

Error Handling

​概述

​快速开始

​基础示例：文本生成

​重要说明

​参考文档

​常见问题

​如何控制思考（Thinking）？

​Gemini 3 系列（如 gemini-3-pro-preview）

​Gemini 2.5 系列（如 gemini-2.5-pro）

​如何使用流式响应？

​如何维护对话上下文？

​finishReason 是什么意思？

​如何控制成本？

​如何使用多模态输入（文本和图像）？

授权

路径参数

请求体

响应

概述

快速开始

基础示例：文本生成

重要说明

参考文档

常见问题

如何控制思考（Thinking）？

Gemini 3 系列（如 `gemini-3-pro-preview`）

Gemini 2.5 系列（如 `gemini-2.5-pro`）

如何使用流式响应？

如何维护对话上下文？

finishReason 是什么意思？

如何控制成本？

如何使用多模态输入（文本和图像）？