预训练 processor 覆盖发票、身份证、收据等常见类型
按页计费,大批量成本较高
GCP Console 创建 Document AI processor(选预训练或自定义类型)。POST /v1/projects/{project}/locations/{location}/processors/{processor}:process 上传文档。
可用率 · 30 天窗口
关于这个 API
Document AI 是 GCP 的 Intelligent Document Processing(IDP)产品,定位是「比通用 OCR 更智能」——不只是把图片转文字,而是理解文档结构和语义,提取 key-value 对、表格、签名位置、字段含义。它的产品形态是「processor」——每个 processor 是一个特定文档类型的 ML 模型,比如 Invoice Parser、ID Document Parser、Form Parser、Contract Parser。预训练 processor 开箱即用,对常见文档质量很高。复杂场景(行业特有表单)用 Document AI Workbench 训练自定义 processor,UI 上标注几十张样本即可。对比 AWS Textract 和 Azure Form Recognizer,Document AI 在某些场景(如发票字段提取)准确率行业领先。
你可以做什么
- 1发票自动提取金额/账户/到期日
- 2身份证/护照 OCR + 字段识别
- 3合同关键条款抽取(金额、生效日期)
- 4银行对账单自动入库
优劣对比
优点
- 预训练 processor 覆盖发票、身份证、收据等常见类型
- Workbench 工具支持自定义模型训练
- Form Parser 通用表单解析能力强
注意事项
- 按页计费,大批量成本较高
- 某些特殊行业表单(如医保单据)需要自定义训练
示例请求
curl https://google.com/<endpoint>快速开始
GCP Console 创建 Document AI processor(选预训练或自定义类型)。POST /v1/projects/{project}/locations/{location}/processors/{processor}:process 上传文档。
常见问题
中文文档支持如何?+
通用 OCR 和 Form Parser 中文支持很好。某些预训练 processor(如 Invoice Parser)主要针对英文,中文场景建议训自定义 processor。
Document AI 和 Cloud Vision OCR 怎么选?+
Vision OCR 适合"只要文字"。Document AI 适合"要理解结构和字段含义"。前者便宜 5-10 倍。
技术细节
- 认证方式
- unknown
- 计费
- unknown
- 协议
- REST
- SDK
- python, javascript, go, java
- 响应时间
- 43 ms
- 上次巡检
- 2026/5/12 07:37:31
更多来自 Google 的 API
Google Workspace Admin SDK API 程序化管理 Workspace 组织:用户、组、设备、域名、审计日志、组织单元。
AdMob API 可读取 accounts、apps、adUnits 与 adSources,并生成 mediation 与 network 报表。
AdSense Host API 支持 accounts、adclients、adunits、reports 和 adcode 生成,适合托管式广告平台集成。
Apigee API 可管理 API proxy、deployments、attributes 与 organizations,适合把 API 网关运维接入自动化流程。
Google BigQuery API 是 GCP 旗舰数据仓库的 REST 接口:执行 SQL 查询、管理 datasets/tables、流式插入、ML 内置。
Binary Authorization API 用于管理 attestors、IAM policy 与镜像验证流程,面向 GKE 和 Anthos 的发布门禁。
Business Profile Performance API 能拉取 location 指标时间序列和 search keyword impressions,服务 Google 商家资料分析。
Google Calendar API 让应用程序化创建、读取、更新日历事件,是日程类应用最常用的集成。