Amazon Textract logo

Amazon Textract

Amazon Textract

正常免费开源cloudAmazon Web Services62· JavaScript· MIT

Amazon Textract 是文档 OCR 与结构化抽取服务,能识别表单、表格、签名,远比传统 OCR 强大。

访问站点 ↗源码 ↗健康巡检 9 小时前
适合什么时候用

识别表格保留行列关系

先注意什么

手写识别精度低于印刷体

第一步先查

SDK 调 Textract.analyzeDocument(同步,小文档)或 startDocumentAnalysis(异步,大 PDF)。结果以 block 树形式返回,每个 block 是 page / line / word / key / value / cell 等类型。

认证
api_key
CORS
不支持
HTTPS
注册
需要
延迟
10 ms
协议
REST
计费
paid
Stars
62

可用率 · 30 天窗口

巡检: 1可用率: 100%平均延迟: 10ms

GitHub 活跃度

62JavaScriptMIT17 未关闭 issue上次提交 110 天前
01

关于这个 API

Textract 与传统 OCR 的核心区别是结构化输出。传统 OCR 只把图片变成纯文本;Textract 还能识别这段文本在表格的哪一行哪一列、哪个 key 对应哪个 value、哪几行属于同一段。这让原本需要复杂后处理的发票、表单、合同分析变得直接。

它分几种模式:DetectDocumentText 是纯 OCR;AnalyzeDocument 加上 FORMS(key-value)、TABLES(表格)、SIGNATURES(签名检测)能力;AnalyzeExpense 专门处理发票收据;AnalyzeID 处理身份证、护照、驾照。每个模式都返回 block 树——开发者需要遍历这棵树重组业务结构(如把 table cell 拼成 2D 数组)。

中文等亚洲语言支持有限,主要服务于英文为主的文档处理场景。要处理大量中文文档建议同时评估腾讯云、阿里云的 OCR 服务。

02

你可以做什么

  • 1发票、收据自动入账
  • 2识别 PDF 表格转结构化数据
  • 3简历批量解析
  • 4KYC 证件信息抽取
03

优劣对比

优点

  • 识别表格保留行列关系
  • 识别表单中 key-value 对
  • 专门的 Invoices / Receipts 模板模式

注意事项

  • 手写识别精度低于印刷体
  • 中文等亚洲语言支持有限
  • 价格按页计费,海量文档处理成本可观
04

示例请求

通用模板 — 实际 endpoint 请查阅文档替换 <endpoint>。
curl https://github.com/mermade/aws2openapi/<endpoint> \
  -H "Authorization: Bearer $API_KEY"
# Some providers use X-Api-Key instead — verify in the docs.
05

快速开始

SDK 调 Textract.analyzeDocument(同步,小文档)或 startDocumentAnalysis(异步,大 PDF)。结果以 block 树形式返回,每个 block 是 page / line / word / key / value / cell 等类型。

06

常见问题

价格怎么算?+

按页计费,纯 OCR 约 $1.50/1000 页,FORMS/TABLES 模式约 $15-50/1000 页。复杂模式(如 AnalyzeExpense)更贵。

能识别中文吗?+

支持有限。打印中文部分场景能识别但效果一般,复杂版式表格不如英文。

大 PDF 怎么处理?+

用 startDocumentAnalysis 异步任务,配 SNS 通知。结果分页返回,遍历 NextToken 拉取全部。

07

技术细节

CORS: NoHTTPS: Yes注册: Yes开源: Yes
认证方式
api_key
计费
paid
协议
REST
SDK
python, javascript, java, go, ruby, csharp
响应时间
10 ms
上次巡检
2026/5/12 07:36:34
08

接口端点

从 OpenAPI spec 自动解析。显示 12 / 13 个未弃用端点。

POST
/#X-Amz-Target=Textract.AnalyzeDocument
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.AnalyzeExpense
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.AnalyzeID
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.DetectDocumentText
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.GetDocumentAnalysis
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.GetDocumentTextDetection
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.GetExpenseAnalysis
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.GetLendingAnalysis
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.GetLendingAnalysisSummary
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.StartDocumentAnalysis
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.StartDocumentTextDetection
X-Amz-Target:header*
POST
/#X-Amz-Target=Textract.StartExpenseAnalysis
X-Amz-Target:header*

另有 1 个端点未显示,详见 OpenAPI spec。

09

标签

10

更多来自 Amazon Web Services 的 API