cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

热点趋势 | DeepSeek-OCR引爆AI圈,你需要更全面、更大量的OCR数据集!

作者:数据堂 发布时间:2025-10-29

2025年10月,DeepSeek团队开源的DeepSeek-OCR模型在AI圈引起广泛关注。这一模型以创新的图像式文本输入方案实现了惊人的十倍文本压缩效率,并有高达97%的识别精度,突破了长上下文处理的技术瓶颈。这不仅是技术层面的突破,更预示着OCR技术正经历着从单纯的“文字识别”向深度的“文档理解”的根本性转变。




大模型时代OCR数据需求的三重进化


光学字符识别(OCR)技术自问世以来,目标都是将图像中的文字信息精准转换为文本,数据需求聚焦于单一维度的识别准确性。然而,随着大语言模型与视觉语言模型的快速发展,OCR的功能定位正在发生质的飞跃。


1. 从“准确转写”到“转写+理解”的深度升级

传统OCR的核心使命是“准确转写”,然而,在大模型系统中,文字识别只是第一步,更重要的是对转写结果的理解和认知——不仅需要“看到”文字,更需要理解这些文字在特定语境中的含义、推断文字背后的意图、把握文字之间的逻辑关系。


2. 从“独立模块”到“融合感知”的维度拓展

大模型时代的OCR正在与视觉理解能力深度融合。系统不仅要识别文字,还要结合图像中的其他视觉元素来理解文本的完整含义,实现对文档的“全景式理解”。这种多模态的融合感知能力,让机器对文档的理解更加接近人类的认知方式。


3. 从“单向转换”到“多轮交互”的场景延伸

传统OCR本质是单向转换工具,数据需求局限于“输入图像-输出文本”的模式。而大模型赋予OCR系统支持更加自然的多轮对话交互方式,用户可以对识别后的文档进行深入的、多轮次的提问和探索。这种交互模式将OCR从单纯的转换工具提升为智能的分析伙伴。



大模型背景下OCR数据需求体系


✦ 文字识别数据


  • 200万张自然场景OCR数据


包括全球几十余种语言,覆盖多种自然场景(街景、广告牌、海报、说明书、菜单等)、异形文字(波浪、环形等多种排列方式及字体)、GUI界面(多种设备和应用类型)。多种自然场景通过手机、相机、扫描仪设备采集,采用仰视、俯视、平视多角度拍摄,采集、标注及文本转写精度均达98%以上,可用于多国语言自然场景、异形文本OCR任务。GUI界面涵盖11类UI元素标注,适用于界面理解、元素识别与交互研究。


  • 百万级手写体OCR数据


涵盖中文繁体、英语、日语、韩语、德语、意大利语、西班牙语、葡萄牙语、法语等多种语言,包括数学公式、板报等多种书写内容,黑板、白板、绿板、A4纸、横线纸等多种文字载体,工整手写、潦草书写等不同笔记不同颜色的书写方式,拍摄角度为平视、俯视、仰视。采集、标注及文本转写精度均达98%以上,可用于手写体OCR任务。


  • 千万级文档OCR+结构化解析数据


包含票据(多国发票、支票、报关单等)、试题(小初高及大学、职业教育等学科)、公文(说明书、办公文档、表格等)等高频场景,语种分布阿拉伯语、葡萄牙语、西班牙语、印地语等。文档格式包括PDF文档及图片文档,覆盖复杂版面OCR的需求,并严格对照文本位置进行文本转写,个人信息进行脱敏处理,其检测框标注、文本转写精度达97%以上



✦ 图文理解数据


  • 20万张OCR描述数据


包含亚洲语系与欧洲语系共20余种语言,如韩语、印尼语、马来语、越南语、泰语、日语、德语、法语、西班牙语、意大利语、俄语等。采集环境涵盖商店牌匾、站牌、海报、路标等多种场景,并采用多种拍摄角度。文本描述语言为英文及中文,描述内容客观准确,无敏感内容,正确标注图像占比达98%以上


  • 数亿页长文本OCR数据


该数据选取复杂说明书、用户手册、项目文档等典型长文档类型,涵盖亚洲语系、欧洲语系、东南亚语系,文档格式包括PDF文档及图片文档。每个文档长度需达到数百页,并配有原始文档图像及OCR结果(Json),其检测框标注、文本转写精度达97%以上。旨在解决长上下文处理难题,让模型理解长文档的逻辑结构与上下文关联。


✦ 图文交互数据


  • 20万组OCR问答数据


包括广告牌、海报、手抄报、街景等多种场景,文字排布形状为异形如波浪、环形、弧形、倾斜排列、镜面文字。每张图像对应一个问答文档及一个标注文档,并对所回答的文字进行多边形框、四边形框标注,其标注精度、文本转写精度和回答准确率均达98%以上。此数据可为多模态大模型提供丰富的资源,经过多家AI公司的验证,有助于模型在真实世界的应用中表现出色。


随着大模型技术的快速迭代,未来的OCR系统将具备更强的泛化能力,这就要求在保证训练数据规模的同时,更加注重数据的质量、多样性和标注深度。只有在坚实的数据基础之上,才能充分发挥大模型的潜力,推动OCR技术从“识别”走向“理解”走向“交互”,从“工具”走向“伙伴”。


联系小堂获取数据集详情
电话咨询:13051623904