从PDF中得到的文本通常属于**非结构化数据**。 结构化数据是预定义的数据,具有固定的格式和有限的数据值,如数据库中的表。全结构化数据更是具有高度的组织性和规范性。 非结构化数据则是没有固定格式或结构的数据,如文本文件、图像、音频或视频等。从PDF中提取的文本并不遵循固定的格式或结构,而是根据PDF文档中的布局和格式来显示的,因此它被视为非结构化数据。 半结构化数据是介于结构化和非结构化之间的数据,如XML或JSON文档,它们具有一定的结构,但不是严格的表格式。 因此,从PDF中得到的文本属于非结构化数据。

点赞(0)
×
关注公众号,登录后继续创作
或点击进入高级版AI
扫码关注后未收到验证码,回复【登录】二字获取验证码
发表
评论
返回
顶部