构建良好架构的 IDP 解决方案与自定义

建立即具可持续性的 IDP 解决方案 – 第 6 部分

关键要点

在本篇文章中,我们探讨了如何使用自定义视角增强 IDP(智能文档处理)解决方案的可持续性。通过了解影响、最大化资源利用并采用管理服务等设计原则,可以帮助企业实现业务成果和可持续目标。


智能文档处理(IDP)项目通常结合了光学字符识别(OCR)与自然语言处理(NLP)技术,实现自动化读取和理解文档。各行各业的客户在 AWS 上运行 IDP工作负载,通过自动化 KYC 表格、税务文件、发票、保险索赔、交付报告、库存报告等用例,提升业务价值。AWS 上的 IDP工作流可以帮助您从文档中提取业务洞察,减少人工工作,提高处理速度和准确性。

构建可生产的 IDP 云解决方案需要在成本、可用性、处理速度与可持续性之间进行一系列权衡。本文提供指导和最佳实践,帮助您使用 、 和 提升 IDP 工作流的可持续性。

有助于您理解在 AWS 上构建工作负载时所做决策的利弊与风险。 为不同的行业、领域或工作流提供了更为具体的内容。通过使用 Well-Architected Framework 和 IDPWell-Architected Custom Lens,您将了解在云中设计和操作可靠、安全、有效、具有成本效益和可持续工作负载的最佳实践。

IDP Well-Architected Custom Lens 提供了应对常见挑战的指导,帮助用户解决在实践中遇到的 IDP 工作流问题。通过在

中回答一系列问题,您将能够识别潜在风险,并根据 进行应对。

本文重点讨论 IDP自定义视角的可持续性支柱。其重点在于设计和实现解决方案,以尽量减少工作负载对环境的影响并减少浪费,遵循以下设计原则:了解您的影响、最大化资源利用并使用管理服务、预期变化并为改进做好准备。这些原则将帮助您聚焦于实现可持续性和有效管理数据及其生命周期,并为持续改进做好准备。

设计原则

可持续性支柱着重通过以下设计原则进行解决方案的设计和实施:

  • 了解您的影响 – 衡量 IDP 工作负载的可持续性影响,并预测未来的影响。包括所有影响来源,尤其是客户使用您产品的影响。这也包括 IDP 带来的数字化进步,帮助公司或客户完成无纸化流程。为 IDP 工作负载设定关键绩效指标(KPI),以评估提高生产力和效率的方式,同时减少对环境的影响。
  • 最大化资源利用并使用管理服务 – 最小化闲置资源、处理和存储,以减少运行 IDP 工作负载所需的总能量。AWS 大规模运营,跨广泛客户基础分享服务可以最大化资源利用、提高能效并减少支持 IDP 工作负载所需的基础设施。使用 AWS 管理服务,您可以最小化 IDP 工作负载对计算、网络和存储的影响。
  • 预期变化并准备改进 – 预见变化,支持您的合作伙伴和供应商进行的上游改进,以帮助您减少 IDP 工作负载的影响。持续监测和评估新推出的更高效硬件和软件。设计时要具备灵活性,以降低引入改变的障碍,快速采纳新技术。

关注领域

可持续性支柱的设计原则及最佳实践基于从客户和 IDP 技术专家社区收集的见解。您可以将它们作为指导,支持您的设计决策,使您的 IDP解决方案与业务和可持续性需求保持一致。

以下是在云中实现 IDP 解决方案可持续性的关注领域:以可持续性为重心实现业务成果、有效管理数据及其生命周期,以及为持续改进做好准备并推动变革。

以可持续性为重心实现业务成果

要确定适合您业务需求和可持续发展目标的最佳区域,我们建议采取以下步骤:

  • 评估并缩小潜在区域 – 根据合规性、和延迟等商业需求,缩小潜在区域。新服务和特性会逐步部署到各个区域。请参考 ,检查您需要运行业务 IDP 工作负载的服务和特性可用区域。
  • 选择一个由 100% 可再生能源驱动的区域 – 从您的候选区域中,识别靠近亚马逊的可再生能源项目的区域,以及在 2022 年电力消耗由 100% 可再生能源组成的区域。根据 ,有两种方法可用于跟踪电力生产的排放:基于市场的方法和基于位置的方法。公司可以根据其可持续性政策选择其中一种方法来跟踪和比较年间排放。亚马逊使用 。为了减少碳足迹,请选择在 2022 年电力消耗由 100% 可再生能源提供的区域。

有效管理数据及其生命周期

在 IDP 解决方案中,数据发挥着关键作用。从初始数据摄入开始,数据经历多个处理阶段,最终返回给最终用户。了解数据管理的选择如何影响整体 IDP解决方案及其可持续性至关重要。高效存储和访问数据,并减少闲置存储资源,可以促进更高效和可持续的架构。在考虑不同的存储机制时,请注意您是在进行资源效率、访问延迟和可靠性之间的权衡。因此,您需要相应地选择管理模式。本节将讨论一些数据管理的最佳实践。

仅创建和摄取相关数据

为了优化可持续性的存储空间,请评估满足业务目标所需的数据,仅沿 IDP 工作流创建和摄取相关数据。

仅存储相关数据

在设计 IDP 工作流时,请考虑在工作流的每一步中,哪些中间数据输出需要被存储。在大多数 IDP工作流中,通常不需要存储每一步中使用或创建的数据,因为这些数据可以很容易地被重新生成。为了提高可持续性,仅存储不易重现的数据。如果需要存储中间结果,请考虑它们是否符合生活周期规则,以较快的速度归档和删除,而不是存储具有更严格保留要求的数据。

在开发和预生产等计算环境中持续保存数据。实施机制以强制执行数据生命周期管理过程,包括归档和删除,并持续识别未使用的数据并予以删除。

优化数据摄取和存储时,请考虑满足用例所需的最佳数据分辨率。Amazon Textract 至少需要 150 DPI。如果您的文档不是支持的 AmazonTextract 格式(PDF、TIFF、JPEG 和 PNG),且您需要进行转换,请尝试找到最佳分辨率以获得最佳结果,而不是选择最大分辨率。

使用合适的技术存储数据

对于 IDP 工作流,大部分数据可能是文档。(AmazonS3)是一个构建于从任何地方存储和检索任意数量数据的对象存储,十分适用于 IDP 工作流。利用不同的 Amazon S3 存储层级是 的关键组成部分。

在考虑不同的存储机制时,您要记住在资源效率、访问延迟和可靠性之间进行权衡。这意味着您需要相应选择管理模式。通过使用专为高效长期存储设计的技术存储较少波动的数据,可以优化存储空间。对于归档数据或存储变化缓慢的数据,可以使用 和 Amazon S3 Glacier Deep Archive。根据您的数据分类和工作流,您可以选择 Amazon S3 One Zone- IA,该方法通过将数据存储在单个可用区来减少功率和服务器容量。

根据可持续性目标主动管理数据生命周期

管理数据生命周期意味着优化存储空间。对于 IDP 工作流,首先识别您的数据保留要求。根据您的保留要求,创建 ,根据预定义规则自动将对象转移到不同的存储类别。对于没有保留要求及访问模式未知或变化的数据,使用 监控访问模式并自动在不同层级间移动对象。

使用合适的工具持续优化存储空间

随着时间的推移,您的 IDP 工作流中数据的使用和访问模式可能会发生变化。工具如 提供存储使用情况和活动趋势的可见性,甚至提出改进建议。您可以利用这些信息进一步降低存储数据对环境的影响。

启用数据与计算的接近性

随着您将 IDP 工作流提供给更多客户,网络上传输的数据量将会增加。同样,数据大小越大、数据包需要传输的距离越远,所需资源就越多。

减少网络上传输的数据量并优化数据包传输路径,将会提高数据传输的效率。将数据存储设置在离数据处理较近的位置,可以优化网络层面的可持续性。确保用于存储数据的区域与您已部署 IDP 工作流的区域相同。这种做法有助于最小化将数据传输到计算环境所需的时间和成本。

时刻准备持续改进

提高 IDP工作流的可持续性是一个持续的过程,需要灵活的架构和自动化来支持规模较小的频繁改进。当您的架构是松耦合的、使用无服务器和管理服务时,您可以轻松启用新特性,替换组件以提升可持续性并获得性能效率。本节将分享一些最佳实践。

通过自动化安全、持续改善

通过自动化来部署所有更改,减少人为错误的可能性,并使您在进行生产更改之前进行测试,以确保您的计划是完整的。使用持续集成和持续交付(CI/CD)管道自动化软件交付过程,以测试和部署潜在改进,降低工作负担,并限制由于人工过程导致的错误。使用基础设施即代码(IaC)定义更改:所有配置应以声明性的方式定义并存储在源代码控制系统中,如 ,应用程序代码也是如此。基础设施的配置、编排和部署也应支持 IaC。

采用无服务器服务进行工作流编排

IDP 工作流通常表现为高峰和低峰(例如,非工作时间)并多数由事件驱动(例如,当上传新文档时),使其非常适合无服务器解决方案。AWS的无服务器服务可以帮助您快速且可持续地构建可扩展的 IDP 工作流。像 、 和 这样的服务帮助您编排由事件驱动的工作流,最大限度地减少闲置资源,提高可持续性。

使用事件驱动架构

利用 AWS 无服务器服务实施事件驱动的方法将使您能够构建 ,并最小化闲置资源。

例如,您可以配置 Amazon S3,在上传新文档时启动新的工作流。Amazon S3 可以触发 EventBridge 或调用 Lambda 函数开始 Amazon Textract 检测作业。您可以使用 (AmazonSNS)主题进行事件广播或发送作业完成消息,使用 (AmazonSQS)进行微服务之间的可靠、持久通信,例如触发 Lambda 函数以读取 Amazon Textract 输出,然后调用自定义的 AmazonComprehend 分类器对文档进行分类。

使用 Amazon Textract 和 Amazon Comprehend 等管理服务

您可以使用自托管的自定义模型或像 Amazon Textract 和 Amazon Comprehend 这样的管理服务进行 IDP。通过使用管理服务而不是自定义模型,您可以减少开发、培训和重新训练自定义模型所需的工作量。管理服务使用共享资源,减少构建和维护 IDP解决方案所需的能量,从而提升可持续性。

查看 AWS 博客文章,了解功能更新

可在多个博客文章和资源上帮助您及时获取 AWS 公告的信息,并学习可能改善您 IDP 工作负载的新特性。 是一个由社区驱动的问答服务,旨在帮助 AWS 客户消除技术障碍,加快创新,增强运营。AWSre:Post 有超过 40 个主题,包括一个专门面向 AWS Well-Architected 的社区。AWS 还有服务特定的博客,帮助您了解 和 的最新信息。

结论

在本篇中,我们分享了优化 IDP 工作流可持续性的设计原则、关注领域和最佳实践。要了解更多关于云中可持续性的内容,请参考以下系列文章: 、 和 。

要了解更多关于 IDP Well-Architected Custom Lens 的信息,请探索本系列的以下文章:

  • 基于自定义透镜构建良好架构的 IDP 解决方案 – 第 6 部分:可持续性

AWS 致力于将 IDP Well-Architected Lens 作为一项持续更新的工具。随着 IDP 解决方案和相关的 AWS AI服务发展,以及新的 AWS 服务的推出,我们将相应更新 IDP Well-Architected Lens。

要在 AWS 上入门 IDP,请参阅 ,以设计和构建您的 IDP应用程序。有关涵盖数据摄入、分类、提取、丰富、验证和确认等环节的端到端解决方案的更深入见解,请参考 和 [第 2 部分](https://aws

Leave a Reply

Required fields are marked *