因此,消息大小限制为 10Mb。
我一直在使用 Pub/Sub 作为数据管道的输入和输出,因为它的延迟很低。这里的假设是,Pub/Sub 是 Google Cloud 上最快的机制,可以将数据拉入 Compute Engine 实例,然后一次将一个(或几个)数据点从该实例中推出(不是以批处理方式)。然后,带有发布/订阅推送订阅的 Cloud Functions 将输出写入 BigQuery。
我处理的数据中 99% 不超过 1MB。但也有一些异常值超过 10MB。
我该怎么办?利用某种压缩?将输出写入 Cloud Storage 而不是 Pub/Sub?也许是持久性 SSD?我想确保我的计算实例正在完成它们的工作,一次消化一个数据点,并在拉取和推送数据上花费最少的时间并在转换数据上花费最多的时间输出输出。
最佳答案
最安全和最具可扩展性的方法是将数据保存到 Cloud Storage 并仅在 PubSub 中发布文件引用,而不是内容。这也是最具成本效益的方式。
如果数据是可压缩的,您还可以想象压缩数据。它可能比使用 Cloud Storage 最快,但可扩展性差。
关于google-cloud-platform - 关于 Google Cloud Pub/Sub 消息大小限制,我该怎么办?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70445376/
相关文章:
typescript - TypeScript 中的泛型类型参数 T 是什么?
reactjs - 为什么 npm uninstall -g create-react-app 失败
javascript - 如何在项目的特定子目录上运行 prettier?
vue.js - 有没有办法在 Vue 3 Composition API 中的随机组件之间共享 r
nuget - nuget 的 GitHub Packages 服务身份验证问题
python - 压缩文件 : Check for correct Password