我正在运行一个需要大约 11 个小时来训练的梯度提升模型。我在 Google Cloud 上使用抢占式实例来执行此操作(因为它更便宜)。问题是,我一直在丢失进度,因为实例在模型能够完成训练之前就终止了。
有没有办法检查点或将部分训练模型的进度保存到磁盘?这样当我重新运行代码时,训练应该从中断的地方恢复。
我知道 pickle 模块允许我将对象转储到磁盘上。但我不希望保存经过全面训练的模型,而是经过部分训练的模型。
最佳答案
检查 here有类似的问题。
对于 sklearn 的 Gradient Boosting,您可以使用 warm_start 进行设置。
https://stackoverflow.com/questions/58187971/
相关文章:
node.js - nodemailer 不发送邮件,给出 250 ok
python - 如何在 keras 中训练顺序模型,给出一个列表作为输出和输入?
angular - 重新加载页面后保持元素位置 - 拖放 cdk Angular 7
selenium - 登录网站时如何使用 puppeteer/selenium 重用保存的凭据/密码
javascript - 使用 React Hook 应用多个 Context 的好方法
android-studio - Android studio 在执行 lint 时找不到 kotl
selenium - Appium/WinAppDriver 无法找到上下文菜单 - 但仅在某些机器