python - 如何在 pyspark 上创建分层拆分训练、验证和测试集?

我有一个小数据集 (140K),我想将其拆分为验证集、使用目标变量的验证集测试集和另一个字段来对这些拆分进行分层。

最佳答案

在 Pyspark 中,您可以使用 randomSplit() 函数将数据集划分为训练数据集和测试数据集。它最多可以接受两个参数,即权重和种子。我们使用种子是因为我们想要相同的输出。在权重中,您可以指定 float 。如果总和不为 1,它将对权重进行归一化。它用于指定百分比数据将进入训练、验证和测试部分。

示例代码

data.randomSplit([0.8,0.1,0.1],785)

https://stackoverflow.com/questions/58014693/

相关文章:

android-management-api - Google Pixel 设备在发出重启命令后重启

node.js - 将参数/通配符定义为 npm 脚本键/名称的一部分

database - 使用扇出写入方法根据隐私设置(PostgreSQL、Redis)更新 Feed

python - TensorFlow 无法将字符串类型的 Tensor 复制到设备

spring - 如何在没有 Spring Security 或 Spring Boot 的情况下禁

c# - 如何在 ConfigureServices 方法中使用 ASP.NET Core 2.1

postgresql - 如何为 linux、Fedora 安装 psycopg2

reactjs - React - 组件在重新渲染后不更新

c# - OmniSharp MSBuild ProjectManager 无法更新我的 .cspr

firebase - 是否可以为不活动实现自动注销功能?