我有一个小数据集 (140K),我想将其拆分为验证集、使用目标变量的验证集测试集和另一个字段来对这些拆分进行分层。
最佳答案
在 Pyspark 中,您可以使用 randomSplit() 函数将数据集划分为训练数据集和测试数据集。它最多可以接受两个参数,即权重和种子。我们使用种子是因为我们想要相同的输出。在权重中,您可以指定 float 。如果总和不为 1,它将对权重进行归一化。它用于指定百分比数据将进入训练、验证和测试部分。
示例代码
data.randomSplit([0.8,0.1,0.1],785)
https://stackoverflow.com/questions/58014693/
相关文章:
android-management-api - Google Pixel 设备在发出重启命令后重启
node.js - 将参数/通配符定义为 npm 脚本键/名称的一部分
database - 使用扇出写入方法根据隐私设置(PostgreSQL、Redis)更新 Feed
python - TensorFlow 无法将字符串类型的 Tensor 复制到设备
spring - 如何在没有 Spring Security 或 Spring Boot 的情况下禁
c# - 如何在 ConfigureServices 方法中使用 ASP.NET Core 2.1
postgresql - 如何为 linux、Fedora 安装 psycopg2