我正在从事一个关于客户流失分析(客户是否离开)的数据科学项目。我正在尝试处理离群值,但我有一个问题,即当我的数据有很多零值时我需要如何思考。我知道它可能包含一个意思,但请看下面的结果。 Results , Value Counts , z score-hard edges and outliers
我想问一下我应该怎么做才能获得更好的结果,我应该保留所有零值吗?有什么建议吗? 异常值处理部分零值过多怎么办?
最佳答案
这个问题太宽泛了,不能在这里问。 Stackoverflow主要是针对编程问题,我建议你在stats上发布你的问题。或 data-science因为您的问题更有可能以更广泛的方式得到回答。
我猜 0 值并没有像@yatu 怀疑的那样丢失,从 colname 推断,这意味着收入没有变化。此外,0 不是离群值。
引用this类似的讨论。
我可以建议再读一读,但这篇论文在没有明确讨论您的问题的地方会传达直觉。然而,您可能会发现它很有用。当然,不要忘记搜索引用资料。
进一步阅读:A Statistical Model for Big Data with Excessive Zero-Inflated Problem
https://stackoverflow.com/questions/64499646/
相关文章:
ios - Fabric Crashlytics 不工作。 iOS 14 应用/XCode 12
django - 如何使用 Django Rest Framework 将上传进度条与 s3 存储桶
angular - 如何限制angular app在iframe中加载
google-sheets - 如何让条形图数据标签在谷歌表格中显示值和百分比(总数)?
spring-boot - 线程 "main"java.lang.NoSuchMethodError
f# - 如何使用 FSharp.Compiler.Service 从 F# 字符串中获取 F# A
c# - 如何在不同的范围内获取同一服务接口(interface)的多个实现