【数据分析】数据分析思维 |你的数据是对的吗?

发布时间:2024年01月20日

【数据分析】数据分析思维 |你的数据是对的吗?

以数据为导向的优化在进行迭代式的产品改进方面没什么问题,问题在于数据本身不会告诉你它自身的问题。如果数据本身有问题,那么你的分析从一开始就进入了死胡同。
在《伊甸园之河》(BasicBooks)一书中,理查德·道金斯用一条流淌的河作为比喻来介绍进化。
他在书中解释道,生物的进化创造出了眼这一器官。事实上,进化创造出了数十种不同的眼:黄
蜂的、八足类动物的、人类的、鹰的、鲸鱼的,等等。进化是没法倒退的,而且只要进化到够
用的程度,大的进化就不再发生。人类之所以进化不出鹰那样的双眼,是因为人类视觉系统在向鹰的视觉系统衍化时会导致视力的下降,进而不会被进化所选择
这就像一个正常的业务迭代过程,当业务稳定运行的时候,必然会产大量的业务数据。业务数据会反馈业务运行情况,从而促使你解决问题。当业务本身优化的程度已经非常高的时候,对数据进行合理的处理,可能会使业务再度进化。



1 数据为导向的利弊

优点:以数据为导向进行迭代式的产品可以让你快速的改进产品、优化业务,而且知识链完备,有数不清的分析方法和工具供你使用。
缺点:可能让你走火入魔,陷入过度分析的渊薮,甚至用质量较差的数据进行分析,这么做可能会让你误入歧途。

所以,当数据给出一个很奇葩的结论时,有两种方法助你迅速摆脱桎梏。一是基于早先的经验和实践进行判断,靠本能规避一些可能出现的失误,从而做出正确的决策;二是提前对数据进行必要的处理(数据预处理),然后再加以分析。对于经验还不是那么丰富的数据er来说,能用数据预处理那是最好的。


2 数据预处理方法

2.1 去噪

噪声毫无疑问会干扰分析结果,简单的一步去燥可能带来意想不到的效果。常用的去噪方法有均值滤波小波变换奇异值分解等。【在此不再赘述各种繁杂的公式,感兴趣的小伙伴可以自己搜搜】。

2.2 归一化

归一化的目是为了取消各维数据之间的数量级差别统一评价标准、避免较小的数值被吞没。常用的归一化方法有离散标准化、标准差标准化、小数定标规范化、对数归一化等。很多高级的数据分析方法中都会将这一步当成必要的步骤,在机器学习、深度学习建模时也会使用该方法来加快模型的收敛速度。

2.3 异常点处理

异常值对数据的影响在于,它往往会扭曲数据的统计特征,如平均值、方差等,从而导致错误的结论或预测结果,如果你将错误的结果应用于业务,可能会出问题。此外,异常值还可能干扰模型的拟合效果,使得模型对数据的解释能力变弱。如果你是数据导向型业务模式,去除异常值就是必须要做的事。
常用的异常值处理方法包括删除异常值替换异常值将异常值视为缺失值等。具体方法需要根据数据类型和任务要求来选择和实施。

2.4 周期性

周期性也就是从时间的维度分析数据,有时不需要考虑时间,有时需要考虑时间,甚至有时候需要将数据当成时间序列进行分析。在寻找规律时未能考虑一天中不同时间、一周中星期几、一年中不同月份对数据的影响,可能会导致糟糕的决定。


3 其他情况

3.1 抛开基数侈谈增长

基数很关键。如果不考虑基数,你的产品刚上线时,你爸爸注册一个账号也可以使你的用户量翻倍。

3.2 数据呕吐

如果你不知道什么数据对你更重要,那么即便你的数据再好、方法再妙也没有用。

3.3 多个数据来源

许多不同来源的数据合在一起能带来很多独到的见解。让你可以对比分析不同来源数据的异同点,这可能也是有效的一种方法。


总结

凡事还是简单点为好,复杂的东西容易失控,一旦失控可能导致你前功尽弃。我试图建立业务也工具间的统一理论,故此未对涉及到的诸多方法、数学公式做过多的说明,感兴趣的小伙伴可以自己找找,有很多优秀的文章可供参考。

文章来源:https://blog.csdn.net/qq_42774234/article/details/135712907
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。