我的数据中有些变量非正态分布,描述时是不是就不能用均数、标准差了?是不是一定要用中位数、四分位间距描述?



我做线形回归分析时是不是要把这些非正态的数据都先转化成正态的才能做呢?我请教了一个同学他说只要原始数据的残差图分布在±2之间就不用做数据转换,是这样的吗?恳请这里的高手指点一二。谢谢!
个人观点:

1、不是不能用Mean、STD等,也能给出,但是不能说明太大问题;最好同时给出中位数、四分位数等Robust统计量,当然还可以给出更多的Robust的统计量;此外,最好把直方图给附上去吧,指不定服从啥已知的分布,给出该分布的参数不就更好。



2、看模型的残差图
关于正态分布的教育真是害人呐,似乎离了正态分布统计就不能活了……均值和标准差是几乎任何分布都有的参数,为什么要专属正态分布呢?
到这儿来真学到不少,非常感谢!!
如果你实在喜欢正态分布,可以考虑Box-Cox transformation。

也就是对变量进行幂变换。
呵呵,为何不考虑mean &std 的概念涵义呢……

hint:一切都是源自density function……
谢谢各位大侠指点。

其实我做回归的时候比较了不做数据转换和转换后的方程,残差图都差不多,只是转换后方程的R2相对高一点,但是感觉对结果不好解释。