简单易懂的统计学入门:自下而上(二)

上次我们简要的介绍了统计学与实验设计当中的一些基本概念,以及频率学派假设检验体系的基本思路。这一篇文章我们将对这一思路进行更加深入的探讨(不过没有深到让你发慌,请淡定 (´・ω・)つ旦)。

让我们先用一点时间回顾一下上一篇文章提到的一些内容。之前我们遇到了这样的一个问题:王二麻和金三胖各找到了 20 名「程序员」,测量了他们的 BMI,得到了 2.91 和 22.03。一个样本比北京市人均 BMI 高,另一个则比平均 BMI 低。那么问题来了,样本均值和总体均值究竟差多少我们才能说这两个样本真的有差异?从样本分布的角度来看,影响我们判断的因素有两个:平均值本身字和样本数据的异质性。

平均值本身很好理解,在我们的研究设计中,样本和总体(20名「程序员」的 BMI 和全北京市居民的 BMI)的差异就通过平均值来体现,因此我们一定期待二者在均值上有所差异。而通过方差来反映的异质性告诉我们在这个测量系统当中的噪音有多大。如果噪音很大的话,说明我们随便进行一次容量为 20 的抽样,得到的样本均值可能具有很大的不确定性,因此你抽到的这个样本究竟能不能说明问题就很值得商榷了。

正态分布很好的描述了这一情况,对于同一个总体(比如全北京的人口),设定一个固定的样本容量(比如 N=20),进行无数次抽样并计算均值之后,会得到的均值的分布情况。总体均值的真值位于分布的中央,而总体的方差究竟有多大反应在分布的胖瘦上。

一种将 Readmoo 电子书导出到其他阅读器的思路

今年年初的时候就开始在各个平台买书回来看,电子书购买平台嘛,估计各位也都知道大概是什么德行。每家都会有自己的 移动癌批批和桌面客户端,每家的癌批批和客户端都难用的要死。

在前文我也提到了,敝人因为注意力低于大众水平故极不擅长阅读,因此买回来的电子书都要借助高亮工具和 TTS 系统辅助 阅读。恰巧主流阅读平台的 TTS 功能都糟糕的不行。因此我智能发扬电子共产主义,通过一些可爱的技术手段处理一下这些 平台的电子书并且导入到通用的阅读器来完成阅读。

目前大多数主流平台都有现成的方案了但是 Readmoo 好像没有,所以花了几天研究了一下。目前已经成功实现了文件格式 转换功能,故写一篇文章介绍一下解决这个问题的具体思路。

注意: 本文是一篇加密文章,仅面向我的朋友们开放,如果你误打误撞点进来的话我只能说抱歉了。 _(:3 」∠ )_

面向成年人的阅读习惯培养指南

上周有人发来信息问我如何培养阅读能力,恰好我从今年开始也在尝试重新把读书的习惯捡起来,所以就做了一期节目,花四十分钟讲了讲和阅读习惯有关的话题。

在这次讨论中,向各位介绍了一种我近半年以来在执行的月底习惯培养计划。这一计划参考了《游戏改变世界》一书当中提到的游戏化方法,希望能够给各位带来一些启发。

此文章是当时节目的文字版,供不喜欢渣音质的朋友阅读,希望你能喜欢。

我是螺莉莉

总有一些现实生活中熟识的同龄人会通过各种方式搜到我的博客,这些人看到博客顶上的标题后(天才少女螺莉莉的数据中心)反应都出奇的一致:仿佛看见万年难得一遇的八卦一样,一脸兴奋的跟其他人谈论此事,这些事情时不时又会传回我的耳朵里。

我非常能理解这些人的兴奋之情,毕竟你看,一个自称螺莉莉(或者螺丝糖)、留着长发、身材酷似女性的男性,心里一定住着一个小女孩,恰巧这种人这在现实生活中是很少见的,好不容易遇到了一个稀有种自然要当成谈资。进一步的,很多腐的女脑内就会开始自动展开攻啊受啊之类各种烂桃花剧情,甚至难以安奈心中的兴奋之情与我分享你脑内那些不大符合社会主义核心价值观的画面。虽然一般我都会耐着性子听下去,不过内心当中我是不大喜欢这类话题的,尤其主角是我的情况下。

上周我在直播上聊了这件事情,这周另外写了一份文字版供好奇的人更加深♂入的了解我。

2019 年终总结

哦我亲爱的上帝啊,2019年竟然就这么过去了,仿佛从来没有开始过一样(?)。用一句话来总结这一年的话,可以说这一年是:「另一个和稀烂的数据一起摸爬滚打的一年」。这一年发生的事情还挺多,比如说「放弃读博计划,彻底决定不再做科研了」、「加入了回形针」、「博客大翻修」、「学习了 Rust」、「发现了很多好看的番剧」、「开始追漫画了」、「发现了很喜欢的游戏」之类的。

在 R 中遍历变量生成数据框的最佳实践

在做数据分析的时候循环遍历某一变量,并且生成一个数据框(data.frame)作为报告是一个非常常见的事情,但是究竟怎么写才能让程序跑得比西方记者还快却非常麻烦。众所周知 R 是一个很慢而且语法怪异的语言,用「常规」的思路来写一段 R 脚本,性能可能会非常不理想,而写「性能很好」的脚本,又可能把你的代码变成自带精神污染效果的魔法道具。因此在本文当中我将分享一个用于循环遍历变量生成数据框的编程模板,以期在性能和可读性之间取得平衡。

大方向很简单,把 for loop 禁用掉,尽量使用向量化循环(lapply),同时不使用 sapply;不使用 「Scoping Assignment Operator」(<<-)。

遗体捐献登记指南

2019年7月16日,我在中国人体器官捐献中心等登记了人体器官捐献。实际上想做遗体捐赠登记已经很长时间了。本来以为会非常麻烦。但是那天刷煎蛋无聊图的时候看见有人完成了网上登记,发现还挺简单的,就跟着登了一下。

你需要做的事情很少,进入这个网站,输入你的姓名、联系电话、身份证号、邮箱、登记地点、以及捐赠意愿(器官、眼角膜、组织、遗体)就可以了,如果你想要让地球污染变得更严重一些还可以索要一张塑料卡片。当然,为了当作纪念我还是臭不要脸的要了一张卡,7月27日送到学校,当天下午才拿到(发现卡片的一个角被折坏了,不开心——)。

具体捐哪些部分可以看你自己的接受程度,我看的比较开,四项全都点了。

中文 Git Commit Message 风格指导

在团队合作项目中,不好好写 Git Commit Message 是会被工友竖中指的 (┛`д´)!每个人写代码的习惯多多少少都有一些差别,对于一个人来讲非常合理的操作,在另外一个人看来或许就会很魔幻。这个时候如果有一份清晰完整的提交记录,那么后续的代码维护着就可以更加清楚的知道前任代码编写者的意图。因此撰写清晰明确的 Commit Message 是一件能够防止工友心跳加速和办公室暴力的事情。

考虑到很多工作团队使用的是全中文的工作环境,目前也很少看到中文的 Commit Message 书写指南,所以姑且参考各种英文版本的指南,扒一份中文版的给自己用。如果你觉得这份文档写的不错,也欢迎在团队中推广这份指南。

简单易懂的统计学入门:自下而上(一)

你要分析数据,你是别的专业跨过来到心理学方向的;你是本科生,你上课的时候听不懂老师在台上讲些什么鬼;你是个蛇精病,放着周末不在床上多睡几个小时,没事就爱在网上看论文但是又看不懂这些论文里面的统计方法。于是乎你开始在网上搜各式各样的统计科普,恰巧人希咕狗把我的文章权重提上的挺高(或许不会发生),于是乎你就点进来了。

如果这就是发生在你身上的故事的话,那么我们很有缘分,希望这篇文章不会让你感到失望。

PS:因为接了周末远程实习,所以没能达成一周双更……今天写文章的时间也是昨天爆肝写了一天小程序一整天,把今天的工作量一口气做完了才挤出来的时间 QwQ~

博客模板更新史 · 蛤克西欧卷 · 第一章

开篇减一秒,呱。

也不知这两年怎么了,开始越来越看重自己的博客。前端魔法群有一个人(是谁忘了非常抱歉! _(┐「﹃゚。)_)讲了一句话,我非常喜欢,大意是「有一个博客,就像在互联网上有了一块属于自己的领土」。而我渐渐的开始把这个博客当成自己的家,经常写点东西,邀请朋友过来玩,四处跟人交换链接。我是那种把在网上的生活看的比线下生活重的人,有可能是因为自己准 Digital Native 的身份,也有可能是这两年过的真的不顺,也没什么归属感。总之我开始更加频繁的打扮这个小站,水更多的文章、花时间调模板的很多小细节、也花很大的价钱换掉了用了十多年的域名。在做这些事情的时候让我觉得很满足,不知道这种满足的感觉能持续到什么时候。

这次模板大修折腾了好几个休息日,虽然整体的视觉效果没有发生很大的变化,但是难以察觉的地方做了很多微调。于是决定写一个日志记录一下这段时间更新的内容,当作一个里程碑,顺便炫耀一下自己残次的设计功力 。:.゚ヽ(*´∀`)ノ゚.:。

警告:口水文,流水账,给自己看的。