统计学习方法书籍推荐
统计学习方法书籍推荐
统计学习方法是什么?想了解更多的信息吗,以下是学习啦小编分享给大家的统计学习方法的资料,希望可以帮到你!
统计学习方法书籍有哪些
《女士品茶》
内容简介:
《20世纪统计怎样变革了科学:女士品茶》以某位喝茶的英国女士的假设学说为起点,引出了近代数理统计的开创者——费歇尔,以及费歇尔为解决类似问题而发明的实验设计法。书中细数了二十世纪参与这场科学变革的代表性人物与事迹。
豆瓣短评:
世界上没有任何一个实验设计是完美的,但我们仍可以借此无限接近真相。这本书算是补充批判性思维的知识面。其中提到的哲学层面非常深奥,如何在理论上立足,如何统一内部,如何与现实世界关联,等等。很有趣。
By xigesade
《统计陷阱》
内容简介:
《统计陷阱》是美国统计学家达莱尔·哈夫的名著,自1954年出版至今,多次重印,被译为多种文字,影响深远。
在日常的经济生活中,我们将接触到越来越多的统计数据和资料,例如各种证券信息、投资可行性研究报告、公司财务报告等,这些资料、数据如何去伪存真,如何进行鉴别?这本《统计陷阱》回答了这些问题。
豆瓣短评:
达莱尔.哈夫的统计陷阱,原名如何利用统计说谎,虽然是60年前的书,但今天来看依旧很有价值。面对这个信息量巨大的世界,我们每天会碰到大量真假难辨的信息,这就要求我们提高处理信息的能力。很可惜的是,很多人对于网络上的大量数据不问出处不问真假的选择相信。也许看完这本书之后你会有不同的思考。
By Ahem
《赤裸裸的统计学》
内容简介:
《赤裸裸的统计学》一书的作者查尔斯•惠伦“扒光”了统计学“沉闷的外衣”,用生活中有趣的案例、直观的图表、生动诙谐的语言风格,彻底揭开了统计学、大数据和数字的“神秘面纱”,让我们知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。同时,作者还将统计学的工具带入日常生活中,告诉我们为什么不要买彩票,为什么你家附近的商场会知道你怀孕的消息并给你寄来纸尿裤的优惠券,等等。
大数据时代你必须掌握的统计学知识,全部都在这本书中。从今天开始,好好使用统计学和数据吧!
豆瓣短评:
大学时灌输式的教学并没有让我对统计学这门课产生太多的兴趣,本着只要通过的念头对很多统计学的知识了解不够透彻,翻阅这本书似乎就有了另一番感觉,生动的例子中那些概念类的知识能够更好的被理解,对于所处的信息爆炸的时代,对各类统计数据本身做出的判断一定是正确的么?当然不,它们也会撒谎。这方面的意识说来也是一个很棒的提高点。
By 微升骤落
《醉汉的脚步》
内容简介:
《醉汉的脚步:随机性如何主宰我们的生活》内容简介:你知道吗。在去买彩票的路上因车祸身亡的可能性。是彩票中奖的可能性的两倍!打破了贝比·鲁斯本垒打纪录的奇人罗杰·马立斯,也非常可能仅仅是幸运而非伟大!一种葡萄酒被某本刊物给予了五颗星的最高评分,却被另一本刊物评为一个年代中最差的葡萄酒,这是怎么回事?
在这本颠覆常识又具有启蒙性的书中,列纳德·蒙洛迪诺通过解开偶然性的真实本性。以及导致我们误判周遭世界的那些心理错觉。生动地展示了什么是真正有意义的东西。而我们又如何才能在一个更深层次真理的基础上。来进行我们的决策。
《醉汉的脚步:随机性如何主宰我们的生活》带给你的。不仅是在随机性、偶然性和概率中的一次漫游,还是一个看待世界的全新视角。它同时提醒着我们,生活中的许多事情。大致就如同刚在酒吧待了一夜的家伙那蹒跚的步履一般难以预测。
豆瓣短评:
买了英文版,一直没看。先看了中文版。由浅入深,由古到今,丰富的实例,不用一个公式,将概率论和数理统计的基本知识娓娓道来。当年学随机数学的时候能碰到这本书就好了。这本书应该再版。
By 甲醇教授
《爱上统计学》
内容简介:
在经过不断地摸索以及少量成功大量失败的尝试之后,我已经学会了以某种方式教授统计学,我和我的许多学生认为这种方式不会让人感到害怕,同时能够传递大量的信息。
通过这本书可以了解基础统计学的范围并学习所有应该掌握的信息,也可以了解整理和分析数据的基本思路和最常用的技术。本书理论部分有一些,但是很少,数学证明或特定数学程式的合理性讨论也很少。
为什么《爱上统计学》这本书不增加更多理论内容?很简单,初学者不需要。这并不是我认为理论不重要,而是在学习的这个阶段,我想提供的是我认为通过一定程度的努力可以理解和掌握的资料,同时又不会让你感到害怕而放弃将来选修更多的课程。我和其他老师都希望你能成功。
因此,如果你想详细了解方差分析中F值的含义,可以从Sage出版社查找其他的好书(我愿意向你推荐书目)。但是如果你想了解统计学为什么以及如何为你所用,这本书很合适。这本书能帮助你理解在专业文章中看到的资料,解释许多统计分析结果的意义,并且能教你运用基本的统计过程。
豆瓣短评:
很不错的统计学的入门书,简单入上手,尤其是课后习题,必须要一做,读书不做题,纯粹打酱油。 当然,这本书也只是入门,里面的各种检验的原理都没有讲。
By 平凡的老鱼
《统计数据的真相》
内容简介:
《统计数据的真相》让读者从另一个角度看待统计数据。自从本杰明·迪斯累里(Benjamin Disraelis)谈及“世界上有三种谎言:谎言、该死的谎言,还有统计数据”之后,相关的俏皮话、讽刺语就不断地落到可怜的统计学家头上。这种批评、讽刺虽然“微不足道”,但在某种意义上却是真实的。之所以说“微不足道”,是因为人们不仅可以使用,而且能够滥用每一种统计工具,统计数据在这里肯定不是孤立无援的,而是具有许多相互关联的因素。之所以说“真实”,是因为所有人眼中的世界都是以我们喜欢的方式看到的,而不是世界的客观本来面目。
豆瓣短评:
没有看到长篇大论的空谈理论,全篇都以短小精炼的事例来展示统计学诸多的不合理应用,阅读起来一点不觉得枯燥。个人觉得,本书就是教人怎么把糟糕的统计数据做的好看,能把一个快倒闭的公司的销售业绩做成像一个成长中的公司业绩,某种程度上还满艺术的。
By 苍紫色月光
《驯服偶然》
内容简介:
20世纪的哲学家和科学家认为宇宙是概率性的,因而偶然便是实在的。统计定律反映出宇宙的本质,虽然有的事物有其固有的不可预测的一面,但是统计规律的实在性最终被认为是理性的。本书则通过曲折复杂的历史佚事反映出统计规律是何以登堂入室的。内容的丰富使作者的哲学思想难于把握,但正是奋争在这扑朔迷离之中才是值得一试的。 本书从大尺度上描绘了观念转变的过程,弥补了科学社会学中案例研究和标准形式的识知研究的不足。有些论证值得商榷,尤其是哈金描述的“革命”,在我看来,就从未在他所认为的意义下发生过。但是哈金的思想过于复杂,很难被这些反驳意见所驳倒。关于涂尔干和高尔顿的写作上,对很难说清的方面把握恰到好处,论证雄辩,这正是本书闪光之处。
豆瓣短评:
一口气看完。这本书是我偏爱的那种洋洋洒洒,内容繁多的科普著作,从国家实力的判断到自杀率统计,非常有趣。不过这也是缺点之一,就是不大深入细致。翻译工作非常贴心,和原著不同的是注解跟在每一章之后,比较方便随时查阅。
统计学习方法一
抛出问题
我们使用感知机来模拟类似这样的一个问题:
在一个围棋棋盘上有许多散乱的棋子,其中有黑子也有白子。已知它们可以被很干净利落的被分为两部分,每部分都没有别的颜色的棋子,这样作为下棋者我们就可以很愉快的不用再挑棋子放进盒子里了!作为一个强迫症患者,你希望能直接用手一揽就把其中一部分棋子放入盒中,那么问题就是:手该如何放置才能使得这些棋子立马被干净利落的分为两部分呢?
(这么2的问题可能只有我才想得出了…)
统计学习方法二
问题思考
那么我们就来思考这个问题。首先我们明确情况,在已有条件中,有一个苛刻以及理想化的条件需要注意:散落的棋子可以被很干净利落的被分为两份。这里的干净利落是个不明确的表述,但是基本可以理解为我们可以用“一刀切”的方式把棋子分为两部分。在数据科学里,我们把这个条件称为数据 线性可分 。这是一个非常重要的前提条件。
其次,我们的问题是,我们需要把散落的棋子分为两部分,那么我们可以认为,这是一个典型的 二分类 问题。
用抽象一些的语言来描述就是,我们需要对整个问题建模,将棋子的散落情况整理成数据集D,我们的模型需要学习一个这样的映射:
y^:R2→C
其中C={−1,+1},R2为数据集D的空间。
我们用+1和-1分别表示来过那种棋子的颜色。那么数据是什么呢?由于我们是对棋盘上的棋子根据他们现在的位置来分类,因此我们大可以将每颗棋子在棋盘上的坐标作为采样数据。对于每一个样本,我们可以得到这样的一个向量:
x=[x1,x2]
那么我们到底采用什么样的模型呢?别急,我们再来看问题。
注意我们的关键词——“一刀切”。一刀切我们可以理解为用一条直线把所有棋子构成的整体分为两个部分。那么,我们的模型只需要描述成一条直线即可。于是有这样的模型:
y=w⋅x+b
那么直线的参数又该如何得到呢?我们再来看问题。
由于棋子有两类,我们要做的是把棋盘上的棋子根据它们自身现在在棋盘上的位置把它们分为两类。而我们的目标是 保证每一类的棋子都为相同颜色 ,换句话说,我们希望被直线分割开的两边都没有分错类的棋子。那么我们就可以得到我们的策略——模型采用的期望风险函数:
Loss(y,y^)=1n∑in=1I(y,y^)
这里n为样本总量,y^为预测类别,y为实际类别,I为指示函数,若括号内参数相等则值为0,反之为1。
这是0-1损失函数的经验期望风险。
根据统计学习三要素,我们来看看我们现在问题的梳理情况:
我们有了模型,策略,我们还需要一个算法。
提前剧透一下,我们使用传统的梯度下降来求解这个问题。至于具体的内容还是先不详细解释。写到这娱乐的部分也该结束了。让我们回归理论严肃的统计学习。
统计学习方法三
模型
我们用更正式的语言来表达这个问题。
不知读者看到这里是否想到一个问题。模型使用上述写的形式是否存在问题?
答案是,确实存在。我只是为了方便初学者从最简单的数学知识理解才写成那样的形式。那么我们来修正我们的模型:
先来看看问题出在哪儿。从指示函数考虑,我们在每次求损失的时候,需要判断当前的实例被分为哪一类,然后再计算损失。
那么该如何判断被分为了哪一类呢?我们都知道可以根据是在直线上方还是下方来划分分类。假如我们指定将直线上方的实例分为+1,反之为-1。但是当数据集中,恰好上方的实例都为-1,下方为+1时,我们的数据将永远是误分类。无论如何调整k都无法完美分类。因为k只控制斜率,b控制截距。但是在考虑分类的时候,我们还有一个地方需要去确定,那就是分类的类标签。使用上述的直线方程无法表示类标签。
于是,我们的感知机实际上是这样来考虑的(真正理论诞生的时候应该是没有这种问题的吧,应该是直接提出了下面这个模型的):
我们使用一个 超平面 来划分数据空间。超平面是n维欧氏空间中余维度等于一的线性子空间。这是平面中的直线、空间中的平面之推广。简单来说指的就是在数据空间中一个用w⋅x+b=0来表示的一个平面,其中w与x都是向量,且维数与数据空间相同。
学过立体集合的多知道,w其实就是超平面的法向量,由于是向量,它具有方向,它就可以解决二分类问题中的类标签的归属问题,并且可以很好的将问题推广至N维情况。
当然,在历史上应该并不是为了解决类标签问题才使用超平面的。其实对于一个N维的输入空间使用一个超平面分割来考虑是一件非常自然的事。
统计学习方法四
策略
解决上面那个很不成样子的问题时,我们采用的损失函数为0-1损失函数。为什么使用0-1损失函数呢?因为一个很简单也很符合题意的思路就是:既然要完美把两部分棋子分开,那我们只要选取使得两部分棋子中被误分类的棋子个数为0不就好了吗?
顺理成章的想法,但是正因为简单,而产生了一个问题:我们怎么把策略和模型参数联系起来呢?
如果使用0-1损失函数,那么从公事上看我们很难对它做出优化。可能只能用一个很暴力的办法,就是设定一个初始的超平面位置,然后选定一个很小的角度变化量,按照变化量对超平面进行旋转,每次都计算一次误分类,直到找到使损失函数为0的位置为止。有时候甚至肯可能因为变化量不够小,而导致没法得到这个角度。可想而知这个计算量非常大,而且整个计算过程也不易于优化,但同时又有相当多的冗余计算。
那么这时,我们就需要换个思路——改变我们的损失函数。
由于我们定义用一个超平面来分割我们的数据,那么我们就该利用好这些相关的性质。很容易想到我们可以用误分类的点的距离总和来作为损失函数。
空间中点到平面的距离:
d=1||w|||w⋅x+b|
其中||w||是L~2~范数(范数定义的是向量长度的一种计算方式)。
考虑误分类样本(x,y),有下式:
−y(w⋅x+b)>0
因此得到距离:
d=1||w||y(w⋅x+b)
因此,得到损失函数:
Loss(w,b)=−∑xi∈Myi(w⋅xi+b)
这里省略L~2~范数,因为对于同一模型它可以看做常数。这里的M为每次迭代被感知机误分类的点的集合。
观察损失函数,我们可以看到损失函数是一个非负数。当完美分类时,损失函数值为0。且该函数可导,因此我们就可以定一个优化目标,用算法对它进行优化。
统计学习方法五
算法
这是一个很典型的优化问题。通常我们采用梯度下降的办法来解决这个问题。
所谓梯度下降,就是每次迭代模型参数,我们都向着下降最快的方向进行更新,以此来求解极小值。这样我们可以快速进行迭代、更新。貌似有个证明,证明梯度下降是一定能够收敛的。
梯度下降有两种,一种是批量梯度下降(batch gradient descent),另一种是随机梯度下降(stochastic gradient decent)。这两者在我之前发的关于FTRL的文章里有所介绍,也可以参照网上的资料自行查阅。
简单来说这两者算法的区别就在于批量算法是每次迭代过程扫描所有样本,在总体损失上进行迭代。随机梯度下降是每次只根据单个样本的损失进行更新。很明显前者能在理论上收敛到全局最优,而后者虽然速度快,但是可能收敛于局部最优。特别的,当损失函数的极值分布比较变态的情况下,随机梯度下降和批量梯度下降可能都不会有很好的结果。但是通常情况下,我个人更倾向于采用随机梯度下降,因为它比较快,且效果一般也并不比批量的差,而且对于收敛于局部极值的问题可以考虑通过增加一个逐渐衰减的冲量项使其越过局部极值。当然具体使用哪种可以根据实际情况而定。
回到感知机,我们确定采用随机梯度下降来解这个问题。在这个过程中,我们计算整体损失函数的导数,再 随机选取一个样本进行参数更新。那么首先,我们需要计算出损失函数对参数的梯度,从而确定参数更新公式。对于一个随机的样本(x,y):
▽wLoss(w,b)=−∑x∈Myx
▽bLoss(w,b)=−∑x∈My
w=w+ηyx
b=b+ηy
这里η是学习步长的参数,又称为学习率。在FTRL中我们对这个参数探讨过它的取值问题,在这里无需关注。通常需要频繁调试它来得到一个较好的学习结果。至于w,我们对它每一维的初值往往会设置随机的较小值,这样可以做到“破对称”,防止每一维因为相同的起始值而导致最后训练出相同的权值。