statistical_learning_methods_code's Introduction

笔记

先从L2范数说起，不知道怎么说为什么是用L2范数，但是能解释是用了L2范数能做到什么
第一章中有提到一条公式，这条公式用来表示模型的loss和复杂度。
回顾一下第一章的内容

经验风险最小化: 用来计算模型的损失，一般就是各种loss function了
结构风险最小化: 用到计算模型的复杂度，我就知道有个L2范数。其他希望有大佬可以补充下
然后 2个最小化组合在一起就是那条公式:

左侧经验风险，右侧结构风险。

接下来说说右侧结构风险常用的 L2范数是怎么做结构风险最小的function。
L2范数: 是这样子的

接着使用这条公式，而衡量模型复杂度的时候一般是用模型的参数的大小来衡量(参数逼近0，也就相当于减少参数了) 故范数公式中的X我们就用模型的参数来作为输入
故L2也就做到了减少模型复杂度的作用
以上观点是我个人看法而已不一定正确，有大佬明白的话也可以和我说一说。

我还想知道模型复杂度这样一直在不断减少，就不能增加吗?

接着书中感知器L2范数的作用。
用来计算输入空间到超平面的距离
点到线的公式
分母这个也就是L2范数。故书中公式
接着乘y来保证距离>0。得到损失函数

然后L2范数那块可以被省略？why?明明不是常数呀，梯度下降过程会被影响到啊

接着算法收敛性。

Recommend Projects

bringtree / statistical_learning_methods_code Goto Github PK

statistical_learning_methods_code's Introduction

笔记

我还想知道模型复杂度这样一直在不断减少，就不能增加吗?

然后L2范数那块可以被省略？why?明明不是常数呀，梯度下降过程会被影响到啊

statistical_learning_methods_code's People

Contributors

Stargazers

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent