- 为什么KL-divergence 可以用来衡量两个概率分布的不相似性?
- K-L散度(相对熵)总结
- 如何理解KL散度的不对称性
- 初学机器学习:直观解读KL散度的数学概念
- 从七桥问题开始:全面介绍图论及其应用
- 从信息论的角度理解与可视化神经网络
- 贝叶斯线性回归方法的解释和优点
- 一起读懂传说中的经典:受限玻尔兹曼机
- 【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
- 正则化与模型选择
- CS231n Convolutional Neural Networks for Visual Recognition
- 专访MIT教授Tomaso Poggio:表达、优化与泛化——数学视角里的深度学习
- DeepMind提出神经元删除法:通过理解每个神经元来理解深度学习
- 可视化LSTM网络:探索「记忆」的形成
- 一文简述ResNet及其多种变体
- 神经语言模型如何利用上下文信息:长距离上下文的词序并不重要
- Attention模型方法综述 | 多篇经典论文解读
- NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立
- 重新发现语义分割,一文简述全卷积网络
- Active Learning: 一个降低深度学习时间,空间,经济成本的解决方案
- 一文概览深度学习中的五大正则化方法和七大优化策略
- 机器学习系统性能不尽人意?吴恩达教你如何选择改进策略
- 十倍模型计算时间仅增20%:OpenAI开源梯度替换插件
- SGD过程中的噪声如何帮助避免局部极小值和鞍点?
- 【梯度下降法】二:冲量(momentum)的原理与Python实现
- 路遥知马力——Momentum
- 比Momentum更快:揭开Nesterov Accelerated Gradient的真面目
- 就喜欢看综述论文:情感分析中的深度学习
- 文本情感分析:让机器读懂人类情感
- How to improve classification of small texts
- How to handle Imbalanced Classification Problems in machine learning?
- 中文文本分类:你需要了解的10项关键内容