全国之冠一线天

正月初三,上堂叔家串门。堂叔家住永安市,想着永安桃源洞便在附近,怎么也得顺道游览,不虚此行。与堂弟的想法一拍即合,在堂叔家茶毕饭后便驱车前往。

永安桃源洞风景区地处永安市区东北角大约10公里处,我们开车差不多一二十分钟便到达售票处。快到景区门口,过道205两侧便已停满了车。当地人穿着交通警示服,佯装工作人员,指挥我们停入她的领地。我们不明就里,以为景区停车场已经停罄,恐到时兜兜转转找不到停车位,便从了这位“工作人员”。下车,这位中年妇女“工作人员”向我们索要10块钱“停车位”。我们虽不计较这10块钱,心里思忖,这借用祖国公共土地,收缴停车费,赚钱如此容易!停车点到景区门口似乎还有几百米,我们相视一笑,车子挺早了,徒增了步行距离。

阅读全文

Read Sapiens, the first book on kindle

This is the first e-book that I read on my kindle which I bought on 10th November 2017. And shameful, I did not buy the book but downloaded it from the internet.

阅读全文

生物识别算法性能评估方法

人脸识别是生物识别的一个特例, 生物识别还可以是指纹识别, 瞳孔识别, 声纹识别等等. 生物识别三个典型的任务是: 验证, 开集测试和闭集测试.

验证通俗来讲是判断两个样本是不是来自同一个个体, 例如两张人脸是不是同一个人; 或者判断一个生物样本和其声称的ID是否一致. 它所要回答的问题为: 这个人是他声称的那个人吗? 闭集测试是指, 判断一个人脸属于数据库中哪个人的, 而且事先确定这个人一定在数据库中(这里的数据库表示系统中已知的人脸集合), 其所要回答的问题是: 这个人脸是谁的? 闭集测试的一般形式是开集测试, 它与闭集测试不同的是, 人脸不一定在数据库中. 它所要回答的问题是: 这个人脸在数据库中吗, 如果在是哪个人的?

阅读全文

深入理解反向传播

前言: 一直觉得 Neural Networks and Deep Learning 这本书写得特别好, 尤其是反向传播章节由浅入深的解释简直妙不可言, 所以我准备将它翻译成中文, 顺便自己重新学习一下. 翻译过程中在保证内容完整的前提下, 删减了一些啰嗦的段落. 原文对反向传播的阐述美中不足的地方是, 将传播过程看做以层为单位, 没有将激活函数看做是独立的操作符. 这样对于理解某些深度学习框架并不友好.

阅读全文

Menpo 人脸对齐竞赛参赛论文汇总

现在人脸对齐比较冷门, 说起来尴尬, menpo 竞赛总共才八九只队伍. 有些方法比如OpenFace CNN expert, Unconstrained Face Alignment without Face Detection 等借鉴意义不是很大. CLM 已经过时了, “without Face Detection” 有一种标题党的味道. FA 流行的做法仍然是级联式的, 不管是基于patch 还是传递上个级联的信息. CSR在过去是FA的主要方法, 现在有了和CNN相结合的CSR(RobustFEC-CNN), 我觉得这个方法挺有意思, 或许是CNN做跟踪的思路. 对于静态图的方法可借鉴 “Deep Alignment Network”, 级联间通过传递热度图和特征, 摒弃了截取Patch的方式. 精度最好的文章是采用了沙漏网络, 不过输入也很大256x256, 貌似这样的网络对于FA很有帮助.

阅读全文

寻找高效的神经网络结构

卷积神经网络从神经网络进化的过程中, 通过权重共享的方式, 极大地减少了参数的数量, 和计算量, 即便如此, 为了追求精度, 很多模型也是动辄几百兆的体积, 很难在移动平台上部署. 今天就汇总几篇通过调整网络结构, 在尽量保持模型精度, 大幅度减少模型体积和计算量的论文. 看这类文章是最轻松惬意的事情, 没有高深晦涩, 让人望而却步的公式, 该类文章只是把神经网络设计看成搭积木一样, 教你怎么搭来得更高效.

阅读全文

变分自编码器

要理解变分自编码器的原理, 只要理解以下最核心几个要点就行了:

  1. 如何让难以求解的目标函数$P(X)$变得可以求解
  2. 为什么可以强制规定隐变量服从标准正太分布$\mathcal{N}(0, I)$
  3. 如何解决采样过程不可导导致难以用梯度下降进行训练的问题(reparameterization trick)

阅读全文

CNN网络结构进化过程中的关键文章

卷积神经网络CNN盛行的今天, 形形色色, 各式各样的网络结构不断涌现. 研究者们为了解决不同的任务, 或是为了将网络能力最大化, 可谓是无所不用其极. 然而现如今流行的网络结构都对应的来头, 今天我们就来讲讲CNN网络结构进化过程中几篇比较关键的文章。

阅读全文

BatchNorm(BN) 应该放在激活函数之前还是之后?

最近一直疑惑, BatchNorm(以下简称BN)应该放在激活函数之前, 还是激活函数之后? 今天看到了before-or-after-relu 以后铁了心要 BN 放在激活函数之后了!

阅读全文

从2D提升到3D论文总结

计算机视觉所要做的就是让机器看到的同我们看到趋于一致. 不管是目标的检测和识别, 都是让机器拥有类似人类眼睛的能力. 另一方面, 人类所看到的世界是立体, 让机器重建三维的世界, 也是计算机视觉探索的热门领域.

传统的多视图几何和摄影测量, 利用了物体成像的共线原理重建三维世界, 利用的是多视图的之间的物理关系, 这种结算并不需要学习. 神奇的是, 我们人类即使只用一只眼睛看世界, 仍然感觉世界是立体的, 我们还是能够感知到物体的远近, 虽然能力有所下降! 这是为什么呢? 因为, 我们通过多年双眼的观察, 习得了世界的一些规律: 比如近大远小, 特定物体具有特定的形状… 既然人类通过”经验” 能够通过单目感知三维世界, 机器是不是也可以呢?

阅读全文