人生有几何,万物皆向量 ——行列秩为你揭开“表示学习”的神秘面纱

文章来源:极客公园

 

       我的Siri为什么能陪我聊天?电脑怎么就自动完成了老旧黑白照的自动上色?手机如何做到的在数以百计的照片中标记出同一好友并打上标签?还有那些更神奇的:公安机关是如何在成千上万的人流中通过视频监控准确抓到逃犯的?机器如何完成唇语的读取并以文字形式输出的?如何保持一幅画的风格、色彩、明暗等元素但透视出另外一幅著作,比如,得到一张地图版蒙娜丽莎?

 

蒙娜丽莎

 

       怎么做到的呢?

 

       这些案例其实都有表示学习的优秀应用。那么,什么又是表示学习?表示学习,即将原始数据转换成为能够被机器学习来有效开发的一种形式,简而言之:学习如何学习。比如,在前文提到的电脑自动上色的例子中,就是运用表示学习掌握自然存在于照片中的某些模式——天是蓝的,云是白的,草是绿的等等,通过这类规则,不需要人的介入就能对照片进行重新上色,虽然有时它也会犯错,但这种错误很难被发现。再比如,在语言翻译中,先通过表示学习将每一个的单词表示成语义的向量,然后按单词向量顺序输入,并编码成整句话的语义向量,最后对表示向量进行解码成目标语种,错误率比传统的基于统计学习的语言翻译小得多。

 

       表示学习的本质认为万物皆向量。万物都可以通过向量化的方式,将各种原始特征进向量化,得出的低维稠密向量将完美的刻画出事物的特征,使得信息的损失最小。在表示学习的众多优秀应用案例中,不得不提其对金融风控起到的颠覆作用。过去,构建传统的获客和风控等模型前,需要对大量数据进行特征工程,其实质是根据业务经验对原始的数据进行字段衍生。在风控领域特征工程就是根据时间、事件、业务类型进行各种组合,如XX天内现金贷公司放款次数,XX天内银行类app的点击次数,XX天内还款次数在衍生字段然后通过IV值,相关性,KS,ROC等指标对字段进行筛选与建模。尽管传统的人工特征工程可理解性高,但是存在很多缺点:

 

       1. 人工干预太多,衍生特征受限于专业知识与经验,构建特征的度很不容易把握。

       2. 特征是否有效,特征间的相关性大,比如“近7天借贷查询次数“和”近30天借贷查询次数“线性相关性可达到0.7。

       3. 传统模型的参数数量有限制,过多的参数数量会导致传统评分卡模型面临参数估计的困难。

 

       而表示学习可以一一规避这些缺点,使特征工程的效果达到精准化、最优化。如:描述一个人对不同app的偏好?传统的处理方法只会简单的罗列各种app特征,但是表示学习会将每一个app做有意义的向量表示,然后通过深度学习方法生成一个汇总的向量表示,这个向量表示代表了这个人对各类app的偏好,完成精准描绘。再比如,在更为细分的金融风控领域,传统的特征学习一般是基于单任务的,如逻辑回归的风控模型,就表示客户是否逾期,很难在这个模型上表示给客户授予多少的授信额度。表示学习则不同,通过一个表示模型可以同时训练一个人的资产情况、收入情况以及是否会逾期,那么这个人的向量就会内含他的资产信息和逾期信息,这样就可以将表示向量作为其他模型的输入用于贷前的审批与额度授信等多个方面。

 

       另外,表示学习还具有很好的迁移性,由表示学习形成的中间向量或者模型参数,可以迁移到其他不同的业务场景。在一些冷启动的业务或者数据量较小的业务中,前期训练的向量表示就具有很好的用途。

 

       所以,你能get到地图风的蒙娜丽莎是怎么来得了吧?https://deepart.io 还可以DIY更多有趣的合成,考虑来一幅梵高星空style的你家门口?

 

艺术与向量

 

 

2019年8月2日 14:30