首页 存档 技术 查看内容

人肉工程在机器学习实践中的作用

2018-3-30 13:00 |来自: 互联网 283 0

摘要: (点击上方公号,可快速关注) 来源:伯乐在线 - 水石头stone 链接:http://blog.jobbole.com/95637/ 关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典 ...

(点击上方公号,可快速关注)


来源:伯乐在线 - 水石头stone

链接:http://blog.jobbole.com/95637/


关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机器完成这个过程,本文试作一简单分析。

机器和人看待数据的区别

首先要看一下,从机器的角度看,机器学习是怎样一个问题?在机器看来,机器学习的问题通常是在一组特征上,最大化某个目标函数。注意,对于这组特征而言,机器是理解不了它的含义的。举例来说,下面一组数据(第一列是targe)

0, 1, 1, 0

1, 0, 1, 1

1, 0, 0, 1

你能看出这组数据是什么含义吗?显然不能。但是完全可以用它训练一个分类模型,比如logistic regression。

然后查看一下关于这组数据的描述,知道这是关于某个班某次考试的结果,第一列表示物理是否及格,后面三个特征分别是性别、文理科班、数学是否及格,那么现在我知道这组数据的含义了。这样又可以训练一个logistic regression模型。问题来了,这两个模型有区别吗?显然没有。也就是说,人是如何理解数据含义的,对于算法并没有任何影响。因为从机器的角度看,这都是一堆数字而已。

现在看另一个例子,这里有一个特征是这样的

1, …, 1431174193, …

1, …, 1431087793, …

0, …, 1431001393, …

1, …, 1430914993, …

0, …, 1430828593, …

能看出这个特征是什么吗?如果你猜测这是时间(timestamp)那么,你已经开始使用领域知识了。对于机器来说,这只是一个整数序列而已。如果我们把这组数据代入一个线性模型,那么意味着默认预测目标和特征之间是线性关系。也就是说,学习算法的假设空间仅包含timestamp的线性函数。

机器能否通过“学习”达到和人的知识相同的效果

现在,我们既然知道这是日期,就可以增加特征,比如从日期中提取月份、星期、小时等。假设增加“小时”这么一个特征,注意,这个变换是非线性的,这里使用了人的知识。对于机器而言,没有这样的知识。如果要求机器能自动提取出这个特征,那么学习算法的假设空间至少应该覆盖timestamp到小时的转换函数,类似于(timestamp/3600)$。这会增加假设空间的维度。如果知道函数的形式也还好,比如知道(timestamp/a)%b, 这样只需要拟合a、b两个参数。但是实际问题往往是,我怎么知道特征的转换函数是怎样的?也许是log(sin(a x)) / (exp(x) x^2),如果要求假设空间涵盖各种可能的函数形式,那必然大大增加假设空间的维度,很容易导致过拟合。比如神经网络,三层网络就可以逼近任意函数(有个什么连续性还是可导条件,忘了),但是太容易过拟合了,而且存在局部最优的问题。

所以,人的知识的作用在于特征变换。更进一步说,如果人的知识可以给出有效的特征变换,那么可以大大降低搜索空间的维度。对于线性模型而言,模型本身可以处理所有线性的情况,如果人的知识所产生的特征变换也是线性的,那么对于模型没有任何提升,只有非线性的变换才对模型有影响。而如果要求模型能够自动的学习出相同的非线性变换,则会造成模型的特征空间维度大大提高。

而人类的知识是千万年间积累下来的,其中包含了很多复杂的变换,而且知识之间相互依赖,如果要理解一个概念,往往需要首先理解其他的很多概念,所以,从这个意义上将,要求机器学习出人类的知识结构是不太现实的。当然,机器不必模仿人类的知识,可以学习出另外的特征变换,只要最后的模型是有效的。所以为什么现在的deep learning这么火,因为它在控制过拟合的前提下,能够在一定程度上学习出特征变换的形式,也就是在一定程度上完成了人肉特征工程的工作,目前大概也只有deep learning能做到这一点。不过,从目前的实践情况来看,人的知识仍然在具体问题中起着重要的作用。

“算法工程师”的角色和职责

基于此,可以把典型的机器学习建模过程分成三个阶段:

数据清洗、预处理、特征变换 -

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部