想给博客换个模板,deploy以后把之前的post全都覆盖掉了-.-,只好从头开始写了。
今天电面了携程大数据(机票部)实习生,感觉不是太好。面试官是技术部的boss,很强势。以下用A表示面试官,B是我

A:来给我介绍一下你自己
B:哦好,我是Link,是读EE的本科生,马上要毕业了。做过几个DL的project和实习,目前在学校的Lab打工blabla…

A:能具体说说你的项目吗?挑几个好的
B:blabla….

A:你的风格迁移用的是VGG-16?详细跟我讲一下
B:blabla…

A:恩,还可以,有paper吗?
B:没有

A:说一下LR
B:LR是基于sigmoid的服从Logistic分布的模型,用来做回归或二分类。输出在(0,1)之间,方便拿来做概率用。如果做多分类的话,就把每个分量加起来作为输出某一类的概率

A:嗯?你说LR可以做多分类?
B:。。加一个softmax层就可以了

A:那不是LR本身
B:恩对。。

A:它的loss function,以及怎么优化的
B:似然函数,用SGD或者Adam优化

A:树结构知道吗?
B:知道KD树,决策树不太熟悉,但了解有C4.5 CART剪枝方法。KD树是KNN的实现,用linear scan去找相似点开销太大,用KD树可以高效完成这个任务。具体做法是,先构造KD树,再用近邻搜索。

A:AOC听说过吗?
B:没有。。

A:你平常开发都用什么包?
B:系统包就不说了,计算的话用numpy, sklearn和一些图像处理的包比如matplotlib和Imageio

A:pandas用吗?
B:很少,用pandas读过CSV文件,画过一些简单的图

A:说一下常用提取特征的方法
B:PCA, t-SNE(说错了,作死),CNN也可以用来提取特征。

A:知道什么是欠拟合和过拟合吗?说一下常用的防止过拟合的方法
B:欠拟合就是,比如我有9个点,拟合的是一条直线,有的点在上面有的不在;过拟合就是,一根很好的曲线穿过这些点,但是再来几个点,就不能很好地处理了。常用防止过拟合的方法有正则化,L1,L2。就是关于模型复杂度的一个penalty,模型太复杂,loss会很大,从而防止模型在training set上表现太好。

A:恩,详细说一下L1和L2。
B:L1就是权重W的各个分量绝对值之和,可能为0,所以适合于高维稀疏的情况;L2是平方之和,不能为0,所以适合于低维稠密的情况。

A:还知道其他的防止过拟合的方法吗?
B:不知道了。。

A:好吧,那你知道回归和分类的区别吗?
B:。。回归就是设定参数去拟合目标函数,分类就是计算后验概率去将实例分到某一类中去

A:在回归的时候,一般会对样本点进行一些假设,最后会验证这些假设是否成立。能说一下都有什么假设吗?
B:我不是太了解统计,都是靠自学《统计学习方法》,基础不是太好。我认为第一个假设是,输入和输出存在某种关系,并且这种关系是可学习的;第二个假设是数据是独立同分布的。

A:恩,少说了一个KKT条件。下面是一个开放性题目,假如我有30000个航班一年以来的时间表,想知道航班延误的时间段是均匀分布还是分布在某些区间,如何做?
B:。。我想一想

5min….

B:直接在二维里,横轴是日期,纵轴是航班的时间表画出来就行了。

A:说详细一点,横轴是什么日期?如果是一年的话,就是365天,我只需要知道航班具体是在一天的哪几个时间段晚点
B:横轴是一天,也就是24小时;纵轴是每个航班的相对延误时间,也就是实际到达时间减去应到达时间。再画出来观察就好

A:对,挺简单的,你想复杂了。第二个问题是,一个人要买携程机票,有什么因素会影响他的决定?也就是买还是不买
B:第一个是历史评价,比如他要买春秋,北京到上海。他就会看一下历史评价再考虑买或者不买;第二个是时间,淡季机票要比其他时间要便宜很多,这也是一个因素

A:还有吗?
B:没了。

A:面试差不多了,你还有什么想问的吗?
B:如果我被录取了,会分到哪个组?是做什么的?您能介绍一下自己组一般都做些什么吗?编程语言和框架呢?

A:我们有机票预测组,行情分析组等等,比如说我在的组是机票,就是预测机票走势和用户行为,再反馈给产品组。你分到哪个组不确定,需要上级决定。编程的话,Python和R都有,但是提数据要SQL,这个必须会
B:好,我本科不是计算机的,所以没学数据库。不过我可以以后再学

A:你什么时候能过来?大约实习多长时间呢?
B:我毕了业,8月份就可以。实习半年以上吧。因为我要gap申请研究生,取决于申请的结果。

A:好,我知道了。还有什么要问的吗?
B:我还要去上海面试吗?

A:这个不是我说了算,我得向上级反馈一下这次面试结果才能知道。你等通知吧
B:好,谢谢

A:恩,那就结束吧,再见
B:再见

估计没过,问了很多基础的都没答上来。。。