2018-03-29 面试总结 算法面试总结机器学习部分模型评估与选择评估方法性能度量偏差与方差线性模型线性回归逻辑回归支持向量机(SVM)原理间隔与支持向量线性可分与硬间隔线性SVM和软间隔非线性可分SVM与核函数序列最小最优化算法(SMO)决策树原理ID3、C4.5、CART剪枝连续与缺失值集成学习(Ensemble)Bagging与随机森林Bagging随机森林BoostingAdaBoostGBDTXGBoost
2018-03-22 机器学习 卷积神经网络——目标检测 目标检测1. 目标定位和特征点检测图片检测问题: 分类问题:判断图中是否为汽车; 目标定位:判断是否为汽车,并确定具体位置; 目标检测:检测不同物体并定位。 继续阅读全文 »
2018-03-16 机器学习 TF-IDF与余弦相似性 TF-IDFTF指Term frequecy,代表词频,IDF代表inverse document frequency,叫做逆文档频率。 继续阅读全文 »
2018-03-14 机器学习 ML—模型评估方法 ML—模型评估方法1. 留出法“留出法”直接将数据集 D 划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即 $D=S \ T, S \ T = \$。在 S上训练处模型后,用T来评估测试误差,作为对泛化误差的估计。Notation: 2. 交叉验证法
2018-03-13 机器学习 sklearn preprocessing 数据预处理(OneHotEncoder) 1. one-hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点就是简单粗暴,实现简单。那最大的问题就是在这种处理方式中,各种类别的特征都被看成是有序的,这显然是非常不符合实际场景的。 继续阅读全文 »
2018-03-04 机器学习 卷积神经网络——卷积神经网络 卷积神经网络以下为在吴恩达老师的 deeplearning.ai 课程项目中,第四部分《卷积神经网络》第一周课程 “卷积神经网络基础” 关键点的笔记。本次笔记几乎涵盖了所有视频课程的内容。通过该笔记,一方面为自己学习进行记录,以便以后进行快速review,另一方面,也便于与大家进行探讨学习,错误及不足之处,还望指教。 继续阅读全文 »
2018-02-06 Python Python yield 及其实现 Python yield及其实现刚开始接触python时,解接触到了 yield 关键字,在实际使用中,越来越觉得其用处的强大,遂感觉需整理一下自己的理解,做一个总结。yield 的功能类似于 return,但不同之处在于它返回的是生成器。 继续阅读全文 »
2018-01-31 TensorFlow-api(1) TensorFlow-api(1):tf.reduce_mean()这类函数在tensor的某一维度上,有一类求值的函数,如tf.reduce_max( ),tf.reduce_mean( ),tf.reduce_sum( ) 继续阅读全文 »