《基于合成孔径雷达数据的旱地作物识别与长势监测研究》: 随机森林算法在分类方向有诸多优点:①在当前的很多数据集上,随机森林法相对其他算法有着很大的优势;②随机森林对于高维数据集的处理能力令人兴奋,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法;③可以在决定类别时,该模型能够输出变量的重要性程度,这是一个非常便利的功能;④在对高维数据训练时,不容易出现过拟合而且速度较快;⑤随机森林算法能解决分类与回归两种类型的问题,并在这两个方面都有相当好的估计表现;⑥在对缺失数据进行估计时,随机森林是一个十分有效的方法。就算存在大量的数据缺失,随机森林也能较好地保持精确性;⑦当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法;⑧模型的上述性能可以被扩展运用到未标记的数据集中,用于引导无监督聚类、数据透视和异常检测;⑨随机森林算法中包含了对输人数据的重复自抽样过程,即所谓的bootstrap抽样。这样一来,数据集中大约三分之一将没有用于模型的训练而是用于测试,这样的数据被称为out of bag samples(来自样本),通过这些样本估计的误差被称为out of bag error(来自样本误差)。研究表明,这种out of bag方法的与测试集规模同训练集一致的估计方法有着相同的精确程度,因此在随机森林中人们无需再对测试集进行另外的设置。由于辅助信息的加入会大幅增加变量的维度,且需要对变量重要性进行评价,因此本实验选择随机森林法。随机森林分类过程可在EnMAP Box软件(Jakimow等,2012)中实现,该软件包含多个内置分类算法,其中就包括随机森林算法。 ……