摘要:随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。为了解决这个问题,本文提出一种加权随机森林算法。该算法引入二次训练过程,提高分类正确率高的决策树投票权重,降低分类错误率高的决策树投票权重,从而提高整个分类器的分类能力。通过在不同数据集上的分类测试实验,证明了本文算法相比于传统的随机森林算法具有更强的分类性能。
0引言
随机森林(Random Forests)最早由加利福尼亚大学的Leo Breiman[1]在2001年提出。它是一个由许多基础分类器“决策树”构成的组合分类器,不同决策树之间是独立同分布的,当输入一个测试样本时,由所有基础分类器的投票结果来确定最终样本的所属类别。传统的随机森林通过创建一系列独立同分布的决策树来分类样本,用投票结果来决策最终的分类结果。随机森林引入了两个随机化过程,使得不同的决策树分类器具有不同的分类能力,一些决策树的分类性能好,另一些决策树的分类性能差,但是,在确定一个样本属于哪个类别属性时,这两种决策树具有相同投票权重,因而会削弱分类器的整体性能。本文提出的加权随机森林算法通过引入二次训练,赋予决策树不同的权重,提高分类器的整体性能。