【機械学習】決定木とは｜概要・種類（分類木・回帰木）・Python実装方法

2023年2月4日

当ページには広告が含まれています。

こんにちは、DXCEL WAVEの運営者(@dxcelwave)です！

こんな方におすすめ！

AI・機械学習理論および実装方法の習得に興味あり。
決定木とは何か知りたい。
決定木の概要・種類（分類木・回帰木）・Pythonでの実装方法が知りたい。

【AI・機械学習】決定木（ディシジョンツリー）とは？

決定木とは「YES or NO」や「100以上 or 100未満」のように、2つの分岐する回答が得られる条件によって予測を行う方法を指します。決定木アルゴリズムは、人間の思考プロセスに近い方法であるため、結果が分かりやすく、説明性が高いという点が特徴的です。

上図を見てみましょう。決定木は、一番上のデータグループから成る根（Root）ノードをはじめ、枝分かれ部分を指す枝（Branch）ノード、最終的な決定木の分類を指す葉（Leaves）ノードで構成されます。また、あるノードに対して分岐前のノードを親ノード、分岐後のノードを子ノードと呼びます。さらに、決定木の枝となる分岐ラインをエッジと呼びます。

決定木の種類（分類木・回帰木）

決定木にはクラス分類問題を取り扱う分類木と連続的な数値予測問題を取り扱う回帰木があります。

分類木

「英語が話せる/話せない」「対象が大人か/子供か」という説明変数をもとに、「留学経験がある人/ない人」を分類するモデルを考えてみましょう。

上図で示すように、「留学経験あり/なし」というカテゴリー変数または順序変数、フラグを示すような目的変数をツリー状に分類して表したものを分類木と言います。

分類木の出力結果をグラフで示した場合、軸に垂直な直線で”カクっとした形”として描画されるのが特徴的です。

例えば、気温と湿度を説明変数に設定し、過ごしやすい/過ごしずらいを分類する決定木を考えてみましょう。気温が20度～25度、湿度が40%~60%のときに過ごしやすいと感じ、それ以外の温度・湿度条件の場合は過ごしにくいと感じたとします。この場合、分類木が出力する最終的なグラフ結果は上図のように描けるでしょう。

回帰木

「住宅価格がいくらか予測する」といった連続して値が変動する数値変数を用いる場合、回帰木が有効です。

例えば上図に示すように、「住宅価格」は、「駅からの距離」で変動すると仮説立てたします。

「駅徒歩20分以内？」→YES→「駅徒歩10分以内？」→YES→「住宅価格＝3,000$と予測」という分岐ができます。

このように回帰木の原理は分類木と同じですが、回帰木の場合は目的が「予測」であり、ツリーの分岐・葉を表現する手段として連続値を用います。

決定木の分岐イメージ

決定木を機械学習アルゴリズムとして採用した場合、具体的にどのように枝が分岐していくのでしょうか？

決定木の学習では、「不純度」というデータ分割のきれいさを示すに指標に基づき、不純度が小さくなるように枝を分岐を繰り返していきます。不純度の指標には、情報エントロピーやジニ不純度が代表的です。どちらの指標も値が大きいほど不純物が混在していることを示し、小さいほど綺麗に整頓されていることを示します。