こんにちは、DXCEL WAVEの運営者(@dxcelwave)です!
- ROC曲線とは?
- PR曲線とは?
- AUCとは?
- 上記を用いた機械学習モデルの評価方法について知りたい
【はじめに】機械学習分類モデルの性能評価方法の解説範囲
本記事は機械学習教師あり学習における分類モデルの評価方法に焦点に当てて解説します。その中でも以下が今回の解説範囲です。
- ROC曲線
- PR曲線
- AUC
ここで上記の解説にあたり下記の言葉が幾度か登場します。
- 混合行列の指標
- 適合率
- 再現率
- 偽陽性率
本記事では混合行列、適合率、再現率、偽陽性率の意味解説は割愛しています。そのため、もし上記の言葉の理解が怪しいと感じられる場合、下記の記事からご覧いただくことを推奨します。
【AI・機械学習】分類モデルの性能評価および評価指標の解説|正解率・適合率・再現率・F値・特異度・偽陽性率
機械学習における分類モデルの性能評価方法について解説します。本記事読了いただくことで、機械学習の集計データに基づきモデルを多様な角度から評価することができるようになります。
ROC曲線とは|AUCとの位置付け
ROC曲線は機械学習分類モデル、特に2値分類モデルに特化した評価指標としてよく用いられます。以下ROC曲線とはどのようなものか具体的に見ていきましょう!
ROC(受信者動作特性)曲線|グラフの見方
グラフ軸 | 概要 |
---|---|
再現率[%] | 実際にPositiveだったデータのうち、正しくPositiveとして予測できた割合 |
偽陽性率[%] | 実際にNegativeだったデータのうち、誤ってPositiveと予測してしまった割合 |
ROC(Receiver Operatorating Characteristic curve)曲線は、縦軸に再現率(TPR)、横軸に偽陽性率(FPR)を用います。
ROC曲線の対角線はランダムな推定線として置かれ、対角線を下回る機械学習分類モデルは、ランダムな推定よりも性能が劣ると見なされます。
完璧な分類モデルは、理想線のように位置づけられ、再現率=1、偽陽性率=0を取ります。
ROC曲線とAUCの位置付け
機械学習分類モデルの性能を定量的に評価するために、ROC曲線に基づいて曲線下面積(AUC)を算出します。
ACUとはROC曲線に囲まれた面積を指します。面積は0〜1の範囲で値を取り、AUCが1に近いほど分類モデルの性能が高いと評価します。
ROC曲線から算出したAUCをもとに分類モデルを評価
具体的な分類モデルの評価について、図を用いてイメージしましょう。
左図の場合、ROC曲線は理想線に近く、AUCも0.85と高い値を示しています。右図の場合、ROC曲線はランダム推定線に近く、AUCは0.52と低いです。
よって上記例の場合、左図の結果を示す分類モデルの方が性能が高いと評価します。
PR曲線とは?|AUCとの位置付け
ROC曲線と同様に、2値分類モデルの評価指標としてPR曲線を用いる場合もあります。以下詳細を確認していきましょう。
PR(適合率-再現率)曲線|グラフの見方・AUCとの位置付け
グラフ軸 | 概要 |
---|---|
適合率[%] | Positiveと予測した全データのうち、正しくPositiveと予測できた割合 |
再現率[%] | 実際にPositiveだったデータのうち、正しくPositiveとして予測できた割合 |
PR曲線とは、縦軸に適合率、横軸に再現率をとる曲線です。
PR曲線の対角線は、ROC曲線同様ランダムな推定線として置かれ、対角線を下回る分類モデルは、ランダムな推定よりも性能が劣ると見なされます。
完璧な分類モデルは、理想線のように位置づけられ、適合率=1を取ります。
機械学習分類モデルの性能を定量的に評価するために、PR曲線に基づいてAUCを算出する場合もあります。
ここでいうACUとは、PR曲線に囲まれた面積を指します。面積は0〜1の範囲で値を取り、AUCが1に近いほど分類モデルの性能が高いと評価します。
PR曲線から算出したAUCをもとに分類モデルを評価
具体的な分類モデルの評価について、図を用いてイメージしましょう。
左図の場合、PR曲線は理想線に近く、AUCも0.85と高い値を示しています。右図の場合、PR曲線はランダム推定線に近く、AUCは0.52と低いです。
よって上記例の場合、左図の結果を示す分類モデルの方が性能が高いと評価します。
PR曲線から算出したAUCを評価指標として用いるケース
まず前提として、「適合率と再現率はトレードオフ」になる場合が多いです。そのため、分類モデルの性能改善課題として、適合率と再現率どちらを重視すべきか求められる場合があります。
適合率を重視したいケース
PositiveをNegativeとして間違って予測しても良いが、Negativeなものは確実にNegativeとして分類したい
再現率を重視したいケース
NegativeをPositiveと間違って予測しても問題ないが、Positiveは正しくPositveとして分類したい
PR曲線から算出したAUCを評価指標として用いるのは、上図例のように、分類モデルの適合率・再現率を調節してモデルの性能改善を行う場合が多いです。
例えば、機械学習アルゴリズムは同じだが、適合率・再現率を調整するために、カットオフ値を変えて分類モデルを複数作成したとします。その時のモデル性能比較にAUC(PR曲線)を用いることができます。
【参考】AI・機械学習における配信情報まとめ
当サイトではAI・機械学習における「基礎」から「最新のプログラミング手法」に至るまで幅広く解説しております。また「おすすめの勉強方法」をはじめ、副業・転職・フリーランスとして始める「AI・機械学習案件の探し方」についても詳しく言及しています。
【仕事探し】副業・転職・フリーランス
【教育】おすすめ勉強法
【参考】記事一覧
最後に
お問い合わせフォーム
上記課題に向けてご気軽にご相談下さい。
お問い合わせはこちら