【AI・機械学習】ROC曲線・PR曲線・AUC|2値分類モデルの性能評価方法を解説!

当ページには広告が含まれています。

こんにちは、DXCEL WAVEの運営者(@dxcelwave)です!

本記事では下記のような疑問にお答えします!
  • ROC曲線とは?
  • PR曲線とは?
  • AUCとは?
  • 上記を用いた機械学習モデルの評価方法について知りたい
目次

【はじめに】機械学習分類モデルの性能評価方法の解説範囲

本記事は機械学習教師あり学習における分類モデルの評価方法に焦点に当てて解説します。その中でも以下が今回の解説範囲です。

  • ROC曲線
  • PR曲線
  • AUC

ここで上記の解説にあたり下記の言葉が幾度か登場します。

  • 混合行列の指標
  • 適合率
  • 再現率
  • 偽陽性率

本記事では混合行列、適合率、再現率、偽陽性率の意味解説は割愛しています。そのため、もし上記の言葉の理解が怪しいと感じられる場合、下記の記事からご覧いただくことを推奨します。

ROC曲線とは|AUCとの位置付け

ROC曲線は機械学習分類モデル、特に2値分類モデルに特化した評価指標としてよく用いられます。以下ROC曲線とはどのようなものか具体的に見ていきましょう!

ROC(受信者動作特性)曲線|グラフの見方

グラフ軸概要
再現率[%]実際にPositiveだったデータのうち、正しくPositiveとして予測できた割合
偽陽性率[%]実際にNegativeだったデータのうち、誤ってPositiveと予測してしまった割合

ROC(Receiver Operatorating Characteristic curve)曲線は、縦軸に再現率(TPR)、横軸に偽陽性率(FPR)を用います。

ROC曲線の対角線はランダムな推定線として置かれ、対角線を下回る機械学習分類モデルは、ランダムな推定よりも性能が劣ると見なされます。

完璧な分類モデルは、理想線のように位置づけられ、再現率=1、偽陽性率=0を取ります。

ROC曲線とAUCの位置付け

機械学習分類モデルの性能を定量的に評価するために、ROC曲線に基づいて曲線下面積(AUC)を算出します。

ACUとはROC曲線に囲まれた面積を指します。面積は0〜1の範囲で値を取り、AUCが1に近いほど分類モデルの性能が高いと評価します。

ROC曲線から算出したAUCをもとに分類モデルを評価

具体的な分類モデルの評価について、図を用いてイメージしましょう。

左図の場合、ROC曲線は理想線に近く、AUCも0.85と高い値を示しています。右図の場合、ROC曲線はランダム推定線に近く、AUCは0.52と低いです。

よって上記例の場合、左図の結果を示す分類モデルの方が性能が高いと評価します。

PR曲線とは?|AUCとの位置付け

ROC曲線と同様に、2値分類モデルの評価指標としてPR曲線を用いる場合もあります。以下詳細を確認していきましょう。

PR(適合率-再現率)曲線|グラフの見方・AUCとの位置付け

グラフ軸概要
適合率[%]Positiveと予測した全データのうち、正しくPositiveと予測できた割合
再現率[%]実際にPositiveだったデータのうち、正しくPositiveとして予測できた割合

PR曲線とは、縦軸に適合率、横軸に再現率をとる曲線です。

PR曲線の対角線は、ROC曲線同様ランダムな推定線として置かれ、対角線を下回る分類モデルは、ランダムな推定よりも性能が劣ると見なされます。

完璧な分類モデルは、理想線のように位置づけられ、適合率=1を取ります。

機械学習分類モデルの性能を定量的に評価するために、PR曲線に基づいてAUCを算出する場合もあります。

ここでいうACUとは、PR曲線に囲まれた面積を指します。面積は0〜1の範囲で値を取り、AUCが1に近いほど分類モデルの性能が高いと評価します。

PR曲線から算出したAUCをもとに分類モデルを評価

具体的な分類モデルの評価について、図を用いてイメージしましょう。

左図の場合、PR曲線は理想線に近く、AUCも0.85と高い値を示しています。右図の場合、PR曲線はランダム推定線に近く、AUCは0.52と低いです。

よって上記例の場合、左図の結果を示す分類モデルの方が性能が高いと評価します。

PR曲線から算出したAUCを評価指標として用いるケース

まず前提として、「適合率と再現率はトレードオフ」になる場合が多いです。そのため、分類モデルの性能改善課題として、適合率と再現率どちらを重視すべきか求められる場合があります。

適合率を重視したいケース

PositiveをNegativeとして間違って予測しても良いが、Negativeなものは確実にNegativeとして分類したい

再現率を重視したいケース

NegativeをPositiveと間違って予測しても問題ないが、Positiveは正しくPositveとして分類したい

PR曲線から算出したAUCを評価指標として用いるのは、上図例のように、分類モデルの適合率・再現率を調節してモデルの性能改善を行う場合が多いです。

例えば、機械学習アルゴリズムは同じだが、適合率・再現率を調整するために、カットオフ値を変えて分類モデルを複数作成したとします。その時のモデル性能比較にAUC(PR曲線)を用いることができます。

【参考】AI・機械学習における配信情報まとめ

当サイトではAI・機械学習における「基礎」から「最新のプログラミング手法」に至るまで幅広く解説しております。また「おすすめの勉強方法」をはじめ、副業・転職・フリーランスとして始める「AI・機械学習案件の探し方」についても詳しく言及しています。

【仕事探し】副業・転職・フリーランス

【教育】おすすめ勉強法

【参考】記事一覧

最後に

この記事が気に入ったら
フォローしてね!

目次