1. Đánh giá chỉ mô hình

Trong quy trình xây dựng một quy mô machine learning, một trong những phần không thể thiếu để hiểu được chất lượng của mô hình như thế như thế nào đó đó là đánh giá bán mô hình.

Bạn đang xem: F1 score là gì

Đánh giá mô hình giúp bọn họ lựa chọn được mô hình cân xứng nhất so với bài toán của mình. Tuy vậy để tìm được thước đo đánh giá mô hình cân xứng thì bọn họ cần buộc phải hiểu về ý nghĩa, bản chất và ngôi trường hợp vận dụng của từng thước đo.

Chính vì vậy bài viết này sẽ cung cấp cho chúng ta kiến thức về các thước đo cơ phiên bản nhất, hay được vận dụng trong các quy mô phân các loại trong machine learning nhưng bọn họ đôi khi còn chưa nắm vững hoặc chưa chắc chắn cách vận dụng những thước đo này sao cho phù hợp với từng bộ tài liệu cụ thể.

Hãy cùng phân tích và tìm hiểu các thước đo này qua các ví dụ mặt dưới.

2. Cỗ dữ liệu

Giả định rằng họ đang xây đắp một quy mô phân loại nợ xấu. Nhãn của các quan gần cạnh sẽ bao hàm GOOD (thông thường) và BAD (nợ xấu). Form size của các tập dữ liệu như sau:

Tập train: 1000 hồ nước sơ bao hàm 900 hồ sơ GOOD và 100 làm hồ sơ BAD. Tập test: 100 hồ nước sơ bao hàm 85 làm hồ sơ GOOD với 15 hồ sơ BAD.

Để thuận tiện cho diễn giải và đồng điệu với đông đảo tài liệu tham khảo khác về ký kết hiệu thì biến mục tiêu $y$ nhãn BAD có mức giá trị 1 cùng GOOD cực hiếm 0. Đồng thời trong số công thức diễn giải cùng bảng thống kê, nhãn BAD là positive cùng GOOD là negative. Positive cùng Negative ở đây chỉ là qui ước tương ứng với cực hiếm 1 cùng 0 chứ không nên hiểu theo nghĩa black là tích cực và tiêu cực.

Một quy mô phân các loại $f$ gửi ra công dụng dự báo bên trên tập train được những thống kê trên bảng chéo như sau:

*

Các chỉ số TP, FP, TN, FN theo thứ tự có ý nghĩa sâu sắc là :

TP (True Positive): toàn bô trường hợp dự báo khớp Positive. TN (True Negative): tổng thể trường hợp đoán trước khớp Negative. FP (False Positive): tổng thể trường vừa lòng dự báo những quan liền kề thuộc nhãn Negative thành Positive. FN (False Negative): tổng số trường hợp dự báo các quan cạnh bên thuộc nhãn Positive thành Negative.

Những chỉ số trên vẫn là đại lý để giám sát những metric như accuracy, precision, recall, f1 score cơ mà ta sẽ mày mò bên dưới.

3. Độ đúng chuẩn (accuracy)

Khi xây dựng mô hình phân loại bọn họ sẽ muốn biết một giải pháp khái quát phần trăm các trường thích hợp được dự báo đúng trên tổng số những trường đúng theo là bao nhiêu. Tỷ lệ đó được call là độ chủ yếu xác. Độ chính xác giúp ta tấn công giá kết quả dự báo của quy mô trên một bộ dữ liệu. Độ chủ yếu xác càng cao thì quy mô của bọn họ càng chuẩn chỉnh xác. Lúc 1 ai kia nói mô hình của họ dự báo chính xác 90.5% thì chúng ta hiểu rằng họ sẽ đề cập cho tới độ chính xác được tính theo bí quyết :

< extAccuracy = fracTP+TN exttotal sample = frac55+8501000 = 90.5 \%>

Tính toán accuracy bên trên sklearn :


Trong đó y_label là nhãn của tài liệu và y_pred là nhãn dự báo.

Trong những metrics nhận xét mô hình phân các loại thì độ và đúng là metric khá rất được ưa chuộng vì nó bao gồm công thức tường minh cùng dễ diễn giải ý nghĩa. Tuy nhiên hạn chế của nó là thống kê giám sát trên tất cả những nhãn cơ mà không suy nghĩ độ đúng chuẩn trên từng nhãn. Cho nên vì vậy nó không tương xứng để reviews những tác vụ mà tầm quan tiền trọng của việc dự báo các nhãn không còn như nhau. Giỏi nói cách khác, như trong ví dụ như phân một số loại nợ xấu, việc bọn họ phát hiện đúng một hồ sơ nợ xấu đặc biệt quan trọng hơn việc chúng ta phát hiện tại đúng một làm hồ sơ thông thường.

Khi đó bọn họ sẽ niềm nở hơn tới độ đúng đắn được đo lường và thống kê chỉ trên nhãn BAD hơn với sẽ có nhu cầu các metrics như precision, recall review chuyên biệt trên nhóm này. Cùng mày mò về các metrics này bên dưới.

4. Precision

Precision trả lời cho thắc mắc trong các trường đúng theo được dự báo là positive thì bao gồm bao nhiêu trường đúng theo là đúng ? Và tất yếu precision càng tốt thì mô hình của chúng ta càng xuất sắc trong vấn đề phân loại hồ sơ BAD (BAD đó là nhóm positive). Công thức của precision như sau:

< extPrecision = fracTP exttotal predicted positive = fracTPTP+FP = frac5555+50 = 52.4 \%>

Precision đã cho bọn họ biết mức độ chuẩn xác của tế bào hình so với các hồ sơ được đoán trước là BAD. Ví dụ lúc precision = 52.4%, họ tin rằng trong những hồ sơ được dự báo là BAD thì gồm 52.4% xác suất các hồ sơ được phân nhiều loại đúng.

Cũng có ý nghĩa sâu sắc gần tương tự như precision, gồm cùng tử số nhưng gồm một chút khác biệt về mẫu số trong phương pháp tính toán, với cũng là 1 chỉ số giúp giám sát hiệu suất dự đoán trên nhóm positive, đó là recall.

5. Recall

Recall giám sát và đo lường tỷ lệ dự báo đúng mực các trường vừa lòng positive trên cục bộ các mẫu mã thuộc đội positive. Phương pháp của recall như sau:

< extRecall = fracTP exttotal actual positive = fracTPTP+FN = frac5555+45=55 \%>

Để tính được recall thì chúng ta phải biết trước nhãn của dữ liệu. Vì vậy recall hoàn toàn có thể được dùng làm đánh gía trên tập train với validation vì chúng ta đã biết trước nhãn. Bên trên tập thử nghiệm khi dữ liệu được xem như mới hoàn toàn và chưa biết nhãn thì chúng ta sẽ sử dụng precision.

Tính toán precision và recall bên trên sklearn bọn họ sẽ dựa trên ground truth y_label và tỷ lệ dự báoy_prob:


12from sklearn.metrics import precision_recall_curveprec, rec, thres = precision_recall_curve(y_label, y_prob)

6. Trade off giữa precision và recallThông hay các model sẽ lựa lựa chọn 1 ngưỡng mang định là 0.5 để ra quyết định nhãn. Tức là nếu ta gồm một hàm phân loại $f_ heta()$ thì nhãn dự đoán sẽ dựa trên độ to của tỷ lệ dự báo như sau:

<eginequation left{ eginarrayl l f_ heta(x) geq 0.5, extlabel = 1\ f_ heta(x) home credit kaggle kernel - herphangout.com.

*

Thậm chí bằng một chút suy luận logic, ta còn tồn tại thể chứng minh được quan hệ giữa precision cùng recall khi chuyển đổi theo threshold là mối quan hệ đánh đổi (trade off). Lúc precision cao thì recall thấp và ngược lại. Quả thật như vậy :

Giả sử trong lấy một ví dụ về phân các loại nợ xấu, bọn họ muốn khi mô hình dự báo một làm hồ sơ là BAD thật chắc chắn là nên lựa lựa chọn một ngưỡng threshold cao hơn, chẳng hạn như 0.9. Lúc ấy một hồ sơ rơi vào hoàn cảnh BAD thì khả năng rất không hề nhỏ là hồ sơ đó sẽ và đúng là BAD bởi tỷ lệ 90% là 1 mức tin cậy khá cao. Ngoài ra xin nhắc lại precision bằng số lượng được dự đoán là BAD đúng chia cho tổng số được dự đoán là BAD cho nên nó có xu hướng cao khi threshold được tùy chỉnh cấu hình cao. Đồng thời do con số các quan gần kề được đoán trước là BAD sẽ giảm đi khi threshold cao hơn nữa và số lượng hồ sơ BAD không đổi buộc phải recall thấp hơn.

Trong ngôi trường hợp bọn họ muốn nới lỏng công dụng phân các loại hồ sơ BAD một chút bằng cách giảm threshold và gật đầu đồng ý một số thích hợp đồng bị dự báo sai tự GOOD sang BAD. Lúc đó số lượng hồ sơ được dự đoán là BAD tạo thêm trong khi số lượng hồ sơ BAD được dự đoán đúng tăng không xứng đáng kể. Điều đó dẫn tới precision giảm và recall tăng.

Sự tấn công đổi thân precision với recall khiến cho kết quả của quy mô thường l : precision cao, recall rẻ hoặc precision thấp, recall cao. Lúc ấy rất khó để chọn lựa đâu là 1 trong những mô hình tốt vì lừng khừng rằng đánh giá trên precision hay recall sẽ tương xứng hơn. Bởi vì vậy chúng ta sẽ tìm kiếm cách phối hợp cả precision cùng recall vào một chỉ số mới, đó chính là f1 score.

7. F1 Score

$F_1$ Score là trung bình cân bằng giữa precision cùng recall. Do đó nó đại diện thay mặt hơn trong vấn đề đánh gía độ đúng chuẩn trên bên cạnh đó precision và recall.

< extF_1 = frac2 extprecision^-1+ extrecall^-1 = frac20.524^-1 + 0.55^-1 = 53.7 \%>

Trong trường hòa hợp $ extprecision=0$ hoặc $ extrecall=0$ ta qui ước $ extF_1 = 0$.

Ta minh chứng được rằng quý giá của $F_1$ score luôn luôn nằm trong khoảng của precision cùng recall. Quả thật như vậy :

<egineqnarray extF_1 & = & frac2~ extprecision imes extrecall extprecision+ extrecall \& leq & frac2~ extprecision imes extrecall2~min( extprecision, extrecall) = max( extprecision, extrecall)endeqnarray>

Tương tự:

<egineqnarray extF_1 & = & frac2~ extprecision imes extrecall extprecision+ extrecall \& geq và frac2~ extprecision imes extrecall2~max( extprecision, extrecall) = min( extprecision, extrecall)endeqnarray>

Do đó so với những ngôi trường hợp nhưng mà precision với recall thừa chênh lệch thì $F_1$ score sẽ thăng bằng được cả nhì độ lớn này với giúp ta đưa ra một review khách quan lại hơn. Lấy ví dụ như như tác dụng bảng bên dưới :

*

Nếu dựa vào precision thì cực hiếm precision=91.6% cho biết thêm đây là một model khá tốt. Mặc dù trong 100 trường hợp positive thì quy mô chỉ dấn diện được đúng 55 ngôi trường hợp bắt buộc xét theo recall=55% thì đây chưa hẳn là một mô hình tốt. Vào trường hợp này $F_1$ sẽ được sử dụng như 1 chỉ số đại diện cho cả precision với recall. Điểm $F_1$ bởi 69% cho biết đây là một quy mô có sức mạnh ở mức mức độ vừa phải và reviews của bọn họ sẽ xác xắn hơn so với câu hỏi quá lạc quan vào quy mô khi chỉ quan sát vào precision với quá bi thiết nếu chỉ dựa vào recall.

Trên sklearn, f1 score được xem như sau :


Trong đó y_label là nhãn của dữ liệu và y_pred là nhãn dự báo.

8. Lý do F1 score ko là trung bình cùng precision với recall

Có một học viên thắc mắc mình rằng tại sao $F_1$ score ko được lấy bởi trung bình cùng giữa precision với recall? rước ví dụ trực quan tiền trong trường hòa hợp mô hình của bạn có precision quá thấp và recall quá cao, chẳng hạn precision=0.01 với recall=1.0.

Nhìn vào biểu trang bị trade off giữa precision với recall thì đây hoàn toàn có thể được coi như một mô hình thiết lập cấu hình threshold thấp. Nó tương đương với việc dự kiến ngẫu nhiên toàn bộ là positive. Cho nên vì vậy không thể xem chính là một quy mô tốt.

Nếu thực hiện công thức vừa đủ thì

< extF_1 = frac extprecision+recall2 = 0.5005>

giá trị này cho biết thêm đây là một quy mô ở nấc trung bình. Trong khi sử dụng công thức trung bình cân bằng thì

< extF_1 = frac2~ extprecision imes extrecall extprecision+ extrecall approx 0>

giá trị này giúp dìm diện được quy mô không tốt.

Tóm lại sử dụng trung bình ổn định sẽ phạt nặng hơn phần lớn trường hợp mô hình có precision thấp, recall cao hoặc precision cao, recall thấp. Đây là những trường hợp tương đương với dự báo thiên về một tổ là positive hoặc negative nên không hẳn là mô hình tốt. Điểm số từ mức độ vừa phải điều hòa để giúp ta nhận ra được đa số trường thích hợp không xuất sắc như vậy.

9. Accuracy và F1 score

Accuracy và F1 score hầu như được áp dụng để đánh giá hiệu suất của mô hình phân loại. Vậy trong trường hợp nào bọn họ nên sử dụng chỉ số như thế nào là tương xứng ? Điều đó phụ thuộc vào bộ dữ liệu của bạn có xẩy ra hiện tượng mất cân nặng bằng hay không ? Hãy cùng trở lại phân tích bảng công dụng đầu tiên. Ta call trường vừa lòng này là dự đoán theo mô hình :

*

Khi dự đoán theo mô hình dễ dàng tính được accuracy=90.5%, đó là một hiệu quả cũng không hề nhỏ và chúng ta nhận định rằng mô hình phân các loại tốt.

Tuy nhiên xét tình huống chúng ta dự báo ngẫu nhiên tổng thể mẫu là những hồ sơ GOOD. Như vậy độ đúng đắn đạt được thậm chí là đã lên tới 90%. Hôm nay chúng ta nghi hoặc sự cân xứng của accuracy vào việc reviews mô hình do không phải tới mô hình cũng tạo thành một hiệu quả gần như tương đương với có mô hình.

Mặt khác, khi sử dụng $F_1$ score làm cho chỉ số reviews ta thu được điểm số khi dự báo ngẫu nhiên là 0% với khi dự báo theo mô hình là 69% (bạn gọi hãy tự tính). Chúng ta đã thấy sự chênh lệch điểm số $F_1$ score giữa hai mô hình chưa ? Đồng thời $F_1$ score cũng ko khiến chúng ta lạc quan tiền vào những mô hình có chất lượng thấp nhưng do sử dụng accuracy nên chúng có kết qủa review cao. Bên cạnh đó $F_1$ score chỉ đo lường và tính toán độ chính xác trên nhóm chủng loại thiểu (positive) là nhóm mà họ mong muốn nhận xét hơn trong trường hòa hợp mất cân đối nên nó sẽ phù hợp hơn accuracy được đo lường và tính toán trên cả mẫu mã positive với negative.

10. AUC

ROC là đường cong biểu diễn khả năng phân các loại của một quy mô phân một số loại tại những ngưỡng threshold. Đường cong này dựa vào hai chỉ số :

TPR (true positive rate): Hay nói một cách khác là recall hoặc sensitivity. Là xác suất các trường vừa lòng phân loại đúng positive bên trên tổng số các trường hợp thực tiễn là positive. Chỉ số này sẽ review mức độ dự báo đúng đắn của mô hình trên positive. Khi giá bán trị của chính nó càng cao, mô hình dự báo càng tốt trên team positive. Nếu $ extTPR=0.9$, bọn họ tin rằng 90% các mẫu thuộc đội positive đã được mô hình phân một số loại đúng.< extTPR ext/recall ext/sensitivity = fracTP exttotal positive> FPR (false positive rate): phần trăm dự báo sai các trường hợp thực tế là negative thành thành positive bên trên tổng số các trường hợp thực tiễn là negative. Nếu quý giá của $ extFPR=0.1$, mô hình đã dự đoán sai 10% trên tổng số các trường hợp là negative. Một quy mô có FPR càng phải chăng thì quy mô càng chuẩn chỉnh xác vày sai số của chính nó trên đội negative càng thấp. Phần bù của FPR là specificity thống kê giám sát tỷ lệ đoán trước đúng những trường vừa lòng negative bên trên tổng số những trường hợp thực tiễn là negative.< extFPR = 1- extspecificity= fracFP exttotal negative>

Đồ thị ROC là 1 trong đường cong mong lồi dựa vào TPR cùng FPR có bề ngoài như mặt dưới:

*

AUC là chỉ số được đo lường và thống kê dựa trên đường cong ROC (receiving operating curve) nhằm đánh giá tài năng phân loại của tế bào hình xuất sắc như cố kỉnh nào ? Phần diện tích s gạch chéo cánh nằm dưới mặt đường cong ROC và trên trục hoành là AUC (area under curve) có giá trị nằm trong vòng <0, 1>. Khi diện tích này càng béo thì đường cong ROC có xu thế tiệm cận con đường thẳng $y=1$ và kỹ năng phân một số loại của mô hình càng tốt. Khi đường cong ROC nằm liền kề với đường chéo đi qua hai điểm (0, 0) với (1, 1), quy mô sẽ tương đương với một phân một số loại ngẫu nhiên.

AUC được đo lường và tính toán như sau:


1234from sklearn.metrics import auc, roc_curvefpr, tpr, thres = metrics.roc_curve(y_label, y_pred)# tính toán aucauc(fpr, tpr)

12345678910def _plot_roc_curve(fpr, tpr, thres): roc = plt.figure(figsize = (10, 8)) plt.plot(fpr, tpr, "b-", label = "ROC") plt.plot(<0, 1>, <0, 1>, "--") plt.axis(<0, 1, 0, 1>) plt.xlabel("False Positive Rate") plt.ylabel("True Positive Rate") plt.title("ROC Curve")_plot_roc_curve(fpr, tpr, thres)

11. Quan hệ giữa TPR cùng FPRTPR cùng FPR sẽ sở hữu mối quan hệ cùng chiều. Thiệt vậy, chúng ta sẽ cùng diễn giải vấn đề đó qua hình vẽ bên dưới.

*

Hình 1: Đồ thị cung cấp của tỷ lệ xác suất (probability densitiy function - pdf) của điểm số nhóm negative bên trái và team positive bên phải. Mô hình sẽ căn cứ vào đường thẳng threshold vuông góc với trục hoành ($y$) để lấy ra đoán trước là positive tuyệt negative. Nếu như điểm số nằm cạnh trái threshold thì sẽ tiến hành dự báo là negative và nằm cạnh phải được dự đoán là positive. Vậy nên trên hình vẽ, phần diện tích $FP$ đã là false positive rate phần diện tích s $TP$ đã là true positive rate. Lúc ta dịch chuyển ngưỡng threshold từ trái sang buộc phải thì những phần diện tích s $FP$ và $TP$ sẽ cùng tăng dần. Điều này tương xứng với mối quan hệ giữa TPR (true positive rate) với FPR (false positive rate) là đồng vươn lên là theo sự chuyển đổi của threshold.

Bây giờ bạn đã hiểu lý do đường cong ROC lại là một trong những đường đồng biến hóa rồi chứ ?

Ngoài ra quy mô dự báo tỷ lệ của chúng ta sẽ càng tốt nếu vật thị phân phối xác suất của negative cùng positive gồm sự tách biệt càng lớn. Lúc ấy phần diện tích chồng lấn thân hai bày bán càng bé dại và mô hình giảm thiểu tỷ lệ dự báo nhầm. Đồng thời những phân phối phần trăm giữa negative với positive càng giải pháp xa nhau thì đồ gia dụng thị ROC càng lồi. đặc điểm lồi của ROC được mô tả qua độ khủng của phần diện tích AUC.

12. Gini và CAP

Trong nghành nghề dịch vụ credit risk, các quy mô scorecard sử dụng hệ số gini làm cho thước đo reviews sức bạo gan phân loại của những mô hình. Hệ số này cho thấy khả năng một hồ sơ đang vỡ nợ sau đây được nhận thấy từ mô hình là từng nào phần trăm. Một quy mô scorecard càng bạo gan thì thông số gini càng cao và cung cấp điểm số của hai nhóm GOOD cùng BAD vẫn càng không giống biệt. Quý hiếm của gini nằm xấp xỉ trong khoảng chừng <0, 1>.

Một thông số khác tựa như như gini đó là CAP (Cumulative Accuracy Profile). Thông số này được thống kê giám sát dựa trê tuyến phố cong CAP có màn biểu diễn như hình bên dưới:

*

Hình 2 thông số CAP và đường cong CAP của quy mô scorecard. Trên thứ thị, trục hoành trình diễn tỷ lệ tỷ lệ tích lũy của số lượng hồ sơ vay với trục tung biểu diễn tỷ lệ tích lũy của con số hồ sơ vay của nhóm BAD được những thống kê từ tỷ lệ mẫu được rút ra tương xứng trên trục hoành. Các hồ sơ sẽ tiến hành sắp xếp theo điểm số bớt dần. Đầu tiên bọn họ sẽ lấy ra một phần trăm $x$% hồ nước sơ có điểm số tối đa tương ứng với điểm $x$ trên trục hoành. Từ chủng loại $x$% này, bọn họ thống kê được $y$% phần trăm các hồ sơ BAD được phạt hiện. Sau đó gia tăng dần form size mẫu tích điểm ta đang thu được con đường CAP như mặt đường curent model trên hình vẽ.

Trên hình vẽ bọn họ có 3 mặt đường cong CAP sẽ là perfect model, current model, random model lần lượt tương ứng với những model tuyệt vời (perfect model), model hiện tại và model ngẫu nhiên. Model hoàn hảo là mô hình phân loại một cách tuyệt vời các hồ sơ nợ xấu. Đường CAP của tế bào hình hoàn hảo sẽ tiệm cận với con đường thẳng $y=1$ cho thấy rằng bạn cũng có thể lựa chọn 1 ngưỡng điểm như thế nào đó nằm giữa (0, 1) thế nào cho mô hình phân nhiều loại được 100% những trường hợp tan vỡ nợ. Mô hình tuyệt vời và hoàn hảo nhất rất ít khi có được trên thực tiễn và nếu có một quy mô gần tiệm cận với đường thẳng $y=1$ thì sẽ là một mô hình rất hết sức tốt.

Đối lập với con đường CAP tuyệt vời nhất là con đường CAP ngẫu nhiên. Đường CAP này biểu diễn hiệu quả của một sự phân nhiều loại ngẫu nhiên những nhãn BAD nên phần trăm hồ sơ BAD trưng bày đều bên trên toàn miền điểm số. Cho nên vì vậy hình dạng của đường CAP bất chợt sẽ tiệm cận với đường chéo cánh chính trải qua (0, 0) và (1, 1).

Tại sao phân phối xác suất tích lũy của BAD lại là 1 trong đường cong lồi ?

Giả sử họ lựa lựa chọn tập chủng loại $S$ tất cả $x$% quan sát có điểm cao nhất (lưu ý là những quan tiếp giáp đã được bố trí theo điểm số sút dần). Vày BAD có phân phối công ty yếu triệu tập vào nhóm bao gồm điểm số cao nên tỷ lệ các làm hồ sơ được dự đoán BAD trên tổng số hồ sơ nhãn BAD trong $S$ sẽ to hơn tỷ lệ tích lũy các quan gần kề $x$%. Phần trăm này đồng thời cũng đó là TPR (true positive rate) trên $S$.

Ở đa số $x$% cao thì các quan gần cạnh được thêm vào bao gồm điểm số nhỏ tuổi dần và vì đó vận tốc tăng của $TPR$ giảm dần. Cho nên vì thế đường CAP của quy mô hiện tại tất cả hình dạng là 1 đường cong lồi.

Công thức CAP:

Hầu không còn các quy mô có ngoại hình của con đường cong CAP giống như như con đường current model. Có nghĩa là nằm giữa con đường CAP hoàn hảo và tuyệt vời nhất và CAP ngẫu nhiên. Một quy mô càng tốt nếu con đường CAP của nó càng ngay gần đường hoàn hảo và tuyệt vời nhất và khi đường CAP càng ngay sát đường thốt nhiên thì hiệu quả dự báo của quy mô càng kém. Chỉ số CAP sẽ được tính toán dựa bên trên phần diện tích A, B ở giữa những đường CAP trả hảo, lúc này và tự nhiên như trên mẫu vẽ theo công thức:

< extCAP=fracAA+B>

Visualize con đường cong CAP như thế nào ?

Để vẽ con đường cong CAP họ lần lượt thực hiện quá trình sau:

B1: sắp đến xếp phần trăm vỡ nợ được dự đoán theo sản phẩm công nghệ tự giảm dần và chia nó thành 10 phần (decile) với số lượng quan sát phần đông nhau. Chúng ta cũng có thể lựa chọn tạo thành 15, 20 phần, tùy theo size tập huấn luyện và giảng dạy lớn xuất xắc nhỏ. Cách phân loại này sẽ xếp hạng những người vay rủi ro khủng hoảng nhất bao gồm nhóm xếp thứ hạng (rating grade) thấp duy nhất và những người vay bình yên nhất nên gồm nhóm xếp thứ hạng cao nhất.

B2: Tính số bạn vay trong mỗi nhóm (cột number of borrowers).

B3: Tính số lượng người sử dụng nợ xấu trong mỗi nhóm (cột number of bads).

B4: Tính số lượng quý khách nợ xấu tích lũy trong những nhóm (cột cumulative bads). Nợ xấu tích lũy của một tổ xếp hạng trang bị $i$ sẽ bởi tổng nợ xấu của những nhóm xếp thứ hạng trước đó từ $1,2, dots$ tính đến $i$.

B5: Tính tỷ lệ phần trăm quý khách hàng nợ xấu trong mỗi nhóm (cột % of bads) có giá trị bằng cột number of bads chia cho tổng con số hồ sơ BAD.

B6: Tính tỷ lệ phần trăm tích lũy của chúng ta nợ xấu trong những phần (cột cumulative % of bads) được tính dựa vào tổng tích điểm của cột % of bads.

Xem thêm: Lý Thuyết Khái Niệm Số Thập Phân Toán 5, Khái Niệm Số Thập Phân

*

Khi đó chúng ta sẽ thu được cột sau cuối tương ứng với mức giá trị trục tung của mặt đường cong CAP tại những điểm quý giá 10% thường xuyên của trục hoành.