ML 6

머신러닝_Confusion Matrix

Confusion Matrix (혼동행렬)머신러닝에서 분류 모델의 성능을 평가할 때 사용하는 지표입니다.혼동행렬을 사용해 모델이 단순히 ‘잘 예측했는지, 아닌지’로만 판단하지 않고 구체적으로 분석해 성능을 파악할 수 있습니다.행렬 값을 통해 모델이 어떤 부분에서 예측을 어려워하는지, 오류를 보이는지 확인할 수 있습니다.  실제        \       예측 P (Positive)N(Negative)P (Positive)T (True) / F (False)TPFNN(Negative)F (False) / T (True)FPTN예측 P (맞게 예측), N (틀리게 예측)실제 P (참인 값), N (거짓인 값)T(정확히 예측), F (잘못된 예측)"어떻게 예측했는가 + 어떤 값으로 예측 했는가"TP: (참인 ..

카테고리 없음 2025.01.06

머신러닝_KFold와 StratifiedKFold

교차 검증 (Cross Validation)train_test_split은 실행할 때마다 정확도가 달라져서 신뢰성이 떨어집니다.이를 보완하기 위해 검증이 필요한데, 이 때 K-Fold 교차 검증 방법을 사용합니다.교차 검증은 데이터를 여러 번 나누어 학습하여 검증을 반복합니다.데이터가 작거나 편향된 데이터를 가질 때 유용하게 사용됩니다. KFold데이터를 k개의 fold로 나누어 k번 반복 학습(평균 구하기) 및 검증하는 방법각각 하나의 폴드는 검증 데이터로, 나머지 k-1 폴드는 학습 데이터로 사용모델의 일반화 성능을 평가하기 위해 사용일반적인 데이터셋에서 사용, 데이터를 무작위로 분할클래스 비율이 불균형할 경우 편향된 결과 반환 (모델의 예측이 실제보다 좋게 평가될 수 있음)반복 작업 때문에 학습 시..

카테고리 없음 2025.01.03

머신러닝_지도학습_회귀 모델 평가

Mean Absolute Error (MAE)평균 절대 오차모델의 예측 값과 실제 값 간의 절대적 차이의 평균을 계산하는 지표오차를 실제 단위로 표현각 오차의 크기를 동일하게 취급해 이상치의 중요도가 낮은 경우 사용이상치의 영향을 MSE보다 덜 받아 이상치 영향이 큰 데이터를 다룰 때 용이from sklearn.metrics import mean_absolute_errormae = mean_absolute_error(y_test, y_pred)print("Mean Absolute Error:", mae)#결과#Mean Absolute Error: x.xx Mean Squared Error (MSE)평균제곱오차모델이 예측한 값과 실제 값 간의 오차 제곱의 평균을 계산하는 지표이상치의 영향을 많이 받음이상치..

카테고리 없음 2024.12.27

머신러닝_지도학습_회귀 모델

지도학습정답(라벨)이 있어서 모델이 정답을 맞추거나 예측하도록 학습하는 것 회귀 모델 (Regression)연속적인 값을 예측하는 문제 선형 회귀 (Linear Regression) 종속 변수와 하나 이상의 독립 변수 간의 선형 관계를 모델링 하는 방법 기본 수식: y=β0​+β1​x1​+β2​x2​+⋯+βn​xn​+ϵ (y는 종속변수, xn은 독립변수, b0는 절편, bn은 회귀계수, e는 오차)단순 선형 회귀 (하나의 독립 변수와 하나의 종속 변수) : y=β0​+β1​x+ϵ다중 선형 회귀 (여러 독립 변수와 하나의 종속 변수)from sklearn.linear_model import LinearRegression# 선형 회귀 모델 생성 및 학습model = LinearRegression()model..

카테고리 없음 2024.12.11

데이터 전처리 실습

이상 처리에 적합한 가상 데이터를 활용한 데이터 클리닝 문제 풀이 준비더보기데이터는 Pandas DataFrame 형식으로 제공하며, 각 열은 다음과 같은 속성을 가집니다:TransactionID: 거래 고유 IDCustomerID: 고객 고유 IDPurchaseAmount: 구매 금액 (USD)PurchaseDate: 구매 날짜ProductCategory: 제품 카테고리 (범주형 데이터)CustomerAge: 고객 나이CustomerGender: 고객 성별 (범주형 데이터)ReviewScore: 제품 리뷰 점수 (1~5 사이의 값, 결측값 포함import pandas as pdimport numpy as np# 가상 데이터 생성data = { 'TransactionID': range(1, 21),..

카테고리 없음 2024.12.10

머신러닝_지도학습_분류 모델

지도학습정답(라벨)이 있어서 모델이 정답을 맞추거나 예측하도록 학습하는 것 로지스틱 회귀결과가 두 가지 중 하나(= 종속 변수가 이진형)일 때 데이터가 특정 클래스에 속할 확률을 예측합니다.결과값이 0과 1 사이에 위치하도록 시그모이드 함수를 사용합니다.예) 유방암 데이터 - 환자가 암에 걸렸을 확률 예측, 타이타닉 데이터 - 승객이 생존할 확률 예측더보기시그모이드 함수(Sigmoid Function)입력값을 0과 1사이의 값으로 변환비용 함수로그 손실 함수(Log Loss) / 크로스 엔트로피 손실 함수(Cross-Entropy loss)모델의 예측 확률과 실제 레이블 사이의 차이를 측정from sklearn.linear_model import LogisticRegression#로지스틱 회귀 모델 생성..

카테고리 없음 2024.12.09