전체 글 42

데이터 전처리 실습

이상 처리에 적합한 가상 데이터를 활용한 데이터 클리닝 문제 풀이 준비더보기데이터는 Pandas DataFrame 형식으로 제공하며, 각 열은 다음과 같은 속성을 가집니다:TransactionID: 거래 고유 IDCustomerID: 고객 고유 IDPurchaseAmount: 구매 금액 (USD)PurchaseDate: 구매 날짜ProductCategory: 제품 카테고리 (범주형 데이터)CustomerAge: 고객 나이CustomerGender: 고객 성별 (범주형 데이터)ReviewScore: 제품 리뷰 점수 (1~5 사이의 값, 결측값 포함import pandas as pdimport numpy as np# 가상 데이터 생성data = { 'TransactionID': range(1, 21),..

카테고리 없음 2024.12.10

머신러닝_지도학습_분류 모델

지도학습정답(라벨)이 있어서 모델이 정답을 맞추거나 예측하도록 학습하는 것 로지스틱 회귀결과가 두 가지 중 하나(= 종속 변수가 이진형)일 때 데이터가 특정 클래스에 속할 확률을 예측합니다.결과값이 0과 1 사이에 위치하도록 시그모이드 함수를 사용합니다.예) 유방암 데이터 - 환자가 암에 걸렸을 확률 예측, 타이타닉 데이터 - 승객이 생존할 확률 예측더보기시그모이드 함수(Sigmoid Function)입력값을 0과 1사이의 값으로 변환비용 함수로그 손실 함수(Log Loss) / 크로스 엔트로피 손실 함수(Cross-Entropy loss)모델의 예측 확률과 실제 레이블 사이의 차이를 측정from sklearn.linear_model import LogisticRegression#로지스틱 회귀 모델 생성..

카테고리 없음 2024.12.09

파이썬 문제_1

간단한 파이썬 문제들 중 몰랐던 개념, 어려웠던 문제, 남기고 싶은 코드 정리하기end= " "리스트 요소를 하나씩 프린트 하는 것이 아니라 원하는 문자로 이어서 출력하기#1부터 44까지 짝수만 출력for i in range(1, 45): if i % 2 == 0: print(i, end=" ") #요소 사이에 공백으로 프린트#결과: 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 #end="," 하면 ,로 요소를 구분할 수 있음. 하지만 맨 마지막에도 똑같이 출력되니 주의#2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,피보나치 수열첫째 및 둘째 항이 1이며..

카테고리 없음 2024.12.06

데이터 전처리_중복 데이터 제거, 타입 변환, 인코딩

import pandas as pdimport numpy as np# 가상 데이터 생성data = { "Name": ["Alice", "Bob", "Alice", "David", "Eve", "Frank", "Gina", "Hank", "Ivy", "Jack"], "Age": [25, 30, "25", 35, 29, 40, None, 33, 30, 27], "Gender": ["F", "M", "F", "M", "F", "M", "F", "M", "F", "M"], "City": ["Seoul", "Busan", "Seoul", "Daegu", "Incheon", "Busan", "Daegu", "Incheon", "Seoul", "Daegu"], "Salary": [50000..

카테고리 없음 2024.12.05

문자열 포맷팅

문자열 포맷팅 (String Formatting)문자열 안에 변수를 삽입하거나, 특정 형식으로 데이터를 출력할 때 사용 , 자릿수와 공백 지정 가능 % 포맷팅'%자료형' 형식으로 문자열 안에 넣고 마지막에 '%문자/변수' 추가자료형: 정수(%d), 문자(%c), 문자열(%s), 부동소수(%f), 8진수(%o), 16 진수(%x) #문자열 "I have an %s." % 'apple' #결과: I have an apple. #두 개 이상의 값"fruits: %s, %s" % ('apple', 'banana')#결과: fruits: apple, banana정렬#문자열의 자릿수를 10으로 설정(공백 오른쪽)"I have an %10s." % 'apple'#결과: I have an apple.#공백 ..

카테고리 없음 2024.12.04

Set 자료형

collection data types_Set 컬렉션 자료형(Collection Data Types)더보기여러 개의 데이터를 하나의 변수에 그룹화하여 저장하고 효율적으로 관리하는 데 사용되는 자료형입니다.일반적으로 리스트, 튜플, 딕셔너리, 세트가 있습니다. Dictionary 자료형collection data types_Dictionary컬렉션 자료형(Collection Data Types)더보기여러 개의 데이터를 하나의 변수에 그룹화하여 저장하고 효율적으로 관리하는 데 사용되는 자료형입니다.일반적으로 리스트, 튜minjung405.tistory.com  List 자료형collection data types_List 컬렉션 자료형(Collection Data Types)더보기여러 개의 데이터를 하나의 ..

카테고리 없음 2024.12.03

파일 처리하기

파일 경로더보기파이썬 코드에서는 파일 경로를 슬래시(/)로 표시합니다.예) "/content/data/dataname.csv" 역슬래시(\)를 사용하면 \n과 같은 이스케이프 문자와 혼동이 될 수 있으므로, 역슬래시를 2개 사용하거나 문자열 앞에 r문자를 더해줘야합니다예) "\\content\\data\\newfile.txt", r"\content\data\newfile.txt"파일 열기, 닫기open(): ' 파일 이름’과 ‘파일 열기 모드’를 입력 값으로 받고 결과 값으로 파일 객체 리턴, 파일을 처리하려면 가장 먼저 파일을 열어야 함r: 읽기 모드 (파일이 존재하지 않으면 오류 발생)w: 쓰기 모드 (파일이 존재하지 않으면 새로 만들고, 파일이 존재하면 덮어쓰기)a: 추가 모드 (파일 끝에 데이터를..

카테고리 없음 2024.12.02

객체 지향 프로그래밍

객체 지향 프로그래밍 (OOP, Object-Oriented Programming)클래스와 객체를 사용해 독립된 단위로 프로그램을 설계하고 구현하는 방식(쉽게 풀이하면, 클래스라는 설계도로 실제 상품인 객체를 만드는 것) 절차 지향 프로그래밍 : 어떤 기능을 어떤 순서로 처리할 지 순차적이고 수직적으로 관리하나의 큰 기능을 처리하기 위해 작은 단위의 기능들로 나누어 처리하는 접근 방식단점: 프로그램이 복잡해질수록 관리하기 어려워짐(코드가 반복되거나 작은 부분을 수정하면 전체 코드에 영향)대표 언어: C, Pascal(교육용 언어), FORTRAN(과학 계산용 언어)사용: 임베디드 시스템, 간단한 프로그래밍, 알고리즘 구현 등 객체 지향 프로그래밍: 어떤 객체가 어떤 일을 할 지, 여러 개의 객체들이 상호..

카테고리 없음 2024.11.29

데이터 전처리_결측치, 이상치

결측치(Missing Values)와 이상치(Outlier Values) 탐지 및 처리결측치: 데이터에 값이 없는 경우이상치: 데이터의 일반적인 패턴에서 벗어난 값, 문제의 정의에 따라 값을 새롭게 정의할 수 있습니다. ※ 적절한 처리 방법은 데이터의 특성과 도메인 지식, 분석 목적에 따라 달라지므로 경우에 맞게 적절한 처리방법을 선택해야 합니다.일관된 결측치 처리와 목적을 고려하지 않은 이상치 판단은 잘못된 데이터 분석을 만들며 성능을 낮출 수 있습니다.NaN은 수치적인 데이터 측면으로, 정의되지 않은 값이고 None은 값이 없는 /할당되지 않은 값파이썬에서는 None도 결측치로 처리하기 때문에 상관 없지만 둘은 개념적으로는 다르다 결측치 탐지isna(), isnull(): 결측치 탐지import pa..

카테고리 없음 2024.11.28

List 자료형

collection data types_List 컬렉션 자료형(Collection Data Types)더보기여러 개의 데이터를 하나의 변수에 그룹화하여 저장하고 효율적으로 관리하는 데 사용되는 자료형입니다.일반적으로 리스트, 튜플, 딕셔너리, 세트가 있습니다.2024.11.26 - [분류 전체보기] - Dictionary 자료형 Dictionary 자료형collection data types_Dictionary컬렉션 자료형(Collection Data Types)더보기여러 개의 데이터를 하나의 변수에 그룹화하여 저장하고 효율적으로 관리하는 데 사용되는 자료형입니다.일반적으로 리스트, 튜minjung405.tistory.com  Set 자료형collection data types_Set 컬렉션 자료형(Co..

카테고리 없음 2024.11.26