전체 글 177

10. 파이토치로 구현한 선형 회귀

1. 선형 회귀 분석* 선형 회귀 분석(Linear Regression)은 주어진 데이터에서 입력 변수(독립 변수)와 출력 변수(종속 변수) 사이의 관계를 직선(또는 다차원에서는 평면)으로 설명하고, 새로운 입력 값에 대한 출력을 예측하는 통계 및 머신러닝 기법입니다.* 예를 들어, 공부 시간(입력 변수)과 시험 점수(출력 변수) 사이의 관계를 분석해 "공부 시간이 늘어날수록 시험 점수가 증가한다"는 패턴을 찾아냅니다. * 이 과정에서 선형 회귀는 "Y = W X + b"라는 수식(기울기 W와 절편 b)으로 데이터를 표현하며, 최적의 기울기와 절편을 찾기 위해 비용 함수(Cost Function)를 최소화하는 경사 하강법(Gradient Descent) 등의 알고리즘을 사용합니다. * 최종적으로 선형 회..

9. 파이토치 프레임워크

1. PyTorch(파이토치)* PyTorch는 파이썬 기반의 오픈소스 딥러닝 프레임워크로, 파이썬 코드로 AI 모델을 직관적으로 만들고 학습할 수 있도록 도와주는 도구입니다. * 특히 동적 계산 그래프 방식을 사용하기 때문에 코드 실행 시점에 실시간으로 계산 흐름이 결정되어 디버깅과 수정이 쉽고, GPU 가속과 자동 미분 기능을 통해 대규모 모델도 빠르게 학습할 수 있습니다. > 동적 계산 그래프 방식* 동적 계산 그래프 방식은 딥러닝 모델이 학습 및 예측을 수행할 때 계산 그래프를 실행 시점(runtime)에 실시간으로 생성 및 수정하는 방식입니다. * 이 방식은 조건문, 반복문 등 복잡한 논리 구조를 유연하게 처리할 수 있으며, 주로 PyTorch와 같은 프레임워크에서 사용됩니다. * 계산 그래프는..

8. 머신러닝과 딥러닝

1. 인공지능* 인공지능(AI, Artificial Intelligence)은 컴퓨터나 기계가 인간처럼 생각하고 학습하며 문제를 해결하는 능력을 갖추도록 만드는 기술입니다.* AI는 컴퓨터 과학의 한 분야로, 데이터를 활용해 의사결정을 내리거나 예측하는 시스템을 개발하는 것을 목표로 합니다. 1-1. 규칙 기반 알고리즘* Rule-based algorithms(규칙 기반 알고리즘)은 명시적으로 정의된 규칙(If-Then-Else 문법 등)을 사용하여 특정 문제를 해결하거나 작업을 수행하는 알고리즘입니다.* 이러한 알고리즘은 사람이 직접 작성한 논리와 조건에 따라 작동하며, 데이터를 학습하지 않고도 결과를 도출할 수 있습니다. 1-2. 머신러닝* 머신러닝(Machine Learning)은 인공지능(AI)의..

7. 커피프랜차이즈 이점 전략

1. 커피프랜차이즈 데이터 가져오기 및 import 하기import timeimport re # 정규식 패턴import pandas as pdfrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom bs4 import BeautifulSoup 예 1)import timeimport re # 정규식(Regular Expression) 처리를..

6. 서울시 공공자전거 실시간 대여정보

1. 인증키를 발급 받습니다.2. "서울시 공공자전거 실시간 대여정보" 를 검색합니다.3. 인증키를 신청합니다.4. 인증키 관리가면 발급받은키를 확인할 수 있습니다.사이트 주소 : https://data.seoul.go.kr/ 열린데이터광장 메인데이터분류,데이터검색,데이터활용data.seoul.go.kr 1. 서울 열린데이터 광장* 서울 열린데이터 광장(Seoul Open Data Plaza)은 서울시에서 운영하는 공공데이터 개방 플랫폼입니다. * 시민, 연구자, 기업 등이 서울시에서 생성한 다양한 공공데이터를 자유롭게 활용할 수 있도록 제공하고 있습니다. * 이를 통해 데이터 기반의 창의적인 아이디어와 혁신을 촉진하며, 시민들의 정보 접근성을 높이고 공공서비스를 개선하는 데 기여하고 있습니다. 예시 1..

5. 상권_데이터셋

1. 공공데이터* 공공데이터(data.go.kr)는 대한민국 정부에서 운영하는 공공데이터 포털로, 공공기관이 보유한 다양한 데이터를 국민과 기업, 개발자 등에게 개방하여 활용할 수 있도록 제공하는 플랫폼입니다.* 데이터를 파일 형식(Excel, CSV 등)으로 다운로드하거나, API 형태로 실시간 연동하여 사용할 수 있습니다. 1. import 해준다import pandas as pdimport numpy as npimport matplotlib.pyplot as plt 2. 데이터를 구글 드라이브에 붙혀서 경로 복사후 자기 경로로 맞춰준다shop = pd.read_csv('/content/drive/MyDrive/KDT 시즌 4/10. 데이터분석/Data/소상공인시장..

3. Matplotlib

1. Matplotlib* Matplotlib은 파이썬에서 데이터를 시각화하는 데 널리 사용되는 강력한 라이브러리입니다.* 다양한 그래프와 차트를 그릴 수 있으며, 선 그래프, 막대그래프, 히스토그램, 산점도 등 기본적인 그래프부터 복잡한 3D 플롯까지 지원합니다.* 사용법이 비교적 간단하고, 커스터마이징이 가능하여 데이터의 패턴과 트렌드를 효과적으로 표현할 수 있습니다.* 또한, NumPy와 Pandas와 같은 데이터 분석 라이브러리와 잘 통합되어 데이터 과학, 머신러닝, 통계 등 다양한 분야에서 활용됩니다.* Matplotlib의 기본 모듈인 pyplot은 MATLAB과 유사한 인터페이스를 제공해 초보자도 쉽게 사용할 수 있도록 설계되었습니다. > 공식 사이트 : https://matplotlib.o..

4. Online Retail 데이터셋

1. 캐글* 캐글(Kaggle)은 데이터 과학자와 머신러닝 엔지니어들이 학습, 협업, 경쟁할 수 있는 온라인 플랫폼입니다.* 구글에 소속된 이 플랫폼은 다양한 데이터셋과 머신러닝 문제를 제공하며, 사용자들이 자신의 모델을 개발하고 성능을 경쟁적으로 평가받을 수 있는 경진대회도 열립니다.* 초보자는 데이터를 다루는 실습을 하고, 경험 많은 전문가들은 포트폴리오를 확장하거나 상금을 받을 기회를 얻을 수 있습니다.* 또한, 커뮤니티 포럼과 튜토리얼, 노트북 공유를 통해 지식을 공유하고 학습할 수 있는 환경을 제공합니다.* 캐글은 데이터 분석과 머신러닝을 배우고 실제 문제에 적용해 보고 싶은 사람들에게 유용한 플랫폼입니다.>공식 사이트 : https://www.kaggle.com/ Kaggle: Your Mac..

2-2) 판다스(Pandas)

판다스가 길어서 2로 이어서 하겠습니다. 예시 결과물은 길어서 캡쳐본 저장하였으니 궁금하시면 펼쳐보시면 됩니다. 평균과 중앙값 뒤부터 하겠습니다. 예시 1)df_copy['height'].max() # 최대값-->182.0 예시 2)df_copy['height'].var() # 분산-->52.203567251462 예시 3)df_copy['height'].std() # 표준편차-->7.225203613149044 편차 와 분산 표준편차의 공식   ※ 분산과 표준편차* 분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다.* 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다.* 평균에서..

2. 판다스(Pandas)

1. 판다스(Pandas)* 판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. * 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다. pandas 설치!pip install pandas import pandas as pd 2. Series와 DataFrame2-1. Series* Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. * 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. * 값은 넘파이의 ndarray 기반으로 저장됩니다. * Series는 다양한 데이터 타입을 가..