2024/12/18 2

4. Online Retail 데이터셋

1. 캐글* 캐글(Kaggle)은 데이터 과학자와 머신러닝 엔지니어들이 학습, 협업, 경쟁할 수 있는 온라인 플랫폼입니다.* 구글에 소속된 이 플랫폼은 다양한 데이터셋과 머신러닝 문제를 제공하며, 사용자들이 자신의 모델을 개발하고 성능을 경쟁적으로 평가받을 수 있는 경진대회도 열립니다.* 초보자는 데이터를 다루는 실습을 하고, 경험 많은 전문가들은 포트폴리오를 확장하거나 상금을 받을 기회를 얻을 수 있습니다.* 또한, 커뮤니티 포럼과 튜토리얼, 노트북 공유를 통해 지식을 공유하고 학습할 수 있는 환경을 제공합니다.* 캐글은 데이터 분석과 머신러닝을 배우고 실제 문제에 적용해 보고 싶은 사람들에게 유용한 플랫폼입니다.>공식 사이트 : https://www.kaggle.com/ Kaggle: Your Mac..

2-2) 판다스(Pandas)

판다스가 길어서 2로 이어서 하겠습니다. 예시 결과물은 길어서 캡쳐본 저장하였으니 궁금하시면 펼쳐보시면 됩니다. 평균과 중앙값 뒤부터 하겠습니다. 예시 1)df_copy['height'].max() # 최대값-->182.0 예시 2)df_copy['height'].var() # 분산-->52.203567251462 예시 3)df_copy['height'].std() # 표준편차-->7.225203613149044 편차 와 분산 표준편차의 공식   ※ 분산과 표준편차* 분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다.* 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다.* 평균에서..