본문 바로가기

반응형

데이터 분석

(15)
파이썬 판다스 실무 데이터 분석 (1) 파이썬 판다스를 사용하면 현재 가진 데이터에서 빠르게 원하는 정보를 얻을 수 있습니다. 마케팅과 같이 데이터에 대한 전문성이 높지 않지만 데이터를 활용할 수 있는 분야에서 판다스 활용 능력은 업무에 많은 도움이 됩니다. 이번 시간에는 판다스를 활용하여 다양한 실무 데이터 분석을 해보도록 하겠습니다. 데이터 불러오기 import pandas as pd hotels = pd.read_csv("hotel_booking_data.csv") 파이썬에서 판다스 라이브러리를 불러오고 'hotel_booking_data' 데이터를 가져옵니다. 데이터 파일은 'hotels'라는 별칭을 지정합니다. hotels.head() head 함수를 사용하여 대략적인 데이터 구성을 보면 총 36개의 열을 확인할 수 있습니다. hot..
파이썬 사이킷런 (Scitkit-Learn)과 선형회귀 모델 (1) 선형회귀 모델은 데이터 분석에서 정말 자주 사용되는데요, 선형회귀 모델은 변수 간의 상관관계를 파악하여 관계를 예측하는 데 사용됩니다. 한 가지 이상의 변수들의 관계 역시 분석할 수 있습니다. 머신러닝을 활용한 선형회귀 모델을 파이썬에서 제공하는 사이킷런 (Scitkit-Learn) 라이브러리를 사용하여 만들 수 있습니다. 머신러닝을 진행할 때 전체 데이터 (학습 데이터)를 학습에 사용하고 일부 데이터 (테스트 데이터)는 성능을 평가하기 위해 사용되기 때문에 데이터를 무작위로 섞어서 분할하는 과정이 필요합니다. 이번 글에서는 기본 선형회귀 그래프를 만들어 보고 선형회귀 모델을 만들기 위해 데이터를 분할하는 방법에 대해 알아보도록 하겠습니다. 기본 선형회귀 그래프 import numpy as np impo..
Matplotlib 기본 라인 그래프 만들기 데이터분석은 데이터에서 인사이트를 발견하고 발견한 사실을 데이터에 대한 지식이 없는 분들도 쉽게 이해할 수 있도록 데이터를 시각화하는 작업이 필요합니다. 파이썬에서 제공하는 Matplotlib 라이브러리를 사용하면 데이터시각화에 도움이 되는 다양한 그래프를 만들 수 있습니다. Matplotlib를 사용하여 기본 라인 그래프를 만드는 방법을 알아보겠습니다. 출발합니다! 직선 라인 그래프 import matplotlib.pyplot as plt Matplotlib 라이브러리를 사용하려면 "import matplotlib.pyplot as plt" 라인을 입력해야 합니다. Matplotlib 라이브러리를 불러온다는 의미이며 as 뒤에는 사용하기 편한 아무 별칭을 입력하면 됩니다. import numpy as ..
판다스 데이터프레임 합치기 (concat, merge) 데이터 분석을 하다 보면 다른 데이터프레임을 서로 합쳐야 하는 경우가 있는데요, 판다스로 다른 데이터프레임을 합치는 방법에 대하여 알아보도록 하겠습니다. 출발합니다! 데이터 준비 1 data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']} data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']} one = pd.DataFrame(data_one) two = pd.DataFrame(data_two) 먼저 임의로 데이터프레임 두 개 (one과 two)를 만들어 줍니다. one two Concat ( ): 행을 기준으로 합치기 A = pd.concat([one,t..
Pandas 피벗 테이블 만들기 데이터프레임의 데이터가 복잡하고 많으면 원하는 정보를 얻기 힘듭니다. 데이터를 정렬하여 원하는 정보를 빨리 찾기 위해서 피벗 테이블을 활용할 수 있습니다. 판다스의 피벗 테이블은 엑셀의 피벗 테이블보다 더 높은 유연성을 제공하므로 피벗 테이블 관련 함수는 자주 사용됩니다. CSV 파일 불러오기 df = pd.read_csv('Sales_Funnel_CRM.csv') df Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "Sales_Funnel_CRM.csv"라는 csv 파일을 불러옵니다. Pivot( ) 함수 연습: 구글이 구매한 제품과 라이선스 수 licenses = df[['Co..
Pandas Null값 관련 함수 데이터분석을 할 때 가장 방해되는 요소 중 하나가 Null값 입니다. 특히, 숫자의 계산이 필요한 경우 null값은 계산의 부정확성을 증가시킵니다. 임의로 값을 변경할 경우 정확한 분석을 할 수 없기 때문에 평균값을 입력하는 듯 합리적인 기준을 설정하여 Null 값을 변경해야합니다. 또는, 합리적인 기준에 따라 null값을 제거할 수 있습니다. 데이터프레임에서 null값을 다루는 방법을 알아보겠습니다. CSV 파일 불러오기 df = pd.read_csv('movie_scores.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "movie_scores"라는 csv 파일을 불..
Pandas 활용도 높은 함수 Pandas에는 다양한 함수가 있습니다. 그중에서 활용도가 높은 함수 몇 가지를 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. Transpose( ) 함수 df.describe() df.describe().transpose() transpose 함수를 이용하면 데이터의 행과 열을 바꿀 수 있습니다. Sort_values( ) 함수 df.sort_values('tip') sort_values 함수를 사용하면 특정 열을 기준으로 데이터를 정렬할 수..
Pandas Apply 함수 (2) 이전 글에 이어 apply 함수에 대하여 더 알아보도록 하겠습니다. apply와 함께 자주 사용되는 lambda 함수와 lambda 함수 대신 사용할 수 있는 vectorize 함수도 함께 알아보도록 하겠습니다. 해당 글을 보시기 전에 이전 apply 함수 글을 먼저 확인해 주세요. Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, thespud.kr CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경..
Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. Apply( ) 함수를 사용한 Column 추가 (1) def last_four(num): return str(num)[-4:] def 함수를 사용하여 커스텀 함수를 만듭니다. 위의 예시 코드는 "last_four"라는 함수를 만들고 해당 함수에 문자 데이터를 입력하면 입력한 문자 데이터의..
Pandas 조건 필터링 파이썬을 사용하여 데이터를 불러오고 조건을 설정하여 데이터를 필터링하는 방법을 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 단일 조건 지정 df[df['total_bill']>30] df['total_bill']>30는 불러온 데이터에서 total_bill이 30보다 큰 행만 가져온다는 뜻입니다. 실제로 해당 행만 불러온 데이터에서 가져오기 위해 df[df['total_bill']>30]와 같이 df (불러온 데이터)를 한번 더 입력합니다. ..

반응형