본문 바로가기

반응형

데이터분석

(13)
파이썬 판다스 실무 데이터 분석 (1) 파이썬 판다스를 사용하면 현재 가진 데이터에서 빠르게 원하는 정보를 얻을 수 있습니다. 마케팅과 같이 데이터에 대한 전문성이 높지 않지만 데이터를 활용할 수 있는 분야에서 판다스 활용 능력은 업무에 많은 도움이 됩니다. 이번 시간에는 판다스를 활용하여 다양한 실무 데이터 분석을 해보도록 하겠습니다. 데이터 불러오기 import pandas as pd hotels = pd.read_csv("hotel_booking_data.csv") 파이썬에서 판다스 라이브러리를 불러오고 'hotel_booking_data' 데이터를 가져옵니다. 데이터 파일은 'hotels'라는 별칭을 지정합니다. hotels.head() head 함수를 사용하여 대략적인 데이터 구성을 보면 총 36개의 열을 확인할 수 있습니다. hot..
Matplotlib 기본 라인 그래프 만들기 데이터분석은 데이터에서 인사이트를 발견하고 발견한 사실을 데이터에 대한 지식이 없는 분들도 쉽게 이해할 수 있도록 데이터를 시각화하는 작업이 필요합니다. 파이썬에서 제공하는 Matplotlib 라이브러리를 사용하면 데이터시각화에 도움이 되는 다양한 그래프를 만들 수 있습니다. Matplotlib를 사용하여 기본 라인 그래프를 만드는 방법을 알아보겠습니다. 출발합니다! 직선 라인 그래프 import matplotlib.pyplot as plt Matplotlib 라이브러리를 사용하려면 "import matplotlib.pyplot as plt" 라인을 입력해야 합니다. Matplotlib 라이브러리를 불러온다는 의미이며 as 뒤에는 사용하기 편한 아무 별칭을 입력하면 됩니다. import numpy as ..
Pandas 피벗 테이블 만들기 데이터프레임의 데이터가 복잡하고 많으면 원하는 정보를 얻기 힘듭니다. 데이터를 정렬하여 원하는 정보를 빨리 찾기 위해서 피벗 테이블을 활용할 수 있습니다. 판다스의 피벗 테이블은 엑셀의 피벗 테이블보다 더 높은 유연성을 제공하므로 피벗 테이블 관련 함수는 자주 사용됩니다. CSV 파일 불러오기 df = pd.read_csv('Sales_Funnel_CRM.csv') df Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "Sales_Funnel_CRM.csv"라는 csv 파일을 불러옵니다. Pivot( ) 함수 연습: 구글이 구매한 제품과 라이선스 수 licenses = df[['Co..
Pandas Null값 관련 함수 데이터분석을 할 때 가장 방해되는 요소 중 하나가 Null값 입니다. 특히, 숫자의 계산이 필요한 경우 null값은 계산의 부정확성을 증가시킵니다. 임의로 값을 변경할 경우 정확한 분석을 할 수 없기 때문에 평균값을 입력하는 듯 합리적인 기준을 설정하여 Null 값을 변경해야합니다. 또는, 합리적인 기준에 따라 null값을 제거할 수 있습니다. 데이터프레임에서 null값을 다루는 방법을 알아보겠습니다. CSV 파일 불러오기 df = pd.read_csv('movie_scores.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "movie_scores"라는 csv 파일을 불..
Pandas 활용도 높은 함수 Pandas에는 다양한 함수가 있습니다. 그중에서 활용도가 높은 함수 몇 가지를 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. Transpose( ) 함수 df.describe() df.describe().transpose() transpose 함수를 이용하면 데이터의 행과 열을 바꿀 수 있습니다. Sort_values( ) 함수 df.sort_values('tip') sort_values 함수를 사용하면 특정 열을 기준으로 데이터를 정렬할 수..
Pandas Apply 함수 (2) 이전 글에 이어 apply 함수에 대하여 더 알아보도록 하겠습니다. apply와 함께 자주 사용되는 lambda 함수와 lambda 함수 대신 사용할 수 있는 vectorize 함수도 함께 알아보도록 하겠습니다. 해당 글을 보시기 전에 이전 apply 함수 글을 먼저 확인해 주세요. Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, thespud.kr CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경..
Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. Apply( ) 함수를 사용한 Column 추가 (1) def last_four(num): return str(num)[-4:] def 함수를 사용하여 커스텀 함수를 만듭니다. 위의 예시 코드는 "last_four"라는 함수를 만들고 해당 함수에 문자 데이터를 입력하면 입력한 문자 데이터의..
Pandas 조건 필터링 파이썬을 사용하여 데이터를 불러오고 조건을 설정하여 데이터를 필터링하는 방법을 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 단일 조건 지정 df[df['total_bill']>30] df['total_bill']>30는 불러온 데이터에서 total_bill이 30보다 큰 행만 가져온다는 뜻입니다. 실제로 해당 행만 불러온 데이터에서 가져오기 위해 df[df['total_bill']>30]와 같이 df (불러온 데이터)를 한번 더 입력합니다. ..
Pandas DataFrames 기본 Indexing (Rows) 파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 행 (Raw) Index 설정 df.set_index('Payment ID') df = df.reset_index() df.head() set_index 함수를 사용하여 Payment ID를 인덱스로 지정합니다. head 함수를 활용하여 순서 상 상단 5개의 행 데이터를 가져옵니다. 특정 행 (..
Pandas DataFrames 기본 Indexing (Columns) 파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 열 (Columns) 항목 확인 df.columns Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size', 'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'], dtype=..

반응형