본문 바로가기

반응형

파이썬판다스

(7)
파이썬 판다스 실무 데이터 분석 (1) 파이썬 판다스를 사용하면 현재 가진 데이터에서 빠르게 원하는 정보를 얻을 수 있습니다. 마케팅과 같이 데이터에 대한 전문성이 높지 않지만 데이터를 활용할 수 있는 분야에서 판다스 활용 능력은 업무에 많은 도움이 됩니다. 이번 시간에는 판다스를 활용하여 다양한 실무 데이터 분석을 해보도록 하겠습니다. 데이터 불러오기 import pandas as pd hotels = pd.read_csv("hotel_booking_data.csv") 파이썬에서 판다스 라이브러리를 불러오고 'hotel_booking_data' 데이터를 가져옵니다. 데이터 파일은 'hotels'라는 별칭을 지정합니다. hotels.head() head 함수를 사용하여 대략적인 데이터 구성을 보면 총 36개의 열을 확인할 수 있습니다. hot..
Pandas 피벗 테이블 만들기 데이터프레임의 데이터가 복잡하고 많으면 원하는 정보를 얻기 힘듭니다. 데이터를 정렬하여 원하는 정보를 빨리 찾기 위해서 피벗 테이블을 활용할 수 있습니다. 판다스의 피벗 테이블은 엑셀의 피벗 테이블보다 더 높은 유연성을 제공하므로 피벗 테이블 관련 함수는 자주 사용됩니다. CSV 파일 불러오기 df = pd.read_csv('Sales_Funnel_CRM.csv') df Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "Sales_Funnel_CRM.csv"라는 csv 파일을 불러옵니다. Pivot( ) 함수 연습: 구글이 구매한 제품과 라이선스 수 licenses = df[['Co..
Pandas Null값 관련 함수 데이터분석을 할 때 가장 방해되는 요소 중 하나가 Null값 입니다. 특히, 숫자의 계산이 필요한 경우 null값은 계산의 부정확성을 증가시킵니다. 임의로 값을 변경할 경우 정확한 분석을 할 수 없기 때문에 평균값을 입력하는 듯 합리적인 기준을 설정하여 Null 값을 변경해야합니다. 또는, 합리적인 기준에 따라 null값을 제거할 수 있습니다. 데이터프레임에서 null값을 다루는 방법을 알아보겠습니다. CSV 파일 불러오기 df = pd.read_csv('movie_scores.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "movie_scores"라는 csv 파일을 불..
Pandas Apply 함수 (2) 이전 글에 이어 apply 함수에 대하여 더 알아보도록 하겠습니다. apply와 함께 자주 사용되는 lambda 함수와 lambda 함수 대신 사용할 수 있는 vectorize 함수도 함께 알아보도록 하겠습니다. 해당 글을 보시기 전에 이전 apply 함수 글을 먼저 확인해 주세요. Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, thespud.kr CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경..
Pandas Apply 함수 (1) Pandas 함수 중 Apply 함수를 사용하면 새롭게 계산된 데이터 또는 조건에 따른 데이터를 가진 열을 쉽게 추가할 수 있습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. Apply( ) 함수를 사용한 Column 추가 (1) def last_four(num): return str(num)[-4:] def 함수를 사용하여 커스텀 함수를 만듭니다. 위의 예시 코드는 "last_four"라는 함수를 만들고 해당 함수에 문자 데이터를 입력하면 입력한 문자 데이터의..
Pandas 조건 필터링 파이썬을 사용하여 데이터를 불러오고 조건을 설정하여 데이터를 필터링하는 방법을 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 단일 조건 지정 df[df['total_bill']>30] df['total_bill']>30는 불러온 데이터에서 total_bill이 30보다 큰 행만 가져온다는 뜻입니다. 실제로 해당 행만 불러온 데이터에서 가져오기 위해 df[df['total_bill']>30]와 같이 df (불러온 데이터)를 한번 더 입력합니다. ..
Pandas DataFrames 기본 Indexing (Columns) 파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요. df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다. 열 (Columns) 항목 확인 df.columns Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size', 'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'], dtype=..

반응형