본문 바로가기

데이터 분석

Pandas DataFrames 기본 Indexing (Columns)

반응형

 

 

파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. 

 

 

 
 

CSV 파일 불러오기

 

df = pd.read_csv('tips.csv')

 

 

Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요.

df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다.

 

 

 
 

열 (Columns) 항목 확인

 

df.columns

 

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size',
       'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'],
      dtype='object')

 

 

df라는 이름을 붙인 DataFrame에서 열 항목만 확인할 수 있습니다. 

 

 

 
 

특정 수의 행 (Row) 데이터만 확인

 

df.head(3)

 

 

 

DataFrame 순서 상 상단 3개의 행 정보만 확인할 수 있습니다. 

 

 

df.tail(3)

 

 

 

DataFrame 순서 상 하단 3개의 행 정보만 확인할 수 있습니다. 

 

 

 
 

전체 행 (Row) 수 확인

 

len(df)

 

 

df라는 이름을 붙인 DataFrame의 총 행 수를 알 수 있습니다.

 

 

 
 

특정 열 (Columns) 데이터 확인 

 

df['total_bill']

 

 

 

df라는 이름을 붙인 DataFrame에 있는 "total_bill" 열 항목의 데이터만 확인할 수 있습니다. 

 

 

 

df[['total_bill','tip']]

 

 

 

2가지 이상 열 항목의 데이터를 확인할 수 있습니다.

 

 

 
 

 열 (Columns) 추가 

 

df['tip_percentage'] = 100* df['tip'] / df['total_bill']

 

df.head()

 

 

 

df라는 이름을 붙인 DataFrame에 "tip_percentage"라는 열을 추가합니다. 해당 열의 데이터는 "tip"에 100을 곱한 값을 "total_bill"로 나눈 값입니다. 

 

 

 
 

 열 (Columns) 데이터 수정 

 

df['price_per_person'] = np.round(df['price_per_person'],2)

 

df.head()

 

 

 

데이터프레임에 있는 숫자 데이터를 수정할 수 있습니다. Pandas가 Numpy를 기본으로 하기 때문에 Numpy 기능을 활용하여 데이터를 수정할 수 있습니다. "price_per_person" 열 데이터를 평균값 (round)으로 바꾸며 소수점 둘째 자리까지만 표기합니다.   

 

 

 
 

 열 (Columns) 데이터 삭제

 

df = df.drop("tip_percentage",axis=1)

 

df.head()

 

 

 

drop 기능을 사용하여 특정 열 데이터를 제거할 수 있습니다. axis=1 은 열 그리고 axis=0은 행을 의미합니다.     

 

 


 

 

 

 

MySQL로 온라인 스토어 트래픽 전환율 확인하기

안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 특정 소스의 트래픽 전환율 (Conversion Rate) 구하기 아래 온

thespud.kr

 

MySQL로 온라인 스토어 방문자 수 확인하기

안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 방문자 수가 가장 많은 소스 구하기 아래 온라인 스토어

thespud.kr

 

반응형