본문 바로가기

데이터 분석

Pandas DataFrames 기본 Indexing (Rows)

반응형

 

파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. 

 

 

 
 

CSV 파일 불러오기

 

df = pd.read_csv('tips.csv')

 

 

Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요.

df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다.

 

 

 
 

행 (Raw) Index 설정

 

df.set_index('Payment ID')

 

df = df.reset_index()

 

df.head()

 

 

 

 

set_index 함수를 사용하여 Payment ID를 인덱스로 지정합니다. head 함수를 활용하여 순서 상 상단 5개의 행 데이터를 가져옵니다.  

 

 

 
 

특정 행 (Row) 데이터만 확인

 

df.iloc[0]

 

 

 

df.loc['Sun2959']

 

 

 

 

iloc와 loc 함수를 활용하여 특정 행 데이터만 가져올 수 있습니다. iloc는 integer 기반으로, 특정 순서의 행을 지정할 수 있습니다. loc는 인덱스 기반으로, 특정 인덱스를 가진 행을 지정할 수 있습니다. 

 

 

 
 

다수의 특정 행 (Row) 데이터만 확인

 

df.iloc[0:4]

 

 

 

 

iloc 함수를 사용하는 경우 행의 순서를 사용하여 범위를 지정할 수 있습니다. 0:4의 경우 상단 첫 번째 행부터 다섯 번째 행까지의 데이터를 가져옵니다.

 

 

df.loc[['Sun2959','Sun5260']]

 

 

 

 

loc 함수를 사용하는 경우 복수의 인덱스를 지정하여 복수의 행 데이터를 가져올 수 있습니다. 예시의 경우, 인덱스가 Sun2959와 Sun5260인 행의 데이터를 가져옵니다. 

 

 

 
 

특정 행 (Row) 제거

 

df.head()

 

 

 

 

df.drop('Sun2959',axis=0).head()

 

 

 

 

drop 함수를 사용하여 특정 행을 제거할 수 있습니다. 위에 예시에서 인덱스가 Sun2959 행을 제거했습니다. axis=1 은 열 그리고 axis=0은 행을 의미합니다. 실제 업무에서 사용되는 빅데이터의 경우 특정 행의 위치를 찾기 어렵기 때문에 특정 조건을 만족하는 행을 제거합니다. 이 부분은 다음 포스팅에서 확인하도록 하겠습니다.

 

 

 


 

 

 

 

Pandas DataFrames 기본 Indexing (Columns)

파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다. CSV 파일 불러오기 df = pd.read_csv('tips.csv') Jupyter Notebook을 사용하는

thespud.kr

 

MySQL로 온라인 스토어 트래픽 전환율 확인하기

안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 특정 소스의 트래픽 전환율 (Conversion Rate) 구하기 아래 온

thespud.kr

 

MySQL로 온라인 스토어 방문자 수 확인하기

안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 방문자 수가 가장 많은 소스 구하기 아래 온라인 스토어

thespud.kr

 

반응형