파이썬을 사용하여 데이터를 불러오고 기본 Indexing을 활용하여 필요한 데이터를 추출하는 방법에 대해 알아보도록 하겠습니다.
CSV 파일 불러오기
df = pd.read_csv('tips.csv')
Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요.
df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다.
열 (Columns) 항목 확인
df.columns
Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size',
'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'],
dtype='object')
df라는 이름을 붙인 DataFrame에서 열 항목만 확인할 수 있습니다.
특정 수의 행 (Row) 데이터만 확인
df.head(3)
DataFrame 순서 상 상단 3개의 행 정보만 확인할 수 있습니다.
df.tail(3)
DataFrame 순서 상 하단 3개의 행 정보만 확인할 수 있습니다.
전체 행 (Row) 수 확인
len(df)
df라는 이름을 붙인 DataFrame의 총 행 수를 알 수 있습니다.
특정 열 (Columns) 데이터 확인
df['total_bill']
df라는 이름을 붙인 DataFrame에 있는 "total_bill" 열 항목의 데이터만 확인할 수 있습니다.
df[['total_bill','tip']]
2가지 이상 열 항목의 데이터를 확인할 수 있습니다.
열 (Columns) 추가
df['tip_percentage'] = 100* df['tip'] / df['total_bill']
df.head()
df라는 이름을 붙인 DataFrame에 "tip_percentage"라는 열을 추가합니다. 해당 열의 데이터는 "tip"에 100을 곱한 값을 "total_bill"로 나눈 값입니다.
열 (Columns) 데이터 수정
df['price_per_person'] = np.round(df['price_per_person'],2)
df.head()
데이터프레임에 있는 숫자 데이터를 수정할 수 있습니다. Pandas가 Numpy를 기본으로 하기 때문에 Numpy 기능을 활용하여 데이터를 수정할 수 있습니다. "price_per_person" 열 데이터를 평균값 (round)으로 바꾸며 소수점 둘째 자리까지만 표기합니다.
열 (Columns) 데이터 삭제
df = df.drop("tip_percentage",axis=1)
df.head()
drop 기능을 사용하여 특정 열 데이터를 제거할 수 있습니다. axis=1 은 열 그리고 axis=0은 행을 의미합니다.
MySQL로 온라인 스토어 트래픽 전환율 확인하기
안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 특정 소스의 트래픽 전환율 (Conversion Rate) 구하기 아래 온
thespud.kr
MySQL로 온라인 스토어 방문자 수 확인하기
안녕하세요, 더스퍼드입니다. MySQL을 실무에서 어떻게 사용할 수 있을지 온라인 스토어를 예시로 예상 문제를 풀어보도록 하겠습니다. 방문자 수가 가장 많은 소스 구하기 아래 온라인 스토어
thespud.kr
'데이터 분석' 카테고리의 다른 글
Pandas 조건 필터링 (2) | 2024.01.12 |
---|---|
Pandas DataFrames 기본 Indexing (Rows) (0) | 2024.01.08 |
MySQL로 온라인 스토어 광고 성과 분석 (0) | 2023.10.29 |
MySQL로 온라인 스토어 트래픽 전환율 확인하기 (0) | 2023.10.15 |
MySQL로 온라인 스토어 방문자 수 확인하기 (1) | 2023.10.15 |