파이썬 pandas(판다스) groupby - 시간에 따라 묶기
결과물년월, 결제수단(payment)에 따라 총 금액을 볼 수 있고 해당 년월에 특정 자치구에서 나온 값들도 같이 볼 수 있습니다.데이터 둘러보기groupby를 어떻게 활용할 수 있는지, 자세히 다뤄보기 위해 데이터를 먼저 둘러봅니다.이용할 데이터는 택시 관련 정보입니다.import pandas as pdimport seaborn as snsimport numpy as npdf = sns.load_dataset('taxis')df.info() df.head(5) 위 데이터는 상차, 하차 시간, 승객 수, 거리, 운임비, 팁, 톨비, 총 비용, 색상, 결제수단, 상차 지역, 하차 지역, 상차 자치구, 하차 자치구 정보로 구성되어 있습니다. df.isnull().sum()결측치는 수량이 얼마나 있는지 확인해..
2024. 8. 4.
반복문으로 df 내의 모든 행의 값 텍스트로 적어주기 - iterrows
Python 데이터 분석에서는 Pandas의 DataFrame을 이용하여 데이터를 다루는 경우가 많습니다. 여기서는 DataFrame의 iterrows() 메소드를 활용하여 데이터를 순회하고, 각 행의 데이터를 텍스트로 변환하는 방법을 알아보겠습니다. 기본 셋팅import pandas as pdfrom datetime import datetime, timedelta# 현재 시간부터 시작해 하루씩 증가하는 날짜 데이터를 생성합니다.date_series = pd.date_range(start=datetime.now(), periods=5)# 임의의 데이터를 생성합니다.names = ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve']ages = [25, 31, 35, 19, 45]# ..
2023. 5. 12.
파이썬 SettingWithCopyWarning과 FutureWarning 해결하기: Pandas DataFrame에서 .copy() 사용 및 numeric_only 지정
def create_section_df(df): bins = list(range(0, 401, 10)) bins_label = [str(x) + "이상 " + str(x + 10) + "미만" for x in bins] df["section"] = pd.cut( df["total_worktime"], bins=range(0, 401, 10), right=False, labels=bins_label[:-1] ) df["section_count"] = 1 section_df = df.groupby(["section"], as_index=False)[ [ 'y.m', "total_worktime", ..
2023. 4. 18.