본문 바로가기

전체 글126

Python | 판다스 시리즈에 정규표현식 적용(Series.str.match) 이번 포스팅에서는 판다스 시리즈 (Pandas series) 에 정규표현식을 적용하는 법을 정리해 보겠습니다. 이전 포스팅 까지는 정규표현식 패턴과 일치하는 문자열을 찾는 예시에서 한 문장 또는 길어도 한 문단 정도의 텍스트가 인자로 제공이 되었고 그 1개의 인자 내에서 패턴과 일치하는 문자열을 찾는 연습을 했습니다. 그런데, 만약 판다스의 시리즈와 같이 여러 개의 인자를 계속 받아서 각 인자별로 각각 정규표현식 패턴과 일치하는지 탐색하고 싶을 때는 어떻게 해야 할까요? 이번 포스팅에서는 그 부분을 정리해 보겠습니다. 시리즈에 정규표현식을 적용할 때는 보통 pd.Series.str.Method 패턴으로 적용합니다. 하기와 같은 메소드를 사용할 수 있습니다. pd.Series.str.match() pd.S.. 2023. 8. 20.
Python | 람다(Lambda) 함수 정리 이번 포스팅에서는 익명 함수인 람다(lambda) 함수에 대해서 정리해 보겠습니다. 예약어 def 를 사용하여 정의하는 사용자 정의 함수와 달리 람다 (lambda) 함수는 이름이 없는 익명 함수 입니다. 대신 람다 함수를 만든 후 호출을 위해서 특정 변수에 할당해 줄 수 있습니다. 사용자 정의 함수를 굳이 두고 람다 함수를 사용하는 이유는 좀 더 간단하게 표현할 수 있기 때문입니다. 때문에 함수가 복잡한 경우에는 람다 함수를 사용하지 않는 것이 좋습니다. 예시1 : 2를 곱하여 결과를 반환하는 함수: 사용자 함수 vs. 람다 함수 인자를 2로 받아 곱하여 그 결과를 반환하는 예약어 def 를 이용한 사용자 정의 함수를 만들어 보겠습니다. 간단하게는 하기와 같은 포맷입니다. 이름은 임의로 내 마음대로 정.. 2023. 8. 15.
Python | 시각화 (Visualization) (여러 그래프 for 문 이용하여 한 번에) 백데이터는 kaggle 의 하기 데이터셋을 이용 https://www.kaggle.com/datasets/joebeachcapital/fast-food Fast Food Nutrition Nutritional Values, Micronutrients, and Calories from Six Fast Food Restaurants www.kaggle.com 원 데이터셋에서는 각 회사의 제품별 칼로리 및 지방, 콜레스테롤, 나트륨, 탄수화물, 식이섬유, 단백질 등 영양 정보가 담겨 있다. 각 회사별로 제품의 칼로리 분포를 히스토그램으로 보고 싶다고 가정하자. 이에 대한 비주얼라이제이션을 해보자. 여기서 포인트는: for 문 이용 enumerate 함수 이용하여 리스트의 각 원소를 인덱스와 받기 plt.sub.. 2023. 8. 14.
Python | Series.str.메서드 이번 포스팅에서는 Pandas Series 의 value 를 전처리할 수 있는 여러가지 메소드를 정리해 보려고 합니다. 이 포스팅은 https://www.geeksforgeeks.org/ 사이트를 참고 하였으며 예제도 사이트의 예제를 그대로 가져왔습니다. 예제로 사용할 데이터 입니다. NBA 의 선수들의 정보를 담고 있는 데이터 입니다. 9개의 칼럼 457개의 행 이며, 하기 데이터 프레임을 data 라는 개체에 할당하겠습니다. Pandas Series 의 경우 개별 원소 모두에 대해 일괄로 전처리 작업이 필요할 경우 .str 를 함께 사용합니다. Series.str. 를 이용한 대표적인 메서드를 정리해 보겠습니다. 1. Series.str.strip() 문자열에 공백이 있을 때, 공백을 제거하기 위해선.. 2023. 8. 7.