최근 포스트

한국어 텍스트 전처리 활용 (filtering)

4 분 소요

Introduction 이전 포스팅에서 텍스트 전처리 라이브러리 사용법을 익혔다. 이번 포스팅에서는 라이브러리 기능보다는, nlp 모델 성능을 높이기 위해 필요한 텍스트 전처리(필터링) 방법들에 대해 서술한다. 이전 포스팅과 일부 겹치는 내용이 있을 수 있고, 부실하게...

Docker(4) - Dockerfile 작성

3 분 소요

Introduction docker Image를 빌드하기 위한 정보를 설정해주는 Dockerfile 작성 방법을 알아본다.

문자열 매칭을 위한 정규식 라이브러리 (re)

7 분 소요

Introduction 크롤링을 하거나, NLP 전처리로 인해 문자열의 특정한 패턴을 찾아야 하는 경우가 있다. 파이썬에서는 find라는 문자열 검색 메소드를 기본으로 지원한다. 문제는 하나의 문자열의 인덱스만을 반환한다. ```python pattern = “node” st...

한국어 텍스트 전처리 라이브러리 사용법

7 분 소요

Introduction 한국어 데이터를 처리하기 위한 파이썬 패키지가 매우 다양하다. 이 포스팅에서는 유용하게 사용가능한 한국어 데이터 전처리 파이썬 패키지를 소개한다. re : 정규화식을 이용한 전처리, -> 기본 사용법은 파이썬 라이브러리 포스팅에서 다뤘음. Ko...

(6) 시퀀스 데이터와 RNN 기초

4 분 소요

Introduction CNN은 weight sharing과 kernel size에 따른 locality 특성으로, image 데이터를 주로 다루는 CV task에서 좋은 성능을 내고 있다. 반면 부동산 가격이나 음성/문장 데이터와 같은 시퀀스 데이터의 경우에는 auto-reg...