한국어 텍스트 전처리 활용 (filtering)
Introduction 이전 포스팅에서 텍스트 전처리 라이브러리 사용법을 익혔다. 이번 포스팅에서는 라이브러리 기능보다는, nlp 모델 성능을 높이기 위해 필요한 텍스트 전처리(필터링) 방법들에 대해 서술한다. 이전 포스팅과 일부 겹치는 내용이 있을 수 있고, 부실하게...
Introduction 이전 포스팅에서 텍스트 전처리 라이브러리 사용법을 익혔다. 이번 포스팅에서는 라이브러리 기능보다는, nlp 모델 성능을 높이기 위해 필요한 텍스트 전처리(필터링) 방법들에 대해 서술한다. 이전 포스팅과 일부 겹치는 내용이 있을 수 있고, 부실하게...
Introduction docker Image를 빌드하기 위한 정보를 설정해주는 Dockerfile 작성 방법을 알아본다.
Introduction 크롤링을 하거나, NLP 전처리로 인해 문자열의 특정한 패턴을 찾아야 하는 경우가 있다. 파이썬에서는 find라는 문자열 검색 메소드를 기본으로 지원한다. 문제는 하나의 문자열의 인덱스만을 반환한다. ```python pattern = “node” st...
Introduction 한국어 데이터를 처리하기 위한 파이썬 패키지가 매우 다양하다. 이 포스팅에서는 유용하게 사용가능한 한국어 데이터 전처리 파이썬 패키지를 소개한다. re : 정규화식을 이용한 전처리, -> 기본 사용법은 파이썬 라이브러리 포스팅에서 다뤘음. Ko...
Introduction CNN은 weight sharing과 kernel size에 따른 locality 특성으로, image 데이터를 주로 다루는 CV task에서 좋은 성능을 내고 있다. 반면 부동산 가격이나 음성/문장 데이터와 같은 시퀀스 데이터의 경우에는 auto-reg...