Microsoft’s Common Objects in Context dataset(COCO)

1 분 소요

annotations(bounding boxes, object classes, etc)과 image metadata(height, width)를 JSON 형식으로 정의하였다.

폴더 구조는 아래와 같다.

<dataset_dir>/
    data/
        <filename0>.<ext>
        <filename1>.<ext>
        ...
    labels.json

가장 간단한 데이터 구조는 아래와 같다.

'images': [
    {
        'file_name': '000000001268.jpg',
        'height': 480,
        'width': 640,
        'id': 1268
    },
    ...
],
'annotations': [
    {
        'segmentation': [[426.36,
            ...
            424.34,
            223.3]],
        'keypoints': [0,0,0,
            0,0,0,
            ...
            466,300,1],
        'num_keypoints': 10,
        'area': 3894.5826,
        'iscrowd': 0,
        'image_id': 1268,
        'bbox': [402.34, 205.02, 65.26, 88.45],
        'category_id': 1,
        'id': 215218
    },
    ...
],
'categories': [
    {'id': 1, 'name': 'person'},
 ]

기본적으로 3개의 키가 필수적으로 들어간다. images: 이미지들에 대한 정보를 포함한다. annotations: 개별 이미지에 대응하는 인스턴스 어노테이션 정보를 포함한다. categories: classification 시 unique IDs에 대한 정보를 포함한다.

3.출처

https://towardsdatascience.com/how-to-work-with-object-detection-datasets-in-coco-format-9bf4fb5848a4

Twitter Facebook LinkedIn

한국어 텍스트 전처리 활용 (filtering)

5 분 소요

Introduction 이전 포스팅에서 텍스트 전처리 라이브러리 사용법을 익혔다. 이번 포스팅에서는 라이브러리 기능보다는, nlp 모델 성능을 높이기 위해 필요한 텍스트 전처리(필터링) 방법들에 대해 서술한다. 이전 포스팅과 일부 겹치는 내용이 있을 수 있고, 부실하게...

문자열 매칭을 위한 정규식 라이브러리 (re)

8 분 소요

Introduction 크롤링을 하거나, NLP 전처리로 인해 문자열의 특정한 패턴을 찾아야 하는 경우가 있다. 파이썬에서는 find라는 문자열 검색 메소드를 기본으로 지원한다. 문제는 하나의 문자열의 인덱스만을 반환한다. ```python pattern = “node” st...

한국어 텍스트 전처리 라이브러리 사용법

8 분 소요

Introduction 한국어 데이터를 처리하기 위한 파이썬 패키지가 매우 다양하다. 이 포스팅에서는 유용하게 사용가능한 한국어 데이터 전처리 파이썬 패키지를 소개한다. re : 정규화식을 이용한 전처리, -> 기본 사용법은 파이썬 라이브러리 포스팅에서 다뤘음. Ko...

papari1123

Microsoft’s Common Objects in Context dataset(COCO)

3.출처

공유하기

참고

한국어 텍스트 전처리 활용 (filtering)

Docker(4) - Dockerfile 작성

문자열 매칭을 위한 정규식 라이브러리 (re)

한국어 텍스트 전처리 라이브러리 사용법