플로라도의 data workout

네이버에서 제안한 OCR 평가 지표, PopEval 논문리뷰 본문

PaperReview

네이버에서 제안한 OCR 평가 지표, PopEval 논문리뷰

플로라도 2024. 4. 17. 23:47

(작성중)

 

paper: https://arxiv.org/abs/1908.11060

slide : https://deview.kr/2019/schedule/311

 

PopEval: A Character-Level Approach to End-To-End Evaluation Compatible with Word-Level Benchmark Dataset 

(단어 수준의 OCR벤치마크 데이터셋과 호환되는 End-To-End(detection-recognition)방식의 문자 수준 평가 방법)

 

 

 

 

1. Abstract + Introduction

 

본 논문은 클로바 OCR등으로 유명한 네이버(NAVER)에서 문서 분석 및 인식에 관한 국제 학회인 International Conference on Document Analysis and Recognition(ICDAR) 2019에 발표한 논문이다.

 

PopEval은 최근 OCR 연구에 초점을 맞춰 새로운 성능 평가 지표를개 제안한다. PopEval은 특히 Structural scene이 아닌 general OCR,즉 Non-structural scene, 자연 장면에서 텍스트를 인식하는 OCR 시스템의 성능을 평가하기 위해 고안되었다. 기존의 평가 방법들이 스캔된 문서(structural document)를 중심으로 연구되었던 것과 달리, PopEval은 문자 수준(Charactel level)에서 OCR 결과를 평가한다. 이를 통해 문자 감지 및 인식의 정밀도를 더욱 정확하게 측정하고자 한다.

 

자연을 배경으로한, scene text detection and recognition
document, layout

 


PopEval의 주요 목적은 OCR 시스템의 실제 성능을 보다 정확하게 반영하는 것이다. 이를 위해 기존의 벤치마크 데이터셋을 문자 레벨로 새롭게 라벨링하여 평가를 시도함으로써, 기존의 단어 레벨 라벨과의 호환성을 검증했다. 결과적으로, PopEval은 기존의 벤치마크 데이터셋과도 호환되며, 사람의 OCR 질적 평가와 가장 유사한 결과를 제공하는 것으로 주장한다.

PopEval은 기존의 OCR 평가 방법과 다른 새로운 평가 방법으로, 최근 OCR에 대한 트렌드인 scene OCR에 맞춰 개발되었다. 기존의 평가 방법은 스캔된 문서에 대한 것이었지만, PopEval은 자연 장면에 대한 OCR에 적합한 평가 방법이다.
PopEval은 character-level 평가를 강조하는 이유는 현재 OCR 연구의 주요 관심사인 robust reading에 최적화된 평가 개념을 제안하기 위해서다. 자연 장면에서의 텍스트 인식에서는 구조화된 문서와 달리 텍스트가 다양한 방향, 종횡비, 기울기와 같은 다양한 형태로 나타나기 때문에 기존의 평가 방법이 적합하지 않다. 따라서, character-oriented 평가는 실제 성능을 평가하는 데 필수적이며, 이러한 측면에서 1-NED가 end-to-end 평가로 제안되었지만, 이는 IOU 임계값을 채택하여 한계가 있다. PopEval은 이러한 한계를 극복하고, 기존의 벤치마크 데이터셋을 word-level에서도 character-level로 평가할 수 있도록 하여, 현재 OCR 작업에 대한 실제 성능 평가를 가능하게 한다. PopEval은 이러한 이유로 character-level 평가의 중요성을 강조한다.

 

 

 

2. Related works

 

본 장에서는 OCR 평가에 사용된 기존의 평가 방법을 검토한다.

 

 

A. Detection Evaluation

특히 ICDAR2013 및 ICDAR2015 컴페티션에서 사용된 DetEval 및 IOU기반의 Evaluation Metric의 평가 방법에는 One-to-many(정답 단어의 ground-truth가 하나의 박스인데, 여러개로 박스로 예측하는 것 ;: e.g. RIVERSIDE -> RIVER SIDE)와 Many-to-one(정답이 여러 단어로 구성되어있는데 하나의 단어로 예측하는 것)의 문제가 발생한다. 이를 각 split problem, merge problem이라고 부르며, 이전의 평가 방법은 이러한 문제에 대해 취약하다고 말한다.

 

 

 

 

B. Recognition Evaluation

Recognition의 기존 평가에는 정답단어와 예측 단어간의 추가, 수정, 삭제에 관한 Edit distance와 Correctly recognized words rate를 지표를 사용하게 된다.

 

 

 

C. End-to-End Evaluation

전통적인 end-to-end 평가 방법은 detection과 recognition phase의 파이프라인을 모두 포함한다.

 

3. PopEval : Our Approach

 

 

 

4. EXPERIMENTAL RESULT

문제가 되는 One-to-Many, Many-to-One의 문제는 벤치마크 데이터셋인 ICDAR2013, ICDAR2015의 테스트 데이터셋 기준으로 다음의 비율로 발생한다고 한다.

 

 

 

 

5. DISCUSSION AND CONCLUSION