[논문 리뷰] Levenshtein Distance Technique in Dictionary Lookup Methods: An Improved Approach
이 논문은 시각적으로 유사한 문자를 군집화하고 각 군집 내에서 가중치를 적용한 차이를 적용하여 광학 문자 인식(OCR) 시스템에서 사전 검색을 향상시키는 개선된 레벤슈타인 거리 기법을 제안한다. 이 방법은 기존의 레벤슈타인 거리보다 계산 오버헤드를 증가시키지 않으면서도 모호한 문자 인식에서의 오진 양성률을 크게 감소시켜 정확도를 향상시킨다. 실험 데이터셋을 통해 성능 향상이 명확하게 측정되었음을 입증하였다.
Dictionary lookup methods are popular in dealing with ambiguous letters which were not recognized by Optical Character Readers. However, a robust dictionary lookup method can be complex as apriori probability calculation or a large dictionary size increases the overhead and the cost of searching. In this context, Levenshtein distance is a simple metric which can be an effective string approximation tool. After observing the effectiveness of this method, an improvement has been made to this method by grouping some similar looking alphabets and reducing the weighted difference among members of the same group. The results showed marked improvement over the traditional Levenshtein distance technique.
연구 동기 및 목표
- 표준 사전 검색 방법이 높은 오류율로 인해 실패하는 광학 문자 인식(OCR) 시스템에서 모호한 문자 인식 문제를 해결하기 위해.
- OCR 애플리케이션을 위한 사전 기반 문자열 매칭에서 계산 비용을 줄이고 정확도를 향상시키기 위해.
- 문자 간 시각적 유사성을 통합하여 레벤슈타인 거리를 향상시키는 경량이고 효율적인 방법을 개발하기 위해.
- 군집화를 통해 인식 감각 유사성을 모델링하여 사전 검색에서의 오진 양성률을 최소화하기 위해.
제안 방법
- 저자는 'O'와 '0', 'B'와 '8'와 같은 시각적으로 유사한 문자들을 그들의 외관 유사성에 기반해 군집화한다.
- 동일한 그룹 내의 문자 간 치환 비용을 이질적인 문자 간 비용보다 낮게 설정하여 가중치가 부여된 레벤슈타인 거리를 적용한다.
- 표준 레벤슈타인 알고리즘을 수정하여, 유사한 문자 쌍 간의 치환 비용을 낮춰, 잘못 인식될 가능성이 높은 조합을 반영한다.
- 레벤슈타인 거리의 핵심 동적 프로그래밍 구조를 유지하면서 맥락 인식 기반의 치환 비용 행렬을 도입한다.
- 정확도와 효율성을 측정하기 위해 실제 정답이 알려진 OCR 인식 문자열의 테스트 세트를 사용하여 개선된 알고리즘을 평가한다.
실험 결과
연구 질문
- RQ1시각적으로 유사한 문자를 군집화하면 OCR 사전 검색의 오류율을 줄일 수 있는가?
- RQ2문자 군집 내에서 가중치가 부여된 치환 비용을 적용하면 표준 레벤슈타인 거리 대비 매칭 정확도가 향상되는가?
- RQ3제안된 방법은 인식 성능 향상과 함께 낮은 계산 비용을 유지할 수 있는가?
- RQ4가중치가 부여된 레벤슈타인 접근 방식은 모호한 문자 문자열에 대한 오진 양성률을 얼마나 효과적으로 줄이는가?
주요 결과
- 제안된 방법은 표준 레벤슈타인 거리 기법에 비해 오진 매칭 수를 상당히 감소시켰다.
- 가중치가 부여된 레벤슈타인 기법은 시각적으로 유사한 문자 치환의 영향을 줄여 매칭 정확도를 향상시켰다.
- 이 방법은 낮은 계산 오버헤드를 유지하여 실시간 OCR 응용에 적합하다.
- 결과는 특히 'O'와 '0' 또는 'B'와 '8'와 같은 일반적인 OCR 오류가 발생하는 경우 사전 검색 성능 향상이 뚜렷하게 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.