QUICK REVIEW

[논문 리뷰] Lost in Transcription: How Speech-to-Text Errors Derail Code Understanding

Jayant Havare, Ashish Mittal|arXiv (Cornell University)|2026. 01. 20.

Software Engineering Research인용 수 0

한 줄 요약

논문은 Indic 언어로 코드 관련 질의를 기록하고 LLM으로 전사 정제한 뒤 코드 이해 작업을 평가하는 다국어 음성 기반 프레임워크를 제시하며, ASR 및 다운스트림 코드 작업 전반에서 LLM 가이드 정제로부터의 substantial 개선을 보여준다.

ABSTRACT

Code understanding is a foundational capability in software engineering tools and developer workflows. However, most existing systems are designed for English-speaking users interacting via keyboards, which limits accessibility in multilingual and voice-first settings, particularly in regions like India. Voice-based interfaces offer a more inclusive modality, but spoken queries involving code present unique challenges due to the presence of non-standard English usage, domain-specific vocabulary, and custom identifiers such as variable and function names, often combined with code-mixed expressions. In this work, we develop a multilingual speech-driven framework for code understanding that accepts spoken queries in a user native language, transcribes them using Automatic Speech Recognition (ASR), applies code-aware ASR output refinement using Large Language Models (LLMs), and interfaces with code models to perform tasks such as code question answering and code retrieval through benchmarks such as CodeSearchNet, CoRNStack, and CodeQA. Focusing on four widely spoken Indic languages and English, we systematically characterize how transcription errors impact downstream task performance. We also identified key failure modes in ASR for code and demonstrated that LLM-guided refinement significantly improves performance across both transcription and code understanding stages. Our findings underscore the need for code-sensitive adaptations in speech interfaces and offer a practical solution for building robust, multilingual voice-driven programming tools.

연구 동기 및 목표

영어 사용 능력이 제한된 지역의 학습자를 돕기 위한 포용적이고 다국어 음성 기반 코드 이해를 촉진한다.
모국어 음성에서 시작하여 코드 이해 출력을 끝으로 하는 엔드-투-엔드 파이프라인을 개발한다.
전사 오류가 다운스트림 코드 이해 작업에 어떤 영향을 미치는지 특징화하고 코드 관련 음성의 ASR 실패 모드를 식별한다.
LLM 가이드 정제가 전사 정밀도와 다운스트림 코드 이해를 개선한다는 점을 demonstrate 한다.
다수의 언어, 데이터셋, 다운스트림 작업에 걸친 철저한 평가를 통해 코드 인식 음성 인터페이스 설계를 inform 한다

제안 방법

다국어 음성 주도 프레임워크로 원어로 된 질의를 받아 ASR로 전사하고, 코드 인식 LLM 프롬트로 전사를 정제한 뒤 QA와 검색을 위해 코드 모델에 질의한다.
프롬프트 엔지니어링된 GPT-4o-mini를 사용한 코드 인식 정제는 잘못 인식된 코드 용어를 복원하고 음성적 왜곡을 수정하며 자연어와 프로그래밍 언어 사용의 구분을 명확히 한다.
혼합 언어의 코드 관련 음성을 더 잘 처리하기 위해 언어별로 ASR 모델을 선택(영어는 Whisper, 인도 언어는 indic-conformer)한다.
다국어에서 자연스러운 출력과 음성 피드백을 가능하게 하는 번역 인식 전처리 및 TTS 포맷팅을 적용한다.
Hindi, Gujarati, Tamil, Bengali, English를 대상으로 CodeSearchNet, CoRNStack, CodeQA에서 Python, Java, PHP를 평가한다.
다운스트림 평가로 Recall@k와 MRR를 사용해 코드 검색 성능을 측정하고, QA에 대해서는 모델 기반 평가를 사용한다

실험 결과

연구 질문

RQ1RQ1: ASR 전사 오류가 코드 질문 응답 및 검색과 같은 다운스트림 코드 이해 작업에 어떤 영향을 미치는가?
RQ2RQ2: 코드 관련 음성을 전사할 때 ASR 시스템이 도입하는 일반적인 실패 패턴은 무엇인가?
RQ3RQ3: 저자원 Indic 언어(Gujarati, Tamil)에서 ASR과 LLM 컴포넌트의 성능은 더 높은 자원 언어와 비교해 어떤 차이가 있는가?
RQ4RQ4: 대형 언어 모델은 코드 관련 질의의 ASR 전사를 정제하고 다운스트림 작업 성능을 얼마나 개선할 수 있는가?

주요 결과

Lang	Dataset	Model	WER	PER	WFED
Hindi	CodeSearchNet (CSN)	python-ASR	44%	33.4%	34.5%
Hindi	CodeSearchNet (CSN)	python-ASR-R	30.7%	15.4%	7.8%
Hindi	CodeSearchNet (CSN)	java-ASR	44.7%	24.6%	19.3%
Hindi	CodeSearchNet (CSN)	java-ASR-R	23.8%	14.7%	7.9%
Hindi	CodeSearchNet (CSN)	php-ASR	57.3%	40.1%	28.0%
Hindi	CodeSearchNet (CSN)	php-ASR-R	37.7%	28.3%	20.0%
Hindi	CoRNStack (CSk)	python-ASR	46.7%	51.0%	25.3%
Hindi	CoRNStack (CSk)	python-ASR-R	31.7%	22.9%	12.3%
Hindi	CoRNStack (CSk)	java-ASR	48.4%	41.9%	37.0%
Hindi	CoRNStack (CSk)	java-ASR-R	39.0%	37.0%	26.8%
Hindi	CoRNStack (CSk)	php-ASR	38.8%	25.8%	14.9%
Hindi	CoRNStack (CSk)	php-ASR-R	37.7%	28.3%	20.0%
Hindi	CodeQA (QA)	python-ASR	61.4%	57.0%	34.5%
Hindi	CodeQA (QA)	python-ASR-R	13.5%	3.6%	2.1%
Hindi	CodeQA (QA)	java-ASR	46.7%	51.0%	25.3%
Hindi	CodeQA (QA)	java-ASR-R	24.2%	19.6%	12.2%
Hindi	CodeQA (QA)	php-ASR	38.8%	25.8%	14.9%
Hindi	CodeQA (QA)	php-ASR-R	34.5%	25.3%	12.6%
Gujarati	CodeSearchNet (CSN)	python-ASR	43%	33.3%	16.7%
Gujarati	CodeSearchNet (CSN)	python-ASR-R	38.6%	21.3%	11.7%
Gujarati	CodeSearchNet (CSN)	java-ASR	47.6%	25.0%	20.1%
Gujarati	CodeSearchNet (CSN)	java-ASR-R	37.7%	28.4%	14.2%
Gujarati	CodeSearchNet (CSN)	php-ASR	55.5%	42.7%	26.7%
Gujarati	CodeSearchNet (CSN)	php-ASR-R	48.0%	32.8%	13.7%
Gujarati	CoRNStack (CSk)	python-ASR	44.6%	47.2%	25.2%
Gujarati	CoRNStack (CSk)	python-ASR-R	36.6%	31.4%	14.3%
Gujarati	CoRNStack (CSk)	java-ASR	56.8%	47.0%	30.6%
Gujarati	CoRNStack (CSk)	java-ASR-R	38.9%	38.9%	14.3%
Gujarati	CoRNStack (CSk)	php-ASR	34.5%	25.3%	12.6%
Gujarati	CoRNStack (CSk)	php-ASR-R	34.5%	25.3%	12.6%
Gujarati	CodeQA (QA)	python-ASR	55.8%	46.7%	18.5%
Gujarati	CodeQA (QA)	python-ASR-R	19.4%	6.8%	5.3%
Gujarati	CodeQA (QA)	java-ASR	40.8%	49.0%	25.9%
Gujarati	CodeQA (QA)	java-ASR-R	31.8%	24.8%	13.9%
Gujarati	CodeQA (QA)	php-ASR	34.5%	25.3%	12.6%
Gujarati	CodeQA (QA)	php-ASR-R	34.5%	25.3%	12.6%
Tamil	CodeSearchNet (CSN)	python-ASR	64.8%	39.7%	20.8%
Tamil	CodeSearchNet (CSN)	python-ASR-R	56.6%	27.2%	17.0%
Tamil	CodeSearchNet (CSN)	java-ASR	65.6%	27.4%	19.3%
Tamil	CodeSearchNet (CSN)	java-ASR-R	52.3%	25.3%	14.9%
Tamil	CodeSearchNet (CSN)	php-ASR	73.0%	42.5%	26.9%
Tamil	CodeSearchNet (CSN)	php-ASR-R	68.1%	36.4%	23.2%
Tamil	CoRNStack (CSk)	python-ASR	47.2%	50.6%	23.3%
Tamil	CoRNStack (CSk)	python-ASR-R	52.0%	45.1%	22.4%
Tamil	CoRNStack (CSk)	java-ASR	49.5%	40.5%	34.1%
Tamil	CoRNStack (CSk)	java-ASR-R	61.8%	42.3%	36.6%
Tamil	CoRNStack (CSk)	php-ASR	39.3%	25.0%	14.2%
Tamil	CoRNStack (CSk)	php-ASR-R	57.4%	28.2%	17.6%
Tamil	CodeQA (QA)	python-ASR	68.4%	45.5%	23.3%
Tamil	CodeQA (QA)	python-ASR-R	49.1%	39.0%	14.4%
Tamil	CodeQA (QA)	java-ASR	43.8%	38.1%	21.2%
Tamil	CodeQA (QA)	java-ASR-R	39.4%	37.7%	16.5%
Tamil	CodeQA (QA)	php-ASR	39.3%	25.0%	14.2%
Tamil	CodeQA (QA)	php-ASR-R	57.4%	28.2%	17.6%
Bengali	CodeSearchNet (CSN)	python-ASR	64.0%	39.7%	20.8%
Bengali	CodeSearchNet (CSN)	python-ASR-R	41.9%	27.1%	14.4%
Bengali	CodeSearchNet (CSN)	java-ASR	69.0%	50.7%	42.8%
Bengali	CodeSearchNet (CSN)	java-ASR-R	47.8%	37.1%	27.8%
Bengali	CodeSearchNet (CSN)	php-ASR	61.2%	34.0%	20.0%
Bengali	CodeSearchNet (CSN)	php-ASR-R	43.1%	23.7%	12.9%
Bengali	CoRNStack (CSk)	python-ASR	54.3%	53.5%	22.6%
Bengali	CoRNStack (CSk)	python-ASR-R	42.2%	41.7%	19.0%
Bengali	CoRNStack (CSk)	java-ASR	69.0%	50.7%	42.8%
Bengali	CoRNStack (CSk)	java-ASR-R	39.4%	37.7%	16.5%
Bengali	CoRNStack (CSk)	php-ASR	61.2%	34.0%	20.0%
Bengali	CoRNStack (CSk)	php-ASR-R	43.1%	23.7%	12.9%
Bengali	CodeQA (QA)	python-ASR	65.4%	44.6%	27.6%
Bengali	CodeQA (QA)	python-ASR-R	49.1%	39.0%	14.4%
Bengali	CodeQA (QA)	java-ASR	56.6%	44.0%	23.0%
Bengali	CodeQA (QA)	java-ASR-R	39.4%	37.7%	16.5%
Bengali	CodeQA (QA)	php-ASR	61.2%	34.0%	20.0%
Bengali	CodeQA (QA)	php-ASR-R	43.1%	23.7%	12.9%

최신 ASR은 다국어, 코드 혼합 질의에서 높은 오류율을 보이는 경우가 많으며, 저자원 언어의 WER은 50%를 초과하는 경우가 흔하다.
LLM 가이드 전제 정제(GPT-4o-mini)는 전사 정밀도와 다운스트림 작업 성능을 언어와 데이터 세트 전반에서 크게 향상시킨다.
정제의 평균 개선: 평가된 설정에서 WER 약 21% 감소, PER 약 29% 감소, WFED 약 33% 감소.
코드 인식 정제는 판단 모델을 위한 더 정확한 코드 용어와 구조 보존을 가능하게 하여 다운스트림 코드 작업(QA 및 검색)을 개선한다.
교차 모델 강건성 관찰: refiner 성능 추세가 GPT-4o-mini를 Claude Sonnet 4.5 또는 Gemini-2.5 Pro로 대체해도 일반화되어 이 접근법의 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.