Tesseract OCR 최신 설치 완벽 가이드 Windows Mac Python 환경 설정 상세 더보기

광학 문자 인식(OCR) 기술은 디지털 시대에 종이 문서를 데이터화하는 핵심 기술입니다. 그중에서도 Tesseract OCR은 Google에서 개발을 지원하고 있는 오픈소스 엔진으로, 높은 인식률과 광범위한 언어 지원으로 전 세계적으로 가장 많이 사용되고 있습니다. 2024년 이후에도 Tesseract는 꾸준히 업데이트되며 성능이 향상되고 있으며, 특히 Python 환경과의 연동성이 좋아 개발자들 사이에서 인기가 높습니다.

이 포스팅은 Tesseract OCR 엔진을 윈도우(Windows), 맥(Mac) 운영체제에 설치하고, 나아가 Python 환경에서 pytesseract 라이브러리를 통해 Tesseract를 활용하는 방법까지 단계별로 완벽하게 안내합니다. 2025년 최신 버전을 기준으로 작성되었으므로, 구 버전 설치로 인한 오류 걱정 없이 바로 실무에 적용할 수 있습니다.

Tesseract OCR 설치 전 필수 준비사항 확인하기

Tesseract OCR 설치를 시작하기 전에 시스템 환경에 맞는 몇 가지 준비가 필요합니다. 특히 윈도우 사용자나 Python 개발 환경을 구축하려는 사용자라면 아래 사항을 먼저 확인해야 합니다.

  • 운영체제 확인: Windows 10/11 또는 macOS 최신 버전을 준비합니다.
  • 패키지 관리자: macOS 사용자의 경우 Homebrew 설치가 권장됩니다. Windows의 경우 별도 설치 파일(Installer)을 사용합니다.
  • Python 환경: Python을 사용할 계획이라면, 3.8 버전 이상의 환경과 pip가 준비되어 있어야 합니다.

Tesseract의 핵심은 정확한 설치 경로 설정과 환경 변수 등록입니다. 설치 과정에서 발생하는 대부분의 오류는 이 부분에서 기인하므로, 안내된 절차를 꼼꼼히 따라야 합니다.

Windows 환경에서 Tesseract OCR 설치 단계별 가이드 상세 더보기

Windows 환경에서는 Tesseract 개발팀이 제공하는 설치 파일(Installer)을 사용하는 것이 가장 간단하고 일반적인 방법입니다.

1. 설치 파일 다운로드 및 실행 보기

Tesseract의 공식 GitHub 페이지나 신뢰할 수 있는 배포처에서 Windows용 최신 인스톨러(.exe 파일)를 다운로드합니다. 설치 시 중요한 문장은 ‘Add to path’ 옵션을 반드시 체크해야 합니다. 이 옵션을 체크하면 별도로 환경 변수를 설정할 필요 없이 명령 프롬프트(CMD)에서 Tesseract를 바로 실행할 수 있게 됩니다.

2. 언어 팩 설정 확인하기

설치 과정 중 어떤 언어 팩을 설치할지 선택하는 단계가 있습니다. 기본적으로 영어(eng)는 포함되어 있으며, 한국어 OCR이 필요하다면 Korean (kor)Korean vertical (script_vert)도 함께 체크하여 설치해야 합니다. 나중에 언어 팩을 추가할 수도 있지만, 설치 시 한 번에 진행하는 것이 편리합니다.

3. 설치 확인 보기

설치가 완료되면, 명령 프롬프트나 PowerShell을 열고 다음 명령어를 입력하여 Tesseract가 정상적으로 설치되었는지 확인합니다. 버전 정보가 출력되면 성공입니다.

tesseract --version

만약 명령어를 찾을 수 없다는 오류가 발생하면, 설치 시 ‘Add to path’ 옵션을 놓쳤을 가능성이 높습니다. 이 경우, 수동으로 Tesseract가 설치된 폴더(예: C:\Program Files\Tesseract-OCR)를 시스템 환경 변수의 ‘Path’에 추가해야 합니다.

macOS 환경에서 Tesseract OCR 설치 Brew 사용 확인하기

macOS 사용자는 패키지 관리자인 Homebrew를 이용하는 것이 가장 빠르고 안정적인 설치 방법입니다. Homebrew가 설치되어 있지 않다면, 먼저 Homebrew 공식 웹사이트를 참고하여 설치해야 합니다.

1. Homebrew를 이용한 설치 상세 더보기

터미널을 열고 다음 명령어를 입력합니다. Homebrew가 Tesseract의 최신 버전을 자동으로 다운로드하고 설치합니다.

brew install tesseract

2. 언어 팩 설치 보기

Homebrew로 Tesseract를 설치하면 기본 언어 팩(영어)만 설치됩니다. 한국어 등 다른 언어 팩을 사용하려면, Tesseract 설치 폴더 내의 tessdata 폴더에 해당 언어의 .traineddata 파일을 직접 다운로드하여 배치해야 합니다. 일반적으로 해당 파일들은 공식 Tesseract 깃허브 저장소에서 찾을 수 있습니다.

3. 설치 확인 보기

Windows와 마찬가지로 터미널에서 버전을 확인하여 설치를 검증합니다.

tesseract --version

만약 Homebrew 설치 후에도 명령어가 인식되지 않는다면, 셸 설정 파일(예: .zshrc 또는 .bash_profile)에 Homebrew의 실행 경로가 올바르게 등록되어 있는지 확인해야 합니다.

Python 환경에서 pytesseract 활용 가이드 보기

Tesseract OCR 엔진 자체만으로는 프로그래밍 언어에서 직접 제어하기 어렵습니다. Python 개발 환경에서는 Tesseract를 손쉽게 사용할 수 있도록 해주는 ‘pytesseract’라는 래퍼(Wrapper) 라이브러리를 활용해야 합니다. Tesseract 설치가 끝났다면, 이제 Python 환경을 설정할 차례입니다.

1. pytesseract 라이브러리 설치 확인하기

pip를 사용하여 pytesseract를 설치합니다.

pip install pytesseract Pillow

여기서 Pillow는 이미지 처리를 위한 라이브러리로, Tesseract OCR을 실행할 때 입력 이미지를 처리하는 데 필수적입니다.

2. 파이썬 코드 작성 상세 더보기

가장 중요한 단계는 Python 스크립트에서 Tesseract 실행 파일의 경로를 정확히 지정해주는 것입니다. 특히 Windows 환경에서 이 설정이 누락되면 오류가 발생합니다.

import pytesseract from PIL import Image
윈도우 사용자: Tesseract 설치 경로를 지정해야 합니다.
Mac/Linux 사용자: Homebrew 등으로 설치했다면 생략 가능하거나 'tesseract'만 지정해도 됩니다.
예시 경로: r'C:\Program Files\Tesseract-OCR\tesseract.exe'
백슬래시() 대신 r'...'을 사용하거나 슬래시(/)를 사용하세요.
pytesseract.pytesseract.tesseract_cmd = r'Tesseract 실행 파일의 전체 경로'
OCR을 수행할 이미지 파일을 불러옵니다.
image = Image.open('target_image.png')
이미지에서 텍스트 추출 (기본: 영어)
text = pytesseract.image_to_string(image)
한국어 추출을 원하는 경우, lang='kor' 옵션을 추가
text_kor = pytesseract.image_to_string(image, lang='kor')
print(text)

위 코드에서 pytesseract.pytesseract.tesseract_cmd 변수에 실제 Tesseract 실행 파일의 경로를 정확하게 넣어주는 것이 성공적인 OCR 실행의 핵심입니다.

Tesseract OCR 설치 및 활용시 자주 묻는 질문 FAQ

Q1. “tesseract is not installed or was not found in your path” 오류는 왜 발생하나요?

이 오류는 크게 두 가지 이유로 발생합니다. 첫째, Tesseract 엔진 자체가 설치되지 않은 경우입니다. 둘째, 설치는 되었지만 시스템 환경 변수(Path)에 Tesseract 실행 파일의 경로가 등록되지 않아 시스템이 ‘tesseract’ 명령을 찾지 못하는 경우입니다. Windows 사용자는 설치 시 ‘Add to path’ 옵션을 다시 확인하거나, 수동으로 환경 변수를 추가해야 합니다. Python의 pytesseract를 사용하는 경우, 코드 내에서 pytesseract.pytesseract.tesseract_cmd에 Tesseract 실행 파일의 전체 경로를 명시적으로 지정해 주어야 합니다.

Q2. 한국어 OCR 인식이 잘 되지 않습니다. 어떻게 해야 하나요?

한국어 인식이 잘 되지 않는다면, 우선 한국어 언어 팩(kor.traineddata)이 Tesseract의 tessdata 폴더에 정확히 설치되어 있는지 확인해야 합니다. 설치 시 언어 팩을 누락했다면 수동으로 파일을 다운로드하여 해당 폴더에 넣어야 합니다. 또한, Python에서 pytesseract를 사용할 때는 반드시 lang='kor' 옵션을 추가해야 한국어 OCR 모드로 동작합니다. 이미지의 해상도나 텍스트의 기울임 등 이미지 품질 문제도 인식률에 큰 영향을 미칩니다.

Q3. Tesseract의 최신 버전은 무엇이며, 업데이트는 자주 되나요?

Tesseract OCR은 오픈소스 프로젝트로, Google의 지원 하에 꾸준히 업데이트되고 있습니다. 이 포스팅을 작성하는 2025년 12월 기준, 안정적인 최신 버전은 5.x 대입니다. Tesseract는 이전 버전(4.x)에서 LSTM 기반의 신경망 인식을 도입하여 인식률이 비약적으로 향상되었습니다. 주요 업데이트는 GitHub 저장소에서 확인할 수 있으며, 버그 수정 및 성능 개선을 위한 마이너 업데이트는 비교적 자주 이루어지므로, 보안 및 성능을 위해 최신 버전을 유지하는 것이 좋습니다.