HWP Text Lab

HOW TO USE

한글 문서에서 필요한 텍스트만 빠르게 꺼내 쓰세요

HWP Text Lab은 한글 프로그램이나 뷰어가 없어도 HWP/HWPX 파일의 본문을 텍스트 파일로 정리해 주는 웹 도구입니다.

사용 방법

  1. 추출 도구 화면의 업로드 영역에 HWP/HWPX, PDF, 이미지 파일을 끌어오거나 선택합니다.
  2. 필요한 결과 파일 형식을 고릅니다. 처음에는 TXT만 선택되어 있고, 필요한 경우 Markdown, JSONL, CSV를 함께 고를 수 있습니다.
  3. 본문 위주로 빠르게 확인하려면 빠른 추출을 사용하고, 표가 많은 문서나 HWPX 파일은 상세 추출을 선택합니다.
  4. 추출이 끝나면 미리보기로 앞부분을 확인하고 ZIP 파일을 내려받습니다.

무료 제한

현재 무료 웹 도구는 한 번에 최대 3개 파일까지 처리합니다. 파일 하나는 5MB 이하, 전체 업로드 용량은 15MB 이하로 제한됩니다.

이 제한은 무료 서버에서 안정적으로 운영하기 위한 기준입니다. 너무 큰 파일을 한 번에 처리하면 다른 사용자의 추출도 느려질 수 있어, 초기 버전에서는 작고 자주 쓰는 문서부터 안정적으로 처리하는 방향을 선택했습니다.

삭제와 다운로드

업로드한 원본 파일은 텍스트 추출 처리가 끝난 뒤 서버에서 즉시 삭제됩니다. 결과 ZIP에는 사용자가 선택한 결과 파일만 담깁니다. 브라우저 임시 다운로드 링크는 추출 완료 후 10분 동안 유지됩니다.

브라우저 다운로드 링크가 만료되면 같은 파일을 다시 업로드해 추출해야 합니다. 민감한 문서는 업로드 전 파일 내용을 확인하고, 필요한 결과 파일만 내려받아 보관해 주세요.

실패할 수 있는 경우

암호가 걸린 파일

암호로 보호된 문서는 서버에서 내용을 열 수 없기 때문에 추출에 실패할 수 있습니다.

손상되거나 오래된 HWP

파일 구조가 손상되었거나 일부 오래된 형식은 안정적으로 읽지 못할 수 있습니다.

표와 서식 중심 문서

본문 텍스트는 잘 추출되더라도 표 구조, 셀 병합, 이미지 안의 글자는 원본과 다르게 정리될 수 있습니다. 표가 중요한 문서는 HWPX로 변환한 뒤 추출하는 방법이 더 안정적입니다.

스캔 PDF와 이미지

스캔본과 이미지는 OCR 엔진을 통해 텍스트 추출을 시도합니다. 흐릿한 이미지, 기울어진 사진, 손글씨, 복잡한 배경은 결과 품질이 낮아질 수 있습니다.