PDF문서 내에 있는 font 추출하기 (MuPDF) :: SENS

PDF문서 내에 있는 font 추출하기 (MuPDF)

2013. 3. 1. 22:24

간혹 PDF파일을 열었을 때 PDF파일의 embedded font(내장된 폰트) 정보가 없어 글자가 깨지거나 출력이 되지 않는 경우가 발생합니다.

이 문제를 해결하기 위해서는 PDF파일에 내장된 폰트를 추출하여 시스템에 추가해주면 해결할 수 있는데, 이제부터 PDF파일의 내장된 폰트를 추출하는 방법에 대해 알려 드리겠습니다.

http://mupdf.com/

PDF 내장 폰트 추출 방법

MuPDF(폰트 추출 프로그램) mupdf-1.2-windows.zip 다운로드 (오픈 소스 프로그램)
다운로드한 파일 압축 해제
Windows cmd창 열기
　- "윈도우키+R" 단축키로 실행 창을 연 후 "cmd" 치고 엔터
cd 명령어로 다운로드한 파일이 압축 해제된 폴더로 이동
"mutool extract" 명령어를 입력하여 PDF파일의 내장 폰트를 추출
명령이 실행된 모습
MuPDF 프로그램이 위치한 폴더로 이동하면 추출된 폰트 파일("*.cid" 또는 "*.cff")을 확인할 수 있음
이 파일들을 시스템(Windows)에서 인식할 수 있는 폰트 파일로 변환
(http://www.fontconverter.org/)
참고로, "*.cid"파일은 폰트 변환 사이트에서 변환이 불가능한데, 단순히 확장자를 "*.cff"로 바꿔주면 정상적으로 폰트 변환을 할 수 있습니다.

참고사항

단순히 "mutool" 명령어를 실행시키면 사용할 수 있는 command 명령들을 확인할 수 있습니다.
PDF문서 내에 존재하는 텍스트에 적용되는 폰트 정보만 추출되기 때문에 추출된 글꼴로 모든 글자를 표현할 수는 없습니다.

Download files (Alzip 분할 압축 파일)

mupdf-1.2-windows.vol1.egg

mupdf-1.2-windows.vol2.egg

References

저작자표시 비영리 변경금지

티스토리툴바