Snippets/uncategorized
PDF문서 내에 있는 font 추출하기 (MuPDF)
공대나왔음
2013. 3. 1. 22:24
간혹 PDF파일을 열었을 때 PDF파일의 embedded font(내장된 폰트) 정보가 없어 글자가 깨지거나 출력이 되지 않는 경우가 발생합니다.
이 문제를 해결하기 위해서는 PDF파일에 내장된 폰트를 추출하여 시스템에 추가해주면 해결할 수 있는데, 이제부터 PDF파일의 내장된 폰트를 추출하는 방법에 대해 알려 드리겠습니다.
PDF 내장 폰트 추출 방법
- MuPDF(폰트 추출 프로그램) mupdf-1.2-windows.zip 다운로드 (오픈 소스 프로그램)
- 다운로드한 파일 압축 해제
- Windows cmd창 열기
- "윈도우키+R" 단축키로 실행 창을 연 후 "cmd" 치고 엔터 - cd 명령어로 다운로드한 파일이 압축 해제된 폴더로 이동
- "mutool extract" 명령어를 입력하여 PDF파일의 내장 폰트를 추출
- 명령이 실행된 모습
- MuPDF 프로그램이 위치한 폴더로 이동하면 추출된 폰트 파일("*.cid" 또는 "*.cff")을 확인할 수 있음
- 이 파일들을 시스템(Windows)에서 인식할 수 있는 폰트 파일로 변환
(http://www.fontconverter.org/)
참고로, "*.cid"파일은 폰트 변환 사이트에서 변환이 불가능한데, 단순히 확장자를 "*.cff"로 바꿔주면 정상적으로 폰트 변환을 할 수 있습니다.
참고사항
- 단순히 "mutool" 명령어를 실행시키면 사용할 수 있는 command 명령들을 확인할 수 있습니다.
- PDF문서 내에 존재하는 텍스트에 적용되는 폰트 정보만 추출되기 때문에 추출된 글꼴로 모든 글자를 표현할 수는 없습니다.
Download files (Alzip 분할 압축 파일)
References
- http://stackoverflow.com/questions/3488042/how-can-i-extract-embedded-fonts-from-a-pdf-as-valid-font-files
- http://typophile.com/node/34377