Chinese PDF text shows ☒ but copies fine — what’s actually going on?
![]() |
| r/techsupport에서 올라온 원본 오류 메시지입니다. 사용자가 "데이터" 자체는 손상되지 않았지만(메모장에 복사 가능) "시각적 요소"가 깨졌다는 점을 정확하게 지적한 것을 주목하세요. 이는 CMap/ToUnicode 테이블 손상의 전형적인 증상입니다. |
최근 레딧에서 흥미로운 사례를 접했습니다.
어떤 사람이 아크로뱃의 "텍스트 추가" 도구를 이용해 스캔한 PDF 파일에 티베트어, 영어, 중국어를 섞어 메모를 추가하고 있었습니다.
처음에는 모든 것이 정상적으로 보였지만, 나중에 중국어 텍스트 대부분이 갑자기 네모(☒)로 바뀌었습니다.
이상하게도, 같은 텍스트를 복사해서 일반 편집기에 붙여넣으니 글자가 전혀 문제없이 나타났습니다.
언뜻 보면 일반적인 인코딩 문제처럼 보입니다.
하지만 이러한 동작은 좀 더 구체적인 문제를 시사합니다.
데이터 자체는 그대로 있지만, 렌더링에 문제가 있는 겁니다.
여기서 핵심 단서는 간단합니다.
👉 복사 붙여넣기가 성공하면 텍스트 데이터는 손상되지 않은 것입니다.
즉, 다음과 같은 의미입니다.
- 유니코드 매핑(ToUnicode)은 여전히 유효할 가능성이 높습니다.
- 문제는 렌더링 단계에서 발생하고 있습니다.
PDF 용어로 설명하자면, 일반적으로 다음과 같은 의미입니다.
👉 파일은 텍스트가 무엇 인지는 알지만, 어떻게 그려야 할지는 모릅니다.
따라서 충돌이 발생하는 대신 기본 "notdef" 기호(☒)로 되돌아갑니다.
왜 중국어 텍스트만 있나요?
바로 이 지점에서 글꼴이 중요해지기 시작합니다.
- 티베트어/영어 → Microsoft Himalaya(최신 OpenType)
- 중국어 → Adobe Song Std L (기존 CID 키 방식 글꼴)
그 차이는 상당합니다.
기존의 CID 기반 글꼴은 CMap(문자 매핑 테이블)에 크게 의존합니다.
매핑이 잘못 정렬되거나 부분적으로 손실되면 기본 텍스트가 여전히 유효하더라도 렌더링 프로그램이 올바른 글리프를 찾지 못할 수 있습니다.
주석 레이어가 문제의 일부일 수 있습니다.
또 하나 주목할 만한 점은 아크로뱃의 "텍스트 추가" 도구가 일반 문서 텍스트처럼 작동하지 않는다는 것입니다.
콘텐츠는 다음 위치에 저장됩니다.
👉 주석 레이어(/Annots)
이 레이어는 다음과 같은 기능을 수행할 수 있습니다.
- 별도의 모양 스트림을 사용하세요
- 글꼴을 본문 내용과 다르게 처리하세요.
그렇기 때문에 글꼴 관련 문제는 기본 문서가 아닌 주석에서만 나타나는 경우가 있습니다 .
"PDF로 인쇄" 기능이 문제를 해결하지 못하는 이유는 무엇일까요?
이는 흔히 시도되는 방법이지만, 이런 경우에는 거의 효과가 없습니다.
뷰어에 이미 ☒가 표시되어 있다면:
👉 렌더링이 이미 깨진 것입니다.
PDF로 인쇄하면 화면에 표시되는 내용을 그대로 캡처하는
것이므로, 깨진 이미지를 깔끔하게 복사하는 것일 뿐입니다.
PDF 워크플로(예: 문서 병합 또는 재구성)를 다양하게 시도해 볼 때, 인쇄 기반 수정에만 의존하는 대신 다른 도구나 처리 방식을 사용해 보는 것이 도움이 될 수 있습니다.
저도 몇 가지 간편한 옵션을 테스트해 보고 있는데, 다음 링크에서 확인하실 수 있습니다: https://max-pdf.com
이 문제를 (실질적으로) 어떻게 접근할까요?
이 시점에서는 완벽한 해결책을 찾는 것보다 앞으로 나아갈 믿을 만한 길을 선택하는 것이 더 중요합니다.
다음과 같은 몇 가지 방법을 시도해 볼 만합니다.
1. 다른 글꼴로 텍스트를 다시 적용하세요(가장 확실한 방법).
SimSun이나 Microsoft YaHei와 같은 최신 OpenType 글꼴로 변경해 보세요.
다소 번거롭지만 이러한 매핑 문제를 방지하는 데 효과적입니다.
2. PDF/A 변환을 시도해 보세요(때때로 도움이 됩니다).
경우에 따라 PDF/A 변환을 강제로 수행하면 누락된 글꼴 매핑이 복구될 수 있습니다.
확실한 해결책은 아니지만, 원본 글꼴 리소스에 접근할 수 있다면 시도해 볼 만합니다.
3. 텍스트를 추출하고 다시 삽입합니다(대체 옵션).
텍스트가 올바르게 복사되었으므로:
- 추출하세요
- 깨진 주석을 제거하세요
- 안정적인 글꼴을 사용하여 다시 삽입하세요
이상적인 방법은 아니지만, 장기적인 가독성을 보장하는 가장 안전한 방법인 경우가 많습니다.
마지막으로
이건 단순한 "인코딩 오류"처럼 보이지 않습니다. 오히려 다음
과 같은 여러 가지 원인이 복합적으로 작용한 결과일 가능성이 높습니다.
👉 기존 CID 글꼴 + 주석 처리 + 글꼴 매핑 문제
PDF는 단순한 문서처럼 보일 수 있지만, 내부적으로는 이와 같은 작은 불일치가 예상치 못하게 지속적인 문제로 이어질 수 있습니다.
다른 사람들도 이걸 봤는지 궁금하네요.
이 문제가 Adobe Song Std에만 국한된 것인지, 아니면 주석 워크플로에서 최신 OpenType 글꼴을 사용할 때도 비슷한 문제가 발생할 수 있는지 확실하지 않습니다 .
혹시 이와 비슷한 문제를 겪어보셨다면, 특히 최신 아크로뱃 버전에서
그러셨다면 어떻게 해결하셨는지 알려주시면 감사하겠습니다.

Good information~
ReplyDelete