업무를 하다 보면 PDF에 담긴 방대한 표 데이터를 엑셀(Excel)로 옮겨야 하는 상황이 자주 발생합니다. 하지만 단순히 PDF 내용을 복사해서 엑셀에 붙여넣거나, 일반적인 무료 변환 사이트를 이용하면 표의 줄이 맞지 않고 데이터가 엉뚱한 셀에 들어가는 등 심각한 서식 깨짐 현상을 겪게 됩니다. 특히 복잡한 테두리나 병합된 셀이 포함된 보고서 형식의 PDF는 변환 후 수작업으로 수정하는 데만 수 시간이 걸리기도 합니다.
이러한 데이터 뒤섞임 현상은 PDF 파일이 '이미지' 기반으로 생성되었거나, 엑셀의 데이터 구조를 무시한 채 텍스트 값만 추출하기 때문에 발생합니다. 이를 해결하기 위해서는 PDF의 표 구조를 정확히 인식하는 OCR(광학 문자 인식) 기술과 엑셀 전용 데이터 가져오기 기능을 활용해야 합니다. 본 포스팅에서는 데이터 손실 없이 PDF 표를 엑셀로 완벽하게 변환하는 단계별 해결책을 제시합니다.
|
PDF 엑셀 변환 오류 핵심 요약 1. 엑셀 자체 기능인 [데이터 가져오기] > [파일에서] > [PDF에서] 기능을 최우선으로 사용하세요. 2. 텍스트 복사가 안 되는 이미지 PDF라면 OCR 기능이 포함된 전문 변환 도구를 활용해야 합니다. 3. 변환 전 PDF 파일의 보안 설정을 확인하고 암호가 걸려 있다면 이를 먼저 해제해야 합니다. 4. 파워 쿼리(Power Query) 편집기를 활용하면 뒤섞인 열과 행을 변환 과정에서 바로 정렬할 수 있습니다. |
문제 원인
PDF를 엑셀로 변환할 때 데이터가 뒤섞이는 주요 원인은 다음과 같습니다.
- 병합된 셀 구조: PDF 상에서는 하나의 셀로 보이지만 엑셀로 변환 시 여러 개의 빈 셀이 생성되어 행 위치가 밀리게 됩니다.
- 비표준 폰트 및 인코딩: 특수한 폰트로 작성된 PDF는 텍스트를 추출할 때 글자가 깨지거나 공백으로 인식되어 표 구조를 무너뜨립니다.
- 이미지 형태의 PDF: 스캔한 문서는 텍스트 데이터가 없으므로 일반적인 변환 방식으로는 데이터를 한 줄도 읽어올 수 없습니다.
- 복잡한 레이아웃: 한 페이지 내에 여러 개의 독립적인 표가 있거나 텍스트와 표가 섞여 있으면 변환 엔진이 열 구분을 실패합니다.
해결 방법 1: 엑셀의 'PDF에서 데이터 가져오기' 기능 활용
별도의 유료 소프트웨어 없이 엑셀(2019 버전 이상 또는 Microsoft 365) 내부 기능만으로 가장 깔끔하게 데이터를 가져오는 방법입니다.
1. 데이터 연결 실행
1. 엑셀을 실행하고 상단 메뉴에서 [데이터] 탭을 클릭합니다.
2. 왼쪽의 [데이터 가져오기] > [파일에서] > [PDF에서]를 선택합니다.
3. 변환을 원하는 PDF 파일을 선택하고 [가져오기]를 누릅니다.
2. 테이블 선택 및 변환
1. '탐색기' 창이 뜨면 왼쪽 리스트에서 'Table 001'과 같이 표 형태의 아이콘을 클릭합니다.
2. 오른쪽 미리보기 화면에서 데이터가 제대로 칸에 맞게 들어갔는지 확인합니다.
3. 서식이 약간 틀어져 있다면 하단의 [데이터 변환]을 눌러 '파워 쿼리 편집기'에서 열 이름 변경이나 빈 행 제거를 수행한 뒤 [닫기 및 로드]를 클릭합니다.
해결 방법 2: 워드(Word)를 경유한 서식 유지 방법
엑셀에서 직접 불러오기가 안 될 때, 마이크로소프트 워드의 PDF 해석 능력을 빌리는 방법입니다.
1. 워드에서 PDF 열기
1. 워드 프로그램을 실행합니다.
2. [파일] > [열기]를 통해 PDF 파일을 선택합니다.
3. 'PDF를 편집 가능한 워드 문서로 변환합니다'라는 메시지가 나오면 [확인]을 누릅니다.
2. 엑셀로 표 복사
1. 워드에서 정렬된 표 전체를 드래그하여 선택한 뒤 Ctrl + C로 복사합니다.
2. 엑셀 시트에서 [선택하여 붙여넣기] > [주변 서식에 맞추기]를 선택하여 데이터를 붙여넣습니다.
해결 방법 3: 구글 스프레드시트를 이용한 변환
MS 오피스가 없거나 이미지 형태의 PDF일 때 구글의 OCR 엔진을 활용하는 방법입니다.
1. 구글 드라이브 업로드 및 연결 앱 선택
1. PDF 파일을 구글 드라이브에 업로드합니다.
2. 파일 위에서 마우스 오른쪽 버튼을 클릭하고 [연결 앱] > [구글 문서]를 선택합니다.
3. 구글 문서가 이미지 속 텍스트와 표 구조를 인식하여 텍스트로 변환해 줍니다.
2. 시트로 복사
1. 변환된 문서의 표를 복사하여 구글 스프레드시트나 엑셀에 붙여넣습니다. (이미지 기반 PDF일 때 가장 강력한 무료 해결책입니다.)
그래도 해결되지 않을 때
표의 구조가 지나치게 복잡하여 수작업이 너무 많이 필요하다면 전문 도구를 고려해야 합니다.
1. Adobe Acrobat 온라인 변환기 사용
어도비 공식 웹사이트에서 제공하는 무료 변환 서비스는 다른 사이트보다 표 구조 인식률이 훨씬 높습니다.
https://www.adobe.com/kr/acrobat/online/pdf-to-excel.html
2. IlovePDF 또는 Smallpdf 활용
가장 대중적인 온라인 도구들이지만, 개인정보나 기밀 데이터가 포함된 문서라면 보안에 주의해야 합니다.
문제 예방 방법
- PDF 생성 시 옵션 확인: 한글이나 워드에서 PDF를 만들 때 '최적화' 옵션에서 '텍스트를 이미지로 변환'이 체크되지 않도록 주의하세요.
- 병합 셀 최소화: 문서 작성 단계에서 셀 병합을 줄이면 나중에 엑셀 변환 시 데이터가 밀리는 현상을 원천 차단할 수 있습니다.
- 보안 해제 확인: 편집이 제한된 PDF는 변환 도구가 데이터를 읽어오지 못하므로 사전에 보안 설정을 '제한 없음'으로 변경해야 합니다.
자주 묻는 질문
Q. 스캔한 종이 문서 PDF도 엑셀로 바꿀 수 있나요?
A. 네, 하지만 반드시 OCR(광학 문자 인식) 기능이 있는 도구를 써야 합니다. 해결 방법 3의 구글 문서 방식이나 유료 버전의 Adobe Acrobat을 추천합니다.
Q. 변환 후 숫자가 텍스트로 인식되어 계산이 안 됩니다.
A. 엑셀 빈 셀에 1을 적고 복사한 뒤, 해당 숫자 범위에 [선택하여 붙여넣기] > [곱하기]를 적용하면 텍스트 형식이 숫자 형식으로 일괄 변경됩니다.
마무리 요약
PDF를 엑셀로 변환할 때 발생하는 데이터 뒤섞임은 엑셀의 '파일에서 데이터 가져오기' 기능을 통해 90% 이상 해결할 수 있습니다. 이 방법이 통하지 않는 복잡한 표라면 워드 경유 방식이나 구글 문서 OCR을 활용하는 것이 수작업 시간을 줄이는 핵심 비결입니다. 오늘 안내해 드린 단계별 가이드를 통해 더 이상 무의미한 타이핑 작업에 시간을 낭비하지 마시고 업무 생산성을 높여보시기 바랍니다.
