본문 바로가기

각 종 it/파이썬, 업무자동화 RPA

pdf to txt, 파이썬으로 구현(pdfminer)

Zelaw 2021. 7. 4. 03:01

처음에는 이 영상을 보고,

구현 할려고 하니, 한글이 깨지는 것이다.

이 코드에서는 pypdf2이다.

동양인으로서 눈물을 머금고, 한글이 잘 되는 다른 라이브러리를 찾던 중

PDFMINER를 발견하게 되었다.

그래서 이렇게 함 구현 해 봤다.

변하고자 하는 pdf 파일을 선택하면, 새폴더 하나 만들고 그 안에 txt를 생성 pdf 파일 내용을 넣는다.

비록 표는 구현되지 않지만, 띄어쓰기 포함 글자가 잘 들어 가 있는 것을 볼 수 있다.

이미 ocr이 발달 했는데 굳이 이것을 구현 한 이유가...

무료로 지원하는 ocr 특히 pdf ocr의 경우 일일히 pdf 파일을 열어야 한다.

하지만

pdfTotxt 코드.zip

이 코드는 여러 pdf를 한꺼번에 처리 할 수 있다.

즉, 다수의 pdf 파일 내용 중 원하는 내용이 포함 된 pdf를

2021.06.23 - [각 종 it/파이썬, 업무자동화 RPA] - 쿠팡물류분류 같은 작업 대신 해 주는 프로그램, Move! file to folder

쿠팡물류분류 같은 작업 대신 해 주는 프로그램, Move! file to folder

단순한 수치 데이터라고 한다면, 엑셀로 관리 하면 되는데, pdf, 엑셀, 한글 등 사람에 따라 자료를 관리 해야 하는 경우 폴더에 이름을 지정 해서 관리하는게 국룰이다. 한 두개야, 일일히 넣으면

aldkzm.tistory.com

원하는 곳에 이동하거나 복사 할 수 있다는 것이다.

일례로 이름을 아주 잘~~~~ 지어서 내용을 파악 할 수 없는 pdf가 100개라고 치자!

그럼 님은 그 중 특정인의 파일 하나를 찾아야 한다.

100개 다 여는 것도 한 방법이다.

하지만!

이 코드를 써서 그 특정인의 이름이나 주소가 포함 된 pdf가 있다면 그 파일을 데려 올 수 있다.

저 중에서 타노스가 있으면 다행인데 없다면, 마인드스톤... 아니 내 퇴근시간을 빼앗기게 된다.

아니면, 각 pdf 내용에 맞게 이름을 다시 지정해야 하는데, 일일히 열어 100개가 넘는 pdf이름을 변경한다치자.

(실제로 그 일을 시킨 곳이 있었다. ㅎㄷㄷ)

이 코드로 내용을 읽고 해당 페이지에 그 단어를 캐치하여 이름으로 지정 한 뒤 저장하라.

차피 이 코드에 쓰인

for i, content in enumerate(한글주소) :

해당 파일에 타노스가 있다면 그 파일 이름을 타노스 데려와! 라고 하고 특정 폴더로 이동하라라고 하면 된다.

그럼 100개나 되는 pdf 파일을 내용에 맞게 수정 할 수 있다.

그럼 텍스트로만 저장 가능한가요?

아니요. 한글이든 엑셀이든 어떤 포맷으로 가능합니다.

그저 글자를 추출 한 거니 그대로 복붙만 하면 되니까요.

이 코드를 구현하면서 주의 할 점

텍스트 구현 할 때

encoding='utf-8'

를 꼭 넣어주자.

다음에는 이미지에서 글자를 읽는 기능을 구현 할 것인데...

이게 더 쉬워서...

그리드형

저작자표시 비영리 변경금지 (새창열림)

전복소라

이시가리(줄가자미)

영덕박달대게 택배

돌문어

영덕박달대게 홑게 회

#강구박달대게 시세는(054-734-0458)

#태양광 상담은(010-2668-3897)...

티스토리툴바