처음에는 이 영상을 보고,
구현 할려고 하니, 한글이 깨지는 것이다.
이 코드에서는 pypdf2이다.
동양인으로서 눈물을 머금고, 한글이 잘 되는 다른 라이브러리를 찾던 중
PDFMINER를 발견하게 되었다.
그래서 이렇게 함 구현 해 봤다.
변하고자 하는 pdf 파일을 선택하면, 새폴더 하나 만들고 그 안에 txt를 생성 pdf 파일 내용을 넣는다.
비록 표는 구현되지 않지만, 띄어쓰기 포함 글자가 잘 들어 가 있는 것을 볼 수 있다.
이미 ocr이 발달 했는데 굳이 이것을 구현 한 이유가...
무료로 지원하는 ocr 특히 pdf ocr의 경우 일일히 pdf 파일을 열어야 한다.
하지만
이 코드는 여러 pdf를 한꺼번에 처리 할 수 있다.
즉, 다수의 pdf 파일 내용 중 원하는 내용이 포함 된 pdf를
2021.06.23 - [각 종 it/파이썬, 업무자동화 RPA] - 쿠팡물류분류 같은 작업 대신 해 주는 프로그램, Move! file to folder
원하는 곳에 이동하거나 복사 할 수 있다는 것이다.
일례로 이름을 아주 잘~~~~ 지어서 내용을 파악 할 수 없는 pdf가 100개라고 치자!
그럼 님은 그 중 특정인의 파일 하나를 찾아야 한다.
100개 다 여는 것도 한 방법이다.
하지만!
이 코드를 써서 그 특정인의 이름이나 주소가 포함 된 pdf가 있다면 그 파일을 데려 올 수 있다.
저 중에서 타노스가 있으면 다행인데 없다면, 마인드스톤... 아니 내 퇴근시간을 빼앗기게 된다.
아니면, 각 pdf 내용에 맞게 이름을 다시 지정해야 하는데, 일일히 열어 100개가 넘는 pdf이름을 변경한다치자.
(실제로 그 일을 시킨 곳이 있었다. ㅎㄷㄷ)
이 코드로 내용을 읽고 해당 페이지에 그 단어를 캐치하여 이름으로 지정 한 뒤 저장하라.
차피 이 코드에 쓰인
for i, content in enumerate(한글주소) :
해당 파일에 타노스가 있다면 그 파일 이름을 타노스 데려와! 라고 하고 특정 폴더로 이동하라라고 하면 된다.
그럼 100개나 되는 pdf 파일을 내용에 맞게 수정 할 수 있다.
그럼 텍스트로만 저장 가능한가요?
아니요. 한글이든 엑셀이든 어떤 포맷으로 가능합니다.
그저 글자를 추출 한 거니 그대로 복붙만 하면 되니까요.
이 코드를 구현하면서 주의 할 점
텍스트 구현 할 때
encoding='utf-8'
를 꼭 넣어주자.
다음에는 이미지에서 글자를 읽는 기능을 구현 할 것인데...
이게 더 쉬워서...
#태양광 상담은(010-2668-3897)...
RECENT COMMENT