'tesseract' 태그의 글 목록

OCR Tesseract inttemp not found

이유는 잘 모르겠지만, shapetable 파일을 삭제하면 해결됨 mftraining -F ./ocr/work/kor2.font_properties -D ./static/ocr -U ./static/ocr/unicharset -O ./static/ocr/kor2-0.unicharset Reading ./static/ocr\kor2.12lottemartdreambold.exp0.tr ... id size():Error:Assert failed:in file ../../../src/ccutil/unicharset.cpp, line 294 cntraining Reading ./static/ocr\kor2.12lottemartdreambold.exp0.tr ... Clustering ... Wri..

2021.04.18

Tesseract text2image

--char_spacing 1 : 글자간의 간격을 1로 셋팅 --find_fonts : 폰트를 찾아서 실행 --outputbase ./work/output/ : 해당 위치에 결과 이미지 생성(마지막에 '/'가 없으면, 디렉토리 제대로 찾지 못함) text2image --text ./work/words.txt --outputbase ./work/output/ --fontconfig_tmpdir ./work/tmp --fonts_dir C:/Windows/Fonts --char_spacing 1 --find_fonts

2021.03.28

Tesseract 사용 가능한 Font 확인

사용가능한 폰트 확인 text2image --list_available_fonts --fontconfig_tmpdir ./work/tmp --fonts_dir c:/Windows/Fonts --fonts_dir이 없으면 아래와 같은 에러 발생 text2image --list_available_fonts --fontconfig_tmpdir ./work/tmp Fontconfig warning: "./work/tmp\fonts.conf", line 4: empty font directory name ignored

2021.03.28

Tesseract TR 생성시 인식률 높이기

'-- psm 8'을 추가해 줬을 때, 좀더 많은 문자를 제대로 인식함'-- psm 8'을 추가해 줬을 때, 좀더 많은 문자를 제대로 인식함 cmd = "tesseract %s %s --psm 8 nobatch box.train" %(file,file[:file.rfind('.')]) 아래 Fail을 줄일 수 있음 FAIL! APPLY_BOXES: boxfile line 184/: ((2135,9883),(2139,9906)): FAILURE! Couldn't find a matching blob

2021.03.08

tesseract 실행

# box 파일만 생성 tesseract ./aa/aa.png ./aa/aa -l kor batch.nochop makebox # tif, box 파일 생성 "unicharset_extractor --output_unicharset ./data/font_image/unicharset text2image --text %s --outputbase %s --font '%s' --fonts_dir %s --fontconfig_tmpdir %s" %(train, outputbase, font_name, font_dir,temp) # tr 파일 생성 "tesseract %s %s nobatch box.train" %(tif,outputbase) # unicharset 파일 생성 'unicharset_extracto..

2020.12.31

OCR 참고자료

jongwony.github.io/blog/posts/2017-04-26-ocr-training/ Jongwony OCR 한글 학습 2017-04-26 00:00:00 Tesseract, OpenCV 설치 Tesseract-OCR을 사용했지만 특히 한글의 인식율이 기대에 미치지 않아 크게 실망하고 다른 엔진을 찾아다닐 수 있습니다. 하지만 생각해 보면 OCR 엔 jongwony.github.io Tesseract로 OCR 하기 - 옳은 길로.. (tistory.com) Tesseract로 OCR 하기 OCR은 Optical Character Recognition의 약자로 광학 문자 인식을 일컫는다. 이는 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환..

2020.12.31

취미생활

취미생활

태그

최근글

댓글

공지사항

아카이브

tesseract(6)

티스토리툴바