tesseract(6)
-
OCR Tesseract inttemp not found
이유는 잘 모르겠지만, shapetable 파일을 삭제하면 해결됨 mftraining -F ./ocr/work/kor2.font_properties -D ./static/ocr -U ./static/ocr/unicharset -O ./static/ocr/kor2-0.unicharset Reading ./static/ocr\kor2.12lottemartdreambold.exp0.tr ... id size():Error:Assert failed:in file ../../../src/ccutil/unicharset.cpp, line 294 cntraining Reading ./static/ocr\kor2.12lottemartdreambold.exp0.tr ... Clustering ... Wri..
2021.04.18 -
Tesseract text2image
--char_spacing 1 : 글자간의 간격을 1로 셋팅 --find_fonts : 폰트를 찾아서 실행 --outputbase ./work/output/ : 해당 위치에 결과 이미지 생성(마지막에 '/'가 없으면, 디렉토리 제대로 찾지 못함) text2image --text ./work/words.txt --outputbase ./work/output/ --fontconfig_tmpdir ./work/tmp --fonts_dir C:/Windows/Fonts --char_spacing 1 --find_fonts
2021.03.28 -
Tesseract 사용 가능한 Font 확인
사용가능한 폰트 확인 text2image --list_available_fonts --fontconfig_tmpdir ./work/tmp --fonts_dir c:/Windows/Fonts --fonts_dir이 없으면 아래와 같은 에러 발생 text2image --list_available_fonts --fontconfig_tmpdir ./work/tmp Fontconfig warning: "./work/tmp\fonts.conf", line 4: empty font directory name ignored
2021.03.28 -
Tesseract TR 생성시 인식률 높이기
'-- psm 8'을 추가해 줬을 때, 좀더 많은 문자를 제대로 인식함'-- psm 8'을 추가해 줬을 때, 좀더 많은 문자를 제대로 인식함 cmd = "tesseract %s %s --psm 8 nobatch box.train" %(file,file[:file.rfind('.')]) 아래 Fail을 줄일 수 있음 FAIL! APPLY_BOXES: boxfile line 184/: ((2135,9883),(2139,9906)): FAILURE! Couldn't find a matching blob
2021.03.08 -
tesseract 실행
# box 파일만 생성 tesseract ./aa/aa.png ./aa/aa -l kor batch.nochop makebox # tif, box 파일 생성 "unicharset_extractor --output_unicharset ./data/font_image/unicharset text2image --text %s --outputbase %s --font '%s' --fonts_dir %s --fontconfig_tmpdir %s" %(train, outputbase, font_name, font_dir,temp) # tr 파일 생성 "tesseract %s %s nobatch box.train" %(tif,outputbase) # unicharset 파일 생성 'unicharset_extracto..
2020.12.31 -
OCR 참고자료
jongwony.github.io/blog/posts/2017-04-26-ocr-training/ Jongwony OCR 한글 학습 2017-04-26 00:00:00 Tesseract, OpenCV 설치 Tesseract-OCR을 사용했지만 특히 한글의 인식율이 기대에 미치지 않아 크게 실망하고 다른 엔진을 찾아다닐 수 있습니다. 하지만 생각해 보면 OCR 엔 jongwony.github.io Tesseract로 OCR 하기 - 옳은 길로.. (tistory.com) Tesseract로 OCR 하기 OCR은 Optical Character Recognition의 약자로 광학 문자 인식을 일컫는다. 이는 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환..
2020.12.31