tesseract 실행
2020. 12. 31. 21:10ㆍ파이썬/OCR
# box 파일만 생성
tesseract ./aa/aa.png ./aa/aa -l kor batch.nochop makebox
# tif, box 파일 생성
"unicharset_extractor --output_unicharset ./data/font_image/unicharset text2image --text %s --outputbase %s --font '%s' --fonts_dir %s --fontconfig_tmpdir %s" %(train, outputbase, font_name, font_dir,temp)
# tr 파일 생성
"tesseract %s %s nobatch box.train" %(tif,outputbase)
# unicharset 파일 생성
'unicharset_extractor --output_unicharset ./data/font_image/unicharset ' + ' '.join(boxes)
# shapetable 파일 생성
'shapeclustering = 'shapeclustering -F ./data/kor.font_properties -U ./data/font_image/unicharset -D ./data/font_image ' + ' '.join(trs)
# inttemp, pffmtable 파일 생성
# shapetable 파일 생성(파일이 없는 경우만)
# kor.unicharset 파일 생성
'mftraining -F ./data/kor.font_properties -D ./data/font_image -U ./data/font_image/unicharset -O ./data/font_image/kor.unicharset ' + ' '.join(trs)
# normproto 파일 생성
'cntraining -D ./data/font_image ' + ' '.join(trs)
# 파일명 변경
normproto -> kor.normproto
inttemp -> kor.inttemp
pffmtable -> kor.pffmtable
shapetable -> kor.shapetable
# kor.traineddata 파일 생성
combine_tessdata ./data/font_image/kor.
# kor.traineddata 이동
/usr/local/tesseract-5.0/share/tessdata
'파이썬 > OCR' 카테고리의 다른 글
윈도우에서 폰트를 찾지 못하는 에러 (0) | 2021.01.02 |
---|---|
java로 text를 image로 변환하는 샘플 (0) | 2020.12.31 |
OCR 현대 한글의 모든 글자 (0) | 2020.12.31 |
OCR 참고자료 (0) | 2020.12.31 |
font_properties 구성 (0) | 2020.12.30 |