tesseract 실행

2020. 12. 31. 21:10파이썬/OCR

# box 파일만 생성

tesseract ./aa/aa.png ./aa/aa -l kor batch.nochop makebox

# tif, box 파일 생성

"unicharset_extractor --output_unicharset ./data/font_image/unicharset text2image --text %s --outputbase %s --font '%s' --fonts_dir %s --fontconfig_tmpdir %s" %(train, outputbase, font_name, font_dir,temp)

# tr 파일 생성

"tesseract %s %s nobatch box.train" %(tif,outputbase)

# unicharset 파일 생성

'unicharset_extractor --output_unicharset ./data/font_image/unicharset ' + ' '.join(boxes)

# shapetable 파일 생성

'shapeclustering = 'shapeclustering -F ./data/kor.font_properties -U ./data/font_image/unicharset -D ./data/font_image ' + ' '.join(trs)

# inttemp, pffmtable 파일 생성

#  shapetable 파일 생성(파일이 없는 경우만)

# kor.unicharset 파일 생성

'mftraining -F ./data/kor.font_properties -D ./data/font_image -U ./data/font_image/unicharset -O ./data/font_image/kor.unicharset ' + ' '.join(trs)

# normproto 파일 생성

'cntraining -D ./data/font_image ' + ' '.join(trs)

# 파일명 변경

normproto -> kor.normproto

inttemp -> kor.inttemp

pffmtable -> kor.pffmtable

shapetable -> kor.shapetable

# kor.traineddata 파일 생성

combine_tessdata ./data/font_image/kor.

# kor.traineddata 이동

/usr/local/tesseract-5.0/share/tessdata

'파이썬 > OCR' 카테고리의 다른 글

윈도우에서 폰트를 찾지 못하는 에러  (0) 2021.01.02
java로 text를 image로 변환하는 샘플  (0) 2020.12.31
OCR 현대 한글의 모든 글자  (0) 2020.12.31
OCR 참고자료  (0) 2020.12.31
font_properties 구성  (0) 2020.12.30