Tesseract ocr e python

RonaldRodriguesFaria 384 views 11 slides Jan 31, 2019
Slide 1
Slide 1 of 11
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11

About This Presentation

Slides da palestra ministrada no dia 30/01/2019 no Espaço Black Swan, São Luís - MA


Slide Content

Tesseract OCR
| Python

Tesseract OCR

Foi originalmente desenvolvido na Hewlett-Packard Laboratories Bristol e na
Hewlett-Packard Co, Greeley Colorado, entre os anos de 1985 à 1994, com mais
algumas mudanças, foi portado para Windows em 1996, além de alguns
“C++zing” (upgrades) em 1998. Em 2005 foi liberado a comunidade pela HP e
desde 2006 é então desenvolvido pela Google.

O Optophone era um
dispositivo usado por
cegos, escaneava o texto
com um sensor de selênio
e emitia ruídos distintos
para cada letra. É uma
das primeiras aplicações
conhecidas de
sonificação. Foi inventado
por Dr. Edmund Fourniner
d’Albe, na universidade
de Birmingham em 1913.

Tesseract OCR
●Como a google usa
Tesseract é usado para detecção de texto em dispositivos mobile, em vídeos,
e no detector de spam do Gmail.
●Aplicações
Sempre que houver a necessidade de extrair textos de imagens

Suporta unicode e reconhece mais de 100 linguagens

Python
É uma linguagem de programação de alto nível,

interpretada, de script,
imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi
lançada por Guido van Rossum em 1991. (Wikipedia)

Fonte

Instalação
●Arch
yaourt -S tesseract <tesseract-data-eng tesseract-data-por>
●Ubuntu
sudo apt install tesseract-ocr <tesseract-ocr-eng tesseract-ocr-por>
●Windows
Baixar e instalar a partir do binário.

Usabilidade
●Em terminal:​
tesseract <image> <result> –l <language>


●Com Python (wrapper pytesseract):​
pytesseract.image_to_string(Image.open(‘image.jpg’), lang=’por’)

Show me the code

Improve Quality
●Dois canais de cores somente (preto e branco). Seja ela em escala de cinza
(0≤ Vi≤ 255) ou então a imagem binarizada (Vi== 0 || Vi== 255). Vi=Valor de
intensidade.
●Texto alinhado/padronizado e sem ruídos (gerados geralmente durante a
etapa de binarização).
●Altura do box (espaço ocupado pelos caracteres) superior ao mínimo de
10px.
●Densidade ideal de 300dpi, ou proporcionais para o pressuposto acima.
●Possuir o texto extraível em um único padrão de alfabeto (ou idioma).
●Sem espaço inútil, considerado como bordas para o texto.

That’s all :’D
https://github.com/Ronald-TR
https://www.linkedin.com/in/ronald-rodrigues-farias-aa4313a3/
@ronaldfarias (telegram)
Fontes:
https://opensource.google.com/projects/tesseract
https://github.com/tesseract-ocr/tesseract
https://blog.codeexpertslearning.com.br/lendo-imagens-uma-abordagem-%C3%A0-ocr-com-google-tesser
act-e-python-ee8e8009f2ab
Instalação no Windows:
https://github.com/UB-Mannheim/tesseract/wiki