Tesseract ocr e python

RonaldRodriguesFaria 384 views 11 slides Jan 31, 2019

Slide 1 of 11

About This Presentation

Slides da palestra ministrada no dia 30/01/2019 no Espaço Black Swan, São Luís - MA

Size: 579.55 KB

Language: pt

Added: Jan 31, 2019

Slides: 11 pages

Slide Content

Tesseract OCR
| Python

Tesseract OCR

Foi originalmente desenvolvido na Hewlett-Packard Laboratories Bristol e na
Hewlett-Packard Co, Greeley Colorado, entre os anos de 1985 à 1994, com mais
algumas mudanças, foi portado para Windows em 1996, além de alguns
“C++zing” (upgrades) em 1998. Em 2005 foi liberado a comunidade pela HP e
desde 2006 é então desenvolvido pela Google.

O Optophone era um
dispositivo usado por
cegos, escaneava o texto
com um sensor de selênio
e emitia ruídos distintos
para cada letra. É uma
das primeiras aplicações
conhecidas de
sonificação. Foi inventado
por Dr. Edmund Fourniner
d’Albe, na universidade
de Birmingham em 1913.

Tesseract OCR
●Como a google usa
Tesseract é usado para detecção de texto em dispositivos mobile, em vídeos,
e no detector de spam do Gmail.
●Aplicações
Sempre que houver a necessidade de extrair textos de imagens

Suporta unicode e reconhece mais de 100 linguagens

Python
É uma linguagem de programação de alto nível,

interpretada, de script,
imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi
lançada por Guido van Rossum em 1991. (Wikipedia)

Fonte

Instalação
●Arch
yaourt -S tesseract <tesseract-data-eng tesseract-data-por>
●Ubuntu
sudo apt install tesseract-ocr <tesseract-ocr-eng tesseract-ocr-por>
●Windows
Baixar e instalar a partir do binário.

Usabilidade
●Em terminal:
tesseract <image> <result> –l <language>

●Com Python (wrapper pytesseract):
pytesseract.image_to_string(Image.open(‘image.jpg’), lang=’por’)

Show me the code

Improve Quality
●Dois canais de cores somente (preto e branco). Seja ela em escala de cinza
(0≤ Vi≤ 255) ou então a imagem binarizada (Vi== 0 || Vi== 255). Vi=Valor de
intensidade.
●Texto alinhado/padronizado e sem ruídos (gerados geralmente durante a
etapa de binarização).
●Altura do box (espaço ocupado pelos caracteres) superior ao mínimo de
10px.
●Densidade ideal de 300dpi, ou proporcionais para o pressuposto acima.
●Possuir o texto extraível em um único padrão de alfabeto (ou idioma).
●Sem espaço inútil, considerado como bordas para o texto.

That’s all :’D
https://github.com/Ronald-TR
https://www.linkedin.com/in/ronald-rodrigues-farias-aa4313a3/
@ronaldfarias (telegram)
Fontes:
https://opensource.google.com/projects/tesseract
https://github.com/tesseract-ocr/tesseract
https://blog.codeexpertslearning.com.br/lendo-imagens-uma-abordagem-%C3%A0-ocr-com-google-tesser
act-e-python-ee8e8009f2ab
Instalação no Windows:
https://github.com/UB-Mannheim/tesseract/wiki

Tesseract ocr e python

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Tesseract ocr e python

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Pray For The Peace Of Jerusalem and You Will Prosper

Don_t_Waste_Your_Life_God.....powerpoint

VILLASUR_FACTORS_TO_CONSIDER_IN_PLATING_SALAD_10-13.pdf

Fertility awareness methods for women in the society

Chapter 5 Arithmetic Functions Computer Organisation and Architecture

syakira bhasa inggris (1) (1).pptx.......