Extraiga de forma inteligente texto y datos de un documento con OCR NER

Extraiga de forma inteligente texto y datos de un documento con OCR NER

Es hora de crear un proyecto de aplicación de escáner de documentos que pueda extraer nombres de documentos escaneados con OpenCV, Pytesseract y Spacy.

Lo que vas a aprender

Extraiga de forma inteligente texto y datos de un documento con OCR NER

  • Esto significa que creará y entrenará un modelo para reconocer nombres.
  • Extraiga no solo texto de la imagen, sino también otras cosas de la tarjeta de presentación.
  • Para hacer ABBY, debes empezar desde cero. Es un escáner de tarjetas de visita que usted hace.
  • Cuando resolvemos el problema del lenguaje natural, utilizamos métodos de procesamiento de datos de muy alto nivel.
  • Una aplicación en tiempo real para NER.

Requisitos

  • Debería saber al menos algo de Python.
  • Con Pandas DataFrames, aprenda a realizar agregaciones.
  • OpenCV te permite leer y escribir imágenes y puedes dibujar rectángulos en ellas.

Descripción

Este es un curso llamado "Extracción inteligente de texto y datos de un documento con OCR y NER".

En este curso, aprenderá a crear su propio reconocedor de entidades con nombre. El objetivo principal de esta clase es aprender a encontrar cosas como facturas, tarjetas de presentación, facturas de envío, documentos de conocimiento de embarque y más a partir de documentos escaneados como este. Sin embargo, por el bien de la privacidad, solo miramos la tarjeta de presentación. Pero puede utilizar el mismo marco para redactar cualquier tipo de informe financiero. Siguiendo el plan de estudios a continuación, podremos hacer que el proyecto se haga realidad pronto.

Para hacer este proyecto, usaremos dos de las herramientas más importantes en ciencia de datos:

  • Cuando se trata de computadoras, visión es el nombre de
  • Hay personas que trabajan con lenguaje natural.

Si desea aprender acerca de la visión por ordenador, escaneará un papel, averiguará dónde está el texto y luego obtendrá el texto de una imagen. Saque el título del texto, límpielo y léalo. Luego haremos el procesamiento del lenguaje natural, que es lo que vamos a hacer.

LEER
Curso de administración de cortafuegos de Fortigate

Bibliotecas de Python que se utilizan en el Módulo de visión por ordenador.

  • OpenCV
  • Numpy
  • Pytesseract

Bibliotecas de Python utilizadas en el procesamiento del lenguaje natural

  • Espacioso
  • Pandas
  • Expresión regular
  • Cuerda

Como usamos dos tecnologías principales para hacer el proyecto, dividimos el curso en varias etapas para facilitar la comprensión.


Etapa 1: Configuraremos el proyecto instalando cosas y cumpliendo las reglas.

  • Configura Python.
  • Asegúrese de tener todo lo que necesita.

Etapa 2: Prepararemos los datos. Eso significa que usaremos Pytesseract para obtener un texto de las imágenes y también limpiarlas.

  • Todas las imágenes que quieres mostrar.
  • una mirada a Pytesseract
  • El texto se puede encontrar en cualquier imagen que tenga texto.
  • Limpiar y preparar el texto.

Etapa 3: aprenderemos a etiquetar datos NER con etiquetado BIO.

  • Etiquetar manualmente con BIO es la forma de hacerlo.
  • B - El comienzo
  • Yo - esta adentro
  • El exterior

Etapa 4: Haremos aún más para limpiar el texto y preparar los datos para que podamos entrenar el aprendizaje automático en él.

  • Los datos de entrenamiento espacial deben estar listos antes de comenzar
  • Convierta datos a un formato grande.
  • El modelo de entidad nombrada se entrenará en esta etapa.
  • Configuración del modelo NER
  • Se debe enseñar al modelo cómo hacer lo que debe.

Etapa 6: Usaremos NER y un modelo para predecir los títulos y construir una canalización de datos para analizar el texto.

  • Echa un vistazo a los modelos
  • Luego, hazlo y sírvelo con un expositor.
  • Cuando hagas una foto, dibuja un recuadro a su alrededor.
  • Analice los títulos de un texto para encontrarlos.

Nuestro último paso es crear una aplicación de escáner de documentos. Haremos esto juntando todo.

Empecemos a trabajar en el proyecto de IA ahora.

Más Información

Subir

Este sitio web utiliza cookies para ofrecerle una mejor experiencia de navegación, si continua en navegando consideramos que acepta su uso.