OCR (EasyOCR)

Dieser Funktionsblock erkennt und extrahiert Text aus Bildern mithilfe einer OCR-Engine. Er ist für eine einfache Integration ausgelegt: Bild bereitstellen, Konfidenz-Schwelle anpassen und optional automatische Rotation zulassen, um die Erkennung gedrehter Texte zu verbessern.

📥 Eingänge

  • Image Graustufen- oder Farbbild, das den zu erkennenden Text enthält.

📤 Ausgänge

  • Result Bild mit markierten Boxen und optionalen Textlabels (wenn Visualisierung downstream aktiv ist).

  • Whole Text Vollständig erkannter Text als einzelner String (Wörter zusammengefügt).

  • Texts Einzelne erkannte Textsegmente als Liste.

  • Boxes Begrenzungs-Polygone (4 Punkte) für jeden erkannten Textbereich.

🕹️ Steuerungen

  • Auto Rotation Umschalter, um gedrehte Versionen des Eingabebildes zu prüfen (nützlich bei gedrehten Texten wie auf geneigten Schildern oder Fotos).

  • Show Texts Umschalter, um erkannte Textlabels in der annotierten Bild-Ausgabe anzuzeigen (wenn Visualisierung angeschlossen ist).

  • Threshold Schieberegler, um die minimale Konfidenz festzulegen, die eine Erkennung akzeptiert. Höhere Werte verringern False Positives, können aber schwach sichtbaren Text übersehen.

✨ Features

  • Mehrwinkel-Erkennung bei aktiviertem Auto Rotation, verbessert die Erkennung gedrehter Texte.

  • Konfidenzbasierte Filterung über Threshold zur Steuerung der Erkennungsstrenge.

  • Liefert sowohl Textresultate als auch präzise Begrenzungs-Polygone für jede Erkennung — ideal für weitere Verarbeitung oder Protokollierung.

  • Nutzt bei Verfügbarkeit Hardware-Beschleunigung zur Leistungsverbesserung.

📊 How it runs

Wenn ein Bild an Image angelegt wird, analysiert der Block das Bild auf Text unter Berücksichtigung der eingestellten Threshold- und Rotations-Einstellungen. Akzeptierte Erkennungen werden als Text und Boxes zurückgegeben. Ist die Visualisierung angeschlossen, erscheint zusätzlich ein annotiertes Bild auf dem Result-Ausgang (mit Boxen und optionalen Labels).

📝 Quick start

  1. Verbinde einen bildliefernden Block (z. B. Kamera oder Image Loader) mit Image.

  2. Aktiviere Auto Rotation, falls der Text gedreht sein könnte.

  3. Passe Threshold an, um die Balance zwischen Empfindlichkeit und Fehlalarmen zu finden.

  4. Verwende Boxes, um Erkennungen zu zeichnen oder zu protokollieren, oder verbinde Result mit einem Anzeige-Block zur Vorschau.

💡 Tips and Tricks

  • Vorverarbeitung kleiner oder verrauschter Texte mit Image Resizer oder Super Resolution kann die Lesbarkeit und OCR-Qualität verbessern.

  • Auf ROI zuschneiden mit Image ROI Select oder Image ROI, damit OCR nur relevante Bereiche verarbeitet (schneller und genauer).

  • Kontrast verbessern und Rauschen reduzieren mit Contrast Optimization, Denoising oder Adjust Colors vor der OCR.

  • Ablenkende Hintergründe entfernen mit Background Removal (RMBG-1.4) oder Background Removal (BiRefNet) bei komplexen Szenen.

  • Für schnelle visuelle Prüfungen Result an Show Image anschließen, um Box-Platzierung und Textlabels zu kontrollieren.

  • Zum Vergleichen der Erkennungsqualität alternativ den anderen OCR-Block ausprobieren.

  • Erkannten Text und Logs mit CSV Export speichern oder strukturierte Logs mit Data to JSON erzeugen.

  • Bei vielen False Positives Threshold erhöhen oder gezielt Bereiche mit Apply Mask ausschließen.

🛠️ Troubleshooting

  • Keine Texte erkannt: Bildgröße mit Image Resizer erhöhen oder Klarheit mit Denoising / Contrast Optimization verbessern.

  • Niedrige Konfidenzen: Threshold erhöhen und Hintergrund mit Background-Removal-Blöcken bereinigen.

  • Text gedreht oder auf dem Kopf: Auto Rotation aktivieren. Falls nur ein Winkel problematisch ist, ROI auswählen und extern drehen.

  • Viele Fehlalarme bei strukturierten Hintergründen: Verarbeite nur relevante Bereiche mit Image ROI Select und blocke störende Zonen mit Apply Mask.

  • Strukturiertes Ergebnis gewünscht: Texts und Boxes in Data to JSON oder CSV Export routen für Speicherung oder weitere Systeme.

Zuletzt aktualisiert