OCR

Dieser Funktionsblock extrahiert Text aus Bildern und liefert sowohl eine visuelle Darstellung als auch strukturierte Textausgaben. Er wurde für eine schnelle, benutzerfreundliche Texterkennung aus eingespeisten Bildern entwickelt.

📥 Eingänge

Image Das zu analysierende Bild (unterstützt die meisten Bildformate).

(Dies sind die Eingangssockets dieses Blocks.)

📤 Ausgänge

Result Ein Bild mit eingezeichneten erkannten Textbereichen (falls vorhanden). Whole Text Alle erkannten Texte, zu einem einzigen String zusammengefügt. Texts Eine Liste der einzelnen erkannten Textstrings. Boxes Begrenzungsformen (Box-Koordinaten) für jeden erkannten Textbereich.

(Dies sind die Ausgangssockets dieses Blocks.)

🕹️ Steuerungen

Auto Rotation Aktiviert oder deaktiviert die automatische Behandlung von Rotation, damit gedrehter Text zuverlässiger erkannt wird. Show Texts Ein/Aus-Schalter, um erkannte Textstrings neben ihren Boxen im Ausgabe-Bild anzuzeigen. Threshold Legt den Vertrauens- bzw. Konfidenzschwellenwert für akzeptierte Erkennungen fest. Höhere Werte reduzieren Fehlalarme; niedrigere Werte erlauben mehr, aber schwächere Erkennungen.

(Diese Steuerungen sind als Widgets direkt am Block verfügbar, um Erkennungsverhalten und Visualisierung anzupassen.)

⚙️ Wie es funktioniert

Sobald ein Bild an den Eingang Image angelegt wird, analysiert der Block das Bild auf Textbereiche.
Der Threshold filtert erkannte Ergebnisse nach Konfidenz; nur Treffer über dem Schwellenwert werden weitergegeben.
Ist Auto Rotation aktiviert, versucht der Block, gedrehten Text vor der Erkennung automatisch zu korrigieren.
Ist Show Texts aktiviert und der Result-Ausgang verbunden, überlagert der Block eine Kopie des Bildes mit Begrenzungsrahmen und Textlabels zur visuellen Überprüfung.
Der Block liefert sowohl visuelle (Result) als auch strukturierte Ausgaben (Whole Text, Texts, Boxes), sodass Sie Vorschau und Weiterverarbeitung kombinieren können.

✨ Funktionen

Einfache, mit einem Klick ausführbare Textextraktion aus Bildern.
Optionale visuelle Überlagerung zur direkten Inspektion der Erkennungen im Bild.
Konfidenzschwellenwert zum Abstimmen von Präzision vs. Vollständigkeit ohne Änderungen upstream.
Rotationsbehandlung für bessere Erkennung nicht-horizontaler Texte.
Mehrere Ausgabeformate für flexible Weiterverwendung: visuell, aggregierter Text, Textliste und Box-Koordinaten.

📝 Anwendungstipps

Verbinden Sie einen bildliefernden Block (z. B. Kamera oder Image Loader) mit dem Image-Socket.
Passen Sie den Threshold an, um die Strenge der Erkennung zu steuern.
Aktivieren Sie Auto Rotation, wenn Bilder gedrehten Text enthalten können.
Aktivieren Sie Show Texts, um Labels im Result-Bild zur Verifikation zu sehen.
Nutzen Sie Whole Text, Texts oder Boxes für Logging, Suche oder nachgelagerte Entscheidungslogik.

💡 Tipps und Tricks

Verwenden Sie Image ROI Select vor diesem Block, um den Bereich zuzuschneiden, in dem Text erwartet wird — das reduziert Fehlalarme und beschleunigt die Verarbeitung.
Bei sehr großen Bildern fügen Sie einen Image Resize-Block hinzu, um die Auflösung zu verringern und die Verarbeitung zu beschleunigen.
Bei gedrehten Dokumenten kombinieren Sie Auto Rotation mit Image AutoRotator, falls weiterhin Erkennungen ausbleiben.
Paaren Sie den Block mit Show Image, um die Result-Ausgabe in einem größeren Viewer beim Abstimmen anzuzeigen.
Speichern Sie nützliche Frames und Erkennungen mit Image Logger oder Image Write und exportieren Sie strukturierte Texte mit Data to JSON oder CSV Export für Aufzeichnungen oder Analysen.
Zum Vergleichen verschiedener OCR-Ansätze probieren Sie OCR (EasyOCR) als Alternative und vergleichen die Ergebnisse.

🛠️ Fehlersuche

Viele Fehlalarme: Erhöhen Sie den Threshold und/oder schneiden Sie das Eingangsbild mit Image ROI Select ein.
Fehlende Erkennungen: Senken Sie den Threshold leicht und prüfen Sie den Bildkontrast; preprocessing mit Auto Contrast oder Adjust Colors kann helfen.
Verdrehte oder fehlerhafte Boxen: Aktivieren Sie Auto Rotation oder fügen Sie einen Image AutoRotator vor diesem Block hinzu.
Keine visuelle Ausgabe, aber Textausgaben vorhanden: Stellen Sie sicher, dass der Result-Ausgang verbunden ist oder verwenden Sie Show Image, um die visuelle Vorschau zu öffnen.

VorherigeOCR (EasyOCR)NächsteSkeleton Estimation

Zuletzt aktualisiert vor 1 Monat

hashtag📥 Eingänge

hashtag📤 Ausgänge

hashtag🕹️ Steuerungen

hashtag⚙️ Wie es funktioniert

hashtag✨ Funktionen

hashtag📝 Anwendungstipps

hashtag💡 Tipps und Tricks

hashtag🛠️ Fehlersuche