banner

Nachricht

May 04, 2023

Wo stehen wir in der KI für die endoskopische Bildanalyse? Lücken und zukünftige Richtungen entschlüsseln

npj Digital Medicine Band 5, Artikelnummer: 184 (2022) Diesen Artikel zitieren

4577 Zugriffe

15 Altmetrisch

Details zu den Metriken

Jüngste Entwicklungen im Bereich Deep Learning haben datengesteuerte Algorithmen ermöglicht, die eine Leistung auf menschlichem Niveau und darüber hinaus erreichen können. Die Entwicklung und der Einsatz medizinischer Bildanalysemethoden bringen mehrere Herausforderungen mit sich, darunter die Datenheterogenität aufgrund der Bevölkerungsvielfalt und unterschiedlicher Gerätehersteller. Darüber hinaus ist für einen zuverlässigen Methodenentwicklungsprozess mehr Input von Experten erforderlich. Während das exponentielle Wachstum der klinischen Bildgebungsdaten das Aufblühen von Deep Learning ermöglicht hat, müssen Datenheterogenität, Multimodalität und seltene oder unauffällige Krankheitsfälle noch erforscht werden. Da die Endoskopie in hohem Maße bedienerabhängig ist und in einigen Krankheitsfällen schlechte klinische Ergebnisse liefert, kann eine zuverlässige und genaue automatisierte Systemführung die Patientenversorgung verbessern. Die meisten entwickelten Methoden müssen besser auf die nicht sichtbaren Zieldaten, die Variabilität der Patientenpopulation und das variable Krankheitsbild verallgemeinerbar sein. Der Artikel gibt einen Überblick über aktuelle Arbeiten zur endoskopischen Bildanalyse mit künstlicher Intelligenz (KI) und betont den derzeit unübertroffenen Bedarf in diesem Bereich. Abschließend werden die zukünftigen Richtungen für klinisch relevante komplexe KI-Lösungen zur Verbesserung der Patientenergebnisse skizziert.

Die Endoskopie ist für viele Hohlorgane ein Goldstandardverfahren. Es wird hauptsächlich zur Krankheitsüberwachung, Entzündungsüberwachung, Krebsfrüherkennung, Tumorcharakterisierung und Resektionsverfahren, minimalinvasiven Behandlungseingriffen und der Überwachung des therapeutischen Ansprechens eingesetzt. Die endoskopische Bildanalyse hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen, da eine große Anzahl endoskopischer bildgebender Methoden in den Bereichen Computer-Aided Detection (CADe)1,2,3,4,5 und Computer-Aided Diagnostic (CADx)6 veröffentlicht wurde ,7,8,9,10,11 und computergestützte Chirurgie (CAS)12,13,14,15,16. Im Gegensatz zu anderen radiologischen Daten (z. B. Röntgen, CT, MRT) ist die endoskopische Bildgebung und ihre Analyse ein hochspezialisiertes und anspruchsvolles Thema. Die endoskopische Bildgebung weist multifaktorielle Abhängigkeiten auf, einschließlich einer großen Abhängigkeit des Bedieners (z. B. Erfahrung und Schulung), umfangsbezogener Probleme (z. B. Variabilität der Bildqualität) und unterstreichender Szenendynamik (z. B. drohende Verfälschung von Bildern mit schweren Artefakten, Bewegung großer Organe usw.). Oberflächenverwehungen17). Qualitätsstandards bei gastrointestinalen endoskopischen Eingriffen werden in mehreren bemerkenswerten Leitlinienstudien diskutiert18,19. Einige neuere Arbeiten haben Deep-Learning-Bereiche untersucht, um Metriken zur Bewertung der Endoskopiequalität zu automatisieren. Diese sind besonders wichtig bei der Quantifizierung blinder Flecken20,21. Während die SLAM-basierte 3D-Rekonstruktion zur Erstellung von Dickdarmkarten verwendet wurde18, wurden Länge und Fläche des Vorläufers von Krebs im oberen Gastrointestinaltrakt, dem Barrett-Ösophagus, mithilfe einer auf Deep Learning basierenden Tiefenschätzungstechnik quantifiziert22. Ebenso besteht die wichtigste Aufgabe bei minimalinvasiven chirurgischen Eingriffen (z. B. Laparoskopie) darin, die zugrunde liegende Szene zu verstehen und zu interpretieren.

Während eine 3D-Rekonstruktion von Hohlorganen lebenswichtig ist, ist sie aus mehreren Gründen schwierig zu erreichen, darunter stark nichtlineare Organverformung, Szenenunordnung (z. B. fließende Flüssigkeit, Blut) und Okklusion (z. B. Fett um die Leber herum). Daher konzentrieren sich die meisten Forschungsarbeiten auf die Bewertung lokaler Szenen mithilfe von Klassifizierungs-, Erkennungs- und Segmentierungsmethoden. Die Erkennung und Charakterisierung von Läsionen sowie deren Abgrenzung sind ein Hauptschwerpunkt in der GI-Endoskopie1,2,3,4,5,6,7,8,9,10,11. Ebenso steht die gezielte Steinsegmentierung und deren Charakterisierung im Mittelpunkt der Ureteroskopie23 und die Tumorerkennung24 wurde in der Zystoskopie untersucht. Bei minimalinvasiven laparoskopischen Eingriffen waren die Klassifizierung chirurgischer Instrumente12, die Erkennung und Segmentierung13, die Phasenerkennung12,14, die Segmentierung assoziierter Orientierungspunkte15 und die präoperative 3D-Volumenüberlagerung mit interoperativen 2D-Laparoskopien16 ein Schwerpunkt. Eine anschauliche Zusammenfassung zentraler Ziele und verschiedener endoskopischer Bildanalyseaufgaben für verschiedene endoskopische Eingriffe ist in Abb. 1 dargestellt.

Weit verbreitete endoskopische Verfahren werden in separaten eindeutigen Kategorien und Unterkategorien dargestellt, während die übrigen Verfahren unter anderen aufgeführt sind. Jedes ist unterteilt in das interessierende Organ, die Art des Eingriffs, die Ziele und die computergestützten Methoden, die entwickelt werden, um einige der Ziele dieser endoskopischen Verfahren zu erreichen.

Die meisten früheren Übersichtsarbeiten zu auf künstlicher Intelligenz (KI) basierenden Anwendungen für die endoskopische Bildanalyse werden in klinischen Fachzeitschriften veröffentlicht (22 gegenüber nur 11, die von 2020 bis 2022 in Fachzeitschriften veröffentlicht wurden). Die klinischen Übersichtsartikel konzentrieren sich hauptsächlich auf CADe- und CADx-Systeme für Läsionen in der GI-Endoskopie25,26, während sich die technischen Übersichtsartikel hauptsächlich auf die laparoskopische Chirurgie konzentrieren27,28. Im Vergleich zu anderen Organen dominieren Bewertungen des oberen Gastrointestinaltrakts (Barrett-Ösophagus, Plattenepithelkarzinom (SCC) und Magen25,29) und des unteren Gastrointestinaltrakts (kolorektale Polypen26,30,31 und Colitis ulcerosa32,33). Obwohl die Titel einiger Rezensionen allgemein gehalten waren26,34, präsentierten sie außerdem nur Studien zur endoskopischen Überwachung des Gastrointestinaltrakts und deckten andere Bereiche der endoskopischen Bildanalyse nicht ab. Unseres Wissens decken bisher veröffentlichte Übersichten nur spezifische endoskopische Verfahren ab. Sie befassen sich nicht mit einer umfassenden Zusammenfassung, einschließlich verschiedener Modalitäten, unterschiedlicher organspezifischer Datenherausforderungen, Art der Läsion und Visualisierungsherausforderungen.

Im Gegensatz zu früheren Rezensionen zielt dieser Artikel darauf ab, den Weg zur klinischen Integration zu entschlüsseln, der nur möglich ist, indem alle Arbeiten im Zusammenhang mit der Endoskopie an einem Ort zusammengefasst und frühere und aktuelle Erfolge festgehalten werden. Darüber hinaus ist die vorliegende Rezension prägnant und hebt die wichtigsten und umfassendsten Werke hervor, wobei ähnliche Forschungsergebnisse separat zusammengestellt werden (siehe Tabellen 1 und 2). Die Übersicht veranschaulicht Deep-Learning-Methoden, die auf verschiedene endoskopische Datensätze angewendet werden, darunter Zystoskopie, Ureteroskopie und nasopharyngeale Endoskopie, die in früheren Studien nicht behandelt wurden. Um die Entwicklungen zu bestimmen, die für eine klinisch angemessene und fortschrittliche digitale Gesundheitsversorgung erforderlich sind, ist es wichtig, die gleichzeitig bestehenden Herausforderungen zu kennen und die Lücken in jedem endoskopischen Verfahren zu identifizieren.

Endoskopische Verfahren sind bedienerabhängig und daher anfällig für menschliche Fehler, die zu niedrigen Adenomerkennungsraten (ADRs) führen können (z. B. bei der Koloskopie35). Weitere Einschränkungen umfassen die Tumorgröße, die Lage der Läsion und technische Herausforderungen wie die Okklusion bei minimalinvasiven laparoskopischen Eingriffen36. Endoskopische Verfahren und bildgebende Herausforderungen variieren von Organ zu Organ. Mehrere starre Endoskope werden verwendet, um das Problem des begrenzten Sichtfelds in der laparoskopischen minimalinvasiven Chirurgie zu lösen37. Allerdings ist der Eingriff aufgrund anderer überlappender Organe sehr anspruchsvoll. Ebenso werden kolorektale Screening-Verfahren aufgrund der Darmperistaltik und des Stuhlgangs mit flexiblen Endoskopen durchgeführt. Es gibt weitere Hinweise auf sehr ähnliche bildgebende Einschränkungen bei allen diesen Verfahren. Bei der Magenspiegelung werden Blasen und manchmal Speisereste ausgespült, um die Schleimhaut zu reinigen. Außerdem ist vor der Bildgebung des Dickdarms eine Darmreinigung erforderlich. Ebenso werden die Blasenwände während der Zystoskopie mit Kochsalzlösung gespült, um die Oberfläche besser sichtbar zu machen. Während der Nierensteinzertrümmerung wird Spülflüssigkeit verwendet, um Unordnung am Unfallort zu beseitigen. Szenenverschlüsse stellen einen großen Herausforderungsfaktor bei der Nasopharyngeal-Endoskopie dar (Abb. 2a–f). Im algorithmischen Sinne betrifft Szenenunordnung fast alle Bildanalysealgorithmen, einschließlich heutiger KI-Ansätze, also Deep Learning. Dies liegt daran, dass es schwierig wird, die zugrunde liegende Schleimhaut zu verstehen und Anomalien zu charakterisieren, die zu verwirrenden erlernten Netzwerken führen, die mit sauberen Bildern trainiert werden. Bei der Ureteroskopie erschweren schwimmende Trümmer die Segmentierung und Charakterisierung von Nierensteinen. Ebenso ist eine Verringerung der UAW mit der Darmvorbereitung verbunden38. Eine solche Vorbereitung ist ebenfalls von entscheidender Bedeutung und kann sich auf Deep-Learning-Ansätze auswirken. Die Variabilität des Krankheitsbildes von einem Organ zum anderen stellt umfassende Herausforderungen dar. Einige dieser Herausforderungen können jedoch häufig vorkommen. Beispielsweise treten bei den meisten endoskopischen Eingriffen häufig Probleme mit der Bildqualität, ungleichmäßige Handbewegungen und Organbewegungen auf. Ebenso kann die fehlende Erkennung von Läsionen aufgrund von Verschlüssen ein gemeinsamer limitierender Faktor bei allen endoskopischen Eingriffen sein. Die Überprüfung dieser Methoden in verschiedenen endoskopischen Aufnahmen zielt darauf ab, die gängigsten Deep-Learning-Ansätze und die einzigartigen verpassten Chancen zu verstehen.

ein Gastroskopieverfahren, bei dem ein flexibles Endoskop eingeführt wird, um die Schleimhaut in der Speiseröhre und den Magenteilen des Zwölffingerdarms sichtbar zu machen. Es ist zu beobachten, dass die Szene je nach Standort des Zielfernrohrs sehr unterschiedlich ist. Ebenso kann man im Bild oben links Blasen beobachten, die die Schleimhaut umgeben. b Koloskopieverfahren umfassen den Dickdarm und das Rektum, wobei flexible Endoskope verwendet werden, um dieses komplexe verdrehte Organ zu navigieren. Die Darmreinigung ist eine wesentliche Vorbereitung, da sie Läsionen verschließen kann. Auf den meisten Bildern ist das Vorhandensein von Stuhl ein klares Zeichen für eine verschlossene Anomalie. c Bei der Laparoskopie werden meist starre Endoskope durch kleine Schnittlöcher eingeführt. Gezeigt werden Bilder, die das die Leber umgebende Fett, eine klare Sicht auf die Leber, das Vorhandensein von Werkzeugen während der Operation und einen vollständigen Verschluss der Leber aufgrund von Fett zeigen. d Weit verbreitete starre Endoskope werden zur Untersuchung von Blasenwänden verwendet, die durch die Harnröhre eingeführt werden. Dargestellt sind die herkömmliche Weißlicht-Bildmodalität (erste drei) und die Fluoreszenzbild-Modalität (blau)125. Es ist zu erkennen, dass die beiden oberen Bilder verschwommen sind und nur wenige oder keine Gefäßstrukturen zeigen. e Entfernung von Nierensteinen mittels Ureteroskopie und Laserlithotripsie. Der Unterschied in der Textur und den umgebenden Trümmern (oben) und dem Blut (unten) für In-vivo-Bilder71. f Ein flexibles Endoskop dringt durch die Nasenlöcher ein und kann von der Nase bis zum Rachenraum vordringen und wird daher zusammenfassend als Nasopharynxendoskopie bezeichnet. Die Bilder (links) zeigen eine kleine Öffnung und ein kleines Sichtfeld sowie in einigen Fällen chirurgische Instrumente126. Die Quellen relevanter Endoskopiebilder: Gastroskopie- und Koloskopiebilder in (a und b) stammen von den Oxford University Hospitals unter Ref. 16/YH/0247 und sind Teil öffentlich veröffentlichter Endoskopie-Challenge-Datensätze (EDD2020127 unter CC-by-NC 4.0 und PolypGen128). unter CC-by ist Dr Doktorarbeit von Dr. S. Ali130 und eine kürzlich veröffentlichte Arbeit, deren Mitautor er ist71. In ähnlicher Weise entsprechen nasopharyngeale Bilder dem öffentlich verfügbaren UW-Sinus-Surgery-C/L-Datensatz126 mit einer unbekannten Lizenz.

Ansätze des maschinellen Lernens sind datengesteuert und zielen meist auf die Minimierung (Unähnlichkeitsfehler) oder Maximierung (Ähnlichkeit) einer Verlustfunktion L ab (Abb. 3a). Ein Optimierer, normalerweise ein Differenzierer, wird verwendet, um iterativ lokal optimale Werte für die berechnete Verlustfunktion zu finden. Der Verlust liegt normalerweise zwischen den vorhergesagten Bezeichnungen y und der Grundwahrheitsbezeichnung ytrue (Abb. 3a). Neuronale Netze bestehen aus Filtern oder Neuronen (auch bekannt als Kernel oder Gewichte), die im Gegensatz zu klassischen Bildverarbeitungsfiltern, die vordefiniert sind, lernbar sind. Diese von Kerneln unterschiedlicher Größe erhaltenen Gewichte (z. B. ein 3 × 3-Kernel, K3×3 = {w1,..., w9}) werden dann durch die nichtlineare Aktivierungsfunktion a(.) geleitet, die es ihnen ermöglicht, komplexer zu lernen Merkmale, die sonst nicht erkannt würden. Die Gewichte des neuronalen Netzwerks werden basierend auf den Optimiererausgaben in jeder Iteration angepasst. Eingabeproben werden meist in Stapeln verarbeitet, wobei eine vollständige Iteration über alle Proben während des Trainings als Epoche bezeichnet wird. Die erlernten Modellgewichte werden dann auf den Testdatensatz angewendet (auch Inferenz- oder Testphase genannt). Die meisten Methoden optimieren Verlustfunktionen und verwenden Validierungssätze, um Hyperparameter des Netzwerks θ abzustimmen. Eine solche Optimierung kann jedoch für verschiedene Aufgabeneinstellungen wie Läsionsklassifizierung, -erkennung und -lokalisierung, semantische Segmentierung (Klassifizierung pro Pixel), Instanzsegmentierung (regionale Box-Regression und Klassifizierung pro Pixel), Tiefenschätzungsaufgaben und andere durchgeführt werden. Ein Übersichtsdiagramm mit bekannten Deep-Learning-Architekturen zur Klassifizierung von Neoplasien im Barrett-Ösophagus; Erkennung, Lokalisierung und Segmentierung von Polypen in der Koloskopie; Lokalisierung und Segmentierung chirurgischer Instrumente während der laparoskopischen Chirurgie; 3D-Tiefenschätzung und Rekonstruktion der Speiseröhre; und die Einbeziehung des zeitlichen Videokontexts in Faltungs-Neuronale Netze (CNNs) werden demonstriert (Abb. 3b).

a Eine konzeptionelle Darstellung eines Deep-Learning-Systems mit einem Optimierer zur Minimierung einer Verlustfunktion. Es wird ein vereinfachter CNN-Block (Convolutional Neural Network) bereitgestellt, der einen 3 × 3-Kernel und eine berechnete Gewichtung für jedes Pixel mit Kernelgewichten und Bias umfasst. Außerdem wird eine nichtlineare Aktivierungsfunktion demonstriert, die zur Erfassung komplexerer Merkmale angewendet wird. Die Trainings- und Testphase besteht aus geteilten Datensätzen, wobei der Validierungssatz verwendet wird, um sicherzustellen, dass die gelernten Parameter verallgemeinert werden und nicht zu stark an den Trainingsdatensatz angepasst werden. Es wird ein Modellüberanpassungsdiagramm gezeigt, das mithilfe eines Validierungssatzes reguliert wird. b Einige weit verbreitete Deep-Learning-Architekturen werden für verschiedene Aufgaben in der endoskopischen Bildanalyse gezeigt. Für das Klassifizierungsnetzwerk wird lediglich ein Encodernetzwerk verwendet, dem in der Regel ein Klassifikator wie softmax3 folgt. Zur Erkennung werden Merkmale mithilfe eines Encodernetzwerks extrahiert, die dann mithilfe eines Regionsvorschlagsnetzwerks abgerufen werden, um sowohl die Klassen- als auch die Begrenzungsrahmendarstellungen vorherzusagen128. Für die semantische Segmentierung werden die Encoderfunktionen auf die Klassifizierung der Bildgröße pro Pixel hochskaliert. In ähnlicher Weise werden für die Instanzsegmentierungsaufgabe sowohl Regionsvorschläge für Begrenzungsrahmen als auch pixelweise Vorhersagen für Masken verwendet131. Die Idee eines Tiefenschätzungsnetzwerks besteht darin, zu verstehen, wie weit die Kamera von einer anatomischen Region entfernt ist, die Entfernungen im realen Koordinatensystem liefert22. Schließlich können rekurrente neuronale Netze (auch RNNs genannt) zeitliche Videoinformationen einbetten, um aktuelle Vorhersagen aus einem CNN-Netzwerk zu verfeinern64. Hier werden die sequentiellen Rahmeneingaben v1,..., vn dem CNN-Netzwerk zugeführt, wodurch visuelle Merkmalsvektoren p1,..., pn erzeugt werden, die dann dem RNN-Netzwerk zugeführt werden. Die RNNs-Ausgabe stellt die zeitliche Beziehung dar und liefert kontextbezogene Vorhersagen für jeden Frame, sodass die Ausgabe für den n-ten Frame qn sowohl vom aktuellen als auch vom vorherigen Frame abhängt, d. h. von den Merkmalsvektoren q(Vn) und allen anderen vorherigen Merkmalsvektoren q(Vu). ), u < n. Sowohl CNN- als auch RNN-Netzwerke werden gemeinsam mithilfe einer Boosting-Strategie optimiert. Die Quellen relevanter Endoskopiebilder: Gastroskopie- und Koloskopiebilder in (a und b) stammen von den Oxford University Hospitals unter Ref. 16/YH/0247 und ist Teil öffentlich veröffentlichter Endoskopie-Challenge-Datensätze (EDD2020127 unter CC-by-NC 4.0 und PolypGen128 unter CC-by, Dr. S. Ali ist der Ersteller beider Datensätze). Die Daten zu chirurgischen Eingriffen stammen aus ROBUST-MIS113.

In dieser Übersicht werden Trends bei der Anwendung maschineller Lernmethoden (insbesondere Deep Learning) bei jedem organspezifischen Eingriff identifiziert und diskutiert. Zweitens werden aktuelle Lücken, die zu künftigen Richtungen führen, entschlüsselt. Die webbasierte Suche ergab, dass die meisten Methoden die Gewichte mithilfe überwachter Lernaufgaben optimieren, die aus weit verbreiteten CNNs bestehen. Zu diesen Aufgaben gehörten Klassifizierung, Erkennung, Segmentierung und Tiefenschätzung. Die Literatur wurde anhand der im nächsten Abschnitt angegebenen Such- und Einschlusskriterien ausgewählt. Das Hauptaugenmerk liegt darauf, aktuelle Studien zu berücksichtigen und deren limitierende Faktoren bei jedem bildgebenden Verfahren und jeder implementierten Methode zu verstehen. Unser Ziel ist es, Methoden zu erlernen, die in ähnlichen endoskopischen Techniken entwickelt wurden, und Wege zu identifizieren, die in anderen Bereichen von Nutzen sein können. Bei zukünftigen Entwicklungen können die bestehenden Lücken und Herausforderungen in der endoskopischen Bildgebung es uns ermöglichen, einen strategischen Plan zu erstellen und Protokolle für zuverlässige und akzeptable endoskopische Bildgebungsmethoden zu erstellen.

Für die Suche nach verwandter Literatur wurden die Datenbanken Medline, Embase, Springer, Web of Science und IEEE Xplore verwendet. Um sich auf organspezifische endoskopische Eingriffe zu konzentrieren, wurden Bezeichnungen (z. B. Endoskopie, Koloskopie, Leberlaparoskopie, Ureteroskopie) verwendet. Außerdem wurden Computerstudien – maschinelles Lernen, KI und Deep Learning – zusammen mit endoskopischen Eingriffsnamen hinzugefügt, um die Suche zu verdichten. Für diesen Review werden die meisten Studien nach 2018 bis Anfang Juni 2022 ausgewählt. Allein für „Endoskopie-Deep-Learning“ mit aktiven Filterartikeln, Englisch, wurden 251 Artikel auf Medline und 1740 Artikel auf Embase gefunden (da „Embase“ auch Rezensionsartikel enthielt). Alle Duplikate wurden ebenfalls entfernt. Unsere erweiterte Suche mit Schlüsselwörtern wie KI in der Endoskopie, Deep Learning für Endoskopie und Neoplasieklassifizierung ergab 33, 13 bzw. 36 Artikel. Die ausgewählten Artikel stammen also aus einer „einfachen Suche“ und nicht aus der erweiterten Suche. Die einfache Suche ergab eine größere Anzahl von Artikeln. Um diese zu reduzieren, haben wir jedoch weitere Filter angewendet, die Endoskop, Versuche, Software, Photoakustik, CT, MRT, Hardware, Simulation, Studien zwischen Mensch und Maschine, Mikroultraschall, Bildgebung ganzer Objektträger, Radiologie usw. umfassten. Rezensionen und Metarezensionen werden auch von 2020 bis 2022 berücksichtigt.

Eine Suche im Web of Science nach laparoskopischen chirurgischen Eingriffen umfasste Schlüsselwörter wie laparoskopische Lebersegmentierung und Deep Learning für die Laparoskopie. Hierzu wurden 56 Arbeiten, darunter 36 Artikel, davon 12 Übersichtsarbeiten, gefunden. Der Trend zu tiefem Verständnis in der Laparoskopie ist von 6 Artikeln im Jahr 2018 auf 21 Artikel im Jahr 2021 gestiegen. Neben spezifischen Krankheitsfällen wurden Berichte zu Qualität, Anatomieklassifizierung/-erkennung, anderen Modalitäten (z. B. Raman und (hyper)spektral) und Tiefe bzw Es wurden auch 3D-Rekonstruktionen identifiziert. Um dem wachsenden Trend in der klinischen und technischen Gemeinschaft in der gastrointestinalen Endoskopie Rechnung zu tragen, enthält die vorgestellte Übersicht zusätzliche methodenspezifische Beiträge. Acht von Experten begutachtete Konferenzbeiträge wurden ebenfalls hinzugefügt, um die technischen Beiträge in diesem Bereich zu stärken.

Die vorgestellte Arbeit verfügt über die folgenden zusätzlichen Einschlusskriterien, um diese Überprüfung fokussierter und weniger voreingenommen zu gestalten und die Methoden zur klinischen Integration widerzuspiegeln:

Forschungsarbeiten sollten eine große Patientenkohorte haben (im Vergleich zu zuvor veröffentlichten Arbeiten) oder zumindest im Vergleich zu einigen wenigen öffentlich zugänglichen Datensätzen, wenn es sich um eine technisch präsentierte Arbeit handelt.

Forschungsarbeiten sollten über spezifische Schulungs-, Validierungs- und Testsätze verfügen, über die im Artikel berichtet wird, um Verzerrungen in Studien zu reduzieren.

Wenn die Forschungsarbeiten einige Neuheiten enthielten, aber nicht umfassend anhand von Patientendaten ausgewertet wurden, wurden solche Studien entweder verworfen oder in die Methodenbeiträge aufgenommen.

Jede streng bewertete Methode wurde in die Haupttabelle aufgenommen. Dabei wurden einzigartige Modalitäten, einzigartige Zielkrankheiten und individuelle Aufgaben (z. B. Klassifizierung, Segmentierung, Erkennung und Lokalisierung) ausgewählt. Gleichzeitig werden ähnliche Studien in einer eigenen Rubrik für interessierte Leser bereitgestellt.

Es wurde ein Abschnitt für die KI bei anderen endoskopischen Verfahren, die nicht umfassend untersucht wurden, aufgenommen, der einige Arbeiten zur Nasopharyngeal-, Bronchoskopie- und Thyreoidektomie abdeckt.

Für die Tiefenkartenschätzung und 3D-Rekonstruktion werden Arbeiten als separater Abschnitt unter „Zusätzliche Anwendungen“ aufgeführt, da sie nicht an umfangreicheren Patientendatensätzen ausgewertet werden. Im selben Abschnitt sind auch Studien zur Qualitätssicherung in der Endoskopie und zur Klassifizierung anatomischer Orientierungspunkte enthalten, um diese Umfrage zu vervollständigen.

Die Ösophago-Gastro-Duodenoskopie (OGD) wird zur Überwachung des oberen Gastrointestinaltrakts (einschließlich Speiseröhre, Magen und Zwölffingerdarm) eingesetzt. Im Gegensatz dazu untersuchen Koloskopie und Sigmoidoskopie die unteren GI-Organe, einschließlich Dickdarm und Rektum. Mit den jüngsten Entwicklungen im Bereich Deep Learning gab es mehrere Fortschritte beim Aufbau computergestützter Erkennungs- und Diagnosesysteme. Im Vergleich zur OGD konzentriert sich die Forschung mehr auf die Koloskopie. In einigen neueren Rezensionen wurden einige Arbeiten ausgewählter Gruppen zum oberen und unteren Gastrointestinaltrakt hervorgehoben25,26,30; Allerdings wurde die Unterscheidung zwischen Zugtestdatensätzen oder der Art der in diesen Studien verwendeten lernbasierten Methode oder beiden nicht dargestellt. In der Präsentation der meisten gefundenen Übersichtsartikel wurden allgemeinere CADe- und CADx-Systeme mit Deep-Learning-Begriffen (DL) verwendet. DL-Methoden für den unteren GI werden in31 vorgestellt; Diese konzentrieren sich jedoch nur auf kolorektale Polypen. In dieser Rezension werden die Aufteilung der Trainings- und Testdaten sowie die Art des für eine bestimmte Aufgabe entwickelten Algorithmus klar und prägnant erwähnt, um den Lesern eine Vorstellung sowohl von klinischen Anforderungen als auch von technischen Methodenentwicklungen zu geben.

Für OGD steht angesichts der besorgniserregenden Zunahme von Patienten mit Barrett-Ösophagus eine Vorläuferläsion in der Speiseröhre im Mittelpunkt vieler aktueller, auf maschinellem Lernen basierender Entwicklungen. Zur Klassifizierung des neoplastischen und nicht-dysplastischen Barrett-Ösophagus (NDBE)1 wurde eine hybride ResNet-UNet-Architektur verwendet, die bei zwei Testdatensätzen eine Genauigkeit von über 88 % lieferte. In ähnlicher Weise wurde für SCC in der Speiseröhre eine Encoder-Decoder-Architektur unter Verwendung des VGG16-Netzwerks zur pixelweisen Segmentierung verwendet39, die eine Sensitivität von 98,04 % bei einer Spezifität von 95,03 % ergab. Atrophische Gastritis (AG) und Magen-Darm-Metaplasie (IM) sind zwei Hauptstadien im Fortschreiten des Magenadenokarzinoms40, die hauptsächlich durch eine Helicobacter-pylori-Infektion oder eine Autoimmungastritis verursacht werden. DenseNet121 wurde mit 5470 Bildern3 trainiert, um AG zu charakterisieren, was zu einer Genauigkeit von 94,2 % im Testdatensatz führte. In ähnlicher Weise wurde UNet++ mit ResNet50 zur Klassifizierung von AG, IM und Blutung verwendet41. Dabei wurden 8141 Bilder (4587 Patienten) für das Training verwendet, während 258 externe Patienten und 80 Videos für die Testphase verwendet wurden.

Bei einer Koloskopie zielen die meisten dieser Methoden darauf ab, bekannte Krebsvorstufen, sogenannte Polypen, zu identifizieren oder zu charakterisieren. Aufgrund ihres Erfolgs implementieren die meisten Methoden das weit verbreitete CNN. Zum Beispiel 3D-CNN für die binäre Klassifizierung von Polypen auf Frame-Ebene42 mit einer Genauigkeit von 76 %. Im Gegensatz dazu wurden Erkennungsmethoden wie YOLO43 und SDD6 für die Lokalisierung und Erkennung von Polypen mit einer viel höheren Genauigkeit von 96 % für YOLO und einer Sensitivität von über 90 % für den SSD-Ansatz verwendet. AutoML wurde von Jin et al.9 verwendet, das uns die Suche nach effizienten neuronalen Netzen mithilfe von wiederkehrenden und verstärkenden Lerntechniken ermöglicht. Das optimierte CNN-Netzwerk bestand aus Normal- und Reduktionszellen, die mehrere Operationen wie trennbare Faltungen sowie Durchschnitts- und Max-Pooling-Schichten verwendeten. Das durchsuchte Netzwerk ergab eine diagnostische Gesamtgenauigkeit für schwer zu lokalisierende Polypen von 86,7 %. Die berichteten Ergebnisse zur Leistungsverbesserung unerfahrener Endoskopiker von 73,8 % auf 85,6 % wurden ebenfalls berichtet. Inception7 wurde verwendet, um Polypen zu klassifizieren und zwischen hyperplastisch und adenomatös zu charakterisieren, mit einer Sensitivität von 98 % bei einer Spezifität von 83 %.

Es gab jedoch Versuche, die Entzündung im Darm, die als „entzündliche Darmerkrankung“ bezeichnet wird, einzustufen, wobei der Schwerpunkt auf Colitis ulcerosa (UC) lag11,44,45. Morbus Crohn (CD)46,47. Bei der Einstufung des Schweregrads der Erkrankung während der Endoskopie weist die IBD nach wie vor eine erhebliche Variabilität innerhalb und zwischen Beobachtern auf. Es gibt mehrere klinisch anerkannte Systeme zur Bewertung dieser Schweregrade, die in gewissem Maße die Reproduzierbarkeit und Zuverlässigkeit der endoskopischen Bewertung verbessert haben. Das Problem ist jedoch noch unklar, da diese Bewertungssysteme weit gefasste Definitionen beinhalten. Um diese Probleme anzugehen und die Variabilität der Bediener bei der Diagnose zu minimieren, wurde eine breite Palette von Deep-Learning-Methoden entwickelt. Für UC ist das Mayo Clinical Endoscopic Scoring (MCES) das am weitesten verbreitete System zur Stratifizierung von Patienten, das aus einem 0–3-Bewertungssystem von normal (0) bis schwer (3) besteht. Zur Klassifizierung zwischen (0 oder 1) und (2 oder 3)11 wurde ein Inception-V3-Modell mit einer Genauigkeit von 97 % und einem PPV von 86 % verwendet. In ähnlicher Weise wurde ein Qualitätskontrollmodell zur Unterscheidung zwischen lesbaren und nicht lesbaren Frames und ein auf CNN basierendes Deep-Learning-Netzwerk für die UC-Klassifizierung anhand multizentrischer Datensätze entwickelt, die eine Fläche unter der Kurve von 0,84, 0,85 bzw. 0,85 für MCES ≥ 1 und MCES ≥ melden 2, MCES ≥3 (binäre Klassifizierung). CD betrifft vor allem den Dünndarm, wo herkömmliche Endoskope schwer zu erreichen sind. Es gibt zahlreiche Entwicklungen bei der CD-Bewertung mithilfe von Deep Learning, aber auch bei der Videokapselendoskopie (VCE)-Bildgebung. Ulzerationen und normale Schleimhaut wurden mithilfe des Xception CNN-Modelltrainings als 5-fache Kreuzvalidierung klassifiziert und zeigten eine Genauigkeit von über 95 % für jede Falte46. Ein Deep-Learning-Modell, das 169-schichtiges DenseNet48 verwendete, wurde anhand eines großen Datensatzes trainiert, der 28.071 Bilder mit CRC (3.176 Patienten) und 436.034 Bilder ohne CRC (9.003 Patienten) umfasste. Der Test wurde mit drei einzigartigen Testsätzen durchgeführt, die dasselbe und zwei unterschiedliche Zentren umfassten, und demonstrierte die Generalisierbarkeit des trainierten Modells mit einer Sensitivität von etwa 75 % bei zwei nicht sichtbaren Testsätzen.

Die Entwicklung neuartiger Methoden zur Koloskopie ist gut dokumentiert31,49. Dies kann auf die Verfügbarkeit öffentlicher Datensätze zur Polypenerkennung und -segmentierung zurückzuführen sein. Diese Methoden werden größtenteils als Konferenzberichte veröffentlicht und der Vollständigkeit halber hier aufgeführt. Die meisten gängigen Methoden zur Detektion und Lokalisierung lassen sich in mehrstufige Detektoren50, einstufige Detektoren51 und ankerfreie Detektoren52 unterteilen. In diesem Zusammenhang verwendeten Wan et al.51 das YOLOv5-Netzwerk zusammen mit dem Selbstaufmerksamkeitsmechanismus auf der obersten Ebene jeder Stufe des Feature-Extraction-Backbone-Netzwerks, um die Notwendigkeit einer Polypenerkennung in Echtzeit zu erfüllen, um die Anzeige informativer Features zu stärken Steigerung des Dice-Scores um etwa 2 % und eine verbesserte Inferenzzeit für zwei Datensätze. Während die meisten Detektoren vordefinierte Ankerboxen für Lokalisierungsaufgaben verwenden, wurde das Konzept des ankerfreien Detektors53 verwendet, um dieses Problem zu lösen. Es zeigte einen konkurrenzfähigen Dice-Score und eine verbesserte Inferenzzeit (fast 52,6 Bilder pro Sekunde) im Vergleich zu mehreren SOTA-Methoden für vier öffentliche Datensätze52. Kürzlich wurde ein hybrides 2D-3D-CNN-Netzwerk entwickelt, um die räumliche und zeitliche Korrelation der Vorhersagen mit geringfügigem Gewinn für den Videopolypendatensatz zu nutzen und gleichzeitig die Echtzeiterkennung beizubehalten54. Als technischer Beitrag wurde auch die Erkennung von Anomalien im Barrett-Ösophagus mithilfe von 3D-CNN und Convolutional Long-Short-Term Memory (ConvLSTM) veröffentlicht, das die Erfassung räumlich-zeitlicher Informationen in Videos ermöglicht55.

Für die Segmentierung basieren aktuelle Entwicklungen weitgehend auf Encoder-Decoder-Architekturen56,57,58. Tomar et al.57 schlugen vor, die Einbettung von Textetiketten als Aufmerksamkeitsmechanismus für eine effektive Polypensegmentierung und zur Verbesserung der Generalisierbarkeit zu kombinieren. Während des Trainings wurde eine zusätzliche Klassifizierungsaufgabe zum Erlernen von größenbezogenen und polypenzahlbezogenen Merkmalen trainiert und in das Segmentierungsnetzwerk eingebettet. Dabei zeigte sich bei vier öffentlichen Datensätzen eine Verbesserung von bis zu 2 % gegenüber SOTA-Methoden. Kürzlich wurden auch transformatorbasierte Netzwerke eingeführt, nämlich TransFuse59 und ColonFormer60. TransFuse kombinierte Transformatoren mit CNNs in einem parallelen Stil, was die Erfassung sowohl globaler als auch räumlicher Details auf niedriger Ebene ermöglichte, und zeigte eine Leistungssteigerung von fast 1–2 % bei fünf öffentlichen Datensätzen im Vergleich zu DL-SOTA-Methoden. Eine aktuelle Arbeit, die eine Verbesserung gegenüber TransFuse zeigt, wurde als ColonFormer vorgestellt, das einen Encoder mit Mix-Transformer-Backbone verwendete, während der Decoder aus einem Pyramiden-Pooling-Modul bestand, das es ermöglichte, schichtweite Feature-Maps des Encoders zu einer globalen Karte zu kombinieren. Weit verbreitete Ad-hoc-Schwellenwerte für die endgültige Segmentierungskartenvorhersage wurden durch den Vorschlag eines ThresholdNet angegangen, das eine konfidenzgesteuerte Mannigfaltigkeitsvermischung als Datenerweiterung nutzte, um ein optimiertes Schwellenwertlernen zu ermöglichen, und große Verbesserungen (fast bis zu 5 %) gegenüber verschiedenen SOTA-Methoden zeigte.

Acht von 33 Übersichtsarbeiten führten Überprüfungsarbeiten zu chirurgischen Eingriffen und Metaanalysen durch. Die meisten dieser Arbeiten wurden in Fachzeitschriften veröffentlicht. In Lit. werden minimalinvasive visuelle Erkennungs-, Segmentierungs- und Verfolgungsalgorithmen für chirurgische Instrumente vorgestellt, die für die Analyse der von chirurgischen Robotern übertragenen Bilder verwendet werden. 27, während DL-Methoden, die sich auf die laparoskopische Videoanalyse konzentrieren, in Lit. eingehend durchgeführt wurden. 28. In der Studie28 wurden 32 Deep-Learning-Ansätze verwendet. Die Umfrage ergab, dass fast die Hälfte (45 %) der entwickelten Methoden auf die Erkennung und Erkennung von Instrumenten abzielte, wobei 20 % auf Phasenerkennung und fast 15 % auf Anatomie- und Aktionserkennung zielten. Eine Minderheit befasste sich jedoch mit der Mullerkennung (3 %) und der Vorhersage des Operationszeitpunkts (5 %), während die am häufigsten verwendeten Verfahren Cholezystektomie (Operation zur Entfernung der Gallenblase, 51 %) und gynäkologische Chirurgie (Fortpflanzungssystem der Frau, 26 %) waren. In dieser Übersicht werden zusätzliche kürzlich veröffentlichte Arbeiten zur Anomalieerkennung, -registrierung und zur erweiterten Laparoskopie hinzugefügt.

Eine Instanzsegmentierungsmethode namens „Maske R-CNN“ wurde verwendet, um die Gebärmutter, Eierstöcke und chirurgische Instrumente auf den endoskopischen Bildern eines gynäkologischen Eingriffs zu segmentieren61. Der „SurgAI“-Datensatz bestand aus 461 Bildern. Eine weitere Studie konzentrierte sich auf die Erkennung chirurgischer Instrumente in laparoskopischen Videos und schlug eine Multi-Label-Klassifizierung namens LapTool-Net62 vor. LapTool-Net nutzte die Korrelationen zwischen verschiedenen Tools und Aufgaben mithilfe eines rekurrenten Faltungs-Neuronalen (RNN) Netzwerks. Sie verwendeten öffentlich verfügbare Datensätze zur laparoskopischen Cholezystektomie, darunter M2CAI16 und Cholec80. Sie verwendeten eine Überstichprobentechnik für unterrepräsentierte Klassen und eine Unterstichprobentechnik für Klassen mit Mehrheitsstichproben. Für die Merkmalsextraktion wurde ein Inception V1 mit Gated Recurrent Unit (GRU) als RNN-Blöcken verwendet, gefolgt von zwei vollständig verbundenen Klassifikatoren. Als lernbares Netzwerk wurde eine Autoencoder-Technik verwendet, um die „normale“ Verteilung der Daten zu messen und abnormale Ereignisse, die von dieser Verteilung abweichen, als Rekonstruktionsfehler zu erkennen63. Das Training wurde unter Verwendung des Cholec80-Datensatzes und Phantomvideodaten durchgeführt und zeigte einen Erinnerungswert und eine Präzision von 78,4 % bzw. 91,5 % für Cholec80 bzw. 95,6 % bzw. 88,1 % für den Phantomdatensatz. Eine weitere ähnliche Studie zur automatischen Überwachung der Werkzeugnutzung während der Operation nutzte ebenfalls den zeitlichen Kontext zusammen mit visuellen Merkmalen (Recurrent Network, Abb. 3b)64. Eine kürzlich durchgeführte Studie nutzte CASENet, um die Silhouette und Kammkonturen der Leber in einem 5-Patienten-Datensatz bestehend aus 133 Bildern vorherzusagen65. Obwohl sich die Arbeit auf die konturbasierte 3D-zu-2D-Registrierung konzentrierte, basierte die Methode auf der klassischen Computer-Vision-Technik unter Verwendung der Perspective-n-Point-Methode mit RANSAC zur Entfernung von Ausreißern.

Während nur sehr wenige Forschungsarbeiten Deep Learning direkt auf endoskopische Erfassungen anwenden, birgt dieses Gebiet ein enormes Potenzial für die Entwicklung robuster automatisierter Methoden zur Läsionserkennung66,67 und Charakterisierung68 in der Zystoskopie. CystoNet67 wurde unter Verwendung von fünf vollständig Faltungsnetzwerken für die Pixel-zu-Pixel-Vorhersage und einem separaten Regionsvorschlag und einer ROI-Pooling-Schicht für die Bounding-Box-Vorhersage entwickelt. Das Training wurde an 95 Patienten mit 2335 gutartigen Bildern und histologisch verifizierten 417 Bildern mit Krebstumoren durchgeführt. Darüber hinaus wurden 54 Patientenvideos mit 31 normalen Schleimhäuten und die restlichen 23 Patientenvideos mit Tumoren zur Validierung des trainierten Modells verwendet. Sowohl die Trainings- als auch die Validierungsdaten bestanden aus Zystoskopie mit Weißlicht und Blaulicht (BL). Die Studie zeigte, dass der CystoNet-Algorithmus Blasenkrebs mit einer Sensitivität pro Bild von 90,9 % und einer Spezifität von 98,6 % identifizieren konnte, d. h. der Algorithmus erkannte 39 von 41 Blasenkrebsarten. Es wurde eine Transfer-Lernstrategie verwendet, bei der ein Ensemble verschiedener vorab trainierter tiefer CNN-Netzwerke (Inception V3, MobileNetV2-Netzwerk, ResNet50 und VGG16) fein abgestimmt und mit zusätzlichen Schichten über jedem Netzwerk angehängt wurde68. Die Studie zielte auf Klassifizierungsaufgaben für BL-Zystoskopiebilder ab, einschließlich gutartiger vs. bösartiger Tumoren, Tumoreinstufung (gutartig, niedriggradig und hochgradig) und Tumorinvasivität (gutartig, CIS, Ta, T1 und T2). Die Ergebnisse zeigten eine Sensitivität von 95,77 % und eine Spezifität von 87,84 % für die Identifizierung bösartiger Läsionen, während die mittlere Sensitivität und die mittlere Spezifität der Tumorinvasivität 88 % bzw. 96,56 % betrugen.

In ähnlicher Weise wurden für die Ureteroskopie die Charakterisierung von Nierensteinen69,70 und deren Segmentierung für die Laserlithotripsie (Nierensteinfragmentierung)71 entwickelt. Zur Steincharakterisierung69 wurden fünf verschiedene Zusammensetzungen aus einem Steinlabor erhalten, darunter Calciumoxalat-Monohydrat (COM), Harnsäure (UA), Magnesium-Ammoniumphosphat-Hexahydrat (MAPH/Struvit), Calciumhydrogenphosphat-Dihydrat (CHPD/Brushit) und Cystin Steine. Für diese Studie wurden 63 menschliche Nierensteine ​​verwendet, mit mindestens zwei Bildern für jeden Stein. Die Methode der einmaligen Kreuzvalidierung wurde verwendet, um die Ergebnisse der Klassifizierung mit ResNet101 zu melden. Spezifität und Präzision für jeden Steintyp waren (in Prozent): UA [97,83, 94,12], COM [97,62, 95], Struvit [91,84, 71,43], Cystein [98,31, 75] und Brushit [96,43, 75]. Gupta et al.23,71 entwickelten einen bewegungsbasierten Segmentierungsansatz unter Verwendung von UNet sowohl für In-vivo- als auch In-vitro-Datensätze. Zusätzlich zum Nierenstein segmentierten die Autoren auch das Laserinstrument und gaben an, dass es für die Laserlithotripsie wichtig ist, die Größe des Steins und den operativen Laserabstand zu verstehen. Das vorgeschlagene bewegungsinduzierte HybResUNet verbesserte die Segmentierungsergebnisse mit einem berichteten Würfelähnlichkeitskoeffizienten von 83,47 % für Stein und 86,58 % für In-vivo-Testproben für die Lasersegmentierung. Die Ergebnisse übertrafen die Ergebnisse von Basisnetzwerken (z. B. UNet72) sowohl für In-vivo- als auch für In-vitro-Einstellungen.

Einige andere Arten endoskopischer, bildbasierter Deep-Learning-Anwendungen umfassen (a) die Erkennung von nasopharyngealen Malignomen73 und die Segmentierung von Granulomen und Ulzerationen auf durch Laryngoskopie aufgenommenen Bildern74, (b) einen End-to-End-Deep-Learning-Algorithmus zur Segmentierung und Messung von Kehlkopfnerven während der Thyreoidektomie (einem chirurgischen Eingriff)75 und (c) Deep-Learning-basierte anatomische Interpretation von Videobronchoskopiebildern76. Eine aktuelle Übersichts- und Metaanalyse zur Kehlkopfendoskopie77 ergab, dass die KI-Modelle eine hohe Gesamtgenauigkeit zwischen 0,806 und 0,997 aufwiesen. Diese Überprüfung zeigte jedoch keine Details zu KI-Modellen und verwendeten Stichprobengrößen.

Für diese Studie wurden histologisch bestätigte Patientenproben bestehend aus 27.536 Bildern verwendet, von denen 19,7 % von gesunden Patienten stammten, während die restlichen Patienten verschiedene pathologische Erkrankungen aufwiesen, darunter gutartige (13,2 %) und Nasopharynxkarzinome (66 %). Ihre Gesamtgenauigkeit wurde mit 88,7 % unter vollständiger Nutzung von CNNs78 angegeben. Hier wurde ein semantischer Segmentierungsansatz gewählt, der einen Würfelähnlichkeitskoeffizienten von 0,78 ± 0,24 bzw. 0,75 ± 0,26 für retrospektive und prospektive Testsätze ergab. In ähnlicher Weise wurden für die Laryngoskopie74 verschiedene Läsionen in 127 Bildern von 25 Patienten annotiert, um eine UNet-Architektur zu trainieren, die eine Empfindlichkeit pro Pixel von 82 % für Granulome und 62,8 % für Ulzerationen zeigte. Die Segmentierung des Nervus laryngeus recurrens, der für die menschliche Sprache verantwortlich ist, während einer Operation (Thyreoidektomie) wurde mithilfe des weithin bekannten Masken-R-CNN-Ansatzes (Instanzsegmentierung) erreicht75. Der Datensatz umfasste verschiedene herausfordernde Szenarien wie schwaches Licht, Nahaufnahme, Fernlicht und helles Licht sowie deren Kombinationen. Die Segmentierungsergebnisse lagen bei einem Konfidenzintervall von 95 % bei 40 Probanden zwischen 0,343 und 0,707. Während Anästhesisten während der Intubation häufig eine Videobronchoskopie verwenden, können Tiefe und Ausrichtung schwierig zu interpretieren sein. Das Video-Bronchoskopie-Entscheidungsunterstützungssystem, das die anatomischen Standorte bei verschiedenen Rotationen zeigt, wurde unter Verwendung eines EfficientNetB1-Modells mit einer Klassifizierungsgenauigkeit von 0,86 % (linker Hauptast, rechter Hauptast und Carina-Klassen) entwickelt, für das 6806 Bilder für das Training und 511 für Tests verwendet wurden76.

Neben der Fokussierung auf die Erkennung von Zielkrankheiten und deren Charakterisierung zeigt die aktuelle Literatur auch mehrere Methodenentwicklungen im Zusammenhang mit der Unterstützung der Qualitätskontrolle des endoskopischen Screenings im Gastrointestinaltrakt, der Erkennung anatomischer Schleimhautstellen und der 3D-Tiefenschätzung oder -rekonstruktion zur Visualisierung von Schleimhautszenen. Unsere Suche ergab mindestens zehn Artikel zur endoskopischen Aufnahmequalität, vier zur Anatomieklassifizierung oder -erkennung und neun zur Tiefenkartenschätzung und dreidimensionalen Rekonstruktion der Schleimhaut.

Die endoskopische Qualität stellt einen erheblichen Engpass dar und kann dazu beitragen, die Rate übersehener Entdeckungen zu reduzieren18,19. Die Arbeiten konzentrieren sich sowohl auf endoskopische Eingriffe im oberen Gastrointestinaltrakt21,79 als auch auf endoskopische Eingriffe im unteren Gastrointestinaltrakt80 im Hinblick auf die Qualitätsbewertung durch Deep Learning. Während die Überwachung toter Winkel durch die Klassifizierung von Stellen ein Indikator für die Qualitätskontrolle war21, waren Artefakte wie Unschärfe, Blasen, Spiegelung, Sättigung und Kontrast in endoskopischen Aufnahmen ein Indikator für die Qualität in der anderen Studie79. In der klinischen Arbeit wurden handelsübliche DCNN-Netzwerke zur Qualitätskontrolle verwendet21. Für das methodisch gesteuerte Framework79 bestand der Vorschlag jedoch darin, verschiedene Gewichtungen aus den gefundenen Begrenzungsrahmen eines Detektors YOLOv3 mit einer räumlichen Pyramiden-Pooling-Methode zu kombinieren, um eine endgültige aggregierte Qualitätsbewertung zu erhalten, und es wurden andere Wiederherstellungstechniken für teilweise fehlerhafte Frames für visuelle Zwecke vorgeschlagen. Zur Bewertung der Darmvorbereitung80 wurde ein Deep-Split-Attention-Residuennetzwerk für das Training verwendet. Die Testergebnisse an 927 Bildern aus dem externen Datensatz zeigten eine Gesamtgenauigkeit von 96,7 %. In ähnlicher Weise wurde in einer Studie, die sich auf das Verständnis des Prozentsatzes der Schleimhautvisualisierung im Dünndarm während VCE konzentrierte, ein einfaches, vollständig verbundenes neuronales Faltungsnetzwerk verwendet81. In ähnlicher Weise verwendeten die meisten Landmarkenklassifizierungsarbeiten nur handelsübliche CNN-Netzwerke, die eine gute Genauigkeit bei der Klassifizierung der Landmarkstandorte zeigten (z. B. über 90 % Erinnerungswerte für 9 von 11 Standortklassen82), weitgehend basierend auf den OGD-Verfahren, die umfassen Speiseröhre, Magen und Zwölffingerdarm82,83.

Tiefenschätzungsnetzwerke für monokulare Fälle (d. h. eine Einzelkameraerfassung, die in den meisten Endoskopiesystemen weit verbreitet ist) wurden entwickelt22,84,85,86,87. Während eine selbstüberwachte Lerntechnik zur Tiefenschätzung unter Verwendung eines siamesischen Netzwerks aus einem früheren SfM-Tool basierend auf spärlichen Tiefenschätzungen aus Videosequenzen erforscht wurde84, untersuchten neuere Arbeiten von Shao et al.87 die Annahme einer Helligkeitskonstanz, um mit der Variabilität der endoskopischen Szenenbeleuchtung umzugehen wiederum unter Verwendung des Selbstüberwachungsrahmens. Ersteres verwendete endoskopische Sinusvideos, die einen absoluten relativen Unterschied von 0,20 mm zeigten, während letzteres anhand von vier verschiedenen öffentlichen Datensätzen ausgewertet wurde, einschließlich eines Magen-Darm-Trakts (ex vivo vom Schwein)86, wo der absolute Flugbahnfehler 0,13 betrug, verglichen mit zuvor veröffentlichten 0,20 bei Colon IV86 . In einer anderen Arbeit22 wurde ein vollständig überwachtes Tiefenschätzungsnetzwerk verwendet, um die Länge des Barrett-Ösophagus zur Risikostratifizierung zu quantifizieren. Diese Messungen zeigten eine gute Korrelation mit ihrem 3D-gedruckten Phantom sowohl in der Länge als auch in der Fläche, wobei der relative Fehler in allen Fällen unter 5 % lag (maximaler relativer Unterschied von 0,25 mm in der Länge und 0,43 mm2 in der Fläche).

Im Allgemeinen basieren die meisten aktuellen Arbeiten zur endoskopischen Bildanalyse auf zuvor veröffentlichten Computer Vision- und anderen medizinischen Bildgebungsarchitekturen. Zu diesen beliebten Netzwerken gehören Faster-R-CNN88-, YOLO89-, UNet72- und DeepLab90-Architekturen, die mit bekannten Backbone-Netzwerken wie VGG1991, ResNet92 und EfficientNet93 implementiert sind. Allerdings haben die in den Veröffentlichungen beschriebenen Methoden, von der Klassifizierung bis zur Erkennung und Segmentierung, hauptsächlich zu ihrer Anwendbarkeit beigetragen, indem sie notwendige klinische Probleme gelöst und die Patientendatensätze umfassend ausgewertet haben. Eine technische Perspektive in Lit. 29 schlugen die Verwendung visueller Transformatoren, mehr Hybridmodelle, die Einbeziehung der Erklärbarkeit in KI-Modelle, die Verwendung unbeaufsichtigter und halbüberwachter Ansätze und die Verwendung generativer Modelle vor. Die Reproduzierbarkeit und der Test der Methoden unter tatsächlichen klinischen Bedingungen waren die Hauptthemen, die in einer weiteren technischen Übersicht über DL-Methoden für kolorektale Polypen angesprochen wurden31.

Trotz der berichteten Wirksamkeit dieser Methoden bei retrospektiv kuratierten Daten1,2 werden prospektive Datenstudien entweder nicht durchgeführt oder verfügen über eine oder wenige zentrumsbasierte Analysen94,95, was die klinische Anwendbarkeit fraglich macht. Die Fortschritte in der KI haben sich positiv auf die Anwendungsmöglichkeiten für endoskopische Verfahrenshilfen und die Analyse endoskopischer Daten ausgewirkt. Einerseits haben viele in klinischen Fachzeitschriften veröffentlichte Studien1,2,39 ihre Anwendungsmöglichkeiten aufgezeigt. Allerdings vergleichen sie andere Architekturen nicht rigoros. Neuartige DL-Methodenentwicklungen, die auf die Schulung verschiedener endoskopischer Datensätze, die Einführung der Erklärbarkeit von Ergebnissen und weitere technische Arbeiten ausgerichtet sind, sind erforderlich, um diesen Bereich voranzutreiben. Andererseits nutzen die in Fachzeitschriften veröffentlichten Publikationen keine umfassenden multizentrischen Daten12,14,23. Dies liegt daran, dass sich die meisten dieser Arbeiten hauptsächlich auf die Verwendung retrospektiv gesammelter Datensätze zur algorithmischen Validierung konzentrieren. Man kann argumentieren, dass reale klinische Situationen im Vergleich zu den kuratierten Datensätzen sehr unterschiedlich sein können. Ebenso können Datenknappheit oder das Fehlen annotierter Daten sowie eine erhebliche Variabilität bei Krankheitsfällen zu Problemen mit dem Datenungleichgewicht führen. Einige der jüngsten in Fachzeitschriften veröffentlichten Arbeiten haben versucht, diese wichtigen Probleme im Bereich der endoskopischen Bildanalyse durch die Einbeziehung von One-Shot- oder Few-Shot-Lernansätzen96, Meta-Learning-Ansätzen97 und halbüberwachten Techniken98 anzugehen. Eine Lösung solcher Probleme in künftigen klinischen Fällen kann jedoch noch nicht aufgezeigt werden. Darüber hinaus sind einige Krankheitsfälle, wie z. B. Colitis ulcerosa99,100, komplex und weisen sehr subtile Unterschiede zwischen leichten und schweren Ulkustypen auf, was eine genaue Klassifizierung (Genauigkeit unter 85 %) mit DL-basierten Methoden erschwert.

Weit verbreitete überwachte Techniken sind datenhungrig und erfordern viele menschliche Anmerkungen. Gleichzeitig können überwachte Methoden auch zu Verzerrungen aufgrund unvollständiger Beschriftungen oder unterschiedlicher Datenverteilung führen, möglicherweise aufgrund anderer Bildgebungsmodalitäten oder sogar aufgrund unterschiedlicher Scoping-Geräte, die zur Datengenerierung verwendet werden. Ein unabhängiger und identisch verteilter iid-Datensatz ist oft schwer zu realisieren101 und stellt nicht die Patientenvariabilität dar, die selbst in einer ausgewählten Patientenkohorte mit ähnlichen endoskopischen Verfahren und mit demselben Endoskop vorhanden ist. Darüber hinaus tendiert die alleinige Verwendung dieser Techniken mit nur kuratierten Etiketten aus einer festen Patientenkohorte dazu, die Stichproben zu übertreffen, die in anderen Kohorten vorherrschend oder sogar gleich sind, da sich die Variabilität im Laufe der Zeit wahrscheinlich ändern wird. Darüber hinaus umfasst die endoskopische Bildgebung eine multimodale Erfassung, unterschiedliche Ansichten und Schleimhautveränderungen, die vielfältiger sein können als jede andere Bildgebungsmodalität. Die freihändige Bewegung von Endoskopikern zur Visualisierung der Schleimhaut oder eines Organs kann zwangsläufig zu Herausforderungen für den Algorithmus führen. In der Realität werden diese durch gut kuratierte endoskopische Bildgebungsdaten nicht erfasst und können die Leistung des Algorithmus in der Klinik beeinträchtigen. Bei mehreren überwachten Modellen ist die Generalisierbarkeit bei sehr genauer Betrachtung, aber nur bei Verwendung eines anderen Koloskopie-Datensatzes schlecht102,103. Eine kürzlich veröffentlichte Arbeit102 zeigte, dass die meisten DL-Architekturen, einschließlich der weit verbreiteten UNet, einen Leistungsabfall von über 20 % meldeten, wenn ein anderer Koloskopie-Datensatz für Training und Tests verwendet wurde. Beispielsweise sank der Dice-Ähnlichkeitswert von UNet von 0,86, wenn sowohl Trainings- als auch Testdaten aus demselben öffentlichen Datensatz verwendet wurden, auf 0,62, wenn sich die Testdaten vom Trainingsdatensatz unterschieden. Da die meisten Arbeiten Trainings-, Validierungs- und Testsätze aus demselben Datensatz durchführen, sind Generalisierbarkeitsstudien in der medizinischen Bildanalyse sehr begrenzt. Daher ist es in diesem Forschungsbereich von entscheidender Bedeutung, dass sich Algorithmen an Datensätze anpassen, die in verschiedenen Kliniken und mit unterschiedlichen Anteilen erstellt wurden. Frühere Studien haben gezeigt, dass die Ergebnisse mit mehr Daten im Training auf das Zentrum verzerrt waren, selbst wenn kombiniertes Training durchgeführt wurde103.

Die meisten entwickelten Methoden nutzen herkömmliche Weißlichtbildgebung. Obwohl sich spezielle Modalitäten als hilfreich für die Erkennung und Diagnose bestimmter Läsionen erwiesen haben, gibt es nur sehr wenige Untersuchungen zu spezielleren Modalitäten (siehe Tabelle 1). Beispielsweise ist die Chromoendoskopie ein etabliertes medizinisches Verfahren zur Verbesserung der Charakterisierung von GI-Schleimhautgeweben104. Bei diesen Eingriffen werden spezielle Farbstoffe zusammen mit der optischen Endoskopie verwendet. Die beobachteten Details können die Identifizierung einer Pathologie ermöglichen. In ähnlicher Weise kann die Fluoreszenzzystoskopie68 (auch bekannt als BL-Zystoskopie oder photodynamische Diagnose) in der klinischen Routinepraxis die Erkennung und Visualisierung sowohl von papillären Blasentumoren als auch von Carcinoma-in-situ-Läsionen im Vergleich zur Standard-Weißlichtzystoskopie verbessern. Warum also diese Daten nicht zusätzlich zur herkömmlichen Weißlichtmodalität nutzen, um Läsionen genauer zu erkennen und zu charakterisieren? Die Erkundung multimodaler Möglichkeiten wird die Früherkennung voranbringen, da sie gute visuelle Muster enthalten, die bei Standardverfahren (z. B. spektrale endoskopische Technik105) oft nicht sichtbar sind. Fortgeschrittene Techniken erfordern jedoch auch Schulung und Verfahrensvorbereitung. Daher kann das Erlernen der Anpassung an vorhandene Muster und allgemein verfügbare Standardmodalitäten, die in der täglichen Praxis verwendet werden, ein Weg nach vorne sein. Domänenanpassungs- und Domänengeneralisierungstechniken sind derzeit ungedeckter Bedarf in diesem Bereich.

Die algorithmische Bewertung ist entscheidend für die Entwicklung besserer wissenschaftlicher Ansätze. Diese Bewertungen spielen eine wichtige Rolle bei der Bestimmung der Stärke der entwickelten Methoden für die klinische Übersetzung. Im Zusammenhang mit Deep-Learning-Techniken sind sowohl die Größe des Testdatensatzes als auch die Verwendung von Bewertungsmetriken, die ihre Leistungen widerspiegeln, von entscheidender Bedeutung. Es ist jedoch schwierig festzustellen, wie viele Testproben unverzerrte Ergebnisse liefern. Während unsichtbare Testsätze die Generalisierbarkeit von Ansätzen bestimmen, sind die meisten überwachten Techniken nicht robust gegenüber unsichtbaren Datenverteilungen106. Daher sind Generalisierbarkeitsbewertungen oder Robustheitstests in den meisten Arbeiten häufig nicht enthalten. Auch wenn in Veröffentlichungen über standardmäßige Computer-Vision-Metriken berichtet wird (z. B. Top-1-Genauigkeit, Sørensen-Dice-Koeffizient, Schnittmenge über Vereinigung, Präzision und Rückruf), ist die Einbeziehung einer Metrik erforderlich, die die Verzerrung zwischen dem Validierungssatz und dem Testsatz bewertet . Ein solcher Ansatz kann das Verständnis des Hyperparameter-Tunings und seiner Auswirkungen auf den unsichtbaren Testdatensatz stärken. Außerdem untersuchen die meisten aktuellen Studien weder die Datenverteilung noch stellen sie Verteilungsdiagramme dar, die die Varianz der Daten und Ergebnisse veranschaulichen. Da Varianzstudien für das Verständnis der Konsistenz der algorithmischen Leistung unerlässlich sind, muss die Berichterstattung über diese als Teil der algorithmischen Validierung einbezogen werden.

Mit den jüngsten Fortschritten bei der Hardwareverbesserung wurden DL-Algorithmen entwickelt, die gleichzeitig genauer und schneller sind. Allerdings ist die Notwendigkeit einer Echtzeitleistung für einige Aufgaben, insbesondere bei der endoskopischen Krankheitserkennung, Diagnose und chirurgischen Eingriffen, wichtiger. Dennoch kann der Bedarf an High-End-Hardware für eine angemessene Geschwindigkeit und Genauigkeit in manchen Gesundheitszentren wirtschaftlich nicht realisierbar oder in klinischen Umgebungen schwierig umzusetzen sein. Daher ist es wichtig, Entscheidungen für das Netzwerkdesign zu treffen, entweder ohne Leistungseinbußen in Kauf zu nehmen oder einen angemessenen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu wählen. Es können schnellere, leichtgewichtige Netzwerke wie PeleeNet107 mit nur 5,4 Millionen Parametern und verbesserter Genauigkeit gegenüber den Designs SOTA MobileNet108 und Tiny-YOLOv2109 in Betracht gezogen werden. Darüber hinaus können Modellkomprimierungsmethoden die Ausführung von DL-Methoden auf Geräten mit begrenzten Rechenkapazitäten ermöglichen und gleichzeitig die Wettbewerbsleistung des ursprünglichen Netzwerks beibehalten. Diese Methode umfasst Beschneidungs-, Quantisierungs-, Wissensdestillations- und Netzwerkarchitektur-Suchtechniken110.

Die meisten Methoden basieren auf offensichtlicheren Krebserkrankungen oder präkanzerösen Läsionen (z. B. hochgradige Dysplasie1,2,68, Polypen42,43). Die Notwendigkeit, subtile frühe präkanzeröse Entwicklungen zu erkennen, wird daher mit der konventionellen Endoskopie noch nicht ausreichend erforscht. In diesem Zusammenhang sollten neoplastische Veränderungen in einem sehr frühen Stadium, Entzündungen und andere Gewebeanomalien, die für die Entwicklung schwerwiegender lebensbedrohlicher Infektionen verantwortlich sind, im Mittelpunkt neuartiger KI-Entwicklungen stehen. Beispielsweise ist die Sensitivität des MCES-Scores bei Patienten mit IBD mit einer Sensitivität von 83 % immer noch gering, obwohl eine binäre Klassifizierung durchgeführt wurde, bei der die Scores 0 und 1 als eine Klasse und die Scores 2 und 3 als eine weitere Klasse kombiniert wurden11, was viel niedriger ist als andere Techniken zur Läsionsklassifizierung. Allerdings sind aktuelle Entwicklungen, auch bei offensichtlichen neoplastischen Läsionen, durchaus von Interesse, da sie die Subjektivität bei Behandlungsverfahren und Patientenmanagement verringern können.

Obwohl die 3D-Rekonstruktion von Schleimhaut aufgrund der anspruchsvollen endoskopischen Bildaufnahme seit über einem Jahrzehnt erforscht wird, bleibt diese Forschungsrichtung eine Herausforderung. Deep-Learning-basierte Tiefenschätzungstechniken haben eine Möglichkeit für die 3D-Rekonstruktion der Schleimhaut eröffnet22,84,85,86,87; Aufgrund der komplexen endoskopischen Trajektorien und Schleimhautbewegungen, insbesondere in Hohlorganen wie dem Dickdarm, bleibt die Schleimhautvisualisierung der gesamten Schleimhaut in 3D jedoch ein offenes Problem. Auch datengesteuerte Ansätze in der Chirurgie für die präoperative bis postoperative Registrierung müssen noch innoviert werden.

Da mehrere komplementäre Modalitäten entwickelt und in routinemäßigen klinischen Verfahren eingesetzt werden, darunter Spektralendoskopie, Raman-Streutechnik, Mikroendoskopie und digitale Histopathologie (optische Biopsie), wurden nur minimale oder gar keine Anstrengungen unternommen, um datengesteuerte Methoden für Multiskalen und Multimodalität zu erforschen Datenfusionstechniken. Auch wenn die Befunde mit der Endoskopie abgeglichen werden, beispielsweise bei der Spektralendoskopie105, werden diese Signale nicht in der Region registriert, in der sie erzeugt werden.

In dieser Übersicht werden aktuelle Deep-Learning-Ansätze hervorgehoben, die darauf abzielten, die Variabilität zwischen und innerhalb von Beobachtern in klinischen Verfahren zu minimieren. Diese entwickelten Methoden konzentrierten sich hauptsächlich auf die automatische Erkennung, Charakterisierung, Lokalisierung, Segmentierung, chirurgische Unterstützung und 3D-Visualisierung oder -Messung von Läsionen. Wir haben auch aktuelle Herausforderungen und Lücken in diesen KI-basierten Ansätzen und ihren Validierungsstrategien skizziert. Forschungsarbeiten in der Endoskopie-Community konzentrieren sich hauptsächlich auf die Anwendung von Methoden aus der Vision-Community, was auf düstere Fortschritte bei problembasierten, einzigartigen Methodenentwicklungen und einen Mangel an umfassenden multizentrischen Studien hinweist. Die oberflächliche Validierung von Algorithmen und der Wettlauf um Veröffentlichungen haben die Qualität der Forschung in diesem Bereich hauptsächlich beeinträchtigt. Außerdem werden aktuelle Bedürfnisse aus diesem Grund ignoriert und die meisten offensichtlichen Läsionen werden wiederholt ausgewählt, anstatt an subtilen flachen oder sitzenden Läsionen oder frühneoplastischen Veränderungen zu arbeiten. Mit einer mutigen Haltung werden im Folgenden zukünftige Richtungen vorgeschlagen, mit der Annahme, dass diese Vorschläge dazu beitragen werden, unvoreingenommene, fortschrittliche und klinisch praktische KI-Ansätze zu entwickeln, die den heutigen Anforderungen entsprechen.

Auch wenn jedes endoskopische Verfahren einzigartig ist, sind die methodischen Fortschritte bei dem einen Verfahren progressiver und repetitiver als beim anderen. Während dies eine Chance für Algorithmenentwickler eröffnet, bei denen Anwendungen noch selten sind, haben der Mangel an Datensätzen und die geringe Beteiligung klinischer Experten diese Verfahrensarten weniger attraktiv gemacht. Es besteht jedoch eindeutig die Möglichkeit und der Bedarf für ähnliche Entwicklungen dieser computergestützten Technologien bei allen endoskopischen Verfahren, um die Patientenversorgung zu verbessern. Beispielsweise gibt es eine überwältigende Anzahl von Veröffentlichungen zur Bekämpfung von Magen-Darm-Pathologien mithilfe von KI25,31 (siehe Abschnitt „Computergestützte gastrointestinale Endoskopie“). Obwohl Zystoskopie- und Ureteroskopie-Verfahren gleichermaßen anspruchsvoll sind, zeigt die Literatur, dass bislang nur minimale Arbeiten gemeldet wurden66,71.

Die Fragen lauten: „Was ist bei routinemäßigen klinischen Verfahren schwierig zu beurteilen?“; und „Welche KI sollte in Bezug auf Erkennung und Diagnose ausgewählt werden?“ Sind Läsionen für einen geschulten Klinikmitarbeiter leicht zu lokalisieren, oder ist es selbst für einen Experten schwierig, sie zu finden (z. B. unauffällige Läsionen)? Im letzteren Fall sind spezielle Algorithmenentwicklungen und mehr Expertenzeit bei der Kuratierung von Daten von entscheidender Bedeutung. Darüber hinaus können ergänzende Modalitäten eine wichtige Rolle bei der Beurteilung versteckter und subtiler Läsionen spielen, die den Patienten schaden können20,21. Während das menschliche Sehvermögen begrenzt ist und der Verstand nur das interpretieren kann, was aus dem Auge Sinn ergibt, können Computer komplexere Daten wie multimodale und multiskalige Datensignaturen lösen105. Multimodalität ist der Schlüssel zur Beantwortung der oben genannten Fragen und der Weg nach vorne bei der Behandlung schwer zu findender Läsionen. Gleichzeitig kann die Multiskalierung eine detailliertere Charakterisierung ermöglichen, um sie besser zu verstehen, was die Stärke der KI in diesem Bereich ergänzen kann.

Die Methodenvalidierung sollte zunächst anhand eines multizentrischen und heterogenen retrospektiven Datensatzes bewertet werden. Da Deep Learning sehr anfällig für die Datenverteilung ist, kann ein Modell, das auf einem bestimmten Bildgebungsgerät oder einer bestimmten Population trainiert wird, zu einem Marktmonopol und eingeschränktem Zugang zu fortschrittlichen Gesundheitssystemen führen. Dadurch hat es erhebliche Auswirkungen auf die Gesellschaft und die Wirtschaft. Die Forschungsgemeinschaft zu ermutigen, Bewertungen der Generalisierbarkeit einzubeziehen, ist der einzige Weg zu einem sichereren und wünschenswerteren Ökosystem der Methodenentwicklung. Während der Zugriff auf Daten aufgrund von Datenschutzbedenken die Bewertung erschweren kann, besteht der Weg in diese Richtung in der Verwendung eines föderierten Lernansatzes, der die Bewertung multizentrischer Daten ermöglicht und bei der Entwicklung verallgemeinerbarer Methoden hilft, die beide zum Erstellen verwendet werden können und Methoden validieren111.

Der Zugang zu öffentlich zugänglichen klinisch erfassten Datensätzen, die aus kuratierten und realen Daten bestehen, kann für die Algorithmenentwicklung und ihre Anpassung an klinische Szenarien von entscheidender Bedeutung sein. Einige Beispiele für diese Datensätze umfassen koloskopische Videos und zugehörige Anmerkungen in LDPolypVideo112 und im ROBUST-MIS-Datensatz zur Erkennung, Segmentierung und Verfolgung chirurgischer Instrumente113. Ähnliche umfassende Datensätze können dabei helfen, Methoden zu bewerten und technische Fortschritte im Hinblick auf die Durchführbarkeit einer Übersetzung zu fördern. Um die Verwendbarkeit in klinischen Szenarien zu bewerten, können die entwickelten Ansätze außerdem dazu ermutigt werden, prospektive Studien in einigen Gemeindezentren durchzuführen. Im Idealfall sollten klinische Studien in lokalen Zentren akzeptabel sein, um die Durchführbarkeit und die einschränkenden Faktoren der Translation zu verstehen.

Mit den wachsenden Deep-Network-Architekturen und der Analyse größerer Datenmengen (z. B. Videos in der Endoskopie) kam es zu einem steigenden Energieverbrauch und CO2-Fußabdruck von DL-Methoden, mit denen sich die Community befassen muss114. Die Redaktionsteams sollten ermutigt werden, jede eingereichte Arbeit mit KI-basierten Ansätzen anhand zusätzlicher Metriken zu bewerten, bevor sie sie zur Begutachtung durch Fachkollegen einsenden. Zu diesen Metriken können gehören: (1) Arbeiten, die größere DL-Netzwerke verwenden, die in klinischen Umgebungen nicht praktikabel sind und für einen hohen CO2-Fußabdruck115 verantwortlich sind, sollten dazu ermutigt werden, Strategien zur Modellkompaktheit durchzuführen und die Modellauswahlentscheidungen zu begründen, (2) die Bedeutung der durchgeführten Arbeiten sollten gewichtet werden, indem der Vergleich der Methodenneuheit mit Methoden auf dem neuesten Stand der Technik bewertet wird, und (3) die Robustheit im Vergleich zu Testlaufzeitexperimenten sollte bewertet werden. Die eingereichten Arbeiten sollten diese Parameter in ihrer eingereichten Papierzusammenfassung klar darlegen und bei der Einreichung eine obligatorische Checkliste als zusätzliche Datei bereitstellen.

de Groof, AJ et al. Deep-Learning-System erkennt Neoplasien bei Patienten mit Barrett-Ösophagus mit höherer Genauigkeit als Endoskopiker in einer mehrstufigen Trainings- und Validierungsstudie mit Benchmarking. Gastroenterology 158, 915–929.e4 (2020).

Artikel Google Scholar

Ebigbo, A. et al. Computergestützte Diagnose mittels Deep Learning bei der Beurteilung des frühen Adenokarzinoms der Speiseröhre. Gut 68, 1143–1145 (2019).

Artikel Google Scholar

Zhang, Y. et al. Diagnose einer chronisch atrophischen Gastritis durch Gastroskopie mit künstlicher Intelligenz. Graben. Leber Dis. 52, 566–572 (2020).

Artikel Google Scholar

Guimarães, P., Keller, A., Fehlmann, T., Lammert, F. & Casper, M. Deep-Learning-basierte Erkennung von Magenkrebsvorstufen. Gut 69, 4–6 (2020).

Artikel Google Scholar

Everson, M. et al. Künstliche Intelligenz zur Echtzeitklassifizierung intrapapillärer Kapillarschleifenmuster in der endoskopischen Diagnose früher Plattenepithelkarzinome des Ösophagus: eine Proof-of-Concept-Studie. Vereinigte Eur. Gastroenterol. J. 7, 297–306 (2019).

Artikel CAS Google Scholar

Ozawa, T. et al. Automatisierte endoskopische Erkennung und Klassifizierung kolorektaler Polypen mithilfe von Faltungs-Neuronalen Netzen. Therapeut. Adv. Gastroenterol. 13, 1756284820910659 (2020).

Artikel Google Scholar

Byrne, MF et al. Echtzeit-Differenzierung adenomatöser und hyperplastischer kleiner kolorektaler Polypen während der Analyse unveränderter Videos der Standardkoloskopie mithilfe eines Deep-Learning-Modells. Gut 68, 94–100 (2019).

Artikel Google Scholar

Song, EM et al. Endoskopische Diagnose und Behandlungsplanung für kolorektale Polypen mithilfe eines Deep-Learning-Modells. Wissenschaft. Rep. 10, 30 (2020).

Jin, EH et al. Verbesserte Genauigkeit bei der optischen Diagnose kolorektaler Polypen mithilfe von Faltungs-Neuronalen Netzen mit visuellen Erklärungen. Gastroenterology 158, 2169–2179.e8 (2020).

Artikel Google Scholar

Chen, P.-J. et al. Genaue Klassifizierung kleiner kolorektaler Polypen mittels computergestützter Analyse. Gastroenterologie 154, 568–575 (2018).

Artikel Google Scholar

Stidham, RW et al. Leistung eines Deep-Learning-Modells im Vergleich zu menschlichen Gutachtern bei der Einstufung der Schwere der endoskopischen Erkrankung bei Patienten mit Colitis ulcerosa. JAMA Netw. Offen 2, e193963 (2019).

Artikel Google Scholar

Jin, Y. et al. Wiederkehrendes Multitasking-Faltungsnetzwerk mit Korrelationsverlust für die chirurgische Videoanalyse. Med. Bild Anal. 59, 101572 (2020).

Artikel Google Scholar

Colleoni, E., Edwards, P. & Stoyanov, D. Synthetische und reale Eingaben für die Werkzeugsegmentierung in der Roboterchirurgie. In der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention – MICCAI (Medical Image Computing and Computer Assisted Intervention, 2020).

Kannan, S., Yengera, G., Mutter, D., Marescaux, J. & Padoy, N. Zukünftiger Zustand, der LSTM für die frühe Erkennung von Operationstypen vorhersagt. IEEE Trans. Med. Bildgebung 39, 556–566 (2020).

Artikel Google Scholar

Gong, J. et al. Verwendung von Deep Learning zur Identifizierung des Nervus laryngeus recurrens während einer Thyreoidektomie. Wissenschaft. Rep. 11, 14306 (2021).

Artikel CAS Google Scholar

Koo, B. et al. Automatische, globale Registrierung in der laparoskopischen Leberchirurgie. Int. J. Comput. Helfen. Radiol. Surg. 17, 167–176 (2022).

Artikel Google Scholar

Ali, S. et al. Ein objektiver Vergleich von Erkennungs- und Segmentierungsalgorithmen für Artefakte in der klinischen Endoskopie. Wissenschaft. Rep. 10, 1–15 (2020).

Google Scholar

Rees, CJ et al. Wichtige Leistungsindikatoren und Qualitätssicherungsstandards für die Koloskopie im Vereinigten Königreich. Gut 65, 1923–1929 (2016).

Artikel Google Scholar

Beg, S. et al. Qualitätsstandards in der Endoskopie des oberen Gastrointestinaltrakts: eine Stellungnahme der British Society of Gastroenterology (BSG) und der Association of Upper Gastrointestinal Surgeons of Great Britain and Ireland (AUGIS). Gut 66, 1886–1899 (2017).

Artikel Google Scholar

McGill, SK et al. Künstliche Intelligenz identifiziert und quantifiziert blinde Flecken bei der Koloskopie. Endoskopie 53, 1284–1286 (2021).

Artikel Google Scholar

Wu, L. et al. Randomisierte kontrollierte Studie mit Wisense, einem Echtzeit-Qualitätsverbesserungssystem zur Überwachung blinder Flecken während der Ösophagogastroduodenoskopie. Gut 68, 2161–2169 (2019).

Artikel Google Scholar

Ali, S. et al. Eine Pilotstudie zur automatischen dreidimensionalen Quantifizierung des Barrett-Ösophagus zur Risikostratifizierung und Therapieüberwachung. Gastroenterologie 161, 865–878.e8 (2021).

Artikel Google Scholar

Gupta, S., Ali, S., Goldsmith, L., Turney, B. & Rittscher, J. Mi-unet: verbesserte Segmentierung in der Ureteroskopie. Im Jahr 2020 IEEE 17. Internationales Symposium für biomedizinische Bildgebung (ISBI) 212–216 (2020).

Shkolyar, E. et al. Erweiterte Erkennung von Blasentumoren mittels Deep Learning. EUR. Urol. 76, 714–718 (2019).

Artikel Google Scholar

Tokat, M., van Tilburg, L., Koch, AD & Spaander, MCW Künstliche Intelligenz in der Endoskopie des oberen Gastrointestinaltrakts. Graben. Dis. 40, 395–408 (2022).

Artikel Google Scholar

Sumiyama, K., Futakuchi, T., Kamba, S., Matsui, H. & Tamai, N. Künstliche Intelligenz in der Endoskopie: Gegenwarts- und Zukunftsperspektiven. Graben. Endosz. 33, 218–230 (2021).

Artikel Google Scholar

Wang, Y., Sun, Q., Liu, Z. & Gu, L. Visuelle Erkennungs- und Verfolgungsalgorithmen für minimalinvasive chirurgische Instrumente: ein umfassender Überblick über den Stand der Technik. Rauben. Auton. Syst. 149, 103945 (2022).

Artikel Google Scholar

Anteby, R. et al. Visuelle Deep-Learning-Analyse in der laparoskopischen Chirurgie: eine systematische Überprüfung und Metaanalyse der diagnostischen Testgenauigkeit. Surg. Endosz. 35, 1521–1533 (2021).

Artikel Google Scholar

Renna, F. et al. Künstliche Intelligenz für die Endoskopie des oberen Gastrointestinaltrakts: eine Roadmap von der Technologieentwicklung bis zur klinischen Praxis. Diagnostics (Basel, Schweiz) 12, 1278 (2022).

Google Scholar

Misawa, M. et al. Aktueller Stand und Zukunftsperspektive der künstlichen Intelligenz für die untere Endoskopie. Graben. Endosz. 33, 273–284 (2021).

Artikel Google Scholar

Sanchez-Peralta, LF, Bote-Curiel, L., Picon, A., Sanchez-Margallo, FM & Payer, JB Deep Learning zum Auffinden kolorektaler Polypen in der Koloskopie: eine systematische Literaturübersicht. Artif. Intel. Med. Rev. 108, 101923 (2020).

Artikel Google Scholar

Tontini, GE et al. Künstliche Intelligenz in der gastrointestinalen Endoskopie bei entzündlichen Darmerkrankungen: eine systematische Überprüfung und neue Horizonte. Therapeut. Adv. Gastroenterol. 14, 17562848211017730 (2021).

Artikel Google Scholar

Nakase, H. et al. Die durch künstliche Intelligenz unterstützte Endoskopie verändert die Definition der Schleimhautheilung bei Colitis ulcerosa. Graben. Endosz. 33, 903–911 (2021).

Google Scholar

Okagawa, Y., Abe, S., Yamada, M., Oda, I. & Saito, Y. Künstliche Intelligenz in der Endoskopie. Graben. Dis. Wissenschaft. 67, 1553–1572 (2022).

Artikel Google Scholar

Corley, DA et al. Adenomerkennungsrate und Risiko für Darmkrebs und Tod. N. engl. J. Med. 370, 1298–1306 (2014). PMID: 24693890.

Artikel CAS Google Scholar

Schmelzle, M., Krenzien, F., Schöning, W. & Pratschke, J. Laparoskopische Leberresektion: Indikationen, Einschränkungen und wirtschaftliche Aspekte. Langenbecks Bogen. Surg. 405, 725–735 (2020).

Artikel Google Scholar

Kim, J.-J. et al. Visualisierung mit großem Sichtfeld unter Verwendung mehrerer miniaturisierter Kameras für die laparoskopische Chirurgie. Mikromaschinen (Basel) 9, 431 (2018).

Zhou, W. et al. Mehrstufige Validierung eines Deep-Learning-basierten Systems zur Quantifizierung der Darmvorbereitung: eine prospektive Beobachtungsstudie. Lanzettenziffer. Gesundheit 3, e697–e706 (2021).

Artikel Google Scholar

Guo, L. et al. Automatisierte Echtzeitdiagnose von Krebsvorstufen und frühen Plattenepithelkarzinomen der Speiseröhre mithilfe eines Deep-Learning-Modells (mit Videos). Magen-Darm-Test. Endosz. 91, 41–51 (2020).

Artikel Google Scholar

Banks, M. et al. Leitlinien der British Society of Gastroenterology zur Diagnose und Behandlung von Patienten mit einem Risiko für ein Magenadenokarzinom. Gut 68, 1545–1575 (2019).

Artikel Google Scholar

Mu, G. et al. Klassifizierung von Gastritis auf Expertenebene durch Endoskopie unter Verwendung von Deep Learning: eine multizentrische Diagnosestudie. Endosz. Int. Geöffnet 09, E955–E964 (2021).

Artikel Google Scholar

Misawa, M. et al. Künstliche Intelligenz-gestützte Polypenerkennung für die Koloskopie: erste Erfahrungen. Gastroenterology 154, 2027–2029.e3 (2018).

Artikel Google Scholar

Urban, G. et al. Deep Learning lokalisiert und identifiziert Polypen in Echtzeit mit einer Genauigkeit von 96 % bei der Screening-Koloskopie. Gastroenterology 155, 1069–1078.e8 (2018).

Artikel Google Scholar

Ozawa, T. et al. Neuartiges computergestütztes Diagnosesystem für die endoskopische Krankheitsaktivität bei Patienten mit Colitis ulcerosa. Magen-Darm-Test. Endosz. 89, 416–421.e1 (2019).

Artikel Google Scholar

Becker, BG et al. Training und Einsatz eines Deep-Learning-Modells für die endoskopische Schweregradeinstufung bei Colitis ulcerosa unter Verwendung multizentrischer klinischer Studiendaten. Therapeut. Adv. Magen-Darm-Test. Endosz. 14, 2631774521990623 (2021).

Google Scholar

Klang, E. et al. Deep-Learning-Algorithmen zur automatisierten Erkennung von Morbus Crohn-Geschwüren mittels Videokapselendoskopie. Magen-Darm-Test. Endosz. 91, 606–613.e2 (2020).

Artikel Google Scholar

Mascarenhas Saraiva, MJ et al. Deep Learning und Kapselendoskopie: Automatische Identifizierung und Differenzierung von Dünndarmläsionen mit ausgeprägtem hämorrhagischem Potenzial mithilfe eines Faltungs-Neuronalen Netzwerks. BMJ Offenes Gastroenterol. 8, e000753 (2021).

Zhou, D. et al. Diagnostische Bewertung eines Deep-Learning-Modells zur optischen Diagnose von Darmkrebs. Nat. Komm. 11, 2961 (2020).

Artikel CAS Google Scholar

Bernal, J. et al. Vergleichende Validierung von Methoden zur Polypenerkennung in der Videokoloskopie: Ergebnisse der Miccai 2015 Endoscopic Vision Challenge. IEEE Trans. Med. Bildgebung 36, 1231–1249 (2017).

Artikel Google Scholar

Qadir, HA et al. Polypenerkennung und -segmentierung mithilfe der Maske r-cnn: Erbringt ein tieferer Feature-Extraktor cnn immer eine bessere Leistung? Im Jahr 2019 13. Internationales Symposium für medizinische Informations- und Kommunikationstechnologie (ISMICT) 1–6 (2019).

Wan, J., Chen, B. & Yu, Y. Polypenerkennung anhand von Kolorektumbildern unter Verwendung aufmerksamer Yolov5. Diagnostik 11, 2264 (2021).

Artikel Google Scholar

Wang, D. et al. AFP-Net: ankerfreie Polypenerkennung in Echtzeit in der Koloskopie. Im Jahr 2019 IEEE 31. Internationale Konferenz über Tools mit künstlicher Intelligenz (ICTAI) 636–643 (IEEE, 2019).

Law, H. & Deng, J. Cornernet: Objekte als gepaarte Schlüsselpunkte erkennen. In Proceedings of the European Conference on Computer Vision (ECCV) 734–750 (2018).

González-Bueno Puyal, J. et al. Polypenerkennung bei der Videokoloskopie mit einem hybriden 2D/3D-CNN. Med. Bild Anal. 82, 102625 (2022).

Ghatwary, N., Zolgharni, M., Janan, F. & Ye, X. Erlernen raumzeitlicher Merkmale zur Erkennung von Ösophagusanomalien aus endoskopischen Videos. IEEE J. Biomed. Gesundheitsinformationen. 25, 131–142 (2020).

Artikel Google Scholar

Nguyen, N.-Q. & Lee, S.-W. Robuste Grenzsegmentierung in medizinischen Bildern mithilfe eines aufeinanderfolgenden tiefen Encoder-Decoder-Netzwerks. IEEE Access 7, 33795–33808 (2019).

Artikel Google Scholar

Tomar, NK, Jha, D., Bagci, U. & Ali, S. TGANet: Textgesteuerte Aufmerksamkeit für eine verbesserte Polypensegmentierung. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022, 151–160 (Springer Nature Switzerland, Cham, 2022).

Safarov, S. & Whangbo, TK A-DenseUNet: Adaptives, dicht verbundenes Netzwerk zur Polypensegmentierung in Koloskopiebildern mit atröser Faltung. Sensoren 21, 1441 (2021).

Artikel Google Scholar

Zhang, Y., Liu, H. & Hu, Q. TransFuse: Fusion von Transformatoren und CNNs für die medizinische Bildsegmentierung. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2021: 24. Internationale Konferenz, Straßburg, Frankreich, 27. September – 1. Oktober 2021, Tagungsband, Teil I, 14–24 (Springer-Verlag, Berlin, Heidelberg, 2021). https://doi.org/10.1007/978-3-030-87193-2_2.

Duc, NT, Oanh, NT, Thuy, NT, Triet, TM & Dinh, VS ColonFormer: eine effiziente transformatorbasierte Methode zur Segmentierung von Dickdarmpolypen. IEEE Access 10, 80575–80586 (2022).

Artikel Google Scholar

Madad Zadeh, S. et al. SurgAI: Deep Learning für computergestütztes laparoskopisches Bildverständnis in der Gynäkologie. Surg. Endosz. 34, 5377–5383 (2020).

Artikel Google Scholar

Namazi, B., Sankaranarayanan, G. & Devarajan, V. Ein kontextueller Detektor chirurgischer Werkzeuge in laparoskopischen Videos mithilfe von Deep Learning. Surg. Endosz. 36, 679–688 (2022).

Artikel Google Scholar

Samuel, DJ & Cuzzolin, F. Unbeaufsichtigte Anomalieerkennung für einen Smart Autonomous Robotic Assistant Surgeon (SARAS) unter Verwendung eines Deep-Residuen-Autoencoders. IEEE-Roboter. Autom. Lette. 6, 7256–7261 (2021).

Artikel Google Scholar

Al Hajj, H., Lamard, M., Conze, P.-H., Cochener, B. & Quellec, G. Überwachung der Werkzeugnutzung in Operationsvideos mithilfe verstärkter Faltungs- und rekurrenter neuronaler Netze. Med. Bild Anal. 47, 203–218 (2018).

Artikel Google Scholar

Koo, B. et al. Automatische, globale Registrierung in der laparoskopischen Leberchirurgie. Int. J. Comput. Helfen. Radiol. Surg. 17, 167–176 (2022).

Artikel Google Scholar

Ikeda, A. et al. Unterstützungssystem der zystoskopischen Diagnose von Blasenkrebs auf Basis künstlicher Intelligenz. J. Endourol. 34, 352–358 (2020).

Artikel Google Scholar

Shkolyar, E. et al. Erweiterte Erkennung von Blasentumoren mittels Deep Learning. EUR. Urol. 76, 714–718 (2019).

Artikel Google Scholar

Ali, N. et al. Deep-Learning-basierte Klassifizierung der Blaulicht-Zystoskopie-Bildgebung während der transurethralen Resektion von Blasentumoren. Wissenschaft. Rep. 11, 11629 (2021).

Artikel CAS Google Scholar

Black, KM, Law, H., Aldoukhi, A., Deng, J. & Ghani, KR Deep-Learning-Computer-Vision-Algorithmus zur Erkennung der Zusammensetzung von Nierensteinen. Br. J. Urol. Int. 125, 920–924 (2020).

Artikel CAS Google Scholar

Lopez, F. et al. Bewertung von Deep-Learning-Methoden zur Identifizierung von Nierensteinen in endoskopischen Bildern. Im Jahr 2021 43. jährliche internationale Konferenz der IEEE Engineering in Medicine and Biology Society (EMBC) 2778–2781 (2021).

Gupta, S., Ali, S., Goldsmith, L., Turney, B. & Rittscher, J. Bewegungsbasierte semantische Segmentierung mehrerer Klassen für Ureteroskopie und Laserlithotripsie. Berechnen. Med. Bildgebungsdiagramm. 101, 102112 (2022).

Artikel Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In International Conference on Medical Image Computing and Computer-assisted Intervention, 234–241 (Springer, 2015).

Li, C. et al. Entwicklung und Validierung eines auf endoskopischen Bildern basierenden Deep-Learning-Modells zur Erkennung von nasopharyngealen Malignomen. Krebskommun. (Lond.) 38, 59 (2018).

Artikel Google Scholar

Parker, F., Brodsky, MB, Akst, LM & Ali, H. Maschinelles Lernen in der Laryngoskopie-Analyse: eine Proof-of-Concept-Beobachtungsstudie zur Identifizierung von Ulzerationen und Granulomen nach der Extubation. Ann. Otol. Rhinol. Laryngol. 130, 286–291 (2021).

Artikel Google Scholar

Gong, J. et al. Verwendung von Deep Learning zur Identifizierung des Nervus laryngeus recurrens während einer Thyreoidektomie. Wissenschaft. Rep. 11, 14306 (2021).

Artikel CAS Google Scholar

Yoo, JY et al. Deep Learning zur anatomischen Interpretation von Videobronchoskopiebildern. Wissenschaft. Rep. 11, 23765 (2021).

Artikel CAS Google Scholar

Żurek, M., Jasak, K., Niemczyk, K. & Rzepakowska, A. Künstliche Intelligenz in der Kehlkopfendoskopie: systematische Überprüfung und Metaanalyse. J. Clin. Med. 11, 2752 (2022).

Artikel Google Scholar

Shelhamer, E., Long, J. & Darrell, T. Vollständig Faltungsnetzwerke für die semantische Segmentierung. IEEE Trans. Muster Anal. Mach. Intel. 39, 640–651 (2017).

Artikel Google Scholar

Ali, S. et al. Ein Deep-Learning-Framework zur Qualitätsbewertung und -wiederherstellung in der Videoendoskopie. Med. Bild Anal. 68, 101900 (2021).

Artikel Google Scholar

Chang, Y.-Y. et al. Entwicklung und Validierung eines Deep-Learning-basierten Algorithmus zur Qualitätsbewertung der Koloskopie. Sur. Endosz. 36, 6446–6455. https://doi.org/10.1007/s00464-021-08993-y (2022).

Nam, JH, Oh, DJ, Lee, S., Song, HJ & Lim, YJ Entwicklung und Verifizierung eines Deep-Learning-Algorithmus zur Bewertung der Qualität der Dünndarmvorbereitung. Diagnostik (Basel) 11, 1127 (2021).

Artikel Google Scholar

He, Q. et al. Deep-Learning-basierte anatomische Lokalisierungsklassifizierung für die Endoskopie des oberen Gastrointestinaltrakts. Int. J. Comput. Assist. Radiol. Surg. 15, 1085–1094 (2020).

Artikel Google Scholar

Sun, M. et al. Kanaltrennungsbasiertes Netzwerk zur automatischen anatomischen Lokalisationserkennung anhand endoskopischer Bilder. Biomed. Signalprozess. Kontrolle 71, 103167 (2022).

Artikel Google Scholar

Liu, X. et al. Dichte Tiefenschätzung in der monokularen Endoskopie mit selbstüberwachten Lernmethoden. IEEE Trans. Med. Bildgebung 39, 1438–1447 (2020).

Artikel Google Scholar

Liu, S. et al. Gemeinsame Schätzung von Tiefe und Bewegung aus einer monokularen Endoskopie-Bildsequenz mithilfe eines Multi-Loss-Rebalancing-Netzwerks. Biomed. Opt. Express 13, 2707–2727 (2022).

Artikel Google Scholar

Ozyoruk, KB et al. Endoslam-Datensatz und ein unbeaufsichtigter monokularer visueller Odometrie- und Tiefenschätzungsansatz für endoskopische Videos. Med. Bild Anal. 71, 102058 (2021).

Artikel Google Scholar

Shao, S. et al. Selbstüberwachte monokulare Tiefen- und Eigenbewegungsschätzung in der Endoskopie: Erscheinungsfluss zur Rettung. Med. Bild Anal. 77, 102338 (2022).

Artikel Google Scholar

Ren, S., He, K., Girshick, R. & Sun, J. Schnelleres R-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Regionsvorschlagsnetzwerken. In Advances in Neural Information Processing Systems, 91–99 (2015).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Sie schauen nur einmal hin: einheitliche Objekterkennung in Echtzeit. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 779–788 (2016).

Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K. & Yuille, AL Deeplab: Semantische Bildsegmentierung mit tiefen Faltungsnetzen, atrous Faltung und vollständig verbundenen CRFs. IEEE Trans. Muster Anal. Mach. Intel. 40, 834–848 (2017).

Artikel Google Scholar

Simonyan, K. & Zisserman, A. Sehr tiefe Faltungsnetzwerke für die Bilderkennung im großen Maßstab. In International Conference on Learning Representations (2015).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770–778 (2016).

Tan, M. & Le, QV Efficientnet: Modellskalierung für Faltungs-Neuronale Netze neu denken. In Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9.–15. Juni 2019, Long Beach, Kalifornien, USA Vol. 97 von Proceedings of Machine Learning Research (Hrsg. Chaudhuri, K. & Salakhutdinov, R.) 6105–6114 (PMLR, 2019).

Zhao, Q. & Chi, T. Deep-Learning-Modell kann die Diagnoserate endoskopischer chronischer atrophischer Gastritis verbessern: eine prospektive Kohortenstudie. BMC Gastroenterol. 22, 133 (2022).

Artikel Google Scholar

Klare, P. et al. Automatisierte Polypenerkennung im Dickdarm: eine prospektive Studie (mit Videos). Magen-Darm-Test. Endosz. 89, 576–582.e1 (2019).

Artikel Google Scholar

Zhao, Z. et al. Ankergesteuerte Online-Meta-Anpassung für die schnelle One-Shot-Instrumentensegmentierung aus robotergestützten Operationsvideos. Med. Bild Anal. 74, 102240 (2021).

Artikel Google Scholar

Khadka, R. et al. Meta-Lernen mit impliziten Farbverläufen in einer Umgebung mit wenigen Aufnahmen für die Segmentierung medizinischer Bilder. Berechnen. Biol. Med. 143, 105227 (2022).

Artikel Google Scholar

Zhao, X. et al. Halbüberwachtes räumlich-zeitliches Aufmerksamkeitsnetzwerk zur Videopolypensegmentierung. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022 – 25. Internationale Konferenz, Singapur, 18.–22. September 2022, Proceedings, Teil IV, vol. 13434 von Lecture Notes in Computer Science, 456–466 (Springer, 2022).

Turan, M. & Durmus, F. UC-NfNet: Deep-Learning-gestützte Beurteilung von Colitis ulcerosa anhand von Koloskopiebildern. Med. Bild Anal. 82, 102587 (2022).

Artikel Google Scholar

Xu, Z., Ali, S., East, J. & Rittscher, J. Additiver Winkelrandverlust und Modellskalierungsnetzwerk für optimierte Kolitisbewertung. Im Jahr 2022 IEEE 19. Internationales Symposium für biomedizinische Bildgebung (ISBI) 1–5 (2022).

Liu, X., Sanchez, P., Thermos, S., O'Neil, AQ & Tsaftaris, SA Lernen entwirrter Darstellungen im Bildgebungsbereich. Med. Bild Anal. 80, 102516 (2022).

Artikel Google Scholar

Srivastava, A. et al. MSRF-Net: ein mehrskaliges Restfusionsnetzwerk für die biomedizinische Bildsegmentierung. IEEE J. Biomed. Gesundheitsinformatik 26, 2252–2263 (2022).

Artikel Google Scholar

Bar, O. et al. Einfluss von Daten auf die Verallgemeinerung von KI für Anwendungen der chirurgischen Intelligenz. Wissenschaft. Rep. 10, 22208 (2020).

Artikel CAS Google Scholar

Xu, J. et al. Deep Learning zur Identifizierung von Nasopharynxkarzinomen mithilfe von Weißlicht- und Schmalband-Bildgebungsendoskopie. Laryngoskop 132, 999–1007 (2022).

Artikel Google Scholar

Waterhouse, DJ et al. Die spektrale Endoskopie verbessert den Kontrast für Neoplasien bei der Überwachung des Barrett-Ösophagus. Krebs Res. 81, 3415–3425 (2021).

Artikel CAS Google Scholar

Linardos, A., Kushibar, K., Walsh, S., Gkontra, P. & Lekadir, K. Föderiertes Lernen für die multizentrische Bilddiagnostik: eine Simulationsstudie bei Herz-Kreislauf-Erkrankungen. Wissenschaft. Rep. 12, 3551 (2022).

Artikel CAS Google Scholar

Wang, RJ, Li, X. & Ling, CX Pelee: ein Echtzeit-Objekterkennungssystem auf mobilen Geräten. In Advances in Neural Information Processing Systems 31, (Hrsg. Bengio, S. et al.) 1967–1976 (Curran Associates, Inc., 2018). http://papers.nips.cc/paper/7466-pelee-a-real-time-object-detection-system-on-mobile-devices.pdf.

Howard, AG et al. Mobilenets: effiziente Faltungs-Neuronale Netze für mobile Vision-Anwendungen. CoRR abs/1704.04861. http://arxiv.org/abs/1704.04861 (2017).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Sie schauen nur einmal hin: Einheitliche Objekterkennung in Echtzeit. Im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR) 779–788 (2016).

Wang, C.-H. et al. Leichtes Deep Learning: ein Überblick. Im IEEE Consumer Electronics Magazine 1–12 (2022).

Rieke, N. et al. Die Zukunft der digitalen Gesundheit mit föderiertem Lernen. npj Ziffer. Med. 3, 119 (2020).

Ma, Y., Chen, X., Cheng, K., Li, Y. & Sun, B. Ldpolypvideo-Benchmark: ein groß angelegter Koloskopie-Videodatensatz verschiedener Polypen. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2021: 24. Internationale Konferenz, Straßburg, Frankreich, 27. September–1. Oktober 2021, Tagungsband, Teil V, 387–396 (Springer-Verlag, Berlin, Heidelberg, 2021).

Maier-Hein, L. et al. Heidelberger kolorektaler Datensatz für die chirurgische Datenwissenschaft im Sensor-OP. Wissenschaft. Daten 8, 101 (2021).

Selvan, R., Bhagwat, N., Wolff Anthony, LF, Kanding, B. & Dam, EB CO2-Fußabdruck der Auswahl und des Trainings von Deep-Learning-Modellen für die medizinische Bildanalyse. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022, 506–516 (Springer Nature Switzerland, Cham, 2022).

Masanet, E., Shehabi, A., Lei, N., Smith, S. & Koomey, J. Neukalibrierung der Schätzungen zum Energieverbrauch globaler Rechenzentren. Science 367, 984–986 (2020).

Artikel CAS Google Scholar

Nakagawa, K. et al. Klassifizierung der Invasionstiefe von Plattenepithelkarzinomen des Ösophagus mithilfe eines tiefen neuronalen Netzwerks im Vergleich zu erfahrenen Endoskopikern. Gastroint. Endosz. 90, 407–414 (2019).

Artikel Google Scholar

Shiroma, S. et al. Fähigkeit der künstlichen Intelligenz, T1-Plattenepithelkarzinome des Ösophagus anhand endoskopischer Videos zu erkennen und die Auswirkungen der Echtzeitunterstützung. Wissenschaft. Rep. 11, 7759 (2021).

Artikel CAS Google Scholar

Kim, YJ et al. Neue Technik zur Klassifizierung von Polypenbildern unter Verwendung des Transferlernens der Netzwerk-in-Netzwerk-Struktur in endoskopischen Bildern. Wissenschaft. Rep. 11, 3605 (2021).

Artikel CAS Google Scholar

Yamada, M. et al. Entwicklung eines Systems zur Unterstützung der endoskopischen Bilddiagnose in Echtzeit unter Verwendung von Deep-Learning-Technologie in der Koloskopie. Wissenschaft. Rep. 9, 14465 (2019).

Lee, J. et al. Echtzeiterkennung von Dickdarmpolypen während der Koloskopie mittels Deep Learning: systematische Validierung mit vier unabhängigen Datensätzen. Wissenschaft. Rep. 10, 8379 (2020).

Zachariah, R. et al. Die Vorhersage der Polypenpathologie mithilfe von Faltungs-Neuronalen Netzen erreicht „Resektions- und Verwerfungs“-Schwellenwerte. Bin J Gastroenterol. 115, 138–144 (2020).

Artikel Google Scholar

Ito, N. et al. Endoskopisches diagnostisches Unterstützungssystem für CT1b-Darmkrebs mittels Deep Learning. Oncology 96, 44–50 (2019).

Artikel Google Scholar

Hashemi, SMR, Hassanpour, H., Kozegar, E. & Tan, T. Zystoskopische Bildklassifizierung durch unbeaufsichtigtes Merkmalslernen und Fusion von Klassifikatoren. IEEE Access 9, 126610–126622 (2021).

Artikel Google Scholar

Stoebner, ZA, Lu, D., Hong, SH, Kavoussi, NL & Oguz, I. Segmentierung von Nierensteinen in endoskopischen Video-Feeds. In Medical Imaging 2022: Image Processing Vol. 12032 (Hrsg. Colliot, O. & Išgum, I.) 900–908. Internationale Gesellschaft für Optik und Photonik (SPIE, 2022). https://doi.org/10.1117/12.2613274.

Ali, S. et al. Robuste Blasenbildregistrierung durch Neudefinition des Datenbegriffs im Total-Variation-Ansatz. In Medical Imaging 2015: Image Processing, Bd. 9413 (Hrsg. Ourselin, S. & Styner, MA) 386–397. Internationale Gesellschaft für Optik und Photonik (SPIE, 2015). https://doi.org/10.1117/12.2077658.

Qin, F. et al. Auf dem Weg zu einer besseren Segmentierung chirurgischer Instrumente in der endoskopischen Sicht: Mehrwinkel-Merkmalsaggregation und Konturüberwachung. IEEE-Roboter. Autom. Lette. 5, 6639–6646 (2020).

Artikel Google Scholar

Ali, S. et al. Deep Learning zur Erkennung und Segmentierung von Artefakten und Krankheitsfällen in der gastrointestinalen Endoskopie. Med. Bild Anal. 70, 102002 (2021).

Artikel Google Scholar

Ali, S. et al. Bewertung der Generalisierbarkeit von Deep-Learning-basierten Polypenerkennungs- und -segmentierungsmethoden durch eine Computer-Vision-Herausforderung. Vorabdruck unter arXiv:2202.12031 (2022).

Ali, S. et al. Präoperative bis intraoperative Laparoskopie-Fusion. https://doi.org/10.5281/zenodo.6362162 (2022).

Ali, S. Totaler variabler optischer Fluss für robuste und genaue Mosaikbildung von Blasenbildern. Doktorarbeit, Université de Lorraine (2016).

Ángeles Cerón, JC, Ruiz, GO, Chang, L. & Ali, S. Echtzeit-Instanzsegmentierung chirurgischer Instrumente mithilfe von Aufmerksamkeit und Multiskalen-Merkmalsfusion. Med. Bild Anal. 81, 102569 (2022).

Artikel Google Scholar

Referenzen herunterladen

Ich möchte der School of Computing an der Fakultät für Ingenieurwissenschaften und Physik der University of Leeds, Großbritannien, für die Unterstützung dieser Forschung danken.

School of Computing, University of Leeds, LS2 9JT, Leeds, Großbritannien

Shareb Ali

Sie können diesen Autor auch in PubMed Google Scholar suchen

SA entwickelte die Idee, sammelte alle Literaturquellen, plante die Gliederung und verfasste und redigierte das Manuskript.

Korrespondenz mit Sharib Ali.

Der Autor gibt keine Interessenkonflikte an.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Ali, S. Wo stehen wir in der KI für die endoskopische Bildanalyse? Lücken und zukünftige Richtungen entschlüsseln. npj Ziffer. Med. 5, 184 (2022). https://doi.org/10.1038/s41746-022-00733-3

Zitat herunterladen

Eingegangen: 04. Juli 2022

Angenommen: 29. November 2022

Veröffentlicht: 20. Dezember 2022

DOI: https://doi.org/10.1038/s41746-022-00733-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

AKTIE