Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die medizinische Bildsegmentierung ist ein entscheidender Schritt in zahlreichen klinischen Anwendungen, von der Diagnose von Krankheiten bis hin zur Operationsplanung. Traditionelle Deep-Learning-Methoden, die in diesem Bereich hervorragende Ergebnisse erzielt haben, sind jedoch stark auf große Mengen manuell annotierter Daten angewiesen. Die Erstellung solcher Annotationen ist zeitaufwendig, kostspielig und erfordert spezialisiertes Fachwissen. Dies hat die Entwicklung von semi-überwachten Lernansätzen (Semi-Supervised Learning, SSL) vorangetrieben, die eine begrenzte Anzahl von beschrifteten Daten mit einem größeren Pool unbeschrifteter Proben kombinieren.
Ein gängiger Ansatz im semi-überwachten Lernen ist die Konsistenzregulierung, bei der die Vorhersagen eines Modells auch unter leichten Störungen des Eingangs invariant bleiben sollen. Feature-Level-Dropout ist eine häufig verwendete Technik zur Einführung solcher Störungen in Zwischenrepräsentationen, um die Robustheit des Modells zu erhöhen. Allerdings hängt die Effektivität dieser Methode stark von der sorgfältigen Abstimmung der Dropout-Rate ab, einem empfindlichen Hyperparameter, dessen Optimierung sich als schwierig erweisen kann und oft zu suboptimaler Regularisierung führt.
In diesem Kontext wurde ein neuartiges Framework namens VQ-Seg vorgeschlagen, das diese Einschränkung überwinden soll. VQ-Seg ist der erste Ansatz, der Vektorquantisierung (VQ) nutzt, um den Merkmalsraum zu diskretisieren und ein kontrollierbares Quantized Perturbation Module (QPM) anstelle von Dropout einzuführen. Das QPM stört diskrete Repräsentationen durch das Mischen der räumlichen Positionen von Codebook-Indizes, was eine effektive und kontrollierbare Regularisierung ermöglicht.
Das VQ-Seg-Framework integriert mehrere Schlüsselelemente, um eine präzise und robuste Segmentierung medizinischer Bilder zu gewährleisten:
Die theoretische Analyse von Dropout zeigt, dass mit zunehmender Dropout-Rate die KL-Divergenz zwischen der ursprünglichen und der gestörten Verteilung stark ansteigt, was auf eine potenzielle Überregularisierung und eine Verschlechterung der Lernleistung hindeutet. Das QPM von VQ-Seg hingegen gewährleistet durch seine diskrete und strukturelle Perturbationsstrategie numerische Stabilität. Die gestörte Verteilung Q(c_j|ε) ist stets wohldefiniert und begrenzt, selbst in Extremfällen, was die Robustheit des Ansatzes unterstreicht.
Die Effektivität von VQ-Seg wurde durch umfangreiche Experimente auf einem neu gesammelten Datensatz für Lungenkrebs (LC), bestehend aus 828 annotierten CT-Scans, sowie auf dem öffentlichen ACDC-Datensatz demonstriert. VQ-Seg übertrifft dabei modernste semi-überwachte Segmentierungsmethoden in wichtigen Bewertungsmetriken wie Dice, Jaccard, HD95 und ASD.
Besonders hervorzuheben ist die Leistung auf dem LC-Datensatz: Bei 5 % beschrifteten Daten erzielt VQ-Seg die höchsten Dice- und Jaccard-Werte und übertrifft den zweitbesten Ansatz (Unimatch) um 1,5 % bzw. 1,86 %. Auch bei 10 % beschrifteten Daten behält VQ-Seg die Führung. Ähnliche Trends zeigen sich auf dem ACDC-Datensatz, was die Robustheit und Generalisierbarkeit der Methode über verschiedene Datensätze hinweg bestätigt.
Visuelle Vergleiche zeigen, dass VQ-Seg die Krebsbereiche mit hoher Präzision identifiziert und konsistentere Ergebnisse sowie klarere Grenzziehungen liefert. Die strukturelle Integrität der Krebsregionen wird besser erhalten.
Detaillierte Ablationsstudien validieren die Wirksamkeit und die synergetischen Effekte der einzelnen Komponenten von VQ-Seg. Die schrittweise Integration von QPM, der Dual-Branch-Architektur und PFA führt zu einer kontinuierlichen Leistungssteigerung. Die Hyperparameter, wie die Perturbationsstärke (ε) und die Gewichtung der Verlustfunktionen (λa, λu), wurden optimiert, um die besten Ergebnisse zu erzielen.
Die Wahl des Foundation Models wurde ebenfalls untersucht, wobei DINOv2 sich als überlegen erwies, selbst gegenüber Modellen, die speziell auf medizinische Daten vortrainiert wurden. Dies unterstreicht die Effektivität von DINOv2 als robustes semantisches Prior für die medizinische Bildsegmentierung.
Die Größe des Codebooks beeinflusst ebenfalls die Modellleistung. Ein moderat großes Codebook (z. B. 16.384) ermöglicht reichhaltigere und diskriminativere Repräsentationen. Eine zu große Erweiterung kann jedoch zu Redundanz und Instabilität führen.
VQ-Seg stellt einen bedeutenden Fortschritt in der semi-überwachten medizinischen Bildsegmentierung dar. Durch die Einführung des Quantized Perturbation Module, einer Dual-Branch-Architektur und des Post-VQ Feature Adapters überwindet es die Grenzen herkömmlicher Methoden und liefert präzise und robuste Segmentierungsergebnisse bei begrenzter Datenannotation.
Trotz der vielversprechenden Ergebnisse bestehen weiterhin Herausforderungen. Die aktuelle Perturbationsmethode operiert ausschließlich im diskreten VQ-Raum, was die Erweiterung auf kontinuierliche Merkmalsrepräsentationen erschwert. Darüber hinaus führt die Integration von Foundation Models zu zusätzlichem Rechenaufwand. Zukünftige Arbeiten werden sich auf die Entwicklung kontrollierbarer Perturbationsmechanismen in kontinuierlichen Räumen und die effizientere Integration von Foundation Models konzentrieren, um die Anwendbarkeit und Effizienz von VQ-Seg weiter zu verbessern.
Die hier vorgestellte Forschung, die unter anderem von Sicheng Yang, Zhaohu Xing und Lei Zhu durchgeführt wurde, markiert einen wichtigen Schritt hin zu zuverlässigeren und effizienteren KI-Lösungen im Gesundheitswesen.
- Yang, Sicheng, Zhaohu Xing, and Lei Zhu. "VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation." arXiv preprint arXiv:2601.10124 (2026). - Yu, Lequan, Shujun Wang, Xiaomeng Li, Chi-Wing Fu, and Pheng-Ann Heng. "Uncertainty-aware self-ensembling model for semi-supervised 3d left atrium segmentation." In Medical image computing and computer assisted intervention–MICCAI 2019: 22nd international conference, Shenzhen, China, October 13–17, 2019, proceedings, part II 22, pp. 605-613. Springer, 2019. - Srivastava, Nitish, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. "Dropout: a simple way to prevent neural networks from overfitting." The journal of machine learning research 15, no. 1 (2014): 1929-1958. - Oquab, Maxime, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez et al. "Dinov2: Learning robust visual features without supervision." arXiv preprint arXiv:2304.07193 (2023). - Bernard, Olivier, Alain Lalande, Clement Zotti, Frederick Cervenansky, Xin Yang, Pheng-Ann Heng, Irem Cetin et al. "Deep learning techniques for automatic mri cardiac multi-structures segmentation and diagnosis: is the problem solved?." IEEE transactions on medical imaging 37, no. 11 (2018): 2514-2525. - Yun, Sangdoo, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. "Cutmix: Regularization strategy to train strong classifiers with localizable features." In Proceedings of the IEEE/CVF international conference on computer vision, pp. 6023-6032. 2019. - Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pp. 234-241. Springer, 2015. - Isensee, Fabian, Paul F Jaeger, Simon AA Kohl, Jens Petersen, and Klaus H Maier-Hein. "nnu-net: a self-configuring method for deep learning-based biomedical image segmentation." Nature methods 18, no. 2 (2021): 203-211. - Wu, Yicheng, Zongyuan Ge, Donghao Zhang, Minfeng Xu, Lei Zhang, Yong Xia, and Jianfei Cai. "Mutual consistency learning for semi-supervised medical image segmentation." Medical Image Analysis 81 (2022): 102530. - Bai, Yunhao, Duowen Chen, Qingli Li, Wei Shen, and Yan Wang. "Bidirectional copy-paste for semi-supervised medical image segmentation." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 11514-11524. 2023. - You, Chenyu, Weicheng Dai, Yifei Min, Fenglin Liu, David Clifton, S. Kevin Zhou, Lawrence Staib, and James Duncan. "Rethinking semi-supervised medical image segmentation: A variance-reduction perspective." Advances in neural information processing systems 36 (2023). - Chi, Hanyang, Jian Pang, Bingfeng Zhang, and Weifeng Liu. "Adaptive bidirectional displacement for semi-supervised medical image segmentation." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 4070-4080. 2024. - Yang, Lihe, Zhen Zhao, and Hengshuang Zhao. "Unimatch v2: Pushing the limit of semi-supervised semantic segmentation." IEEE Transactions on Pattern Analysis and Machine Intelligence (2025). - Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Amanda Askell et al. "Learning transferable visual models from natural language supervision." In International conference on machine learning, pp. 8748-8763. PMLR, 2021. - Zhang, Sheng, Yanbo Xu, Naoto Usuyama, Hanwen Xu, Jaspreet Bagga, Robert Tinn, Sam Preston et al. "Biomedclip: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs." arXiv preprint arXiv:2303.00915 (2023). - He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. "Masked autoencoders are scalable vision learners." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 16000-16009. 2022. - Perez-Garcia, Fernando, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur et al. "Exploring scalable medical image encoders beyond text supervision." Nature Machine Intelligence 7, no. 1 (2025): 119-130. - Zhu, Yongxin, Bocheng Li, Yifei Xin, Zhihua Xia, and Linli Xu. "Addressing representation collapse in vector quantized models with one linear layer." arXiv preprint arXiv:2411.02038 (2024). - Zhu, Lei, Fangyun Wei, Yanye Lu, and Dong Chen. "Scaling the codebook size of vq-gan to 100,000 with a utilization rate of 99%." Advances in Neural Information Processing Systems 37 (2024).
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen