KI für Ihr Unternehmen – Jetzt Demo buchen

Baidu verstärkt Datenschutzmaßnahmen gegen Google und Bing im Zeitalter der KI-Entwicklung

Kategorien:
No items found.
Freigegeben:
August 30, 2024

Artikel jetzt als Podcast anhören

Mindverse News

Baidu Blockiert Google und Bing vor dem Scraping von Inhalten zur KI-Training

Der chinesische Internetsuchgigant Baidu hat kürzlich eine bedeutende Änderung in seiner Strategie zur Verwaltung von Online-Inhalten vorgenommen. Das Unternehmen hat die robots.txt-Datei seiner Wikipedia-ähnlichen Plattform, Baidu Baike, aktualisiert, um den Zugriff der Suchmaschinen-Crawler von Google und Bing zu blockieren. Diese Maßnahme tritt zu einem Zeitpunkt in Kraft, in dem die Nachfrage nach umfangreichen Datensätzen zur Schulung und Entwicklung von Künstlicher Intelligenz (KI) zunimmt.

Details der Implementierung

Laut Aufzeichnungen der Internet-Archiv-Dienste Wayback Machine wurde die Änderung am 8. August 2024 vorgenommen. Die aktualisierte robots.txt-Datei verbietet nun ausdrücklich den Googlebot- und Bingbot-Crawlern, Inhalte von Baidu Baike zu indexieren. Zuvor durften Google und Bing die nahezu 30 Millionen Einträge der Plattform durchsuchen und indexieren, wobei nur bestimmte Bereiche der Website gesperrt waren.

Hintergrund der Entscheidung

Baidu Baike, das im April 2006 gestartet wurde, hat sich zur größten chinesischsprachigen Online-Enzyklopädie entwickelt. Mit über 25,54 Millionen Einträgen und 7,5 Millionen Editoren bis Februar 2022 übertrifft es die chinesische Version von Wikipedia, die derzeit 1,43 Millionen Einträge hat, bei weitem.

Die Entscheidung von Baidu, den Zugriff zu beschränken, erfolgt zu einer Zeit, in der große Technologieunternehmen zunehmend darauf abzielen, große Mengen an Daten zu erwerben, um ihre KI-Modelle und -Anwendungen zu verbessern. Seit der Veröffentlichung von OpenAIs ChatGPT am 30. November 2022 hat ein globales Wettrennen in der Entwicklung generativer KI begonnen.

Vergleich mit anderen Plattformen

Baidus Schritt folgt ähnlichen Maßnahmen, die von anderen Online-Plattformen ergriffen wurden. Im Juli 2024 blockierte Reddit, die US-amerikanische Social-News-Aggregations- und Diskussions-Website, verschiedene Suchmaschinen daran, seine Inhalte zu indexieren, mit Ausnahme von Google. Diese Ausnahme ergibt sich aus einer Multimillionen-Dollar-Vereinbarung zwischen Reddit und Google, die dem Tech-Giganten das Recht einräumt, die Plattform von Reddit für KI-Trainingsdaten zu durchforsten.

Sogar der Tech-Gigant Microsoft hat Schritte unternommen, um seine Datenbestände zu schützen. Im Jahr 2023 drohte das Unternehmen Berichten zufolge, den Zugang zu seinen Internet-Suchdaten zu widerrufen, die es an konkurrierende Suchmaschinenbetreiber lizenziert, falls diese Unternehmen die Daten weiterhin für ihre Chatbots und andere generative KI-Dienste verwenden.

Strategische Bedeutung von Daten

Die Entscheidung von Baidu, den Zugriff auf seine Enzyklopädie-Inhalte zu blockieren, unterstreicht die strategische Bedeutung von qualitativ hochwertigen, kuratierten Inhalten im Zeitalter der KI. Mit seinem umfangreichen Repository an chinesischsprachigen Informationen stellt Baidu Baike eine wertvolle Ressource für die Schulung von KI-Modellen dar, insbesondere für solche, die sich auf die Verarbeitung der chinesischen Sprache und das kulturelle Verständnis konzentrieren.

Es ist erwähnenswert, dass Baidu trotz der Beschränkung des Zugriffs auf seine Enzyklopädie-Inhalte selbst stark in die KI-Entwicklung investiert ist. Das Unternehmen arbeitet an seinen eigenen großen Sprachmodellen und KI-Anwendungen und konkurriert sowohl mit inländischen als auch internationalen Tech-Giganten im sich schnell entwickelnden KI-Landschaft.

Folgen der Entscheidung

Die Auswirkungen der Entscheidung von Baidu gehen über die unmittelbaren Auswirkungen auf Suchergebnisse hinaus. Sie wirft Fragen über die Zukunft des offenen Zugriffs auf Informationen im Internet und die potenzielle Fragmentierung der globalen Wissensbasis entlang von Unternehmens- oder nationalen Linien auf. Da KI weiterhin technologische Fortschritte und wirtschaftlichen Wettbewerb antreibt, wird die Kontrolle über große, qualitativ hochwertige Datensätze wahrscheinlich zu einem zunehmend umstrittenen Thema.

Trotz der jüngsten Änderungen an der robots.txt-Datei von Baidu Baike ergab eine am 25. August 2024 durchgeführte Umfrage, dass viele Einträge des Dienstes weiterhin in Google- und Bing-Suchergebnissen erscheinen. Dies deutet darauf hin, dass die vollständigen Auswirkungen der Beschränkungen von Baidu einige Zeit in Anspruch nehmen könnten, da Suchmaschinen typischerweise zwischengespeicherte Inhalte für einen Zeitraum nach der Aufhebung des Zugriffs beibehalten.

Wichtige Fakten

- Baidu aktualisierte seine robots.txt-Datei am 8. August 2024, um Google- und Bing-Crawler daran zu hindern, Baidu-Baike-Inhalte zu indexieren.
- Baidu Baike enthält im August 2024 fast 30 Millionen Einträge.
- Im Februar 2022 hatte Baidu Baike über 25,54 Millionen Einträge und 7,5 Millionen Editoren.
- Die chinesische Version von Wikipedia hat derzeit 1,43 Millionen Einträge.
- Reddit blockierte im Juli 2024 verschiedene Suchmaschinen, außer Google, daran, seine Inhalte zu indexieren.
- OpenAI sicherte sich im Juni 2024 den Zugang zu den archivierten Inhalten des Time Magazins.
- ChatGPT wurde am 30. November 2022 veröffentlicht, was das Rennen um die KI-Entwicklung und Datenerfassung intensivierte.

Schlussfolgerung

Die Entscheidung von Baidu, Google und Bing vom Scraping seiner Inhalte auszuschließen, spiegelt die wachsende Bedeutung von Daten in der Ära der Künstlichen Intelligenz wider. Da Unternehmen weiterhin stark in die Entwicklung von KI investieren, ist der Wert großer, kuratierter Datensätze erheblich gestiegen. Dies hat zu einer Verschiebung in der Art und Weise geführt, wie Online-Plattformen den Zugang zu ihren Inhalten verwalten, wobei viele den Zugang zu ihren Daten einschränken oder monetarisieren.

Mit der weiteren Entwicklung der KI-Industrie ist es wahrscheinlich, dass mehr Unternehmen ihre Datenfreigaberichtlinien überdenken und möglicherweise weitere Änderungen daran vornehmen werden, wie Informationen im Internet indexiert und abgerufen werden.

Bibliographie

- https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html
- https://ppc.land/baidu-blocks-google-and-bing-from-indexing-baike-content-amid-ai-data-demands/?srsltid=AfmBOopWbV2bENUtKRUsOIrGtDXXE0z-2WeVLMKdailXwgY-pA0XFnEx
- https://www.msn.com/en-xl/news/other/baidu-blocks-google-bing-from-scraping-content-amid-demand-for-data-used-on-ai-projects/ar-AA1pkUcS?ocid=finance-verthp-feeds
- https://www.biz360.tv/baidu-blocks-google-bing-scraping-content-amid-demand-for-data-used-on-ai-projects
- https://techtwisted.com/news/baidu-restricts-google-and-bing-from-accessing-content-amid-ai-data-needs
- https://www.reddit.com/r/technews/comments/1ezx9bx/baidu_blocks_google_bing_from_scraping_content
- https://www.reddit.com/r/technology/comments/1ezv5y4/baidu_blocks_google_bing_from_scraping_content
- https://www.livarava.com/finance/p/5734236
- https://forums.classicpress.net/t/complications-of-ai-training-any-solution/5280
- https://www.linkedin.com/pulse/openai-block-api-access-china-developers-bytedances-5nm-tony-peng-di9fc
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen