KI für Ihr Unternehmen – Jetzt Demo buchen

Baidu verstärkt Datenschutzmaßnahmen gegen Google und Bing im Zeitalter der KI-Entwicklung

Kategorien:
No items found.
Freigegeben:
August 30, 2024

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren
    Mindverse News

    Baidu Blockiert Google und Bing vor dem Scraping von Inhalten zur KI-Training

    Der chinesische Internetsuchgigant Baidu hat kürzlich eine bedeutende Änderung in seiner Strategie zur Verwaltung von Online-Inhalten vorgenommen. Das Unternehmen hat die robots.txt-Datei seiner Wikipedia-ähnlichen Plattform, Baidu Baike, aktualisiert, um den Zugriff der Suchmaschinen-Crawler von Google und Bing zu blockieren. Diese Maßnahme tritt zu einem Zeitpunkt in Kraft, in dem die Nachfrage nach umfangreichen Datensätzen zur Schulung und Entwicklung von Künstlicher Intelligenz (KI) zunimmt.

    Details der Implementierung

    Laut Aufzeichnungen der Internet-Archiv-Dienste Wayback Machine wurde die Änderung am 8. August 2024 vorgenommen. Die aktualisierte robots.txt-Datei verbietet nun ausdrücklich den Googlebot- und Bingbot-Crawlern, Inhalte von Baidu Baike zu indexieren. Zuvor durften Google und Bing die nahezu 30 Millionen Einträge der Plattform durchsuchen und indexieren, wobei nur bestimmte Bereiche der Website gesperrt waren.

    Hintergrund der Entscheidung

    Baidu Baike, das im April 2006 gestartet wurde, hat sich zur größten chinesischsprachigen Online-Enzyklopädie entwickelt. Mit über 25,54 Millionen Einträgen und 7,5 Millionen Editoren bis Februar 2022 übertrifft es die chinesische Version von Wikipedia, die derzeit 1,43 Millionen Einträge hat, bei weitem.

    Die Entscheidung von Baidu, den Zugriff zu beschränken, erfolgt zu einer Zeit, in der große Technologieunternehmen zunehmend darauf abzielen, große Mengen an Daten zu erwerben, um ihre KI-Modelle und -Anwendungen zu verbessern. Seit der Veröffentlichung von OpenAIs ChatGPT am 30. November 2022 hat ein globales Wettrennen in der Entwicklung generativer KI begonnen.

    Vergleich mit anderen Plattformen

    Baidus Schritt folgt ähnlichen Maßnahmen, die von anderen Online-Plattformen ergriffen wurden. Im Juli 2024 blockierte Reddit, die US-amerikanische Social-News-Aggregations- und Diskussions-Website, verschiedene Suchmaschinen daran, seine Inhalte zu indexieren, mit Ausnahme von Google. Diese Ausnahme ergibt sich aus einer Multimillionen-Dollar-Vereinbarung zwischen Reddit und Google, die dem Tech-Giganten das Recht einräumt, die Plattform von Reddit für KI-Trainingsdaten zu durchforsten.

    Sogar der Tech-Gigant Microsoft hat Schritte unternommen, um seine Datenbestände zu schützen. Im Jahr 2023 drohte das Unternehmen Berichten zufolge, den Zugang zu seinen Internet-Suchdaten zu widerrufen, die es an konkurrierende Suchmaschinenbetreiber lizenziert, falls diese Unternehmen die Daten weiterhin für ihre Chatbots und andere generative KI-Dienste verwenden.

    Strategische Bedeutung von Daten

    Die Entscheidung von Baidu, den Zugriff auf seine Enzyklopädie-Inhalte zu blockieren, unterstreicht die strategische Bedeutung von qualitativ hochwertigen, kuratierten Inhalten im Zeitalter der KI. Mit seinem umfangreichen Repository an chinesischsprachigen Informationen stellt Baidu Baike eine wertvolle Ressource für die Schulung von KI-Modellen dar, insbesondere für solche, die sich auf die Verarbeitung der chinesischen Sprache und das kulturelle Verständnis konzentrieren.

    Es ist erwähnenswert, dass Baidu trotz der Beschränkung des Zugriffs auf seine Enzyklopädie-Inhalte selbst stark in die KI-Entwicklung investiert ist. Das Unternehmen arbeitet an seinen eigenen großen Sprachmodellen und KI-Anwendungen und konkurriert sowohl mit inländischen als auch internationalen Tech-Giganten im sich schnell entwickelnden KI-Landschaft.

    Folgen der Entscheidung

    Die Auswirkungen der Entscheidung von Baidu gehen über die unmittelbaren Auswirkungen auf Suchergebnisse hinaus. Sie wirft Fragen über die Zukunft des offenen Zugriffs auf Informationen im Internet und die potenzielle Fragmentierung der globalen Wissensbasis entlang von Unternehmens- oder nationalen Linien auf. Da KI weiterhin technologische Fortschritte und wirtschaftlichen Wettbewerb antreibt, wird die Kontrolle über große, qualitativ hochwertige Datensätze wahrscheinlich zu einem zunehmend umstrittenen Thema.

    Trotz der jüngsten Änderungen an der robots.txt-Datei von Baidu Baike ergab eine am 25. August 2024 durchgeführte Umfrage, dass viele Einträge des Dienstes weiterhin in Google- und Bing-Suchergebnissen erscheinen. Dies deutet darauf hin, dass die vollständigen Auswirkungen der Beschränkungen von Baidu einige Zeit in Anspruch nehmen könnten, da Suchmaschinen typischerweise zwischengespeicherte Inhalte für einen Zeitraum nach der Aufhebung des Zugriffs beibehalten.

    Wichtige Fakten

    - Baidu aktualisierte seine robots.txt-Datei am 8. August 2024, um Google- und Bing-Crawler daran zu hindern, Baidu-Baike-Inhalte zu indexieren.
    - Baidu Baike enthält im August 2024 fast 30 Millionen Einträge.
    - Im Februar 2022 hatte Baidu Baike über 25,54 Millionen Einträge und 7,5 Millionen Editoren.
    - Die chinesische Version von Wikipedia hat derzeit 1,43 Millionen Einträge.
    - Reddit blockierte im Juli 2024 verschiedene Suchmaschinen, außer Google, daran, seine Inhalte zu indexieren.
    - OpenAI sicherte sich im Juni 2024 den Zugang zu den archivierten Inhalten des Time Magazins.
    - ChatGPT wurde am 30. November 2022 veröffentlicht, was das Rennen um die KI-Entwicklung und Datenerfassung intensivierte.

    Schlussfolgerung

    Die Entscheidung von Baidu, Google und Bing vom Scraping seiner Inhalte auszuschließen, spiegelt die wachsende Bedeutung von Daten in der Ära der Künstlichen Intelligenz wider. Da Unternehmen weiterhin stark in die Entwicklung von KI investieren, ist der Wert großer, kuratierter Datensätze erheblich gestiegen. Dies hat zu einer Verschiebung in der Art und Weise geführt, wie Online-Plattformen den Zugang zu ihren Inhalten verwalten, wobei viele den Zugang zu ihren Daten einschränken oder monetarisieren.

    Mit der weiteren Entwicklung der KI-Industrie ist es wahrscheinlich, dass mehr Unternehmen ihre Datenfreigaberichtlinien überdenken und möglicherweise weitere Änderungen daran vornehmen werden, wie Informationen im Internet indexiert und abgerufen werden.

    Bibliographie

    - https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html
    - https://ppc.land/baidu-blocks-google-and-bing-from-indexing-baike-content-amid-ai-data-demands/?srsltid=AfmBOopWbV2bENUtKRUsOIrGtDXXE0z-2WeVLMKdailXwgY-pA0XFnEx
    - https://www.msn.com/en-xl/news/other/baidu-blocks-google-bing-from-scraping-content-amid-demand-for-data-used-on-ai-projects/ar-AA1pkUcS?ocid=finance-verthp-feeds
    - https://www.biz360.tv/baidu-blocks-google-bing-scraping-content-amid-demand-for-data-used-on-ai-projects
    - https://techtwisted.com/news/baidu-restricts-google-and-bing-from-accessing-content-amid-ai-data-needs
    - https://www.reddit.com/r/technews/comments/1ezx9bx/baidu_blocks_google_bing_from_scraping_content
    - https://www.reddit.com/r/technology/comments/1ezv5y4/baidu_blocks_google_bing_from_scraping_content
    - https://www.livarava.com/finance/p/5734236
    - https://forums.classicpress.net/t/complications-of-ai-training-any-solution/5280
    - https://www.linkedin.com/pulse/openai-block-api-access-china-developers-bytedances-5nm-tony-peng-di9fc

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen