Kein freies Mittagessen: Baidu blockiert Google und Bing beim KI-Scraping

Front page of Baidu's Baike at Press Time
Depth Estimation of Meta's Sapiens AI Model Source

Kein freies Mittagessen: Baidu blockiert Google und Bing beim KI-Scraping – Wichtige Hinweise

  • Baidu blockiert den Zugriff von Google und Bing auf seine Baike-Inhalte, um das Auslesen von KI-Daten zu verhindern.
  • Dieser Schritt spiegelt einen wachsenden Trend wider, bei dem Unternehmen den Zugang zu Online-Inhalten beschränken, um wertvolle Daten zu schützen.
  • Andere Unternehmen wie Reddit und Microsoft verschärfen ebenfalls die Kontrolle über ihre Daten für KI-Zwecke.
  • Partnerschaften zwischen KI-Entwicklern und Inhaltsanbietern nehmen zu, da die Nachfrage nach hochwertigen Datensätzen steigt.

Baidu sperrt Google und Bing den Zugriff auf Baike-Inhalte

Baidu hat kürzlich erhebliche Änderungen an seinem Baike-Dienst, einer Wikipedia-ähnlichen Plattform, vorgenommen, um zu verhindern, dass Google und Microsoft Bing dessen Inhalte für das KI-Training auslesen. Diese Änderung wurde in der aktualisierten robots.txt-Datei festgestellt, die nun den Zugriff für Googlebot und Bingbot-Crawler blockiert.

Die Rolle von robots.txt beim Blockieren von Suchmaschinen

Die vorherige Version der robots.txt-Datei, wie sie auf Wayback Machine archiviert ist, erlaubte diesen Suchmaschinen, das zentrale Repository von Baidu Baike zu indizieren, das über 30 Millionen Einträge enthält, wobei einige Subdomains eingeschränkt waren. Diese Änderung erfolgt vor dem Hintergrund einer steigenden Nachfrage nach großen Datensätzen, die für KI-Training und -Anwendungen benötigt werden.

Ein breiterer Trend zum Schutz von Online-Inhalten

Der Schritt von Baidu ist kein Einzelfall. Auch andere Unternehmen haben Schritte unternommen, um ihre Online-Inhalte zu schützen. So hat Reddit beispielsweise alle Suchmaschinen außer Google gesperrt, das eine finanzielle Vereinbarung über den Datenzugang getroffen hat. Auch Microsoft erwägt Berichten zufolge, den Zugang zu Internetsuchdaten für konkurrierende Suchmaschinen zu beschränken, die diese für Chatbots und generative KI-Dienste nutzen.

Google News

Stay on Top with AI News!

Follow our Google News page!

Wikipedia bleibt offen, während Baidu seinen Griff verschärft

Interessanterweise bleibt die chinesische Version von Wikipedia mit ihren 1,43 Millionen Einträgen für die Crawler von Suchmaschinen zugänglich. Unterdessen zeigt eine Umfrage, dass Baidu Baike-Einträge immer noch in Suchmaschinen auftauchen, was möglicherweise auf die Verwendung älterer, zwischengespeicherter Inhalte zurückzuführen ist.

Partnerschaften für Premium-Datenzugang

Dieser Schritt von Baidu spiegelt einen breiteren Trend wider, bei dem KI-Entwickler zunehmend Partnerschaften mit Inhaltsherausgebern eingehen, um sich hochwertige Inhalte zu sichern. OpenAI ist beispielsweise eine Partnerschaft mit dem Time Magazine eingegangen, um auf dessen gesamtes, über ein Jahrhundert zurückreichendes Archiv zuzugreifen. Eine ähnliche Vereinbarung wurde im April mit der Financial Times geschlossen.

Der wachsende Wert von Daten in der KI-Ära

Die Entscheidung von Baidu, den Zugang zu den Inhalten von Baike zu beschränken, unterstreicht den wachsenden Wert von Daten im Zeitalter der KI. Da Unternehmen stark in die KI-Entwicklung investieren, ist die Bedeutung großer, kuratierter Datensätze stark gestiegen. Dies hat dazu geführt, dass sich die Art und Weise, wie Online-Plattformen den Zugang zu Daten verwalten, verändert hat: Viele haben sich dafür entschieden, ihre Inhalte zu beschränken oder zu monetarisieren.

Künftige Auswirkungen auf die Politik der Datenfreigabe

Mit dem weiteren Wachstum der KI-Branche werden wahrscheinlich immer mehr Unternehmen ihre Richtlinien für die gemeinsame Nutzung von Daten überdenken. Dieser Trend könnte zu weiteren Veränderungen bei der Art und Weise führen, wie Informationen im Internet indiziert und abgerufen werden, und die Landschaft der Verfügbarkeit von Online-Inhalten grundlegend verändern.

Beschreibungen

  • Baidu Baike: Eine chinesische Online-Enzyklopädie, die der Wikipedia ähnelt. Sie enthält über 30 Millionen Einträge und ist jetzt für den Zugriff durch die Suchbots von Google und Bing gesperrt.
  • robots.txt-Datei: Eine Standarddatei, die von Websites verwendet wird, um Suchmaschinen-Crawlern mitzuteilen, welche Seiten sie indizieren können und welche nicht. Baidu hat diese Datei aktualisiert, um Google und Bing zu blockieren.
  • Scraping: Der Prozess der Extraktion von Daten aus Websites. Im Zusammenhang mit KI können diese Daten zum Trainieren von Modellen verwendet werden, um deren Leistung zu verbessern.
  • Zwischengespeicherte Inhalte: Informationen, die von einem Browser oder einer Suchmaschine vorübergehend gespeichert werden. Auch wenn eine Website den Zugriff einschränkt, können zwischengespeicherte Versionen des Inhalts in den Suchergebnissen erscheinen.
  • Partnerschaften für den Datenzugang: Vereinbarungen zwischen KI-Unternehmen und Herausgebern von Inhalten über den Zugang zu exklusiven Datensätzen, oft verbunden mit finanziellen Transaktionen oder anderen Vorteilen.

Häufig gestellte Fragen

  • Warum hat Baidu den Zugriff von Google auf seine Baike-Inhalte gesperrt?
    Baidu hat Google blockiert, um zu verhindern, dass seine Baike-Inhalte für KI-Trainingszwecke ausgewertet werden. Das Unternehmen möchte seine wertvollen Daten vor der Nutzung durch Wettbewerber schützen.
  • Wie blockiert die robots.txt-Datei von Baidu Google und Bing?
    Baidu hat seine robots.txt-Datei aktualisiert, um dem Googlebot und dem Bingbot die Indizierung seiner Inhalte zu verweigern. Diese Standarddatei weist die Crawler von Suchmaschinen an, auf welche Teile einer Website sie nicht zugreifen können.
  • Schränken auch andere Unternehmen den Datenzugriff wie Baidu ein?
    Ja, auch andere Unternehmen wie Reddit und Microsoft schränken den Zugriff auf ihre Daten ein, um deren Verwendung zu kontrollieren, insbesondere für KI-Anwendungen wie Chatbots.
  • Hat der Schritt von Baidu Auswirkungen auf die chinesische Version von Wikipedia?
    Nein, die chinesische Version von Wikipedia bleibt für die Crawler von Suchmaschinen zugänglich. Baidus Beschränkungen gelten nur für seine eigene Plattform, Baidu Baike.
  • Warum gibt es einen steigenden Trend zu Partnerschaften für den Premium-Datenzugang?
    Da KI-Entwickler große, hochwertige Datensätze für ihr Training benötigen, gehen sie zunehmend Partnerschaften mit Inhaltsverlagen ein. Diese Vereinbarungen ermöglichen es KI-Unternehmen, auf exklusive Daten zuzugreifen, die durch normales Web-Scraping nicht verfügbar sind.

Laszlo Szabo / NowadAIs

As an avid AI enthusiast, I immerse myself in the latest news and developments in artificial intelligence. My passion for AI drives me to explore emerging trends, technologies, and their transformative potential across various industries!

Categories

Follow us on Facebook!

Benchmarks of Jamba 1.5 Mini Source
Previous Story

Meta AI stellt Sapiens vor: Ein neues Modell zur Analyse menschlicher Handlungen

Magic AI LTM-2-Mini 100M LTM Token Player in the AI Game - Featured image Source
Next Story

Magische KI LTM-2-Mini: 100M LTM Token Spieler im AI Spiel

Latest from Blog

Go toTop