Last Updated on August 30, 2024 11:23 am by Laszlo Szabo / NowadAIs | Published on August 29, 2024 by Laszlo Szabo / NowadAIs
Kein freies Mittagessen: Baidu blockiert Google und Bing beim KI-Scraping – Wichtige Hinweise
- Baidu blockiert den Zugriff von Google und Bing auf seine Baike-Inhalte, um das Auslesen von KI-Daten zu verhindern.
- Dieser Schritt spiegelt einen wachsenden Trend wider, bei dem Unternehmen den Zugang zu Online-Inhalten beschränken, um wertvolle Daten zu schützen.
- Andere Unternehmen wie Reddit und Microsoft verschärfen ebenfalls die Kontrolle über ihre Daten für KI-Zwecke.
- Partnerschaften zwischen KI-Entwicklern und Inhaltsanbietern nehmen zu, da die Nachfrage nach hochwertigen Datensätzen steigt.
Baidu sperrt Google und Bing den Zugriff auf Baike-Inhalte
Baidu hat kürzlich erhebliche Änderungen an seinem Baike-Dienst, einer Wikipedia-ähnlichen Plattform, vorgenommen, um zu verhindern, dass Google und Microsoft Bing dessen Inhalte für das KI-Training auslesen. Diese Änderung wurde in der aktualisierten robots.txt-Datei festgestellt, die nun den Zugriff für Googlebot und Bingbot-Crawler blockiert.
Die Rolle von robots.txt beim Blockieren von Suchmaschinen
Die vorherige Version der robots.txt-Datei, wie sie auf Wayback Machine archiviert ist, erlaubte diesen Suchmaschinen, das zentrale Repository von Baidu Baike zu indizieren, das über 30 Millionen Einträge enthält, wobei einige Subdomains eingeschränkt waren. Diese Änderung erfolgt vor dem Hintergrund einer steigenden Nachfrage nach großen Datensätzen, die für KI-Training und -Anwendungen benötigt werden.
Ein breiterer Trend zum Schutz von Online-Inhalten
Der Schritt von Baidu ist kein Einzelfall. Auch andere Unternehmen haben Schritte unternommen, um ihre Online-Inhalte zu schützen. So hat Reddit beispielsweise alle Suchmaschinen außer Google gesperrt, das eine finanzielle Vereinbarung über den Datenzugang getroffen hat. Auch Microsoft erwägt Berichten zufolge, den Zugang zu Internetsuchdaten für konkurrierende Suchmaschinen zu beschränken, die diese für Chatbots und generative KI-Dienste nutzen.
Wikipedia bleibt offen, während Baidu seinen Griff verschärft
Interessanterweise bleibt die chinesische Version von Wikipedia mit ihren 1,43 Millionen Einträgen für die Crawler von Suchmaschinen zugänglich. Unterdessen zeigt eine Umfrage, dass Baidu Baike-Einträge immer noch in Suchmaschinen auftauchen, was möglicherweise auf die Verwendung älterer, zwischengespeicherter Inhalte zurückzuführen ist.
Partnerschaften für Premium-Datenzugang
Dieser Schritt von Baidu spiegelt einen breiteren Trend wider, bei dem KI-Entwickler zunehmend Partnerschaften mit Inhaltsherausgebern eingehen, um sich hochwertige Inhalte zu sichern. OpenAI ist beispielsweise eine Partnerschaft mit dem Time Magazine eingegangen, um auf dessen gesamtes, über ein Jahrhundert zurückreichendes Archiv zuzugreifen. Eine ähnliche Vereinbarung wurde im April mit der Financial Times geschlossen.
Der wachsende Wert von Daten in der KI-Ära
Die Entscheidung von Baidu, den Zugang zu den Inhalten von Baike zu beschränken, unterstreicht den wachsenden Wert von Daten im Zeitalter der KI. Da Unternehmen stark in die KI-Entwicklung investieren, ist die Bedeutung großer, kuratierter Datensätze stark gestiegen. Dies hat dazu geführt, dass sich die Art und Weise, wie Online-Plattformen den Zugang zu Daten verwalten, verändert hat: Viele haben sich dafür entschieden, ihre Inhalte zu beschränken oder zu monetarisieren.
Künftige Auswirkungen auf die Politik der Datenfreigabe
Mit dem weiteren Wachstum der KI-Branche werden wahrscheinlich immer mehr Unternehmen ihre Richtlinien für die gemeinsame Nutzung von Daten überdenken. Dieser Trend könnte zu weiteren Veränderungen bei der Art und Weise führen, wie Informationen im Internet indiziert und abgerufen werden, und die Landschaft der Verfügbarkeit von Online-Inhalten grundlegend verändern.
Beschreibungen
- Baidu Baike: Eine chinesische Online-Enzyklopädie, die der Wikipedia ähnelt. Sie enthält über 30 Millionen Einträge und ist jetzt für den Zugriff durch die Suchbots von Google und Bing gesperrt.
- robots.txt-Datei: Eine Standarddatei, die von Websites verwendet wird, um Suchmaschinen-Crawlern mitzuteilen, welche Seiten sie indizieren können und welche nicht. Baidu hat diese Datei aktualisiert, um Google und Bing zu blockieren.
- Scraping: Der Prozess der Extraktion von Daten aus Websites. Im Zusammenhang mit KI können diese Daten zum Trainieren von Modellen verwendet werden, um deren Leistung zu verbessern.
- Zwischengespeicherte Inhalte: Informationen, die von einem Browser oder einer Suchmaschine vorübergehend gespeichert werden. Auch wenn eine Website den Zugriff einschränkt, können zwischengespeicherte Versionen des Inhalts in den Suchergebnissen erscheinen.
- Partnerschaften für den Datenzugang: Vereinbarungen zwischen KI-Unternehmen und Herausgebern von Inhalten über den Zugang zu exklusiven Datensätzen, oft verbunden mit finanziellen Transaktionen oder anderen Vorteilen.
Häufig gestellte Fragen
- Warum hat Baidu den Zugriff von Google auf seine Baike-Inhalte gesperrt?
Baidu hat Google blockiert, um zu verhindern, dass seine Baike-Inhalte für KI-Trainingszwecke ausgewertet werden. Das Unternehmen möchte seine wertvollen Daten vor der Nutzung durch Wettbewerber schützen. - Wie blockiert die robots.txt-Datei von Baidu Google und Bing?
Baidu hat seine robots.txt-Datei aktualisiert, um dem Googlebot und dem Bingbot die Indizierung seiner Inhalte zu verweigern. Diese Standarddatei weist die Crawler von Suchmaschinen an, auf welche Teile einer Website sie nicht zugreifen können. - Schränken auch andere Unternehmen den Datenzugriff wie Baidu ein?
Ja, auch andere Unternehmen wie Reddit und Microsoft schränken den Zugriff auf ihre Daten ein, um deren Verwendung zu kontrollieren, insbesondere für KI-Anwendungen wie Chatbots. - Hat der Schritt von Baidu Auswirkungen auf die chinesische Version von Wikipedia?
Nein, die chinesische Version von Wikipedia bleibt für die Crawler von Suchmaschinen zugänglich. Baidus Beschränkungen gelten nur für seine eigene Plattform, Baidu Baike. - Warum gibt es einen steigenden Trend zu Partnerschaften für den Premium-Datenzugang?
Da KI-Entwickler große, hochwertige Datensätze für ihr Training benötigen, gehen sie zunehmend Partnerschaften mit Inhaltsverlagen ein. Diese Vereinbarungen ermöglichen es KI-Unternehmen, auf exklusive Daten zuzugreifen, die durch normales Web-Scraping nicht verfügbar sind.