Last Updated on augusztus 30, 2024 11:33 de. by Laszlo Szabo / NowadAIs | Published on augusztus 29, 2024 by Laszlo Szabo / NowadAIs
Nincs ingyen ebéd: Baidu blokkolja a Google és a Bing AI Tréningezését – Fő Pontok
- A Baidu blokkolja a Google és a Bing hozzáférését a Baike tartalmához, hogy megakadályozza az AI-adatok lekaparását.
- A lépés azt a növekvő tendenciát tükrözi, hogy a vállalatok korlátozzák az online tartalmakhoz való hozzáférést az értékes adatok védelme érdekében.
- Más vállalatok, például a Reddit és a Microsoft is szigorítják az AI célú adataik feletti ellenőrzést.
- Az AI-fejlesztők és a tartalomszolgáltatók közötti partnerségek száma egyre nő, ahogy a kiváló minőségű adatkészletek iránti kereslet növekszik.
A Baidu blokkolja a Google és a Bing hozzáférését a Baike tartalmához
A Baidu a közelmúltban jelentős változtatásokat hajtott végre a Wikipédiához hasonló Baike szolgáltatásán, hogy megakadályozza, hogy a Google és a Microsoft Bing lekaparja a tartalmát az AI-tréningben való felhasználásra. Ez a módosítás a frissített robots.txt fájlban tűnt fel, amely mostantól blokkolja a Googlebot és a Bingbot lánctalpasok hozzáférését.
A robots.txt szerepe a keresőmotorok blokkolásában
A robots.txt fájl korábbi verziója, ahogyan azt a Wayback Machine archiválta, lehetővé tette ezeknek a keresőmotoroknak, hogy indexeljék a Baidu Baike központi tárát, amely több mint 30 millió bejegyzést tartalmaz, néhány aldomain korlátozásával. Ez a változás a mesterséges intelligencia képzéséhez és alkalmazásaihoz szükséges nagyméretű adathalmazok iránti növekvő kereslet közepette történt.
Az online tartalomvédelem szélesebb körű trendje
A Baidu lépése nem egyedi eset. Más vállalatok is tettek lépéseket online tartalmaik védelme érdekében. A Reddit például blokkolta az összes keresőmotort, kivéve a Google-t, amely pénzügyi megállapodással rendelkezik az adatokhoz való hozzáférésről. Hasonlóképpen, a Microsoft állítólag fontolgatja, hogy korlátozza az internetes keresési adatokhoz való hozzáférést a konkurens keresőmotorok számára, amelyek chatbotokhoz és generatív AI-szolgáltatásokhoz használják azokat.
A Wikipedia nyitva marad, miközben a Baidu szigorít a szorításán
Érdekes módon a Wikipédia kínai változata, amely 1,43 millió bejegyzést tartalmaz, továbbra is hozzáférhető a keresőmotorok számára. Eközben egy felmérés szerint a Baidu Baike bejegyzései még mindig megjelennek a keresőmotorokban, valószínűleg a régebbi gyorsítótárazott tartalmak használata miatt.
Partnerkapcsolatok a prémium adathozzáférésért
A Baidu ezen lépése egy szélesebb körű tendenciát tükröz, miszerint a mesterséges intelligencia fejlesztői egyre gyakrabban lépnek partnerségre a tartalomszolgáltatókkal a kiváló minőségű tartalom biztosítása érdekében. Az OpenAI például partnerséget kötött a Time magazinnal, hogy hozzáférjen annak teljes, több mint egy évszázados archívumához. Áprilisban hasonló megállapodást kötöttek a Financial Times-szal is.
Az adatok növekvő értéke az AI korszakában
A Baidu döntése a Baike tartalmához való hozzáférés korlátozásáról aláhúzza az adatok növekvő értékét a mesterséges intelligencia korszakában. Ahogy a vállalatok nagy összegeket fektetnek be az AI fejlesztésébe, a nagyméretű, gondozott adathalmazok jelentősége megnőtt. Ez változást eredményezett abban, ahogyan az online platformok kezelik az adatokhoz való hozzáférést, és sokan úgy döntöttek, hogy korlátozzák vagy pénzzé teszik a tartalmaikat.
Az adatmegosztási politikák jövőbeli hatásai
Az AI-iparág további növekedésével egyre több vállalat fogja átgondolni adatmegosztási politikáját. Ez a tendencia további változásokat eredményezhet az információk internetes indexelésében és elérésében, ami alapvetően megváltoztathatja az online tartalom elérhetőségét.
Leírások
- Baidu Baike: Baidu Baike: A Wikipediához hasonló kínai online enciklopédia. Több mint 30 millió bejegyzést tartalmaz, és jelenleg a Google és a Bing keresőrobotjai nem férhetnek hozzá.
- robots.txt fájl: Egy szabványos fájl, amelyet a webhelyek arra használnak, hogy a keresőmotorok lánctalpasainak megmondják, hogy mely oldalakat indexelhetik és melyeket nem. A Baidu frissítette ezt a fájlt, hogy blokkolja a Google és a Bing keresőit.
- Scraping: A webhelyekről történő adatszerzés folyamata. A mesterséges intelligencia kontextusában ezek az adatok modellek képzésére használhatók a teljesítményük javítása érdekében.
- Cache Content (gyorsítótárazott tartalom): Egy böngésző vagy keresőmotor által ideiglenesen tárolt információ. Még ha egy weboldal korlátozza is a hozzáférést, a tartalom gyorsítótárazott változatai továbbra is megjelenhetnek a keresési eredményekben.
- Partnerségek az adathozzáféréshez: A mesterséges intelligenciával foglalkozó vállalatok és a tartalomkiadók közötti megállapodások, amelyek célja, hogy hozzáférést biztosítsanak exkluzív adathalmazokhoz, gyakran pénzügyi tranzakciókkal vagy egyéb előnyökkel járnak.
Gyakran ismételt kérdések
- Miért tiltotta le a Baidu a Google-t a Baike tartalmához való hozzáférésről?
A Baidu azért blokkolta a Google-t, hogy megakadályozza, hogy a Baike tartalmát mesterséges intelligencia kiképzési célokra feltörjék. A vállalat célja, hogy megvédje értékes adatait a versenytársak általi felhasználástól. - Hogyan blokkolja a Baidu robots.txt fájlja a Google-t és a Binget?
A Baidu frissítette robots.txt fájlját, hogy kifejezetten megtiltja a Googlebotnak és a Bingbotnak a tartalma indexelését. Ez a szabványos fájl utasítja a keresőmotorok lánctalpasait, hogy a webhely mely részeihez nem férhetnek hozzá. - Más cégek is korlátozzák az adathozzáférést, mint a Baidu?
Igen, más vállalatok, például a Reddit és a Microsoft is korlátozzák vagy pénzzé teszik az adataikat, hogy szabályozzák azok felhasználását, különösen az AI-alkalmazások, például a chatbotok esetében. - A Baidu lépése érinti a Wikipedia kínai változatát?
Nem, a Wikipédia kínai változata továbbra is elérhető marad a keresőmotorok lánctalpasai számára. A Baidu korlátozásai a saját platformjára, a Baidu Baike-ra vonatkoznak. - Miért növekszik a prémium adathozzáférésért kötött partnerségek trendje?
Mivel a mesterséges intelligencia fejlesztőinek nagyméretű, kiváló minőségű adathalmazokra van szükségük a képzéshez, egyre gyakrabban lépnek partnerségre tartalomszolgáltatókkal. Ezek a megállapodások lehetővé teszik az AI-vállalatok számára, hogy olyan exkluzív adatokhoz jussanak, amelyek a szokásos webes kaparással nem érhetők el.