最近禁止白嫖的禁止將收據訓公司還挺多,繼 Reddit 宣布調整 API 計劃并要求訓練 AI 的白嫖公司必須簽訂單獨的商業協議才能獲取 Reddit 的數據,獲取的知名站蘇州吳江(大圈)外圍聯系方式vx《749-3814》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達數據可以用于商業目的包括訓練 AI 模型,之前 Reddit 并未限制這種商業目的程序的數據使用。
今天另一個大型網站 Stack Overflow 也宣布了類似的員問政策,Stack Overflow 是答網點網程序員圈子里最知名的網站之一,是費提聚焦于技術開發的問答網站,上面有各種代碼類、供數技術類的練AI藍蘇州吳江(大圈)外圍聯系方式vx《749-3814》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達提問和高質量的回答。
顯然對于 AI 公司來說 Stack Overflow 的禁止將收據訓數據肯定是個寶庫,上面數以億計的白嫖提問 / 帖子不僅可以訓練 AI 的語言能力,還可以訓練編程能力。知名站只不過后來者不能再白嫖了,程序必須付費才能使用。員問

Stack Overflow 將在今年年中推出適用于大型 AI 開發公司的專屬 API,要開通該 API 并用于模型訓練需要付費,具體費用未知,不過付費套餐包括 5000 萬條提問 / 回答,這個數據量對模型訓練來說也是至關重要的。
Stack Overflow 首席執行官 Prashanth Chandrasekar 表示:為 LLMs 提供動力的社區平臺絕對應該因其貢獻而獲得補償,這樣像我們這樣的公司就可以重新投資我們的社區,繼續讓社區蓬勃發展。
Prashanth Chandrasekar 將付費 API 計劃描述為確保該網站能夠吸引用戶和是保持高質量信息的關鍵,這反過來也有助于未來的 LLMs 訓練。
此外 Prashanth Chandrasekar 還強調任何開發者現在都可以通過 API 抓取 Stack Overflow 上的內容,但是!LLM 開發者已經違反了服務條款,正如 Stack Overflow TOS 所說,該網站提供的所有內容均采用知識共享許可,這意味著使用數據必須注明來源且開源。
而 AI 公司向客戶銷售他們的模型時,他們無法將數據歸因于具體的問題和答案因此無法提及對應的帖子和作者,所以這是違反知識共享許可的。(言外之意就是諸如 OPENAI、微軟、谷歌等公司實際上都是侵權的)
頂: 185踩: 7





