比爾·蓋茨(Bill Gates)、Reddit 首席執行官和其他科技領袖越來越多地談論“語料庫”,現在是時候了解它是“何方神圣”了。本文帶你深度揭秘語料庫以及它如何影響人工智能平臺的運行。文章來自翻譯,希望能對你有所啟示。
得益于 ChatGPT 和類似人工智能平臺的問世與飛速發展,人工智能的崛起一直是 2023 年最引人注目的話題之一。每天都會有關于人工智能技術如何影響創新、工作或人類生活的新文章出現。
如果你一直在關注人工智能領域,你可能會注意到最近科技高管們經常談論的一個詞:“語料庫” (corpus)。Reddit(美國社交新聞站點)CEO、維基百科的創始人吉米·威爾士(Jimmy Wales)以及微軟創始人比爾·蓋茨都提到過。
以下是語料庫的含義,以及為什么它對于理解 ChatGPT 和 Midjourney 等人工智能平臺的運行至關重要。
什么是人工智能語料庫?
學過拉丁語的人都知道“corpus”是“身體”的意思,現代英語里的“corpse”被譯為“尸體”,源自拉丁語“corpus”。其他人可能也認識 corpus 這個詞,因為它在今天仍然適用于現存法律機制中,被譯為:人身保護令。這句話的字面意思是“你擁有人身自由權”,它確保任何被逮捕的人都有權出庭,以確定逮捕是否合法。
但當其用于人工智能領域時,“語料庫”一詞根本不是指身體。相反,它指的是用于訓練人工智能的文本庫或數據集合。這個語料庫是人工智能審查的材料,以使其在設計時變得智能。
每個人工智能平臺的語料庫都是不同的,因為是人類決定他們想要用什么樣的數據來訓練 AI,而人類決定訓練人工智能的語料庫將取決于他們希望人工智能精通哪些方面或是解決什么問題。
語料庫類型
語料庫的類型沒有限制,人工智能語料庫的構成取決于人類創造者想讓它做什么。
以 Midjourney 為例,Midjourney(一款 2022 年 3 月面世的 AI 繪畫工具)是一個流行的生成藝術平臺,用于使用 AI 創建圖像。由于 Midjourney 只允許用戶使用文本提示創建圖像,因此它需要接受一系列圖像和相關文本描述的訓練。例如,為了讓 Midjounry 生成瀑布的圖像,它的語料庫必須包含瀑布的圖像以及描述瀑布的相關文本。
還有 ChatGPT 等人工智能平臺,一種被稱為大型語言模型(large language model,簡稱 LLM)的人工智能平臺。強大的 LLM 有能力基于文本數據與人類進行對話聊天——前提是他們的語料庫足夠大且足夠豐富。LLM 模型可以處理多種自然語言任務,根據其語料庫所包含的內容,它可以回答復雜的問題,甚至能夠生成原創作品,如短篇小說或創建太空射擊游戲代碼。LLM 模型的能力僅僅取決于用于訓練人工智能的語料庫文本數據,它基于大量文本數據進行訓練以能夠理解文本的含義,并給出相應答案。
我想知道 ChatGPT 的語料庫是由什么組成的,所以我直接問了它。“ChatGPT 語料庫是由大量互聯網文本數據組成,包括網站、書籍、文章和其他公開來源?!彼卮鹫f。由于不滿足于這個相當模糊的答案,我要求 ChatGPT 詳細說明其語料庫中的數據類型,這次 ChatGPT 的回答更加詳細了:
網站:來自不同領域和主題的網站文本。
書籍:涵蓋各種類型和主題的書籍文本。
文章:來自新聞文章、雜志特寫和博客文章的相關文本。
研究論文:來自科學論文和出版物的相關文本。
會話數據:來自對話和互動的多回合文本。
社交媒體:來自 Twitter、Reddit 和其他在線論壇等平臺的文本。
維基百科:維基百科文章中涵蓋眾多主題的文本。
注意 ChatGPT 語料庫并不包括圖像,其不具備圖像處理能力。這是因為 ChaptGPT 是一個基于文本的 AI 生成器,它不能生成圖像,因為它的語料庫從來沒有包含任何可以訓練圖像的文本數據。
Midjourney 和 ChatGPT 的文本數據只是構成語料庫的兩個例子,實際上語料庫可以由任何類型的數據組成。例如,如果你想制作一個可以創作音樂的 AI 平臺,你只需要在它的語料庫中介入音頻歌曲相關的文本數據即可。或者,如果你想要一個能夠以海明威風格寫小說的人工智能,你可以使用一個只包含海明威書面作品的語料庫。
語料庫是否合法?
如果你沒有一個語料庫來訓練 AI,AI 就無法學習。你的語料庫越大,AI 就會變得越熟練、越智能。但是,當涉及到版權和知識產權法時,人工智能語料庫可能就會存在很大的漏洞。
用受版權保護的內容數據訓練人工智能,這樣的做法是否違反法律呢?例如,如果我創造了一個可以生成類似 Banksy(注:英國著名藝術家)藝術品的人工智能平臺,該平臺基于 Banksy 的作品語料庫來訓練 AI,這是否侵犯了 Banksy 的版權或知識產權?我所創造的 AI 并沒有直接“盜用”他的作品,只是復制他的風格,所以這是否仍然構成侵權呢?再比如,假設我創建了一個包含蕾哈娜歌曲語料庫的 AI 程序平臺,它可以使用蕾哈娜的聲音或與之接近的聲音生成全新的原創歌曲,這合法嗎?
今年早些時候,由 AI 生成的模仿加拿大歌手德雷克(Drake)和歌手“盆栽”(The Weeknd)創作的新歌“Heart On My Sleeve”爆火并傳播到了多個平臺后,環球音樂集團(Universal Music Group)發表聲明嚴厲譴責這首歌是“用生成式人工智能創作的侵權內容”。但使用人工智能工具的創作者可能并不這樣認為。最終,無論是人工智能生成的音頻、視頻還是基于文本的媒體,隨著 ChatGPT 和 Midjourney 等生成式人工智能程序越來越普及,“AI 是否侵權”這個問題很可能會在未來幾年仍然需要進一步的探討和研究。
與此同時,各國政府已經在計劃立法來監管生成人工智能模型。例如,歐盟正在提議一項法律,要求人工智能所有者披露人工智能語料庫是否包含受版權保護的內容。這種透明度將使版權持有人更容易識別自己的作品被用于哪些語料庫,從而尋求賠償。
在美國,國會研究服務處(Congressional Research Service)最近向國會建議,在更新版權立法之前,它可能更希望采取“采取觀望態度”,建議國會監測法院在未來幾年關于人工智能印發的版權案件的反應。
將出售語料庫作為收入來源
當然,無論如何,一些內容創作者會選擇接受人工智能為其提供的創收機會。比方說,一位在世的畫家想賺些外快,她可非常容易地將自己的作品集打包在一個語料庫中,并將其使用權出售給生成式人工智能公司。正如歌手格萊姆斯(Grimes)已經提出的那樣,作家可以出售他們的小說集;雜志出版商可以出售過期雜志;歌手可以出售他們的人聲語料庫,或者要求 AI 基于他們的語料庫生成的作品中獲得一部分抽成。
如果埃隆·馬斯克(Elon Musk)想為日漸走下坡路的 Twitter 帶來新的收入來源,他可能會考慮將該平臺上的所有推文打包成一個語料庫,出售給人工智能初創公司。Meta 的 Facebook 也將從中找到新的收入來源,前提是 Twitter 和 Meta 可以聲稱擁有帖子的所有權。事實上,Reddit 的用戶帖子語料庫已經被用來幫助訓練 ChatGPT 了,在最近接受《紐約時報》采訪時,Reddit 首席執行官史蒂夫·霍夫曼(Steve Huffman)表示,他知道這個語料庫的價值?!癛eddit 的數據庫非常有價值,但我們不需要把所有這些價值免費提供給世界上一些知名的公司。”霍夫曼說道。
從這個意義上說,隨著越來越多的公司向人工智能領域擴張,強大的預包裝語料庫在科技界的地位可能會變得與淘金熱礦工的鎬一樣重要,一個全新的語料庫銷售產業可能會隨之誕生。
如果是這樣的話,在未來的幾個月和幾年里, “語料庫”將成為人工智能領域的常談話題。
本文標題: 人工智能語料庫是什么?
本文地址: http://3824dh.com/brand/news-f228k067ce.html
內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com
2009-2024 黃頁88版權所有 京ICP備2023012932號-1 │ 京公網安備 11010802023561號 京ICP證100626
內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com