果肉系列 麻豆 女同 “思拿我的数据真金不怕火 AI,那费事先把帐结一下。”|ai|参谋组|语料库|reddit
你的位置:果肉系列 > 男同 色情 >

麻豆 女同 “思拿我的数据真金不怕火 AI,那费事先把帐结一下。”|ai|参谋组|语料库|reddit

发布日期:2024-09-05 09:57    点击次数:198

麻豆 女同 “思拿我的数据真金不怕火 AI,那费事先把帐结一下。”|ai|参谋组|语料库|reddit

当咱们叹气 AI 快把东谈主类一锅端了之时麻豆 女同,有大聪惠发现了AI 的一世之敌——弱智吧。

于是,咱们看到了访佛《我教 AI 弱智吧问题,服从它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁不错先出院?》……这样的整活实验,俨然把弱智吧问题当成中国东谈主我方的图灵测试。细瞅他们如何问,发现问的是“蓝牙耳机坏了,应该去看耳科已经牙科”,齐无谓看 AI 如何答,AI 在攻陷东谈主类之前,弱智吧即是终末一座堡垒。

就这样,贴吧这样个老古董,和光鲜亮丽的 AI,承接在了一齐。

2005 年,硅谷也出身了我方的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时候 3 月 21 日,Reddit 在纽交所敲钟上市,较此前刊行瞻望的 65 亿好意思元估值规画,收盘市值已加多 30 亿好意思元,涨幅达 46%。

要知谈,这家公司从未盈利,且累计亏空高出 7 亿好意思元。那市集为何这样乐不雅?其中一个原因是,Reddit 和多家 AI 公司签了数据授权契约,收入系数有 2.03 亿好意思元。

图片开端:Unsplash

“思拿我的数据真金不怕火 AI,那费事先把帐结一下。”这草率即是 Reddit 的心里话。

但对于一个 UGC(用户生成履行)平台,用户难谈不是“衣食父母”吗?“Reddit 把咱们卖了。”这是用户们在明面上的控诉。

对于 Reddit,咱们有太多思问的了。

Reddit 敢为东谈主先。它是第一家公开向生成式 AI 新贵们叫板的公司,条款后者独一用到平台语料熟识 AI 就必须付钱。

要道是,Reddit“得逞”了。据路透社报谈,本年 2 月,它和 Google 谈好价码——6000 万好意思元(每年!)。

再如何说,Reddit 亦然全好意思流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的宗旨,它在招股书里说月活跃用户有 3.3 亿,日活 7310 万,活跃着的参谋组(subreddit)有 10 万个。

回答“Reddit 的语料为何零碎?”之前,得先问“语料为何零碎?”。

在 AI 期间,少不了数据、算力和算法这三大成分。数据是基础,算力算作支柱,算法很是于引擎,三者相互依存、促进。

早期大模子 GPT 熟识所用的文本语料中,有竹素、网页爬取、酬酢媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的履行,等于说,历程了一层初筛,圭臬是“是否够流行”。

图片开端:GIPHY

有兴味的是,语料库的英文是“corpus”,这个词源自拉丁语,是“躯壳”的兴味。将语料库描写为 AI 的躯壳不知谈恰不妥当,但从“躯壳是翻新的资本”去判辨倒是树立的,莫得语料数据,就真金不怕火不了 AI。

a16z 首创东谈主 Marc Andreessen 以为,这波 AI 海潮之是以能兴起,恰是因为互联网在夙昔二十几年来千里淀了大批的数据。但东谈主工智能有计划和预测组织 Epoch 指出,高质地的文本数据会在 2023 至 2027 年之间奢侈殆尽。

图片开端:GIPHY

天然 Epoch 也指出其分析局势和模子的局限,但 AI 熟识奢侈数据的缠绵,是可想而知的。

麻豆 女同

谁到 Reddit 上齐能创建参谋组(subreddit),也不错树立“吧主”爱戴,这和咱们知谈的贴吧没什么不同。

图片开端:Reddit

Reddit 弱化了“大 V”的存在,谁齐不错发言(匿名也行),谁齐不错点赞、点踩,获赞数多的会被顶上去,这种排序是“民气”的反应。

绝色诱惑

你被点赞了,就能成绩 Karma。这个宗旨,代表了用户的在社区的孝顺价值以及活跃度。

咫尺,活跃着的参谋组有 10 万个。甘休 2023 年 12 月,Reddit 上累计的帖子有 10 亿个,160 亿条回话。

在这个大型贴吧里,你能找到热点冷门形形色色的组:

比如各式 r/xxxxPorn,xxxxPorn 并不是你思的那样,遍及代表着东谈主对 xxxx 的很是千里迷,组友可爱发布干系的“让东谈主很是安祥的履行”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;

警员!有东谈主往肉卷里塞垃圾食物|Reddit 截图

比如 r/memes(收梗图的进);

图片开端:GIPHY

还有东谈主热衷写两句话恐怖故事,以及参谋齐市外传……

现任 CEO Steve Huffman 对《纽约时报》说,他以为 Reddit 的平台履行迥殊有价值,它们的新(newness)和干系性(relevance)对大模子熟识齐是“刚需”。

一个在好意思国流量排前五的平台,每分每秒齐会有新的参谋产生。至于干系性,贴吧里东谈主以群分,话题有余垂直,参谋有余深刻……在各个细分话题里,齐是不那么泛化的参谋,这可能即是 Huffman 说到的干系性。

图片开端:curiousgnu.com

攒了 19 年的东谈主类对话实录,在 AI 公司眼里,即是“黄金”。

最受迎接的参谋组即是 r/funny,到哪齐是乐子东谈主最多|Reddit 截图

“Reddit 比互联网上任何场地齐够生发、容纳确凿的对话,”Huffman 说,“在这里,咱们能看到东谈主在神志治愈、戒酒阶段会说的那种心里话,或者在别的场地不会说的话。”

确凿,也意味着东谈主们会在这里开释坏心。

Reddit 上不乏宣扬暴力和有色情示意的参谋组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万东谈主饶恕,他们找来胖子的相片,还主要针对女性,会给相片写上尖酸的注文。

Reddit 前家具高等副总裁 Dan McComas ,是封禁“坏心组”的要道东谈主物。其后,他也因此被东谈主肉、胁迫。

2015 年,McComas 出来作念了一个访佛 Reddit 的社区 Imzy,但完全谢却血腥色情,不错打赏其他用户,0 告白,但半年后就退场了。既不绿色也不友好的 Reddit 仍在大叫大进。

2017 年愚东谈主节,Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布,并设定例则:每名用户每五分钟不错往画布上放一个像素,也即是在小格子上涂抹自便一种姿色。这种“反东谈主类”的法律诠释,使得用户无法独自操作,只可拉帮结社、共同创作。

就这样,文化象征、大众事件等齐微缩在了最终的制品上,也莫得原来不少东谈主料思的倒霉,相背,是一种参差中的调解。

这些用户既不错为了认定的图腾作画,也能让华尔街惊掉下巴。

图片开端:Wikipedia

2021 年一月初,老牌游戏连锁店游戏驿站股票不外 20 好意思元,终末竟一度涨到了 400 好意思元,这迫使闻明作念空机构 Melvin Capital 紧迫募资 37.5 亿好意思元平仓认输,而作念空起家的香橼文书不再作念空,只作念多。

而这一切只是只是从 Reddit 上的一个吐槽帖启动的。一大群在游戏驿站买过游戏,在金融危境时刻以为我方是被华尔街“抢劫”的 Reddit 用户,拊膺切齿,纠合起来 all in 游戏驿站。“散户反击华尔街”一战,就此打响。

2020 年 3 月,那会儿刚退出微软董事会的比尔·盖茨,就在 Reddit 上径直与网友互动,回答好意思国网民相关新冠病毒防疫及治愈的问题。Reddit 不息能请来大牌镇守|GIPHY

不少东谈主在 Reddit 上说,“之是以免费,因为咱们才是家具。”

Reddit 前年收紧了 API 授权,紧紧把执住我方平台的履行。埃隆·马斯克将 Twitter 改成 X 后,也这样干,有东谈主去扒了苦衷策略,发咫尺 2.1 条例中,明确写谈:“咱们可能会使用辘集到的信息和公开可用的信息来匡助熟识咱们的机器学习或东谈主工智能模子。”

另外,也有东谈主怀疑微博评述机器东谈主 @评述罗伯特 即是通过平台履行熟识出来的机器东谈主。它的留言画风如下:

图片开端:微博 @罗伯特受害者定约

但 Reddit 也作念了点别的:给中枢用户和版主、职工的九故十亲们预留简约 176 万股股票,占刊行总数 8%(Huffman 本东谈主的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定契约拘谨,不错在往复首日立即出售股份。

图片开端:GIPHY

有网友牢骚,Reddit 早已混入不少 AI 生成的履行,卖给 AI 公司熟识,是 AI 熟识 AI 吗?

作家:malt

剪辑:卧虫

封面图开端:Reddit麻豆 女同



友情链接:

TOP