孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国AI技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注AI技术,就是为了研发最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量发表的AI论文所迷惑。
觉得在这个新崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然AlphaGO震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bus),鼠标(mouse)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的超级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在XX榜单上露面,刷榜,又是超过这个,又是超过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”孟繁岐也曾仔细思索过这方面的问题。
();() “像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。这些也不只是美国人自己的积累。而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。里面屯点硕博生的论文,还要论页数收费。就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
前任都是天后,我火了 华娱之开局给周董上上对抗 海贼:阿卡姆肄业的小丑巴基 主宰:虫族崛起 当场怒喷哥哥,这解说不想干了? 你是我的满世欢喜 天骄退婚,我提取词条修行 陨落星辰: 异常魔兽见闻录 什么叫世界名帅啊 大明:我杨宪,真的治扬! 我以道种铸长生 明日方舟之铁与血 纵目 大唐第一逆子 自遮天世界开始 火枪洗明路 全职法师之魔法天赋 无限超神:抬头看见云霄天庭 神秘复苏之我没有外挂
在那个本该诞生魔法界救世主的夜晚,哈利波特却死在了那道不可饶恕之咒下。让几乎所有的英国巫师都不敢称呼名讳的男人,重新从魂器中获得了原本就属于他的智慧和野望。黑暗彻底笼罩了大不列颠岛。巫师由血统划分出了明确的高低贵贱,纯血牢牢的把持住了属于上位者的权柄,而被称为泥巴种的人们,终其一生也只能卑微如泥土任人践踏。本该执行公义的魔法部尽是恶徒,本该传授知识的城堡满是压迫。就在这灰暗的时代。穿越而来的乔恩格林,被带进了那辆真正继承霍格沃茨名号的流亡马车已有两本百万字完结精品老书,质量保证,欢迎入坑!...
大海贼时代。大海风起云涌,强者毁天灭地,各自厮杀,实在是让人提不起劲!我,鲁西鲁库洛,二十四岁,最大的梦想安全的过完这一生!...
意外重生,叶倾再次遭遇末世,只是这一次她回到了末世前夕。重生之后,叶倾茫然了,拥有四年的末世经历和经验,她能做什么一步步的走在所有人的前面,成为最终的大boss不,她只想一直活下去,活到丧尸灭绝的那...
科技与修真的浪潮里,谁能触及超凡?秩序与战乱的夹缝中,又是谁在低语?我看见妖族隐匿于霓虹之后,机甲飞跃在繁华街头王侯与邪魔推杯,众生和鬼怪换盏。当野心失去原则,科武制造毁灭,超凡带来罪孽,大厦将倾永夜降临,谁愿意做扑火的飞蛾?身负妖王基因而不自知的苏安,在十八岁生日那天原力觉醒,从此在充满血火与财富的都市开启了他的崛起之路。如果文明注定消亡,比起做飞蛾,他更愿意在敌人的尸体上建立一个新的世界!...
...
很多人大概都向往过穿越重生,但是在一次次带着记忆的死去又活来之后,姜秦疲惫极了。记忆太过沉重,不论爱与恨着的人,一切都留不住。女主没有系统,没有异能,就是一个普通的不太聪明的现代姑娘第一世恶毒女配...