扫码手机阅读

穿越:2014

作者:猪熊 | 分类:都市 | 字数:119.8万

第273章 巨额的隐形财富

书名:穿越:2014 作者:猪熊 字数:2230 更新时间:2024-12-20 20:49:00

就像诺奖级成果不一定真的能获得诺奖一样。

就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

但想藉此一步到位获得博士毕业论文也是很有难度的。

毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西,亦即工程上的成果。

而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

虽然涉及到生成式文本摘要在学术上的收益这个稍微低于林灰的预期,不过问题不大。

林灰觉得学术上步子太大也不完全是好事情。)

既然短时间不搬运生成式对抗网路。

那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

当然不是。

很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

那就是前世的人工标注数据。

虽然没太认真翻看前世一同携带来的信息。

但人工标注的数据林灰不可能是没有的。

尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

尤其是监督学习和半监督学习更是需要大量的人工标注数据。

通常一个模型在架构的时候需要很多的人工标注的数据。

在调整的时候也需要很多的人工标注数据。

举这样一个例子:

在图象识别里面,经常我们可能需要上百万的人工标注的数据,

在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

涉及到机器翻译更是需要数千万语句标注数据。

说实话作为一个来自前世往后几年的技术人员。

此前涉及到人工标注数据的价值林灰还真没太当回事。

但现在看来,这玩意的价值此前明显被林灰忽视了。

林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

可以看到数据标注的费用是非常非常高的。

而这仅仅是2017年的数据标注成本。

在现在的话标注成本岂不是意味着更高的数据标注费用?

要知道现在几乎不怎么注重无监督学习。

在无监督学习方面更是几乎没啥可堪一用的模型。

在主流的机器学习依旧是靠监督学习和半监督学习。

而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

那么在机器学习整体比较滞后的这个时空的2014年。

同样的1000万条双语数据标注需要多少钱呢?

林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

“两三亿美元”这个数据似乎有点吓人。

但其实也不夸张。

之所以说不夸张有两方面的原因:

一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

而在此之前,涉及到数据标注从来就跟“便宜”两个字不沾边。

同样拿此前林灰所列出的例子作为援引:

在前世2017年1000万条双语互译标注的成本约为2200万美元;

注意这仅仅是双语互译的标注。

“双语互译”只是某两种语言之间的互译标注。

只是两种语言之间的互译标注就需要两千多万美元?

那涉及到上百种语言的互译需要多少钱呢?

这个问题并不复杂,简单的排列组合问题:

C(100,2)== 4950; 4950*0.22亿美元==1089亿美元;

不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。

毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。

虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。

但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。

同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。

而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。

二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世纪五六十年代花费上千万美元搞出来的占地几百甚至是上千平方米的计算机。

这种情况下后世很便宜的计算器拿到几十年前纵然是要价上百万美元同样是有市场的,而且可能还会相当有竞争力。

举这个例子并不是说林灰要再往前几十年去卖计算器。

林灰只是想藉此说明时代的车轮是向前的,科技也是在飞快发展的。

尤其是在中后互联网时代,科技的发展说是日新月异也丝毫不为过。

在这种情况下,往后几年一些不怎么被人过分重视的技术在几年前能够换取大额的财富是很正常的。

更何况还是利用数据标注这个相当长一段历史时期内都只能是土豪公司才玩得转的东西去换取财富?