corpora)技术,这种技术在训练中不需要输入和输出之间有具体对应关系
3.5.4.1. 这种方法极大地限制了训练数据量以及可用的文本类型3.5.4.1.1. 政府文本和畅销书经常被翻译,但期刊、社交媒体、网站和其他非正式作品一般并无此待遇3.5.4.2. 这种训练人工智能粗略匹配(而非翻译)文本主体的过程,即为平行语料库技术3.5.4.3. 被用于训练的是高度近似的或部分的信息3.5.5. 当谷歌翻译开始采用使用平行语料库训练的深度神经网络时,其性能提高了60%,而且此后一直在不断提高3.5.6. 自动化语言翻译的巨大进步有望令商业、外交、媒体、学术界和其他领域均为之一变,因为人们可以比以往任何时候都更容易、更快捷、更廉价地接触到非母语3.6. 机器学习不仅拓宽了人工智能的适用范围,还彻底改变了人工智能本身,甚至在以往的方法曾取得成功的领域(如基于符号和规则的系统)也莫不如此3.6.1. 标准的神经网络可以识别输入和输出之间的关联模式,比如那些抗生素的一系列化学属性3.6.1.1. 谷歌的BERT就是一种旨在改进搜索的双向转换器3.6.2. 翻译文本和分类图像的能力是一回事,生成(亦即创建)新文本、新图像和新声音的能力则是另外一回事3.7. 生成式神经网络,却可以实现创建3.7.1. 生成式神经网络使用文本或图像进行训练3.7.2. 它们产生新的文本或图像,这些文本或图像是合成的,但也是真实的3.7.2.1. 从概念上讲,它们与其“前辈”已有所不同3.7.2.2. 这些所谓的生成器的应用是令人惊愕的3.7.2.2.1. 如果它们被成功应用于编码或写作,那么作者可以简单地创建一个大纲,然后让生成器来填充细节3.7.2.2.2. 生成器还可能被用来进行深度伪造,即对人们从未做过的事情或说过的话进行虚假描述,且足以乱真3.7.3. 生成器将丰富我们的信息空间,但如果没有监督,它们也可能模糊现实和幻想之间的界限3.7.4. 能够产生类人文本的GPT-3是最值得关注的生成式人工智能之一3.7.4.1. 它打开了将语言翻译转化为语言生产的新局面3.7.5. 经过对主要来自互联网的大量数据的训练,转换器还可以将文本转换为图像或进行反向操作,即扩展和压缩描述,并执行与此类似的任务3.8. 当一项技术变得更加强大、更加普遍时,其发展也必然伴随着挑战3.8.1. 我们大多数人最常使用的在线功能“个性化搜索”就是一个例证3.8.1.1. 人工智能可以记住搜索引擎以前被问及的事情及其作为回应而产生的概念3.8.1.2. 从理论上讲,这对用户也越来越有帮助3.8.2. 在线流媒体服务也在如法炮制,它们利用人工智能使针对电视节目和电影的建议更明确、更积极,或给出人们希望获得的更多答案3.8.3. 随着人工智能对人们的了解越来越深入,获得的结果大体上还是积极的4. 生成对抗网络4.1. 简称GAN4.1.1. 一种常见的生成式人工智能训练技术是让两个学习目标互为补充的网络进行对抗4.2. 生成器网络的目标是产生潜在的输出,而判别器网络的目标是防止产生不良的输出4.3. 生成器的任务是进行头脑风暴,而判别器的任务是评估哪些想法是相关的和现实的4.4. 在训练阶段,生成器和判别器交替训练,训练判别器时保持生成器不变,反之亦然4.5. 经过GAN训练的人工智能可以在人们起草电子邮件时建议补全句子,或者允许搜索引擎完成部分查询4.6. 程序员可能很快就能省力了,他们只要勾勒出所需程序的大纲,然后将大纲交给人工智能完成即可5. 过滤5.1. 过滤可以帮助引导选择5.1.1. 在现实世界中,外国游客会雇用导游,并根据自己的宗教信仰、国籍或职业,让导游带他们参观他们认为最值得去的历史古迹或最有意义的景点5.2. 过滤也可以通过省略和遗漏信息而成为一种审查制度5.3. 在网络空间,过滤会自我强化5.3.1. 它会放大一些主题和来源,并出于实际需要而对其他内容视而不见5.3.2. 这种事实上的遗漏的后果是双重的:既可以让个人变得闭目塞听,也可以让这些个体彼此难以一致