摘要:实验结果显示,在Short Stories数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。
如果你以为AI写作产生的内容都一样,那可能要颠覆认知了。
最新研究发现,只要在AI开写前由人类提供一个开头或者随机插入一些词汇,写作效果会更具多样性。
也就是说,AI写作同质化不是模型本身存在缺陷,更可能是“启动条件”有问题。
实验结果显示,在Short Stories数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。
比如在最新的GPT-5里让它用相同提示词续写同一段文章。
结果却是不太一样哎~
那此研究到底是如何证明AI写作并不趋同的呢?我们接着了解更多细节。
以往研究普遍认为,大型语言模型在词汇、句法和语义等方面生成的文本,比起同等规模的人类作品,表现出明显的多样性不足。
这引发了“创造力模式崩溃”的猜测,认为LLM的创意空间远不如人类广阔,甚至担心未来人机协作会让观点变得千篇一律、雷同无趣。
然而,大多数关于语义多样性的评测都停留在单一指标的不同变体上,缺乏足够的实证支持,难以揭示真实的创作多样性。
因此,此研究提出了一套新的评估指标和数据集,用以对语言模型的语料库级多样性进行基准测试。
数据抓取
本研究主要分析短篇小说散文,文本来源于Reddit网站的两个子版块:r/shortstories和r/WritingPrompts,帖子按照Top排序顺序获取。
在r/WritingPrompts板块,研究人员提取了100个写作提示帖子及其最多10条一级回复,将这些回复视为人类写作的续写内容,用于分析每个提示对应的多个人类续写。
在r/shortstories板块,他们收集了100篇独立的叙事文本,用来评估人类与模型生成故事在整体风格和结构上的相似性。
创建语料库
数据清
对两个数据集中的人类写作文本,他们筛选了长度介于500字至2000字之间的故事。
对于写作提示数据集,若某个提示对应的人类续写超过10篇,他们只保留投票数最高的前10篇,以避免每个提示下故事数量差异过大,同时保证人类写作质量。
模型续写生成
除非另有说明,模型续写均采用固定温度0.8、top-p为1,并使用基础系统提示。详细的实验设置和提示内容见附录B。
同质化指标
文本同质化是通过不同的维度来衡量的,主要分为以下三类。
文体风格同质化
文体学通过分析作者独特的语言习惯(如词汇和语法特点)来识别写作风格。
为了衡量整个文本集合的多样性,研究者采用了Unique-N指标(衡量重复短语的比例)并计算了文体特征的方差,以评估语料库的风格多样性。
语义同质化
研究通过计算文本嵌入向量的平均相似度,利用多层级、多种嵌入方法分析语料库中的语义多样性,并通过比较不同层级的嵌入离散度变化,有效区分了风格差异和语义差异。
情感同质化
研究还利用VADER工具对人类和模型生成的故事进行情感分析,比较了二者情感表达的分布差异,以此作为评估文本多样性的重要维度。
首先分析文体风格同质化指标,在Writing Prompts数据集中,人类的多样性得分明显高于其他模型。
但有趣的是,这个模式在Short Stories数据集中并不成立:这里人类文本仍然拥有较高的Unique-N得分,却在所有模型中表现出最低的文体特征方差。作者分析可能是因为前者拥有更为多样化或更高水平的写作群体。
另外需要注意的是,在Writing Prompts数据集中,模型获得了更多关于人类作者的上下文信息,它会接收作者50%的故事内容作为提示,而在Short Stories数据集中,提示仅有几句话。
其次是关于语义同质化,研究通过比较人类与语言模型在相同写作提示下的文本嵌入相似度,发现人类作品语义多样性更高,而模型生成文本更趋同,反映出模型存在同质化倾向。
但需要注意的是,用于生成嵌入的MiniLM模型最大输入长度为256个token,超过该长度的文本会被截断,这可能导致较长续写中的重要信息被遗漏,从而影响相似度的测量。
为评估这一限制的影响,研究者还使用了最大输入长度为512个token的BGE和E5嵌入模型进行分析。
可以看出,尽管各模型中模型内部相似度普遍高于人类的趋势依旧明显,但绝对相似度数值显著升高。
这一现象表明,更高维度的嵌入可能带来更高的余弦相似度。不过它们之间的具体关系仍不清晰,尚需进一步研究以区分嵌入维度和真实语义相似度之间的影响。
最后是情感同质化,情感得分s取值范围为[-1, 1],其中s>0.05表示正面情感,s
可以观察到,尽管大多数人类创作的故事呈现正面情感,但约有30%的故事带有负面情感,显示出较为丰富且多样的情感表现。
相比之下,LLM生成的故事情感更偏向正面。
为进一步研究多少上下文信息能促使模型产生更多样化的输出,研究者在提示中提供不同长度的人类创作内容。
下表分别展示了采用30%和70%截取长度时的文体多样性指标结果。
结果表明,这两个截取长度对文体多样性都影响不大,语义多样性也没有显著变化。
因此,研究者探索的另一种方法是在系统提示中加入随机单词。
他们使用google-10000-english-no-swears词表,对其中的单词进行词性标注,只保留名词、形容词、副词和动词这几类词汇。
每次生成时,随机抽取5个单词,附加在提示语“here is a list of random words to take inspiration from”后面。
结果表明,尽管模型生成文本的多样性仍低于人类,但所有模型在各项指标上的多样性得分均有所提升,说明向系统提示中注入随机词汇确实有助于提升模型输出的文体多样性。
未来,研究团队将进一步探究提示中包含多少以及哪种类型的上下文,才能使模型输出达到与人类短篇故事同等的多样性。
论文链接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf
来源:新浪财经