文献中词语分布的二八现象与马太效应

来源 :中国文字研究 | 被引量 : 0次 | 上传用户:seaflower0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了发现文献中的词语分布与动态增长规律,文章对各部文献分别作分组处理,第一组是文献头部的1万个词例,之后每一组包含前一组,再按顺序新增一万个词例,然后对每组中的词型按照出现频次降序排列.研究发现,各组词型序列前20%词型的词例数约占所在组词例总数的80%以上,而后80%词型的词例数约占所在组词例总数的20%以下,词型分布上显著存在二八现象.每部文献的各个组高频词的平均出现频次基本上是逐组递增的,而中低频词的平均出现频次基本不变,高频词与中低频词的平均出现频次的差距逐组增加,在第一组序列中排在前20%的词型,在其后各组中,有极大可能性依然处于各组的高频词行列中,各组新增词型的数量很大,但成为高频词的比率极低,词语动态增长时显著存在“马太效应”.
其他文献
北京科技大学昌平创新园区结合园区内多个国家级科研平台优势,紧扣“立德树人”根本任务,从建大器、看大局、求大用三个维度,谋划新时代科研育人路径与模式.
《宋代墓志辑释》是宋代墓志著录的最新成果,全书共收录宋代墓志拓片226方,且大多是新出土或尚未发表的墓志,对研究宋代社会历史、政治制度、人物传记等方面都有重大意义.但由于某些原因,《宋代墓志辑释》在对墓志拓片进行文字校读时多有疏误.文章运用文字学、文献学、词汇学等方面的知识对这些疏误提出斠补意见,以期对宋代墓志的整理提供有益的借鉴.
文章揭举十余则宋元明清禅宗文献的疑难俗字,主要通过版本对勘,异文互参,辨形证义,并系联历代俗字形体,结合汉字俗写的一般规律,沟通字形关系,梳理变易路径.文章对禅宗文献整理、近代汉字研究和大型字书修订具有参考价值.
基于教学现状,提出引入R语言进行古生物学定量分析实践平台的建设思路.以培养理论基础扎实、擅长数据分析的古生物学专业人才为导向,在R语言基础教学、古生物学数据集建设、案例分析三个方面开展教学实践.
提出一种基于信息化平台的高校化学试剂采购系统的设计方案,依托信息化管理手段,规范高校化学试剂采购流程,形成一套行之有效的试剂流入安全管理体系.以安全和高效为目标,以互联网思维为引导,在做好化学试剂供应的同时,更好地为试剂安全管理提供条件、为建设平安校园提供保障.
疫情防控常态化对高校管理信息化、网络化、移动化建设提出了更高的要求.高校二级学院受到资源、经费等方面的束缚,难以开发专用管理信息平台,选用企业微信构建二级学院部门组织架构,通过近一年的运行实践提升了学院管理数字化、教学办公移动化水平,发挥了信息化建设在高校管理中的重要作用.
本文主要调查统计部编版小学语文教材字量、字种、字频和笔画的综合数据,深入分析阅读量、复现字种、字量字种比、频次分布、笔画分布之间的多重关联,多角度揭示、呈现小学语文教材用字的综合特征.
本文通过比较的方法从玛雅文字的符号形态、数字符号系统与形声表示法等三个方面分析玛雅文字的原始性特征:(1)从早期的语段文字到相对成熟的图谱符号,玛雅文字在其符号形态上都充满了图画性特征,文字的记词方式不够发达成熟.(2)玛雅文字的数字符号多用来记录日期、历法周期等,计数单位虽已出现,数字符号系统也能反映一定的数量关系,但所用的指示性符号及复杂的象征性图谱,是其原始性特征的体现.(3)玛雅文字形声表示法有合文、标声及标类等情况,其中合文、以纯指示符号标类,是文字原始性的表征.玛雅文字形声字的意符和音符存在同
东巴文()本是()(秤)的异体,但在《纳西象形文字谱》中,只见其用于()、()、()三字构件,而未单独收为字头或纳入()字条异体.比较《么些象形文字字典》《纳西语英语百科辞典》相同字条的说解可以看出:()字条误释字义、误解字形,()、()两字条误释声符()之义,试就此分析误因,加以订补.
为揭示我国智慧教育研究的时空分布、研究热点与趋势,选取中国知网收录的智慧教育核心论文为样本,借助文献题录信息统计分析工具SATI,CiteSpace,从发文数量、时空分布、期刊来源类别、关键词、主题分布等维度对样本进行可视化分析.结果显示,国内智慧教育现处于快速发展阶段,祝智庭教授在该领域最具影响力;师范院校、智慧教育专门研究机构是国内智慧教育研究的中坚力量;教育信息化、智慧校园、智慧教室、智慧课堂、智慧学习等是研究热点;人工智能、智能教育将成为新的研究重点.