论文部分内容阅读
“字”是汉语句子长度测量的可靠单位,通过对120万字汉语本族语者语料中的所有句子进行切分、统计,发现汉语以“字”为单位的句长分布范围为1-63个字,平均句长为10.91个字,最高频句长区间为6-8个字,最常用区间为2-15个字。汉语句子在所有句长上呈“长尾”分布,在高频区间上呈正态分布。1-30个字句长句子的“字”、“词”匹配和各区间句子的频次分布有其内在规律。