面对一串看不懂的字,如何快速识别是哪国文字?

  欧陆资讯     |      2023-08-24 12:27

不要求看懂,只要能辨认出什么语就行。

可以提前去接触一下各国的文字,划分区域去看,大概能有个映象。这样你在之后遇到就可以知道了,如果还是不知道的话,可以先猜测,然后去查一下

最快速办法——如果是拉丁字母书写的,直接扔谷歌翻译里自动检测。

最全面办法——弄本《世界文字发展史》之类的文字学书籍好好学习一遍全世界的文字体系。

当然,谷歌翻译不是万能的,而估计一般人也没有耐心仔细学习文字学,那么如何折衷——找 @多邻国Duolingo 以前的回答,有不少就是和如何识别文字有关的。这个是官方账号,非常权威,非常全面。

至于本人的一点拙见(胡诌),首先除了汉字和拉丁字母之外,至少再学会西里尔字母和阿拉伯字母两套同样广泛使用的体系。这为你分辨前苏联国家和中亚穆斯林国家的语言奠定了基础。其它相对主流的,比如日语假名和韩语谚文,也得学一下。

其次,掌握上述三大文字体系之内,每种语言的一些特殊字母/字母组合/常用虚词等等。比如拉丁字母之内,法德西葡意五个最常见的直接从虚词判断即可,波兰语找字母?,荷兰语找oe、tj等组合,芬兰语找连续带点的元音字母(如这种),挪威语找rs、kj等组合,土耳其语找字母?,等等。

印度和南亚的文字体系互相之间长得比较接近,我不太熟悉……找多邻国吧。如果是一种文字只对应一种语言的,而且长得比较独特的,比如阿姆哈拉语的跳动小人,这个我觉得还是比较好辨认的。上面的也仅供参考,可能会存在一些问题。

说几个常见语言的标志吧

德语?,好多的die

波兰语 sz, cz, rz, ?

荷兰语 ij

西班牙语 ?

葡萄牙语 ?

芬兰语/爱沙尼亚语 大量的双写字母

丹麦语/挪威语 ?和?

冰岛语 e t

有个用java写的库,叫language-detection

github.com/shuyo/langua


有人根据这个库,写了python的port:

github.com/Mimino666/la

作用是根据输入的文本,猜测可能的语言,支持55种语言。

如果是拉丁字母的話:

法語 ? à é è ê ? ? ü ?

意大利語 à è ì

西班牙語 ll rr ? á ó í

德語 ? ? ü ?

挪威語和丹麦語 ? ? ?

冰岛語 e t ? ? á é ó í ú y

波蘭語 ? ń ? ? ? ? ? ? ó

捷克語 ? ? ? ň ? ? ? á é ě í ó ú ? y

匈牙利語 cs sz ly gy ny á é í ó ? ? ú ü ?

罗馬尼亜語 ? ? ? a ?

阿尔巴尼亜語 dh gj ny xh rr ? ?

土耳其語 ? ? ? ? ? ü