Page 1 of 1

Hindi Devanagiri - हिंदी देवनागरी - text corpora

Posted: Thu Sep 10, 2020 3:54 pm
by Optilon
For Hindi Devanagiri, I used the following text corpora from uni-leipzig:
total: 100K
Letter frequency chart (all letters with more than 0.1% frequency):
hindi-devanagiri-characterfrequency.png (150.56 KiB) Viewed 15784 times
Letter frequency table:
(57.06 KiB) Downloaded 997 times

Re: Hindi Devanagiri - हिंदी देवनागरी - text corpora

Posted: Thu Sep 10, 2020 3:56 pm
by Optilon
I now understand why you said it is a bad idea to put diacritics to a third or fourth layer. 13 of the 54 most frequently used symbols are diacritics. I'm surprised the keyboard optimizer was able to tear the text corpora apart and even noticed the diacritics separately.

This is the frequency table of all characters with usage of >0.01%. The graph includes only characters with >0.1%:
8,52 % ा
6,90 % क
6,42 % र
6,21 % े
4,35 % ्
4,12 % न
4,09 % ी
4,01 % स
3,86 % ि
3,75 % ं
3,73 % ह
3,25 % त
3,23 % म
2,70 % ल
2,69 % ो
2,47 % प
2,32 % य
1,92 % व
1,86 % द
1,71 % ज
1,61 % ब
1,48 % ग
1,42 % ै
1,32 % ु
1,07 % ।
0,89 % श
0,89 % ट
0,85 % ए
0,82 % च
0,79 % अ
0,76 % भ
0,65 % ू
0,62 % ड
0,61 % थ
0,61 % आ
0,58 % इ
0,55 % ,
0,53 % ख
0,53 % उ
0,49 % ध
0,41 % ष
0,40 % फ
0,38 % औ
0,37 % ई
0,36 % .
0,36 % ़
0,29 % ण
0,21 % छ
0,20 % -
0,19 % ौ
0,13 % ठ
0,13 % घ
0,12 % ओ
0,12 % ॉ
0,09 % ृ
0,09 % ढ
0,08 % झ
0,08 % ँ
0,08 % '
0,08 % :
0,07 % )
0,07 % (
0,07 % ड़
0,06 % ऐ
0,04 % "
0,03 % ‘
0,03 % ’
0,03 % ?
0,03 % ञ
0,03 % ऊ
0,03 % ऑ
0,02 % !
0,01 % ढ़
0,01 % ज़
0,01 % ः
0,01 % /

Re: Hindi Devanagiri - हिंदी देवनागरी - text corpora

Posted: Fri Sep 11, 2020 8:46 pm
by hurrdudd
Optilon wrote: Thu Sep 10, 2020 3:56 pm @hurrdudd
I now understand why you said it is a bad idea to put diacritics to a third or fourth layer. 13 of the 54 most frequently used symbols are diacritics. I'm surprised the keyboard optimizer was able to tear the text corpora apart and even noticed the diacritics separately.

This is the frequency table of all characters with usage of >0.01%. The graph includes only characters with >0.1%:
8,52 % ा
6,90 % क
6,42 % र
6,21 % े
4,35 % ्
4,12 % न
4,09 % ी
4,01 % स
3,86 % ि
3,75 % ं
3,73 % ह
3,25 % त
3,23 % म
2,70 % ल
2,69 % ो
2,47 % प
2,32 % य
1,92 % व
1,86 % द
1,71 % ज
1,61 % ब
1,48 % ग
1,42 % ै
1,32 % ु
1,07 % ।
0,89 % श
0,89 % ट
0,85 % ए
0,82 % च
0,79 % अ
0,76 % भ
0,65 % ू
0,62 % ड
0,61 % थ
0,61 % आ
0,58 % इ
0,55 % ,
0,53 % ख
0,53 % उ
0,49 % ध
0,41 % ष
0,40 % फ
0,38 % औ
0,37 % ई
0,36 % .
0,36 % ़
0,29 % ण
0,21 % छ
0,20 % -
0,19 % ौ
0,13 % ठ
0,13 % घ
0,12 % ओ
0,12 % ॉ
0,09 % ृ
0,09 % ढ
0,08 % झ
0,08 % ँ
0,08 % '
0,08 % :
0,07 % )
0,07 % (
0,07 % ड़
0,06 % ऐ
0,04 % "
0,03 % ‘
0,03 % ’
0,03 % ?
0,03 % ञ
0,03 % ऊ
0,03 % ऑ
0,02 % !
0,01 % ढ़
0,01 % ज़
0,01 % ः
0,01 % /
This looks reasonably correct. The diacritics are assigned a separate unicode codepoint, probably the optimizer just looked at each unicode character separately.