Multilingvismul (M17N) sau suportul pentru limba maternă pentru un software de aplicație se realizează în 2 pași.
Internaționalizare (I18N): Pentru a face un software capabil să gestioneze mai multe limbi.
Localizare (L10N): Pentru a face un software să gestioneze o anumită configurație regională.
|
Indicație |
|---|---|
|
Există 17, 18 sau 10 litere între „m” și „n”, „i” și „n” sau „l” și „n” în multilingvism, internaționalizare și localizare, care corespund M17N, I18N și L10N. Pentru detalii, consultați Internaționalizare și localizare. |
Comportamentul programelor care acceptă internaționalizarea este configurat
de variabila de mediu „$LANG” pentru a accepta
localizarea(regionalizarea). Suportul efectiv al caracteristicilor
dependente de configurația regională prin biblioteca
libc, necesită instalarea pachetelor
locales sau locales-all. Pachetul
locales trebuie să fie inițializat adecvat.
Dacă nici pachetul locales și nici pachetul
locales-all nu sunt instalate, suportul pentru
caracteristicile regionle se pierde, iar sistemul utilizează mesaje în limba
engleză americană și tratează datele ca ASCII. Acest comportament este identic cu cel al
definirii variabilei „$LANG” prin
„LANG=”, „LANG=C” sau
„LANG=POSIX”.
Software-ul modern, precum GNOME și KDE, este multilingv. Acesta este
internaționalizat prin gestionarea datelor UTF-8
și regionalizat prin furnizarea mesajelor traduse prin infrastructura
gettext(1). Mesajele traduse pot fi furnizate ca pachete
de limbă separate.
Sistemul de interfață grafică actual al mediului de birou Debian definește
în mod normal configurația regională în mediul de interfață grafică ca
„LANG=xx_YY.UTF-8”. Aici, „xx” este
codul limbii ISO 639, iar
„YY” este codul țării
ISO 3166. Aceste valori sunt definite în dialogul grafic de
configurare a biroului și modifică comportamentul programului. Vedeți Secțiune 1.5.2, „Variabila „$LANG””
Cea mai simplă reprezentare a datelor textuale este ASCII, care este suficientă pentru limba engleză și utilizează mai puțin de 127 de caractere (reprezentabile cu 7 biți).
Chiar și textul în limba engleză simplă poate conține caractere non-ASCII, de exemplu ghilimelele ușor curbate la stânga și la dreapta nu sunt disponibile în ASCII.
“double quoted text” is not "double quoted ASCII" ‘single quoted text’ is not 'single quoted ASCII'
Pentru a oferi suport pentru mai multe caractere, au fost utilizate numeroase seturi de caractere și sisteme de codificare pentru a oferi suport pentru mai multe limbi (a se vedea Tabel 11.2, „Lista valorilor de codificare și utilizarea acestora”).
Setul de caractere Unicode poate reprezenta practic toate caracterele cunoscute de om cu un interval de coduri de 21 de biți (adică de la 0 la 10FFFF în notație hexazecimală).
Sistemul de codificare a textului UTF-8 încadrează punctele de cod Unicode într-un flux de date sensibil de 8 biți, compatibil în mare parte cu sistemul de procesare a datelor ASCII. Acest lucru face ca UTF-8 să fie alegerea preferată în prezent. UTF înseamnă Unicode Transformation Format (Format de transformare Unicode). Când datele text simplu ASCII sunt convertite în UTF-8, acestea au exact același conținut și aceeași dimensiune ca și cele ASCII originale. Așadar, nu pierdeți nimic prin implementarea parametrului lingvistic de codificare a textului UTF-8.
În cadrul configurației lingvistice UTF-8
compatibilă cu programul aplicației, puteți afișa și edita orice date text
în limbi străine, atâta timp cât fonturile și metodele de introducere
necesare sunt instalate și activate. De exemplu, în cadrul configurației
regionale „LANG=fr_FR.UTF-8”, gedit(1)
(editor de text pentru mediul grafic de birou GNOME) poate afișa și edita
date text cu caractere chinezești, prezentând în același timp meniurile în
limba franceză.
|
Indicație |
|---|---|
|
Atât noul standard „ |
|
Notă |
|---|---|
|
Unele programe consumă mai multă memorie după ce acceptă I18N. Acest lucru se datorează faptului că sunt codificate pentru a utiliza UTF-32(UCS4) intern pentru a accepta Unicode în scopul optimizării vitezei și consumă 4 octeți pentru fiecare caracter ASCII, indiferent de configurația regională selectată. Din nou, nu pierdeți nimic prin implementarea configurației regionale UTF-8. |
Pentru ca sistemul să poată accesa o anumită configurație regională, datele configurației regionale trebuie compilate din baza de date a configurațiilor regionale.
Pachetul locales nu
este livrat cu date de configurație regională precompilate. Trebuie să îl
configurați astfel:
# dpkg-reconfigure locales
Acest proces implică 2 pași.
Selectați toate datele de configurație regională necesare pentru a fi compilate în format binar; (asigurați-vă că includeți cel puțin o configurație regională UTF-8).
Stabiliți valoarea configurației lingvistice implicite la nivel de sistem
prin crearea fișierului „/etc/default/locale” pentru
utilizarea de către PAM (consultați Secțiune 4.5, „PAM și NSS”).
Valoarea implicită a configurației lingvistice la nivel de sistem, definită
în „/etc/default/locale”, poate fi suprascrisă de
configurația grafică pentru aplicațiile cu interfață grafică.
|
Notă |
|---|---|
|
Sistemul tradițional de codificare actual poate fi identificat prin
„ |
Pachetul locales-all vine cu date de configurație
regională precompilate pentru toate datele de configurație regională.
Deoarece nu creează „/etc/default/locale”, este posibil
să fie necesar să instalați și pachetul locales.
|
Indicație |
|---|---|
|
Pachetul |
Pentru schimburile de date între platforme (a se vedea Secțiune 10.1.7, „Dispozitive de stocare amovibile (detașabile)”), poate fi necesar să montați unele
sisteme de fișiere cu codificări speciale. De exemplu,
mount(8) pentru sistemul de
fișiere vfat presupune CP437 dacă este
utilizat fără opțiune. Trebuie să furnizați o opțiune de montare explicită
pentru a utiliza UTF-8 sau CP932 pentru numele fișierelor.
|
Notă |
|---|---|
|
Când se montează automat o unitate flash USB conectabilă la cald într-un mediu grafic de birou modern, cum ar fi GNOME, puteți furniza această opțiune de montare făcând clic dreapta pe pictograma de pe birou, făcând clic pe fila «Unitate», făcând clic pentru a extinde «Configurări» și introducând „utf8” în «Opțiuni de montare:». Data viitoare când acest stick de memorie va fi montat, montarea cu UTF-8 va fi activată. |
|
Notă |
|---|---|
|
Dacă actualizați sistemul sau mutați unitățile de disc de pe un sistem mai vechi care nu utilizează UTF-8, numele fișierelor cu caractere non-ASCII pot fi codificate în codificări istorice și învechite, cum ar fi ISO-8859-1 sau eucJP. Vă rugăm să solicitați ajutorul instrumentelor de conversie a textului pentru a le converti în UTF-8. Consultați Secțiune 11.1, „Instrumente de conversie a datelor textuale”. |
Samba utilizează Unicode pentru clienții mai
noi (Windows NT, 200x, XP), dar utilizează CP850 pentru clienții mai vechi (DOS și Windows 9x/Me)
ca valoare implicită. Această valoare implicită pentru clienții mai vechi
poate fi modificată utilizând „dos charset” în fișierul
„/etc/samba/smb.conf”, de exemplu, la CP932 pentru japoneză.
Există traduceri pentru multe dintre mesajele text și documentele afișate în sistemul Debian, cum ar fi mesajele de eroare, ieșirile standard ale programelor, meniurile și paginile de manual. Lanțul de instrumente GNU gettext(1) este utilizat ca instrument de bază pentru majoritatea activităților de traducere.
În secțiunea „Sarcini” → „Localizare” aptitude(8) oferă o
listă extinsă de pachete binare utile care adaugă mesaje în limba maternă
aplicațiilor și furnizează documentație tradusă.
De exemplu, puteți obține mesajul în limba maternă pentru pagina de manual
instalând pachetul
manpages-LANG. Pentru a citi pagina
de manual în limba italiană pentru programname din
„/usr/share/man/it/”, executați următoarea comandă.
LANG=it_IT.UTF-8 man programname
GNU gettext poate acomoda lista de priorități a limbilor de traducere cu
variabila de mediu $LANGUAGE. De exemplu:
$ export LANGUAGE="pt:pt_BR:es:it:fr"
Pentru mai multe informații, consultați info gettext și
citiți secțiunea „Variabila LANGUAGE”.
Ordinea de sortare a caracterelor cu sort(1) și
ls(1) este afectată de configurația regională. Exportarea
LANG=en_US.UTF-8 sortează în dicționarul
A->a->B->b... ->Z->z, în timp ce
exportarea LANG=C.UTF-8 sortează în ordinea binară ASCII
A->B->...->Z->a->b....
Formatul datei ls(1) este influențat de configurația
regională (a se vedea Secțiune 9.3.4, „Afișare personalizată a orei și datei”).
Formatul datei date(1) este influențat de configurația
regională. De exemplu:
$ unset LC_ALL $ LANG=en_US.UTF-8 date Thu Dec 24 08:30:00 PM JST 2023 $ LANG=en_GB.UTF-8 date Thu 24 Dec 20:30:10 JST 2023 $ LANG=es_ES.UTF-8 date jue 24 dic 2023 20:30:20 JST $ LC_TIME=en_DK.UTF-8 date 2023-12-24T20:30:30 JST
Punctuația numerelor diferă în funcție de configurația regională. De
exemplu, în configurația regională engleză, o mie și unu se afișează ca
„1,000.1”, în timp ce în configurația regională germană
se afișează ca „1.000,1”. Puteți observa această
diferență în programul de foi de calcul.
Fiecare caracteristică detaliată a variabilei de mediu
„$LANG” poate fi suprascrisă prin definirea variabilelor
„$LC_*”. Aceste variabile de mediu pot fi suprascrise
din nou prin definirea variabilei „$LC_ALL”. Consultați
pagina de manual locale(7) pentru detalii. Dacă nu aveți
un motiv întemeiat pentru a crea o configurație complicată, vă rugăm să le
evitați și să utilizați numai variabila „$LANG” definită
la una dintre configurările lingvistice UTF-8.
The keyboard system can be configured at different layers of the system.
Linux kernel: keyboard(5)
X server: setxkbmap(1),
xkeyboard-config(5), environment variable
XMODIFIERS
GUI desktop environment: Input Method framework: ibus,
fcitx5
Application: environment variables to set its input source:
GTK_IM_MODULE, QT_IM_MODULE,
QT_IM_MODULES, ...
Input method framework (IM) consists of:
Input method engine (IME): Actual input method
Configuration: Handles the configuration for IBus and other services such as IME
Panel: User interface such as language bar and candidate selection table
Multilingual input to the application is processed roughly as:
Keyboard UI panel Configuration Application
| ^ | | ^ ^
v | v v | |
Linux kernel -> Input method engine (IME) -+-> Gtk, Qt -+ |
| ^ | |
| | +-> X, Wayland -+
v |
IME plugin (ibus-mozc, ...)
The Debian system can be configured to work with many international keyboard
arrangements using the keyboard-configuration package.
# dpkg-reconfigure keyboard-configuration
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/keyboard". Many non-ASCII
characters including accented characters used by many European languages can
be made available with dead key, AltGr key, and compose
key.
|
Notă |
|---|---|
|
Dacă ibus este activ, configurația clasică a tastaturii X prin
|
Unlike the X Window protocol, the Wayland core protocol doesn't even support
the input of accented characters. Popular Wayland Compositors, such as
Mutter for GNOME or KWin for KDE, implement extension protocols such as the
text-input-unstable-v3 for the text input (see "current Wayland protocols and their
support status").
The text-input-unstable-v3 protocol works well with Input
methods for Wayland (see "Wayland input method project
post-mortem").
Most GUI applications are built with GUI libraries such as GTK or Qt which
support this text-input-unstable-v3.
Popular Input Method Engines (IME), such as IBus
or Fcitx (version 5), can work with
this text-input-unstable-v3.
IMEs support text input for many languages with plugins.
Recent IMEs integrate X Keyboard
Extension (XKB) functionalities such as setxkbmap
previously provided by the X Window to support accented character text input
for European languages for Wayland.
For GNOME, "ibus" is the default IME which is
automatically installed via its package dependency.
Most multilingualized keyboard input features can be configured from "GNOME Settings" or "GNOME Tweaks".
Some multilingualized keyboard input features may need to be configured from
the ibus-setup(1) command.
The emoji keyboard input is available by typing SUPER-. (period) followed by a keyword for each emoji and SPACE-keys.
The list of IBus and its plugin packages are the following.
Tabel 8.1. List of IBus and its plugin packages
| pachet | popcon(popularitate) | dimensiune | configurația lingvistică acceptată |
|---|---|---|---|
| ibus | V:213, I:253 | 1828 | infrastructura metodei de introducere a datelor utilizând dbus |
| ibus-mozc | V:2.1, I:3.8 | 978 | japoneză |
| ibus-anthy | V:0.5, I:1.2 | 8958 | japoneză |
| ibus-skk | V:0.04, I:0.15 | 242 | japoneză |
| ibus-kkc | V:0.03, I:0.19 | 211 | japoneză |
| ibus-libpinyin | V:1.2, I:5.1 | 2767 | chineză (pentru zh_CN) |
| ibus-chewing | V:0.18, I:0.90 | 288 | chineză (pentru zh_TW) |
| ibus-libzhuyin | V:0.00, I:0.11 | 41009 | chineză (pentru zh_TW) |
| ibus-rime | V:0.27, I:0.49 | 78 | chineză (pentru zh_CN/zh_TW) |
| ibus-cangjie | V:0.02, I:0.12 | 235 | chineză (pentru zh_HK) |
| ibus-hangul | V:0.3, I:2.0 | 264 | coreeană |
| ibus-libthai | V:0.00, I:0.05 | 84 | thailandeză |
| ibus-table-thai | I:0.05 | 59 | thailandeză |
| ibus-unikey | V:0.20, I:0.42 | 286 | vietnameză |
| keyman | I:0.10 | 507 | Multilingual: Keyman plugin for over 2000 languages |
| ibus-table | V:0.08, I:0.99 | 2271 | table plugin for IBus |
| ibus-m17n | V:0.3, I:2.0 | 373 | multilingv: indic, arabă și altele |
Cadrul de introducere a textului Fcitx
(versiunea 5) este popular în rândul utilizatorilor chinezi și este
compatibil cu „ibus”.
The list of "fcitx5" and its plugin packages are the
following.
Tabel 8.2. List of Fcitx5 and its plugin packages
| pachet | popcon(popularitate) | dimensiune | configurația lingvistică acceptată |
|---|---|---|---|
| fcitx5 | V:7, I:12 | 761 | cadru pentru metode de introducere a textului compatibil cu
„ibus” |
| fcitx5-mozc | V:1.0, I:1.6 | 1260 | japoneză |
| fcitx5-anthy | V:0.06, I:0.20 | 808 | japoneză |
| fcitx5-skk | V:0.05, I:0.14 | 369 | japoneză |
| fcitx5-kkc | V:0.00, I:0.06 | 416 | japoneză |
| fcitx5-chinese-addons | I:9.0 | 17 | chineză (metapachet pentru zh_*) |
| fcitx5-pinyin | V:3.8, I:9.4 | 1044 | chineză (pentru zh_CN) |
| fcitx5-chewing | V:0.2, I:1.0 | 217 | chineză (pentru zh_TW) |
| fcitx5-zhuyin | I:0.06 | 41051 | chineză (pentru zh_TW) |
| fcitx5-rime | V:0.44, I:0.84 | 371 | chineză (pentru zh_CN/zh_TW) |
| fcitx5-table-cangjie-large | I:0.12 | 1292 | chineză (pentru zh_HK) |
| fcitx5-hangul | V:0.09, I:0.23 | 235 | coreeană |
| fcitx5-libthai | I:0.05 | 119 | thailandeză |
| fcitx5-table-thai | I:0.08 | 34 | thailandeză |
| fcitx5-unikey | V:0.08, I:0.20 | 588 | vietnameză |
| fcitx5-m17n | V:0.12, I:0.51 | 259 | multilingv: indic, arabă și altele |
| fcitx5-table | V:0.4, I:9.2 | 520 | table plugin for fcitx5 |
| fcitx5-keyman | V:0.03, I:0.04 | 235 | Multilingual: Keyman plugin for over 2000 languages |
Consider că metoda de introducere a caracterelor japoneze pornită în mediul
englez („en_US.UTF-8”) este foarte utilă. Iată cum am
procedat cu IBus pentru GNOME în Wayland:
Install the Japanese input tool package ibus-mozc (or
ibus-anthy).
Selectați „Configurări” → „Tastatură” → „Surse de introducere” → faceți clic
pe „+” în „Surse de introducere” → „Japoneză” → „Japoneză
mozc (sau anthy)” și faceți clic pe „Adaugă” dacă nu a fost activată.
Puteți alege câte surse de intrare doriți.
Conectați-vă din nou la contul dvs. de utilizator.
Configurați fiecare sursă de intrare făcând clic dreapta pe pictograma barei de instrumente din interfața grafică.
Comutați între sursele de intrare instalate cu ajutorul SUPER-SPACE; (SUPER este, de obicei, tasta Windows).
|
Indicație |
|---|---|
|
Dacă doriți să aveți acces la un mediu de tastatură numai cu alfabetul, cu
tastatura fizică japoneză pe care shift- |
For Wayland:
The im-config package does nothing and can be removed
safely.
You probably don't need to set environment variables except for the backward compatibility etc.
If you need to set environment variables, create a file such as
~/.config/environment.d/50-input-method.conf to set them.
For X Window:
Install the im-config package.
Intrarea din meniul interfeței grafice pentru
im-config(8) este „Metoda de introducere”.
Alternativ, executați „im-config” din shell-ul
utilizatorului.
im-config(8) se comportă diferit dacă comanda este
executată din contul root sau nu.
im-config(8) activează cea mai bună metodă de introducere
a datelor din sistem ca metodă implicită, fără nicio acțiune din partea
utilizatorului.
Consola Linux poate afișa doar un număr limitat de caractere. (Pentru a
afișa limbi non-europene pe consola fără interfață grafică, trebuie să
utilizați un program terminal special, cum ar fi
jfbterm(1).)
Mediul grafic (Cap. 7, Sistemul de interfață grafică) poate afișa orice caractere în UTF-8, atâta timp cât fonturile necesare sunt instalate și activate; (codificarea datelor originale ale fonturilor este asigurată și transparentă pentru utilizator).
The Debian system can be configured to work with many international console
arrangements using the console-setup package.
# dpkg-reconfigure console-setup
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/console-setup". This also
configures the Linux console font. Many non-ASCII characters including
accented characters used by many European languages can be made available
with dead key, AltGr
key, and compose key.
Există mai multe componente pentru configurarea consolei de caractere și a
caracteristicilor sistemului ncurses(3).
Fișierul „/etc/terminfo/*/*”
(terminfo(5))
Variabila de mediu „$TERM” (term(7))
setterm(1), stty(1),
tic(1), și toe(1)
Dacă intrarea terminfo pentru xterm nu
funcționează cu un xterm non-Debian, schimbați tipul
terminalului, „$TERM”, din „xterm”
într-una dintre versiunile cu funcționalități limitate, cum ar fi
„xterm -r6” atunci când vă conectați la un sistem Debian
de la distanță. Consultați
„/usr/share/doc/libncurses5/FAQ” pentru mai multe
informații. „dumb” este cel mai mic numitor comun pentru
„$TERM”.
În configurația regională Asia de Est, caracterele din caseta de desen, grecești și chirilice pot fi afișate mai late decât lățimea dorită, ceea ce poate cauza o aliniere incorectă a ieșirii din terminal (a se vedea Anexa standard Unicode nr. 11, 4.2 Caractere ambigue).
Puteți rezolva această problemă:
gnome-terminal: Preferințe → Profiluri → Numele
profilului → Compatibilitate → Caractere cu lățime imprecisă →
Înguste
ncurses: Definiți mediul export
NCURSES_NO_UTF8_ACS=0.