cccАвторство:
Норман Гоундри

компютърен програмист,
преводач, и референтен писател,
специализиран в редки даоистки религиозни текстове
и медицински произведения.
изследвания отдел
на Университета на Британска Колумбия


100x150Редакцията:
Николас Керролл

Cтратег, анализатор на интернет
и софтуер дизайнер на Hastings Research
Лекциант за електронната търговия и търсене
в UCLA и Stanford University,
научен сътрудник в университета в Хаваи

Оригиналът: Why Unicode Won’t Work on the Internet:
Linguistic, Political, and Technical Limitations

Дата: 04 юни 2001 г.

Резюме

Unicode, полу-търговски еквивалент на UCS-2 (ISO 10646-1), е широко приет за цялостно решение за електронно картографиране на всички символи на езици в света, 16-битов разделителен характер позволява теоретично общо над 65 000 знака. Въпреки това, пълен набор от символи на света добавя до повече от 170 000 знака. Този документ обобщава политически вълнения и технически несъответствия, които започват да се проявяват в Интернет като следствие на това мнение. (За по-технически наклонени: Unicode 3.1 няма да работи един от двамата.)

Бележка на редактора (Николас Керолл): В китайците, се използват и двете Уейд-Джайлс и пинин романизации, в зависимост от това, което е по-известен за конкретната дума. На историята за източни езици и политиката са доста задълбочени; занимаващи се с непосредствените технически последици от вестника читателите могат да пожелаят да прескочите направо към „неспособността на Unicode за пълно овладяване източни символи“.

Китай (китайски)

Китайския е един от най-старите говорим и писмен език, за да се намери в употреба днес. Мандарин се говори от над 1,3 милиарда души, и то и по-новите, опростен метод на писане на това, използвано от народа на континентален Китай не е нищо по-малко от една модификация на един процес, който е бил изслушан в разговори за повече от две хилядолетия. Много други народи отидох за да го използвате по същия начин, че тя е била използвана за първи път в Китай. Сред тях са Япония, Корея, Тайван и Виетнам. През първите три, китайски все още формира гръбнака на всички нормални писане и говорене.

Семенната книга Вигер е за символите и изграждане на китайски, публикувана през 1915 г., беше да стане източник на defacto срещу което би (и все още трябва) да се сравнява всички други – с няколко уговорки. Сред тях е забележимо отклонение от негова страна срещу даоизма, който става все по-очевидно в своя анализ на Tao Цанг (т.е. даоистки Канонът на официални писания [написано „DaoZang“ в ПинЮн романизацията на континентален Китай])

Това се дължи както на религиозното и културното си обучение като йезуит отец в Китай (докато беше в ужасяваща самия процес на разкъсване далеч от своите хиляди години като тоталитарна държава, управлявана от йерархията на императори и имперски бюрократи), а също и защото на общата западна вреда на деня срещу източна култура и общество.

Когато това леко се появява в темата в ръка е настройката Вигер става, за първи път в популярния печат, формализирането на мнение, че има огромно количество „излишни“ символи, както ненужно и пречи на бързото марш в модерната епоха с които Китай идваше да се пребори (дали е искал или не). Фактът на въпроса е, че това пристрастие, и неговата ярка непознаване на реалната стойност на такова голямо количество от така наречените „уволнение“, продължава и до днес, и по този начин продължава да бъде защитен пояс точка между ориенталци и заблудени западняци ,

Също така трябва да се знае, че има повече от няколко грешки, някои очебийно, някои не, които Вигер идентифицирани в книгата си като „прекомерна умножение“, в която неприязънта си става все по-ясно: „1. Причини за възникване на прекомерния размножаването на символи … Първо, невежеството на книжниците, които постоянно са излизали наяве дефектни форми, които са били глупаво възпроизведени чрез потомството, а след това необходимостта чувствали да даде имена на новите неща Империята се разраства, ученето се разпространява. писането е станала публична нещо, процесът Хсин-шън [фонетични комплекси, в които една част има значение, докато другите посочва произношението] бъде лесна, всички взеха да го От тази хаотични ферментация, без посока, без контрол, без критика, скочи заедно с полезни символи, хиляди безполезни двойки „да даде обща представа за това, което той намерил толкова ужасяващо хаотично, на различни количества знаци са, както следва:

От около 800 г. пр.н.е. [Преди Чести (Христианска) ера], и до момента на около 300-200 г. пр.н.е., размерът на символите, които се използват сравнително постоянен; е около 3300 общо. В края на тази епоха, сумата започва да расте с бързи клещи, така че сто години преди началото на първото хилядолетие е имало около 7380 индексирани. Тази сума набъбна до малко над 10 000, като първата година НЕ. С течение на времето върху, са добавени повече и повече знаци на общата до голяма речник на К‘анг Хси (завършена през 1716 НE) кодифицирана снимачната площадка в състоянието, в което се вижда днес.

Вигер заявява в книгата си, че това (и следователно цялата санкционирани набор цитира като последна инстанция, тъй като тогава) „… съдържа 40 000 знака, които могат да бъдат ясно разделени, както следва: 4000 знака в обща употреба; 2000 собствени имена и двойки с ограничена използвате;.. 34000 чудовища на друго практическо приложение ние сме далеч от легендарния броя на 80 000 обикновени символи, приписани на китайския език „Що се отнася до броя отива, на К‘анг Хси наистина съдържа приближи към 40 000 знака в удебелен шрифт, но в нейните обяснителни текстове, дадени заедно с всеки един от тези знаци, както и упълномощеният от край добавка на останалите знаци по време на процеса на първия си печат, има най-малко няколко хиляди повече, така че да е безопасно да се каже, че Вигер е неправилно и че нормалния брой е по-близо до 45-50000 общо.

Конкретният размер и съдържание на Комунистическата-оторизиран сет в употреба днес от хората на континента е много трудно да формулирам – тя изглежда да варира в зависимост от обстоятелствата. Значителни усилия започна – след свалянето на националистите за Тайван – да се рационализира и модернизира образованието на масите, така че Китай може да започне истински опит да се изравнят с народите на Запада. Реформа на общ минимален набор от знаци, достатъчни за най-честата употреба и образование на ниво гимназия, се привежда в действие, и мандарин, както се говори в северната беше постановено като първи национален език. Много символи счита за твърде сложни, за да пишат и си спомнят и голям процент от дубликати бяха отстранени напълно, така че списъкът, както се преподава в училищата е малко по-голяма от 6000.

Един роман и много ефективен набор от алфанумерация известен като пинин романизация е въведен – това гениално устройство е много подобен на практика до Ромаджи на японците, но с добавянето на „Акценти“, които дават на „тонове“ (мандарин използва четири), така че необходими за разбирането на смисъла на самите думи. Също така, една значителна част от символите, които остават са били подложени на процес на Жянхуа Ханцзи („опростен китайски йероглифи“), така че те също са лесно да се пише.

Но това последно изменение е имал силно влияние върху няколко поколения студенти, които вече са били научени от новия комплект, с изключение на останалата част от символите на миналото. Жянхуа Ханцзи може и да бъде изцяло нов писмен език, за тя има ефекта на отказване на достъп до хилядите години на литературата, който предшестваше комунистическа преврат през 1949 г. Това е наложило пренаписването на стандартните произведения, включително и в основата на старите класики, така че те да могат да бъдат изучавани – превалутирането същество мълчаливото знак, че тези произведения са „одобрени“ от страна на правителството и по този начин също имат официално одобрение на мислите и концепциите са намерени вътре.

Тъй като това „прекъсване“ на делата на миналото се е доказал като толкова тежка, а в някои случаи, професионално неудобно, търсенето на китайското правителство, че новото 6,000+ ядрото на Жянхуа Ханцзи бъдат включени заедно с несанкционираноразмер на възрастните, класически Ханцзи знака (чак до пълната сума, ако се счете за необходимо някой ден), не е неразумно изобщо, предвид обстоятелствата. И това носи добавена смисъл, че, въпреки че основната сърцевина на символите, преподавани в основната чрез вторични нива на държавното образование е останала малко постоянен, самият факт, че комунистически Китай запазва правото да добавяте или изваждате или да променят от К‘анг Хси компилация означава, че опитите на Запада да се втвърди и индекс на писмена система на Китай винаги ще бъде по подобен начин нестабилна.

Тайван (китайски)

Тайван (бивш Formosa) изникна през 1949 г., когато правителството на националистическото на Чан Кайши се оттегля там от континента след поражение от войските на Мао Цзедун [Mao Tse Tung] и комунистите. След вън-на-на-пътя производител на селскостопански продукти, Тайван днес има една от най-оживените икономики в света. Тъй като повечето от които не са аборигени хора, които обитават острова са дошли от близката провинция Фуджиянин в Югоизточна Китай, основната му нагласа остава не само от общо опозиция на комунистите и тяхното управление, но също така съдържа голям елемент на много по- по-стари негодувание на поглъщане от манджурите от района северно от Китай от управляващата династия Мин на Юга в 1544 CE Въпреки това, на официалния език на Тайван е мандарин (защото това е езикът висшата класа, говорен от правителството, откакто уволнението на Мин и последвалото създаване на столицата на страната в Пекин на север).

Тайван продължава да има изключително силни и близки връзки с „китайците в чужбина“, които могат да бъдат намерени по цялата планета, бягане продължителен търговията докато все още поддържа жизнени линии до Тайван и Хонконг. Гледката, която никой не може да намали формалните корените на миналото с безнаказаността е яростно проведе. Тайван продължава да бъде бастион за наследството на предварително комунистически Китай и нейното древно минало. Заедно с Корея и Япония, големи части от населението са будистки и Confucist в тяхната религиозна и философска перспектива. Тайван има добавена условие, че въпреки че основният му религия е будизъм, таоизъм работи близо секунда. Това означава, че те искат да бъдат в състояние да получите достъп до писанията на тези три системи, най-вече като на „Аналекти на Конфуций“ (написан малко след смъртта на Конфуций в 479 г. пр.н.е.) и неговия съюзник корпус от произведения, будисткия канон (DaZang) е извлечена от първоначалното Пали Канона записано в пети век пр.н.е., и даоистки Канон (DaoZang), писането на която започна още през 300 г. пр.н.е., въпреки че неговите философски корени са много по-стари. (Самостоятелно Даоистката Канон работи за 1270 тома 200 страници на писане и чертежи на всеки.)

Тя е почти пълна загуба на време, за да се каже колко въздействие на тези три групи произведения сами са имали върху миналото и настоящето грим на страните от Далечния Изток. За да се изследва само тези произведения изисква способността да се чете класическите символи, и това е една от най-големите причини за отказа на тайванците да ги откажа.

Сингапур (китайски)

Тази малка страна, икономически важна далеч отвъд неговия размер, използва основно същата система на писане характер; използване на Mandarin като своя официална говоримия език, се прилагат същите правила, за да го направя като тези на комунистически Китай. В действителност, Сингапур е единствената друга страна, за да са себе си съюзник толкова тясно по този начин на независима основа, с ПинЮн и Жянхуа Ханцзи се преподава в училищата наред дълбоко уважение към класическата К‘анг Хси базирани, пълно характера структура на миналото.

Корея (корейски)

„Продължаващото използване на китайски йероглифи в [тази] японски и корейски език е довело до широко разпространено погрешно схващане, че съществува тясна връзка между тези три езика. По-близък поглед разкрива, че приликата свършва със заемането на символите, когато е съществувал никакъв писмена система и да продължи използването на „заем“ думи на корейски и японски от китайски.

„Исторически погледнато, в близост културна асоциация между Китай и Корея доведе до неизбежното заемането на думи. Въпреки Korean граматика и интонация са напълно различни от китайски. Всъщност Брус Грант заяви в своето въведение към Ръководство за корейските символи“, китайски и английски има повече общи неща, отколкото китайски и корейски. Korean е най-вероятно е член на Ural-алтайското езиково семейство и е подобен на японски; интересно е да се отбележи, че финландската също е под-член на групата „[Цитирано от корейски с китайски йероглифи 1, от Ричард Б. Руччи]

Имайте предвид, че това, което се съчленени в горната публикация е използването на говоримия език, а не на писмените идеографики (редовните китайски „герои“, които са в най-случая, пиктографски отколкото фонетично, това се нарича ханча от корейците). Корейците е създал свой собствен фонетично-базирани писмен език, хангул, в 1446 НE, и може да се считат за най-ярките строителство, дори и до днес. Технически, това е проектиран от самото начало, за да може да се опише всеки звукчовешкото гърлото и устата е в състояние да произвежда в речта, както и да направите това в пространството на не повече от това, което може да бъде написано с голяма яснота в 24 X 24 [точка-на-инчов] пространство.

Въпреки това до най-новите времена, около 60% от общата лексика все още се прави с думи, заимствани от китайската. След освобождаването на Корея от японската контрол през 1945 г., и още повече, че след големия приток на нещата Западните заведени от съюзниците по време на Корейската конфликти, тенденцията е създаден която продължава и до днес, че са се разчита все повече и повече върху скорост и простота на фонетичната ХАНГУЛ.

Това скорошно период от време е само кратко премигване в общия съществуването на Корейския писане и литература. Това със сигурност предхожда японската използването на формализирана система за писане, тъй като последната е научил за китайски йероглифи чрез контакт с корейски съда, и конфуцист и будистки учени, малко преди 100 НE От друга страна Корея със сигурност може да се докаже, че са били с помощта на обикновената китайски писмения език от поне наченки на периода Воюващи (403-221 г. пр.н.е.) в Китай, когато касапницата за цялата страна и унищожаването принудителната миграция на тези, които не биха могли (или не би) оцелее през отвесни физически способности и хитър. Много потърсили убежище в по-спокойни климат – на Корейския полуостров е такъв рай през много десетилетия на постоянна бойна.

Тези дни, тя е обща за вестници и подфункции на чуждестранна телевизия, за да бъде отпечатан изцяло в фонетичен език на хангул. Но в образованието то все още остава, че завършилите Близък училище трябва да бъде опитен в около 900 китайски йероглифи, и тези, които отиват към завършване на гимназията трябва да се научат друг 900, с което общият брой до 1800.

Само е грамотен в употреба на хангул със сигурност не е пълна грамотност. Корейски учени твърдят, че тя изисква ниво на владеене много по-голяма от тази сума да се разбере написаното от миналото. (Най-често това се мисли като преди 1945 освобождението от руснаците в северната и Западните сили на юг от японска окупация. По-точно, миналото трябва да се счита времето преди началото на тази професия, през 1910 г. , когато използването на Корейския писане и език са били забранени от имперска практика).

Корейски учени с право настояват, че истинската грамотност е да имаш способността да прочетените произведения на всички индивиди от тези писатели от миналото, и такива неща обикновено съдържат баланс от не повече от 30% хангул до 70% китайски йероглифи. Колежи и университети винаги са известни на този факт, а дори и в днешно време тези институции да изисква използването на 70-30 процента разцеплението в цялата писмена форма, генерирани там вътре. От друга страна, Ханча във вестниците е вече официално се ограничава до около сумата, която е научил в гимназията, така че еднаквост на разбиране може да бъде постигната в нормално населението.

Друга област на раздора е в използването на имена. Въпреки че сега е обичайно да се видят хангул използва, за да обясни име на човек, хората все още са изключително горди с възможността да напише името си в класическия начин, а това означава повече от просто разбиране на ханча (и съпътстващата употреба на калиграфията ) е необходимо да бъде в състояние да не се появи необразовани по тези въпроси.

Япония (японски)

Япония е специален случай на използването на хан символи, тъй като използването на писмен език в тази страна има ниво на сложност, което дори надминава тази на Китай. През 1946 г. новоинсталираните правителство издаде указ, че има отсега нататък ще бъде официален база от 1850 канджи (на японски произношението на китайски хантцзу символите, които използва). Известен като Toyo канджи (тоест „ежедневна употреба“ канджи), забележително в този указ е твърдението, че от този момент нататък, дадената [т.е., лични] имената на всички японски може да бъде взето само от него и никой друг източник. Това беше и одобрена, ограничен набор от канджи да се използва от пресата. Като такава тежка промени скоро се оказа твърде обременително, списъкът е изменена впоследствие няколко години по-късно (1951), за да се даде възможност на още 92 символи за използване в собствени имена. Също така, бяха добавени 28 знака в основното тяло на 1850 Toyo канджи, те се използва обикновено и призната съкращения и съкратени варианти (с точно количество от 28 знака съответно се отстранява от основното тяло така, че размерът на 1850 може да остане като постоянна). Въпреки това, Тойо канджи не може да се надява да покрие също така използването на семейството [т.е., фамилия] и имена. Те се сблъскате с десетките хиляди; различните възможности бутки ума. Също така имайте предвид, че общият размер на 1 850 знака наскоро (1977) бил променен отново, а сега номера 1950 символа общо, това е известен като Койку канджи (или „образователна“ канджи).

Това е само началото на това, което трябва да бъде един от най-сложните и интензивни системи на писане в света. Но първо кратка историческа обиколка, така че някои от причините за това в основата заплитане може да бъде разбран.

Както в случая с Корея, Япония говоримия език не е представена в най-ранната форма на писане. Беше нормални китайски йероглифи (хантцзу) изключително. Доказателство за това се използва дати още 100 НE Малко по-късно, той се въвежда в страната от две корейски учени, Ванг и Аджикки, които бяха изпратени в императорския двор да действа като учители, по време НE речници трети век бяха изпратени над 285 в, така че тази дата може да се счита, че на официалното въвеждане на писане и неговата структура.

Будизмът пристигна в 552, а заедно с него на много текстове и каноните на своята Canon. Монасите са смятани за едни и същи като учители, а четенето и писането е една необходимост за по-нататъшно проучване и просветление, почитането и уважение се дава на писмени материали и обучение, които са били превишени само от тази на корейците, които първоначално им го даде.

Тук приликата свършва. Япония има четири различни вида писане. Има оригиналния канджи, а други двама, които са фонетично базирани, като това са хирагана и катакана. Също така, там е Ромаджи, което е латинските базирани символите ние сме запознати с на Запад. Канджи може да се използва за да се образува „картинни“ глифове заедно използването му като източник на звуци, толкова, колкото е на китайски език. На суллабари, хирагана и катакана представляват напълно функционални схеми за писане в себе си. Хирагана, което е малко курсив, може да се използва за усилване канджи – всъщност всичко в канджи могат да бъдат написани в хирагана. Катакана, което е много по-голяма гъвкавост на външен вид, отколкото е хирагана, се използва, за да напишете всяка дума, която няма корени в канджи, като най-много чужди думи и идеи, които през вековете са се носеха в обща употреба.

Така е може да се каже, че хирагана може да се образува снимки но катакана може да се образува само звуци, и съвременната наука потвърждава това. Хората с определени мозъчни разстройства или действителни физически щети понякога може да разпознае и функция в една и не на друг, тъй като тези методи оперират двете различни полукълба. Ромаджи се използва с цел да запазят целия писмен нещо да излезе извън контрол, с повечето западни концепции и необходимите думи да се въведе в езика чрез този механизъм. След време тези думи (въпреки че те все още ще запази формата си „Roman“ за известно време по-дълго) ще станат неузнаваеми до хората, те първоначално са били заимствани от, например фразата, „Personal Computer“, който сега е „pasokon“ или „persacom“ в Япония (последните са общи в Нагазаки и прилежащите площи).

Преди настъплението на английски език през последните няколко десетилетия, беше установено, че 41% от думите в употреба в общ разговор и писане са били базирани на китайски (под формата на символи и звуци). Като един изкачва по-високо в области на правителството и академичните среди, този процент съответно се увеличава. Увеличенията, както се преподава в училище, са както следва. 850 канджи се преподават в началното училище, 46-символи в Първа степен, 105 в степен Два, 187 в трети клас, 205 в степен четери, 194 в степен Пет, и 144 в степен Шест. В останалата част на 1950 трябва да бъдат запомнени изцяло от момента на завършване на средното училище в Дванадесет нива. Моля, не забравяйте, че това общо количество е само законната минимална необходимия праг следва да се счита грамотни. И това е, за да се абсорбира напълно, заедно с товара обратно-чупене на други теми.

За да се счита за сериозна читател на „класиците“ на японски литературни и религиозни произведения изисква пълно познаване точно толкова дълбока и широка, колкото тази на учените от Китай. Минимум 10 000 символи и нагоре е задължително, и по-общо могат да бъдат логически удължен до края на пълния канджи (К’анг Хси) речник със своите 50 000 различни идеограми.

Влиянието на последните западни технологии на изток

Повече промяна е извършена в Китай през последните пет години, отколкото през предходната петдесет и че петдесет съдържа повече промени, отколкото в последния хиляди. Това не може да се каже и за Япония и Корея (само защото те започнаха по-рано, и по този начин да постигне състояние на трескава трансформация, която е в ход, а не като съвсем наскоро бе внезапно събуден в състояние на пълен шок при което се установява тичане на място, пълно).

До пристигането на интернет преди няколко години, с помощта на персонален компютър в Япония се смята за белег на необичайно поведение – в страна, която се отврати от нищо извън нормата. Има една стара японска поговорка: „Пиронът, който стърчи получава удряха надолу“. Това означава, че в норма се състои от стреми да бъде точно като всички останали в обществото, а не позволява на себе си по някакъв начин да се превърне в „Индивидуалист“. Това не бива да се надценява колко дълбоко вкоренено тази концепция е, дори и днес.

Персоналните компютри са били точно както подсказва името: нещо, което се използва само от себе си, а оттам и отделени един от останалата част от групата (състояща се от много групи в рамките на групи) – и това действие в крайна сметка ще доведе един да се превърне в аутсайдер, а след това дори извънземно. Прекъсване последва, и това ще стане в състояние на постепенно намаляване и евентуално изключване дори и от самия себе си. Така японците традиционно ще им е трудно да се направи нещо, което води до такова изключване, докато китайците (и в по-малка степен корейците) не страдат от този проблем. В Китай, един е винаги една китайска безусловно, като едно семейство и едно село, без значение колко далеч една е, или колко поколения един е бил далеч.

Но, връщайки се към проблема с лице, което хипотетично индивидуално в Япония: за дълго време, се налага да се използва компютър счита се форма на наказание или мъчения дава на онези, които са били проклет от статута си в работната сила, или лунатик-ресни художник или учен, който би бил най-вероятно вече отбягвани от другите за дълго време, така или иначе, преди те дори да имаш достъп до първия си клавиатура.

Пристигането на Интернет променило всичко това за веднъж и за всички. Терминът „Интернет“ означава „това, което е свързано“, и това е, разбира се, напълно наред с японското общество. Човек може да види, че се развива заедно с клетъчния телефон, който също улеснено „връзка“ 12:59 на групи в блокиращо пътя, се базира на една матрица сред матрици пресичащи града и страната и в крайна сметка цялата планета). Точно както ползване мобилен телефон е изключително висока в Япония, така е и интегрирането на компютър в почти всеки друг дом. Той е евтин, бърз, надежден – и това е уютно.

Но при използването на тази технология, японците страдат от същия проблем като направя китайците и корейците, именно: как да направите обувки рог толкова много знаци в входно устройство (клавиатура, таблет, какво-ли-ти), така че че можеш да направиш това, което другите на Запад правят с прост набор от алфанумерация бяхме минаваше към нас от римляните? Клавиатурата е предназначена за нас в Запада. Така беше стандартната монитора и принтера телеписна-базирани.

Не е случайно, че тези устройства вече са произведени предимно в Истока (с извинение към Hewlett-Packard и тяхната успешна линия на Северен американски построени принтери), а основната причина е, че нивото на качество, което повечето от нас биха се примири с , като с ниска разделителна способност, 40 герой-на-линия зелен екран и единичен-пинов принтер са напълно неизползваеми за хора, нуждаещи се от поколение на символите с висока резолюция във вертикална режим на 24×24 DPI Същото нещо важи и за принтера. Epson излезе с осем-пинов принтер, така че тя може да генерира хирагана и катакана символи в един пропуск – не, така че бихме могли да направим по-хубав, A и B се. Те също така даде принтери „графика“ режими, така че „Картинки“ (най-общо почерк в случай на азиатските си клиенти) биха могли да бъдат отпечатани.

Този капацитет за графика, също е една от основните причини, поради факс машината, така че бързо се превръща в обща тела. Тя може да се възпроизвежда и предава почерка на китайските и японските и корейските знака.

В крайна сметка, с много побутване по протежение на териториите на цвят и графики с висока резолюция, по-добри входни устройства като скенера (които могат да бъдат мислени факс машина за компютри), по-добри изходни устройства като мастилено-струйни и лазерни принтера, а дори и бастардни клавиатури и софтуер, който може да генерира хиляди символи – ако само едно мога да си спомня всеки един от входните кодове. Графични таблети облекчиха болката се налага да си взема нещо за и от компютъра. Но нищо от това не е все още напълно задоволително, а може би и той ще остане в това състояние докато интелигентен, гласово разбирането, „компютър“ най-накрая влезе в ежедневието ни.

Неспособността на Unicode за пълно овладяване на источни символи

Независимо от всичко това, ръстът на интернет е при нас и всички останали на тази планета. Сегашната философия се съдържа в убеждението, че „Английски е новият универсален език на бизнеса“ – така че просто може и да бъде и на езика на всеки, който използва интернет.

Нека перифразирам, че до известна степен: английски е лесно на езика на интернет, но не непременно, че на интернет. Двамата не са взаимно приобщаващо, тъй като повечето хора предполагат. Това е жалко недостатък в западните нагласи. Тя се простира в основите на операционната система, и вече е било разрешено да се навлиза в структурата и инструментите, върху която се гради в Мрежата

ISO и Unicode са се опитали да се справи с този недостатък. Както е посочено, заяви целта Unicode е да позволи на формализирана система на шрифта, за да бъде генериран от списък с разположения числа, които могат да формулират всеки един писмен език на планетата.

За съжаление, това не може, без обширни гимнастика.

Настоящото пермутация на Unicode дава теоретично максимум приблизително 65,000 знаци (действителност е ограничено до 49194 от стандарта). Това на първо изглеждаше повече от достатъчно, за да смели души, които създават в официалните, вариращи от много дълго поредна поредица от номера, на които символите на различни езици са възложени. Това е добра идея, при закрити врата – с изключение на народите, които не бяха поканени на първата страна.

Тези, които не са поканените са включени групите с най-много символи да присвоите. В действителност, тези конкретни брак са били нищо друго освен континентален Китай, Тайван, Корея и Япония.

Реакцията е предвидима, и според мен е оправдано. Китай настоява, че всички негови нормални, официални 6000 знака да бъдат включени, заедно с много „опростени“ вариации, плюс останалата част от по-старите, класически К’анг Хси набор от 40,000+ знака. Това само по себе е достатъчно, за да заемат почти всички от наличното място в целия Unicode / UCS-2 спектър.

Тогава Тайван и отвъдморските китайски (от които има 125 млн, като цяло добре насочен и добре образовани хора) са заявили, че те са имали правото на собствената си пълен набор от К’анг Хси символи – всички от тях в оригиналните им сложни форми. Това беше добавянето на още 50 000 знака, и те не могат да използват една и съща номерация като тези, на които към комунистите на континента.

Между двете групи, имаше вече необходимостта да генерира над 90 000 индивидуални номерирани разположения. Япония се оплаква и заяви, че е не по-малко собственик на собствените си знака (включително „кокуджи“, които са символи, които се появяват, за да бъде китайски извлечени, но всъщност са еднозначно японски), и така трябва да има друг блок, създаден за тях , И тъй като това би могло теоретично да включва всички герои, използвани до сега, ще са необходими още 40,000+ разположения. И накрая, не трябва да бъдат оставени извън кръга на законните ищци, Корея, тъй като свой собствен набор от минали и настоящи обстоятелства, поиска пълната си мярка също.

Това са само някои от многото причини, необходими за да отговарят на тези изисквания сума можеше много лесно да бъдат предприети за общо над 170 000 символа, ако всеки един от народите, изброени по-горе продължава да настоява на своите писмени езикови права на максимум – и там е абсолютно никаква причина да се очаква някаква промяна в желанието си да го направят.

Бележки на редактора (Николас Керолл):

1. Както най-добре мога да кажа – разпит някои от пионерите в ARPAnet и предавателни протоколи – Проницателният тези са напълно наясно с необходимостта да в крайна сметка да се настанят ориенталски символи, преди толкова, колкото от 30 години. Бедата е, че ще задам един китайски или японски или корейски – и това лице, гледайки към набора от символи на техния собствен език, щеше да ги уверя, че Unicode биха били достатъчни. Тя е само, когато получите всички народности в една и съща стая, че проблемът става явна. И с интернет, ние сега всички сме „в една и съща стая.“

2. Допълнителен източник на надзор идва от тенденцията на много западняци да отхвърли по-стари източни символи като „класически“, когато в действителност те все още са в употреба в продължение точно поради тази причина – четене класическата литература.

Защо Unicode 3.1 не решава проблема

Unicode наскоро обяви версия 3.1, която – като излиза от двете „Плана нула“ октета те първоначално се оставя във версия 3.0, с 49 194 знака – ще се добавят още два октета и още 44 946 знака за схемата, за общ сбор от 94,140 ,

Това все още изостава печално кратък от 170,000+ символите необходими.

Ясно е, че 32 бита (4 октета) биха били повече от достатъчни , ако те са били съседен блок . Всъщност, „18-битови“ (262 144 вариации) ще са достатъчни за справяне с символи в света, ако съседен блок.

Но две отделни 16-битови блокове не решават проблема на всички.

Политическото значение на това, изразени в западните условия

За да го изрази в западните условия, как ще английски говорещи като него, ако те бяха внезапно ограничена до азбука, която липсва пет или шест от неговите писма, защото те биха могли да се считат за „подобен“ (като „M“ и „N“ звучене и търсят толкова много като всяка друга) и твърде „комплекс“ („Q“ и „X“ – защо, те са нищо повече познавач „C“ и „Z“). Човек би могъл да подпомогне аналогията с думите английски трябва да се откажат за три от всеки четири думи, които се намират на английски език, на основание, че те са излишни, прекалено неясна, или просто излишно, и модерен словото не било нужно или използването тях. Това ще бъде в края на двете Библията и Шекспир.

Човек трябва да разгледа по-подробно останалите вражди, произтичащи от векове за водене на война. В този смисъл Ориента е малко по-различна от Европа; фурора, който е възникнал над ЕС [Европейският съюз] да я смените с обща валута (еврото) ще бъде нищо в сравнение с врявата, която ще последва, ако французите бяха принудени да използват немската азбука, или англичаните принуден да използва френски азбука. Въпросът Нито ще бъде чисто емоционална. Такива промени ще бъдат повече от една досада, наистина щяха да бъдат заплаха за нечии много езици и начин на мислене.

Аналогията може лесно да се предприемат по-нататъшни, ако вземем предвид политическото напрежение в последните години, както е било отказано различни нации (а понякога и по-късно, отпуснати) членство в ЕС. В същия дух, за да получите вашия език остане извън интернет определено е случай, че са „отрече членство.“

Последните действия на Verisign

Verisign наскоро отвори кутията на Пандора, когато компанията заяви, че е приемал поръчки за URL адреси на езика специално за тези страни, които или желание или търсенето на работа в писмен зададете различни от Latin1.

Компанията се отдръпна малко по вой на страх и гняв от тези, които знаят това няма как да се работи, без да причинява силни болки на тези, които трябва да управляват и да работят на интернет.

Също така, някои от страните отхвърли това като нахалство от страна на Verisign, като се има предвид тази обида към техните усилия към запазване на суверенитета на държавата. Китай е основен страната да излезе и да каже това, с което се отхвърля подобни опити, както се меси във вътрешните си дела. Може би те са прави.

Същата истина, може да се прилага не само за адреси, а на самия Интернет. Не са подходящи инструменти, идващи от Запада да позволи Паяжината, които работят в международен план, както и браузъри, които наистина са прозрачни и безпроблемно в ежедневна употреба за този сегмент от бъдещето. Попитайте някой, който трябва да се използва един и иска да направи нещо различно от това, което може да се генерира с псевдо-ASCII (като френски или немски език, или албанска) – или се нуждае от символи, които са вертикално подравнени, и трябва да заемат минимум . 32 X 32 точки за всеки), за да продължават да вярват, че взаимодействие на интернет може да се направи с ASCII-зависима браузъри и – още по-важното е, Ascii зависим сървъри – е наивна.

Заключение

UCS-2 (с 2-октетите блокове на знак) наистина се очертава като най-обикновена система за използване на характера (и този, който следва първоначалните намерения Unicode е най-достоверно) – с изключение, че по-рано заяви, че има твърде кратко цялостна адрес дължина, за да обхване всички известни символи от всички известни езици.

Прехвърляне на внимание на други Unicode-сертифицирани методики за правене на едни и същи неща, там са UTF-8, UTF-16 и UTF-32. Ще цитирам хартия Unicode е: . „Различни кодиране форми на Unicode са полезни при различни системни среди Например, UTF-32 е малко по-просто в използване от UTF-16, в почти всички случаи заема два пъти съхранението на обща стратегия е да има вътрешно. низ ползване UTF-16 или UTF-8, но да използва UTF-32 за отделните типове данни характер съхранение. „

Това е добре; В действителност повечето компютърни приложения работят по такъв начин вече, и го направиха преди Unicode. Проблемът е, че – дори и в Простото обяснение на това, което е открито прост проблем – не по-малко от три отделни кодифициране формули са взети предвид, за да му отговори. Човек може лесно да се формулират нови стандарти при използване на 4 октетите блокове (безкрайност) – но ги поемането на върха на Unicode 3.1 просто изостря сложността на картографиране на шрифта, като Unicode 3.1 увеличи сложността на UCS-2.

Така че това, накратко, е политически експлозив бъдещето сега сме изправени.

Китайците имат древен израз: „Нищо не е по-силен от една идея, чието време е дошло.“

Дошло е времето. Въпросът сега е: какво ще се тази идея пораснеш и да станеш?

###

 


Норман Гоундри е компютърен програмист, преводач, и референтен писател, специализирана в редки даоистки религиозни текстове и медицински произведения. Той обикновено могат да бъдат намерени заровени дълбоко в ограничено навлизане катакомбите на изследвания Министерството на Университета на Британска Колумбия азиатската, работа с редките даоистки Канон Текстовете намерени в него. Той изразява този личен опит с ограниченията на Unicode: “ Аз наскоро трябваше да се изработи единна фирмена шрифта, състояща се от над 50 000 индивидуални Хан Комплекс знаци, както на тези, дадени в Канг Хси речник на 1710 за моя собствен интерфейс превод ръка програмирани, поради постоянното неудовлетворение не като конкретен характер на разположение за ползване, когато това е необходимо. I погледна внимателно Unicode и след това да го отхвърли, тъй като тя не ми е известно да съдържа дори по едно пълно представител на шрифта индексиране на данните, необходими за спаннинг символи всеки от гореспоменатите групи. „

 


 

Позоваването (оригинал)

Chinese Characters, by Dr. L. Wieger, S.J.

Korean With Chinese Characters 1, by Richard B. Rucci

The Modern Reader’s JAPANESE-ENGLISH CHARACTER DICTIONARY,
by Andrew Nathaniel Nelson, Ph.D
Charles E. Tuttle Company: Tokyo (1962)

Emperor Kang-Hsi’s Character Dictionary,
(full revision of the original of 1716 – in Chinese only)
Yih Mei Book Company, Hong Kong

The Basic English-Chinese / Chinese-English Dictionary
by Peter M. Bergman
Signet-New American Library Press, New York (1980)

The World Chinese-English / English-Chinese Dictionary
New Arts Company, Hong Kong

 

Моля изпращайте коментари за Норман Гоундри

http://www.hastingsresearch.com/net/04-unicode-limitations.shtml
Copyright © 2001 Norman Goundry. Всички права запазени.