kuroko/test/testCodecsModule.krk.expect
HarJIT a580a835b8
Codecs revisited (#28)
* xraydict functionality and usage improvements

Add a filter_function to xraydict, allowing fewer big data structures. Make
uses of xraydict prefer exclusion sets to exclusion lists, to avoid
repeated linear search of a list.

* Make `big5_coded_forms_from_hkscs` a set, remove set trailing commas.

* Remove `big5_coded_forms_from_hkscs` in favour of a filter function.

* Similarly, use sets for 7-bit exclusion lists except when really short.

* Revise mappings for seven 78JIS codepoints.

Mappings for 25-23 and 90-22 were previously the same as those used for
97JIS; they have been swapped to correspond with how the IBM extension
versus the standard code are mapped in the "old sequence" (78JIS-based)
as opposed to the "new sequence".

Mappings for 32-70, 34-45, 35-29, 39-77 and 54-02 in 78JIS have been
changed to reflect disunifications made in 2000-JIS and 2004-JIS, assigning
the 1978-edition unsimplified variants of those characters separate coded
forms (where previously, only swaps and disunifications in 83JIS and
disunifications in 90JIS (including JIS X 0212) had been considered).

This only affects the `jis_encoding` codec (including the decoding
direction for `iso-2022-jp-2`, `iso-2022-jp-3` and `iso-2022-jp-2004`),
and the decoding is only affected when `ESC $ @` (not `ESC $ B`) is used.
The `iso-2022-jp` codec is unaffected, and remains similar to (but more
consistently pedantic than) the WHATWG specification, thus using the same
table for both 78JIS and 97JIS.

* Make `johab-ebcdic` decoder use many-to-one, not corporate PUA.

Many-to-one decodes are not uncommon in CJK encodings (e.g. Windows-31J),
and mapping to the IBM Corporate PUA (code page 1449) would probably make
it render as completely the wrong character if at all in practice.

* Switch `cp950_no_eudc_encoding_map` away from a hardcoded exclusion list.

* Codec support for `x-mac-korean`.

* Add a test bit for the UTF-8 wrapper.

* Document the unique error-condition definition of the ISO-2022-JP codec.

* Update docs now there is an actual implementation for `x-mac-korean`.

* Further explanations of the hazards of `jis_encoding`.

* Sanitised → Sanitised or escaped.

* Further clarify the status with not verifying Shift In.

* Corrected description of End State 2.

* Changes to MacKorean to avoid mapping non-ASCII using ASCII punctuation.

* Extraneous word "still".

* Fix omitting MacKorean single-byte codes.
2022-07-23 08:32:54 +09:00

31 lines
14 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

b' Brko'
b'? ? Br?ko'
b'\\U0001f3e3 \\xed Br\\u010dko'
b'🏣 í Brčko'
Знакомство у Ростовых была вся Москва; денег в нынешний год у старого графа было достаточно, потому что были перезаложены все имения, и потому Николушка, заведя своего собственного рысака и самые модные рейтузы, особенные, каких ни у кого еще в Москве не было, и сапоги самые модные, с самыми острыми носками и маленькими серебряными шпорами, проводил время очень весело. Ростов, вернувшись домой, испытал приятное чувство после некоторого промежутка времени примеривания себя к старым условиям жизни. Ему казалось, что он очень возмужал и вырос. Отчаяние за невыдержанный из закона божьего экзамен, занимание денег у Гаврилы на извозчика, тайные поцелуи с Соней — он про все это вспоминал, как про ребячество, от которого он неизмеримо был далек теперь. Теперь он — гусарский поручик в серебряном ментике, с солдатским Георгием, готовит своего рысака на бег, вместе с известными охотниками, пожилыми, почтенными. У него знакомая дама на бульваре, к которой он ездит вечером. Он дирижировал мазурку на бале у Архаровых, разговаривал о войне с фельдмаршалом Каменским, бывал в Английском клубе и был на ты с одним сорокалетним полковником, с которым познакомил его Денисов.
 日本國民は、正當に選擧された國會における代表者を通じて行動し、われらとわれらの子孫のために、諸國民との協和による成果と、わが國全土にわたつて自由のもたらす惠澤を確保し、政府の行爲によつて再び戰爭の慘禍が起ることのないやうにすることを決意し、ここに主權が國民に存することを宣言し、この憲法を確定する。そもそも國政は、國民の嚴肅な信託によるものであつて、その權威は國民に由來し、その權力は國民の代表者がこれを行使し、その福利は國民がこれを享受する。これは人類普遍の原理であり、この憲法は、かかる原理に基くものである。われらは、これに反する一切の憲法、法令及び詔勅を排除する。 №
 日本國民は、正當に選擧された國會における代表者を通じて行動し、われらとわれらの子孫のために、諸國民との協和による成果と、わが國全土にわたつて自由のもたらす惠澤を確保し、政府の行爲によつて再び戰爭の慘禍が起ることのないやうにすることを決意し、ここに主權が國民に存することを宣言し、この憲法を確定する。そもそも國政は、國民の嚴肅な信託によるものであつて、その權威は國民に由來し、その權力は國民の代表者がこれを行使し、その福利は國民がこれを享受する。これは人類普遍の原理であり、この憲法は、かかる原理に基くものである。われらは、これに反する一切の憲法、法令及び詔勅を排除する。 №
 日本國民は、正當に選擧された國會における代表者を通じて行動し、われらとわれらの子孫のために、諸國民との協和による成果と、わが國全土にわたつて自由のもたらす惠澤を確保し、政府の行爲によつて再び戰爭の慘禍が起ることのないやうにすることを決意し、ここに主權が國民に存することを宣言し、この憲法を確定する。そもそも國政は、國民の嚴肅な信託によるものであつて、その權威は國民に由來し、その權力は國民の代表者がこれを行使し、その福利は國民がこれを享受する。これは人類普遍の原理であり、この憲法は、かかる原理に基くものである。われらは、これに反する一切の憲法、法令及び詔勅を排除する。 №
유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류공영에 이바지함으로써 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다. 똠방각하
天地玄黃 宇宙洪荒 ∥ 日月盈昃 辰宿列張 ∥ 寒來暑往 秋收冬藏 ∥ 閏餘成歲 律召調陽 ∥ 雲騰致雨 露結為霜 ∥ 金生麗水 玉出崑岡 ∥ 劍號巨闕 珠稱夜光 ∥ 果珍李柰 菜重芥薑 ∥ 海鹹河淡 鱗潛羽翔 ∥ 龍師火帝 鳥官人皇 ∥ 始制文字 乃服衣裳 ∥ 推位讓國 有虞陶唐 ∥ 弔民伐罪 周發殷湯 ∥ 坐朝問道 垂拱平章 ∥ 愛育黎首 臣伏戎羌 ∥ 遐邇壹體 率賓歸王 ∥ 鳴鳳在樹 白駒食場 ∥ 化被草木 賴及萬方 ∥ 蓋此身髮 四大五常 ∥ 恭惟鞠養 豈敢毀傷 ∥ 女慕貞絜 男效才良 ∥ 知過必改 得能莫忘 ∥ 罔談彼短 靡恃己長 ∥ 信使可覆 器欲難量 ∥ 墨悲絲淬 詩讚羔羊 ∥ 景行維賢 克念作聖 ∥ 德建名立 形端表正 ∥ 空谷傳聲 虛堂習聽 ∥ 禍因惡積 福緣善慶 ∥ 尺璧非寶 寸陰是競 ∥ 資父事君 曰嚴與敬 ∥ 孝當竭力 忠則盡命 ∥ 臨深履薄 夙興溫凊 ∥ 似蘭斯馨 如松之盛 ∥ 川流不息 淵澄取映 ∥ 容止若思 言辭安定 ∥ 篤初誠美 慎終宜令 ∥ 榮業所基 籍甚無竟 ∥ 學優登仕 攝職從政 ∥ 存以甘棠 去而益詠 ∥ 樂殊貴賤 禮別尊卑 ∥ 上和下睦 夫唱婦隨 ∥ 外受傅訓 入奉母儀 ∥ 諸姑伯叔 猶子比兒 ∥ 孔懷兄弟 同氣連枝 ∥ 交友投分 切磨箴規 ∥ 仁慈隱惻 造次弗離 ∥ 節義廉退 顛沛匪虧 ∥ 性靜情逸 心動神疲 ∥ 守真志滿 逐物意移 ∥ 堅持雅操 好爵自縻 ∥ 都邑華夏 東西二京 ∥ 背邙面洛 浮渭據涇 ∥ 宮殿盤鬱 樓觀飛驚 ∥ 圖寫禽獸 畫彩仙靈 ∥ 丙舍傍啟 甲帳對楹 ∥ 肆筵設席 鼓瑟吹笙 ∥ 升階納陛 弁轉疑星 ∥ 右通廣內 左達承明 ∥ 既集墳典 亦聚群英 ∥ 杜稿鍾隸 漆書壁經 ∥ 府羅將相 路俠槐卿 ∥ 戶封八縣 家給千兵 ∥ 高冠陪輦 驅轂振纓 ∥ 世祿侈富 車駕肥輕 ∥ 策功茂實 勒碑刻銘 ∥ 磻溪伊尹 佐時阿衡 ∥ 奄宅曲阜 微旦孰營 ∥ 桓公匡合 濟弱扶傾 ∥ 綺迴漢惠 說感武丁 ∥ 俊乂密勿 多士寔寧 ∥ 晉楚更霸 趙魏困橫 ∥ 假途滅虢 踐土會盟 ∥ 何遵約法 韓弊煩刑 ∥ 起翦頗牧 用軍最精 ∥ 宣威沙漠 馳譽丹青 ∥ 九州禹跡 百郡秦并 ∥ 嶽宗恆岱 禪主云亭 ∥ 雁門紫塞 雞田赤城 ∥ 昆池碣石 鉅野洞庭 ∥ 曠遠綿邈 巖岫杳冥 ∥ 治本於農 務茲稼穡 ∥ 俶載南畝 我藝黍稷 ∥ 稅熟貢新 勸賞黜陟 ∥ 孟軻敦素 史魚秉直 ∥ 庶幾中庸 勞謙謹敕 ∥ 聆音察理 鑑貌辨色 ∥ 貽厥嘉猷 勉其祗植 ∥ 省躬譏誡 寵增抗極 ∥ 殆辱近恥 林皋幸即 ∥ 兩疏見機 解組誰逼 ∥ 索居閒處 沈默寂寥 ∥ 求古尋論 散慮逍遙 ∥ 欣奏累遣 慼謝歡招 ∥ 渠荷的歷 園莽抽條 ∥ 枇杷晚翠 梧桐早凋 ∥ 陳根委翳 落葉飄颻 ∥ 游鯤獨運 凌摩絳霄 ∥ 耽讀翫市 寓目囊箱 ∥ 易輶攸畏 屬耳垣牆 ∥ 具膳餐飯 適口充腸 ∥ 飽飫烹宰 飢厭糟糠 ∥ 親戚故舊 老少異糧 ∥ 妾御績紡 侍巾帷房 ∥ 紈扇圓潔 銀燭煒煌 ∥ 晝眠夕寐 籃筍象床 ∥ 弦歌酒讌 接杯舉觴 ∥ 矯手頓足 悅豫且康 ∥ 嫡後嗣續 祭祀烝嘗 ∥ 稽顙再拜 悚懼恐惶 ∥ 箋牒簡要 顧答審詳 ∥ 骸垢想浴 執熱願涼 ∥ 驢騾犢特 駭躍超驤 ∥ 誅斬賊盜 捕獲叛亡 ∥ 布射遼丸 嵇琴阮嘯 ∥ 恬筆倫紙 鈞巧任釣 ∥ 釋紛利俗 並皆佳妙 ∥ 毛施淑姿 工顰妍笑 ∥ 年矢每催 曦暉朗耀 ∥ 琁璣懸斡 晦魄環照 ∥ 指薪脩祜 永綏吉劭 ∥ 矩步引領 俯仰廊廟 ∥ 束帶矜莊 徘徊瞻眺 ∥ 孤陋寡聞 愚蒙等誚 ∥ 謂語助者 焉哉乎也 ∥ いろはにほへとちりぬるをわかよたれそつねならむうゐのおくやまけふこえてあさきゆめみしゑひもせす
🏣 í Brčko
Знакомство у Ростовых была вся Москва; денег в нынешний год у старого графа было достаточно, потому что были перезаложены все имения, и потому Николушка, заведя своего собственного рысака и самые модные рейтузы,
 日本國民は、正當に選擧された國會における代表者を通じて行動し、われらとわれらの子孫のために、諸國民との協和による成果と、わが國全土にわたつて自由のもたらす惠澤を確保し、政府の行爲によつて再び戰爭の慘禍が起ることのないやうにすることを決意し、 №
유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 똠방각하
天地玄黃 宇宙洪荒 ∥ 日月盈昃 辰宿列張 ∥ 寒來暑往 秋收冬藏 ∥ 閏餘成歲 律召調陽 ∥ 雲騰致雨 露結為霜 ∥ 金生麗水 玉出崑岡 ∥ 劍號巨闕 珠稱夜光 ∥ 果珍李柰 菜重芥薑 ∥ いろはにほへとちりぬるをわかよたれそつねならむうゐのおくやまけふこえてあさきゆめみしゑひもせす
🏣 í Brčko
Знакомство у Ростовых была вся Москва; денег в нынешний год у старого графа было достаточно, потому что были перезаложены все имения, и потому Николушка, заведя своего собственного рысака и самые модные рейтузы,
 日本國民は、正當に選擧された國會における代表者を通じて行動し、われらとわれらの子孫のために、諸國民との協和による成果と、わが國全土にわたつて自由のもたらす惠澤を確保し、政府の行爲によつて再び戰爭の慘禍が起ることのないやうにすることを決意し、 №
유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 똠방각하
天地玄黃 宇宙洪荒 ∥ 日月盈昃 辰宿列張 ∥ 寒來暑往 秋收冬藏 ∥ 閏餘成歲 律召調陽 ∥ 雲騰致雨 露結為霜 ∥ 金生麗水 玉出崑岡 ∥ 劍號巨闕 珠稱夜光 ∥ 果珍李柰 菜重芥薑 ∥ いろはにほへとちりぬるをわかよたれそつねならむうゐのおくやまけふこえてあさきゆめみしゑひもせす
-
replace in DBCS state successful: ??塩鹽??/〒
xmlcharrefreplace in DBCS state successful: 염盐塩鹽䝼丽/〒
Encoding not misaligned: 令?むかしむかしあるところに
Delimiter not swallowed: foo = "Quoted string ****令?"
"robert<72>"
日本國民は、<EFBFBD>正當に選擧されたNo: <20>; Yes: ¥; Yes: ¥; No: <20>; No: <20><>; Yes: ~; No: <20><>; Yes: ~; No: <20>; Yes: ‾; Yes: .;
日本國民は、正當に選擧されたNo: <20>; Yes: ¥; Yes: ¥; No: <20>; No: <20><>; Yes: ~; No: <20><>; Yes: ~; No: <20>; Yes: ‾; Yes: .;
coördination
co<EFBFBD>rdination