| adm | Find | login register |
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
整理了注音、國音二式、威妥瑪拼音(Wade-Giles, 又稱威瑪拼音、韋氏拼音)、通用、漢語拼音、耶魯拼音基本的聲母、韻母的對照表。有志開發拼音輸入法的可以拿去用。 是我自己整理的,限於個人學識、資料、時間、耐心有限,所以不保證沒有錯誤,但我已盡力讓這張表正確了,如果有問題歡迎回報。 原本希望能有最 reliable 的來源,但不知道去哪裡找威妥瑪、通用、漢語拼音、耶魯拼音正式的說明,所以只好網路上找看起來比較詳細的。如果有人知道的話,請告訴我,感謝! | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
更新了第一篇的附檔,改用 LibreOffice Calc 來做對照表 (可輸出成 csv,方便處理) 包括注音符號、國音第二式、威妥瑪拼音、耶魯拼音、漢語拼音、通用拼音的對照 一個是簡易的聲母、韻母對照,一個是所有中文讀音的對照(包含音調) 所有對照都是按 XX拼音 <-> 注音 製作出來的 資料很多,雖我已盡量細心,但可能還是會有手誤或資料不完整而搞錯,希望有研究拼音的人幫忙抓蟲 授權的話,跟 gcin 一樣就好了,我不在意 edited: 2
| |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
筆者在這之前完全沒有使用過漢語拼音輸入法的經驗,現在為了嘗試看看能否製作出 全字庫規格的漢語拼音表格檔案,開始google資料,嘗試去了解漢語拼音到底是怎麼一回事, PS:若要利用拼音方式查詢字碼的話,依下列步驟進行 ----------------------------------------------------------------------------- 第一個欄位:注音 這三個欄位,其他欄位刪除,原始列數有1540列,整理之後片段內容如下, 數字鍵 聲調 然後筆者發現一個狀況了,就是 漢語拼音 真正要輸入字根組成漢字的時候, 所以筆者比須把原始檔案中上千行甚至上萬行的類似 bǎ 的型態字串, 修改改成類似於 ba3 我有找過一些現成工具和資料,例如像是 這是中國大陸的網站資源,可是發現有bug ,就是在其介面輸入和輸出的注音符號輕聲符號 另外 泰瑞版小小輸入法 現在就是腦袋瓜一團混亂,理不出一個頭緒. ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
我嘗試看看描述我的問題,我有google找到, 泰瑞拼音輸入法(完整版)更新日期:2010.09.26 再來有沒有比較完整論述的資料,有列出所有的類似像是 lü = lv 或 lyu 的資料總整理, a ā á ǎ à 這是CNS_pinyin_yyyymmdd.txt 漢語 欄位所有出現的字母, ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
必需先弄清楚,該表格的數字,是否有其他意義,或者該表格用多個數字,代表多個讀音?
裝來用用看不就知道了 XD
用「搜尋→取代」就可以了吧? | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
就是在「搜尋→取代」的過程發現了"我認為"的bug~導致進行下一步會有困難~ 但全字庫單位可能並不認為那是bug~ 我寫email過去了~至於對方會不會及時回應並且判定那算是bug~真的天知道~只好等待了~
我還得在摸索看看到底該怎麼去描述全字庫那個有一列兩個聲調符號的注音表格檔案的狀況~真傷腦筋~ ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; edited: 1
| |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
這篇純粹是情緒上的吐苦水~ 當資料查詢的越多~越整理思緒~ 越會覺得我念幼稚園時時期~當年那些所謂的大人~ 所謂規範定義中文電腦資訊相關架構~並讓其定案通過的那些所謂的資訊部門長官~ 真的很糟糕~為什麼會讓 big5 這麼爛的一個規範通過了~ 當年會力推big5 這個規範並且蓋章讓其定案成為國家實質標準的那位電腦資訊部門長官~ 就算已經老死過世了也要挖出來鞭屍一下~ big5 這個只有13000多字的中文資訊電腦規範~簡直比清朝時代包含有47000多字的紙本印刷的康熙字典還要糟糕~ 真是點點點~~~
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
遇到一個新的狀況,我有一個需求是需要在漢語拼音模式下(美式英文qwerty傳統鍵盤鍵位), 能夠拼出 注音符號(包含聲調符號)的每一個單獨符號字元, 再來嘗試 MsWindows環境 Win7家用進階版 + MS新注音輸入法10.1, http://hyperrate.com/thread.php?tid=22712 兩著的資訊, 在 MS新注音輸入法10.1 實際去輸入字母並於選字視窗取得字元, ㄅ 由這個表中可知, 筆者找不到 ㄅ ㄆ ㄈ ㄉ ㄊ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄝ ㄥ 這幾個注音符號所對應的漢語拼音(美式英文傳統鍵盤鍵位字母), 後來筆者突發奇想,找了gcin的原始碼的內容檔案 \gcin-2.7.6.1\data\pinyin.cin, ㄅ bo 可是這個檔案的內容有1~3碼不等, 筆者找不出看起來比較有"公信力"的資料來源, 現在就是卡在這裡,筆者想要找偏向繁體中文思維的漢語拼音的美式英文傳統鍵盤鍵位字母 ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
這個問題或許有點蠢~但我真的不知道該從何查起~ 只好嘗試問問看~ 在 GF3006-2001 汉语拼音方案的通用键盘表示规范 其中有一段提到 4.3.4 韻母ê在通用鍵盤上用E加A組合鍵位替代表示. 這句到底是指 EA 還是指 AE 啊? 我突然發現我的國文閱讀好像有問題了!居然無法理解這句!? 然後google又查不出所以然來!找不到相關佐證資料來確認到底是指 EA 還是指 AE ?
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
就是既然同樣都是漢語拼音學習閱讀發音用的字母, 那麼 yū 這個y加上u上面有一條線的組合, ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
yū 上面的 bar 是聲調符號,不打聲調是 yu,但其實 yu 的 u 是 ü,只是 ü 前面沒有聲母或者聲母是 j、q、x 時,上面兩個點省略,寫成 u。 為什麼漢語拼音的規則這麼複雜?我也不知。 | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
我先框起來再慢慢消化~
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
Apan Liao joined: 2008-10-30 posted: 112 promoted: 23 bookmarked: 4 Tai-Chung City, Taiwan |
http://www.edu.tw/files/site_content/M0001/pinyinshouce.pdf 文中的第六頁和第七頁可以看一下. 這也是漢語拚音比較難記的地方. | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
參考了coolcd網友的 拼音.ods 和 全字庫的資料表格, ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
筆者完成全字庫注音輸入法表格檔2012年版本之後, 接下來想要挑戰看看從來沒學過的全字庫漢語拼音輸入法表格檔, 4E50 ㄌㄜˋ 也就是說,政府提供的對照表格中,unicode碼位和注音符號會有重複的狀況發生, ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
| |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
網頁中第二個步驟開始我就 看沒有 了~ 再來我是要在11萬列的資料中挑出重複的部分~ 真是傷腦筋阿~ 其實最源頭的方式就是期望提供資料的全字庫單位修正相關問題狀況~ email寫了也寄了~現在就等回應了~ 除非對方沒回應~我再想辦法自行解決~ 傷腦筋阿~ 為什麼全字庫單位提供的資料狀況這麼多~ 一下是表格裏頭~ 把漢字的"一"混入到注音符號的"ㄧ"~ 一下又是字型裡頭的字沒有擺在九宮格的正中間~ 諸如此外狀況一大堆~ 下次有會出現什麼狀況呢!? (為什麼在使用win7+srware iron+微軟新注音v10.1 在 hyperrate.com 輸入的注音符號"ㄧ"會變成豎的而不是橫的~以前重沒遇過~這下我又困惑了!?)
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
Apan Liao joined: 2008-10-30 posted: 112 promoted: 23 bookmarked: 4 Tai-Chung City, Taiwan |
雖然我不知道怎麼用試算表軟體進行挑選重覆資料, 不過用 sql 語言還蠻好處理的. 請參考 "How to find duplicate rows with SQL". 不知是否方便給小弟看您表格的一小部分? 說不定用 Libreoffice 就可以解決了. | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
提供一個或許可行的組裝方向, 下載 CnsPhonetic2012-03.cin (CnsPhonetic2012-03.zip) 解壓縮後用進階純文字編輯器開啟,並截頭去尾, 碼位 \u4E50 注音 ㄌㄜˋ 鍵位 xk4 這組注音和漢字對照表,重複了兩次, 筆者自行推論可能不只這一組,如果筆者的推論是正確的,那這下可麻煩了, ps. 一個工作天過去了~全字庫單位沒有回信~有凶多吉少的感覺~ ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
guest |
Hi IanHo,
不會寫程式,又需要在 OOo/LibO 的 Calc 中處理重覆的資料很簡單。先把原來 11 萬行的檔案複製一份用來操作,再將這份用來操作的檔案打開,利用「資料」> 「排序」然後再選擇你要篩選的目標欄位就可以了。跑完「排序」,你就會看到每個重覆的資料被「排在一起」囉!
祝 安平
Peter. w
| |||||||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
可以用vi(或vim),用vi那個檔打開之後輸入: :sort u 就可以看到效果,不過順序會被重排,這是比較麻煩的地方, 下面這個參考連結內容我沒試過,也許可以試試看,說不定資料不會重新排序 http://www.ehow.com/how_5073108_remove-duplicate-lines-vi.html ------------------------------------------------------------------- | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
Thanks, 又學到一招 不過 IanHo 不愛打指令,應該是不會去用 vi/vim 的 XD | |||||||||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
| |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
可是這樣的結果似乎還是必須把11萬列的內容"全部"都用肉眼瀏覽一遍~才能一個一個找出重複的部分~ 或許之前沒有描述得更詳細些~我期待的功能是軟體介面能"高亮""反白"或著另外有訊息室窗之類的標示出重複的儲存格.
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
Apan Liao joined: 2008-10-30 posted: 112 promoted: 23 bookmarked: 4 Tai-Chung City, Taiwan |
我處理了一下這個檔案,以 sqliteman 生成不具有重覆內容的「列」之後的結果,請見附件檔(以 tab 分隔的 utf8 編碼的純文字檔)。 | |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
下載查詢之後,可惜還是"無法"藉由這個檔案,查詢得知重複了的漢字倒底有哪些個?這是我需要知道的資訊, 另外我會期望,不知是否會有全圖形介面操作的技巧和方法,來得知重複了的漢字有哪些個(由軟體挑出而非肉眼逐一比對)? 初估相減之下,表格中似乎是有303個漢字重複了,我想知道我製作的表格中,重複的是哪303個漢字?
----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; | |||||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
現在討論的東西似乎與主題沒直接相關了,如想討論如何用圖形介面軟體消除重覆行,請開新討論串,如想討論如何將全字庫轉換成漢語拼音,也請開新討論串,感謝。 edited: 1
| |||||||||||||
IanHo joined: 2010-08-28 posted: 476 promoted: 7 bookmarked: 4 Taipei |
現在回覆會不會太晚? ----以下簽名檔------------------------------------------------------------ 發表過的網路文字作品; |
| adm | Find | login register |