日本文化が好きすぎるタイ人女性、ジャップ国文学研究者の反対に負けず「くずし字」を判読するAIを開発。グーグルAI部門に引き抜かれる

1 : 2021/10/08(金) 18:32:18.76 ID:OGxZsmYvd

源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」
https://ledge.ai/tkasasagi-interview/

「好き」という気持ちに勝るものはない。

何かを成し遂げた人物はその才能が注目されがちだが、人一倍「好き」という気持ちを持っていることが多い。
カラーヌワット・タリンさんもそうだ。

ビデオ会議の背景は『源氏物語絵巻』。
気さくで明るい人柄だが、古典のくずし字が読まれない日本の現状には不満をあらわにする。
彼女からは古典文学が「好き」という気持ちがあふれ出していた。

タリンさんはタイの首都・バンコク出身。
日本の古典文学に魅了され、大学院進学とともに1人で来日した。
大学院での専攻は『源氏物語』の古注釈ながら、古典文学の魅力を少しでも多くの人に伝えるために、
AI(人工知能)によるくずし字認識に取り組み始めた。

彼女が開発したくずし字認識スマホアプリ「みを(miwo)」はSNS上などで大きな話題になった。
スマホやタブレットのカメラでくずし字資料を撮影し、ボタンを押すだけで、
AIが1枚あたり数秒でくずし字を現代の文字に変換するアプリだ。精度は江戸時代の版本では約95%におよぶ。

彼女は2021年8月31日にROIS-DS人文学オープンデータ共同利用センター(CODH)、
国立情報学研究所(NII)を退職し、9月6日にグーグル合同会社 AI開発部門 Brainチームの
リサーチ・サイエンティストとして入社した。

「異色の経歴」という言葉があるが、タリンさんほどこの言葉がふさわしい人物は存在しないだろう。
何が彼女を突き動かしているのか。

「子どもの頃、友だちによく『日本マニア』と言われていました」

タリンさんは子ども時代を振り返ってそう言う。

■くずし字が読めず成績が「F」になって泣いた
「どちらかと言うと、オタクタイプの子どもでした。
あんまり外で遊ばず、自分の興味があるものはすごく興味があるものの、
興味がないものにはまったく興味を持てなくて……」

当時、彼女を魅了したのはなにより日本文化だった。
マンガやアニメより、食べ物や着物など日本文化全般に興味があった。
10歳頃から父に言われてプログラミング教室に通う傍ら、日本語に関する本を買い、
独学で日本語の勉強も始めた。

日本の古典文学に興味を持ったのは、タイの大学で日本語学科に通う学生時代に
『あさきゆめみし』に出会ったことがきっかけだ。
漫画家の大和和紀さんが紫式部の『源氏物語』全54帖を忠実に漫画化した作品である。

「当時の日本文化が好きなので、心を動かされたのは背景設定です。
物語や登場人物より、着物や年中行事など、いろんな背景に興味を持ちました」

「日本マニア」だった子ども時代から日本文化全般への興味は変わらなかった。
『あさきゆめみし』を何度も何度も読み直し、大学院で『源氏物語』を研究することを決意した。

2008年4月に1人で来日し、文部科学省の国費外国人留学生の奨学金で、早稲田大学の大学院に通い始めた。
科目履修生2年、修士2年、博士6年。あわせて10年間、完全に「文系大学院生」としての生活を送った。

「くじけそうなことは数え切れないほどありました。くずし字を読もうとするだけで精一杯でした。
ほかのことをする余裕はなかったです」

まわりには韓国人や中国人の留学生もいたが、ほとんどが日本人の学生だった。
自分だけが古文や漢文を理解できなかった。ほかの人の研究を追いかけるだけで大変だった。

最悪の挫折は修士1年生の頃、文献研究の授業の期末試験で出題された
和歌の資料にあるくずし字が読めず、成績が「F」だったことだ。

「ショックで落ち込んで、学校で友だちとすごく泣きました。今でも記憶に残っています。
でも、この分野で研究している限り、くずし字は読めなければいけません」

彼女は持ち前の負けん気を武器に、書道教室でかな書道を習いはじめた。
自分自身でくずし字が書けたら、絶対に読めるようになると考えたからだ。
次第に書道をしながらくずし字の読み方を身につけ、書道の四段を取るまでに上達した。

2 : 2021/10/08(金) 18:32:43.32 ID:YCX9XNUQa
///
20 : 2021/10/08(金) 18:33:22.77 ID:OGxZsmYvd
■くずし字認識がやりたくて東大の先生に手紙を書いた

大学院生活は就職や収入など、最後の最後まで悩みが尽きなかった。
ついに10年目になり、間もなく卒業が迫っていた。

その頃、自分は本当に何をやりたいのかを真剣に考え始めた。
彼女の専門である古注釈の研究では、古典の資料をコピーして
1枚1枚確認して翻刻(くずし字から現代文字に変換)するのが一般的だ。

『源氏物語』は全54帖あり、1度の資料調査だけでコピー用紙が数百枚から数千枚になる。
1枚1枚を確認しながら、注釈を探し出すのは大変な作業だった。
この作業を機械化できたらどれほど楽になるだろう?

プログラミングは経験があるとはいえ、10年以上も離れていた。
Googleで検索したところ、機械学習をするためには一定の性能を持つGPUを積んだパソコンが必要だとわかった。
偶然にも、奨学金の同期で、東京大学で画像処理の研究をしているタイ人の友人がいた。
タリンさんは彼女の指導教員に手紙を書いた。

「手紙を書いたとき、すごく怖かったです。変な人が来たと思われたり、
本当にできるのかと思われたりして、断られたたらどうしようと。
だけど、断られても自分はスタート地点に戻るだけで、何も損することはないと思いました」

その東大の先生に詳しい状況を説明すると、研究室の特別交流学生として受け入れてくれることになった。
スタート地点に戻るどころか、目標に向けて大きく前進した。
しかも、早稲田大学と東京大学には交換学生プログラムがあった。

「多くの学生には必要がないし、文系と理系の違いもあるので、あまり知られていないプログラムです。
書類を出したとき、早稲田の事務所の人たちは『え? なんで』と大混乱していました」

彼女の人生はまさに前人未到だった。しかし、ここでも彼女の「好き」という気持ちは揺るがなかった。
半年間、機械学習の勉強をし続け、毎日朝から晩まで研究室に通った。

■半年以上休まずくずし字認識アプリの開発に明け暮れた
くずし字認識を始めた頃は仕事や将来についてあまり考えていなかった。
ただくずし字認識に取り組み、給料を得られるところで働けたら良いなとぼんやり思っていた。
幸運にもその願望はかなった。

「ちょうどCODHがくずし字認識の研究者を募集していて、
面接で『くずし字認識を研究していますが、まだうまくできていない』と正直に伝えたら受かりました。
研究室探しも就職も運が良く、いろんな幸運が重なったと感じています」

彼女はまず日本古典籍くずし字データセットを用いたAIくずし字OCR(光学文字認識)サービス
「KogumaNet(コグマネット)」と「KuroNet(クロネット)」の開発を手がけた。

古文の翻字には専門家でも1枚あたり約10分はかかるが、これらのAIでは1枚を約1秒で解読できる。
書物にもよるが、1時間あれば1冊を翻刻可能だ。
古注釈の研究が大変だから検索の部分を機械に任せたい。
彼女の理想は少しずつ現実のものになっていった。

次に開発したのが話題のくずし字認識スマホアプリ「みを」だった。

「みを」は『キテレツ大百科』に登場する「神通鏡(じんつうきょう)」に着想を得て、開発を決めた。
発明道具の設計図をまとめた冊子「奇天烈大百科(きてれつだいひゃっか)」は
一見すると何も書いてないようだが、「神通鏡」というメガネをかけることで、
文字が浮かび上がってくる仕組みだ。

21 : 2021/10/08(金) 18:33:42.04 ID:OGxZsmYvd
日本人にはくずし字の前には「大きな壁」が立ちはだかっている。
現在、くずし字をきちんと読める人は日本の人口のたった約0.01%、約数千人しかしない。
現存するくずし字資料は古典籍が300万点以上、古文書は個人の日記や手紙などを含めると1億点以上におよぶ。

「この壁をちょっとでも超えられるような道具があれば、原文、とくにくずし字資料に触れる機会が
多くなるかもしれない。くずし字を読めない人が多いならば、読めるような状況にすれば良い。
そう思って開発を決めました」

タリンさんはインターネットのオンラインコースでスマホアプリの開発について勉強を始め、
半年以上休みなく開発に明け暮れた。
さまざまな機能を追加したいと思えば思うほど、開発は複雑になっていった。

脳裏には大学院時代にくずしが読めず挫折した経験があった。
上級者向けにもさまざまな機能を搭載したが、初心者向けにはくずし字学習を手助けするため、
AIの認識結果に対応する元画像の領域を切り抜き、認識結果と字形を比較できる機能を追加した。

「みを」は『源氏物語』第14帖「みをつくし」にちなんだ名前だ。
「みをつくし」は「みを(船の水路)」を示すために立ててある杭(くい)を指す。
「みをつくし」が人々の水先案内となるように、「みを」がくずし字資料を読むための
道案内になることを目指した。

■国文学研究者たちの厳しい意見に悩まされた

新たな目標に向けて突き進む一方で、悩まされたのは国文学研究者たちの厳しい意見だった。

「『AIによるくずし字認識は望ましくない』『こんな研究は良くない』という国文学研究者が何人かいました。
古典文学を広めようと頑張っているのに、自分が所属する分野の人たちに反対されるのはつらいです」

開発中に何度も沈んだ気持ちになった。
それでも、くじけそうな気持ちより古典文学が「好き」という想いと、
その魅力があまり伝わっていない日本の現状を変えたいという気持ちのほうが勝った。

「SNS上で高校の教育に古文・漢文は必要ないという意見をよく目にします。
だけど、高校のときに古文・漢文が必要ないと言ったら、人生でいつ勉強するんですか。
大抵の日本人は大学に入ったら、古文・漢文に触らなくなります。
本屋さんには古典文学の本はたくさん売っていますが、古典文学、
とくに原文を読もうとする人は少ないのではないでしょうか?」

気さくで笑顔が絶えない彼女の顔がちょっとだけ曇った。日本にはこんなに良い古典がたくさんある。
古典を忘れないで。古文・漢文を勉強して。国内外の講演でいつもそう訴えている。
古典文学への想いがあふれ出してきた。

彼女は現状を変えるために、自分だけを信じて「みを」の開発に没頭した。
間もなくグーグルへの転職が迫っていた。それまでにアプリのリリースを間に合わせたかった。

いよいよリリースの日がやって来た。
ダウンロード数はリリースから48時間以内にiOSとAndroid両方で約1万1000件を超えた。
彼女の予想を大きく上回る数字だった。

「家にある掛け軸が読めず、でも勉強する時間がとれずで悩んでいたので早速DLしてつかわせていただきました。
やっと長年のもやもやがすっきりしました! 無料なので、
子どもたちの勉強にも安心して使えるのもとてもありがたいです」

SNS上でタリンさんに寄せられたコメントだ。
彼女の研究は日本人の心をほんの少しずつ、しかし確実に動かし始めた。

37 : 2021/10/08(金) 18:36:42.00 ID:ozigImhK0
>>21
誰でも読めるようになったらワシらの聖域が侵されるだろ!!
といういかにもジャップらしい拒絶反応
69 : 2021/10/08(金) 18:41:20.13 ID:tWKzb8B6M
>>21
>「SNS上で高校の教育に古文・漢文は必要ないという意見をよく目にします。

確かに言ってる有名人いましたね

23 : 2021/10/08(金) 18:33:51.12 ID:OGxZsmYvd
■古典文学が「好き」という気持ちは揺らがなかった

子ども時代は「日本マニア」と言われたとタリンさんは語っていた。
そんな彼女はなぜここまでやって来られたのか。

確かに、彼女自身が言うとおり、運は良かった。
子ども時代に父に言われてプログラミングを始め、奨学金を受け取って来日できた。
東大の研究室に入り、就職も決まった。
多くの場面で彼女は恵まれていたと言える。しかし、本当にそれだけなのか。

大学時代に『あさきゆめみし』に出会い、タイから日本に1人で留学。
くずし字が読めなくて、かな書道を始めた。くずし字をもっと多くの人々に届けるためにAIを身につけた。
逆境に打ち勝てるように、何かが彼女を突き動かしているように思える。

「負けず嫌いなところはありますが、それだけではないですね。
1つ言えることは古典や写本が『好き』ということです。たぶん、本自体が『好き』なんだと思います。
博物館に行っても文字があるものには興味が湧きますが、文字がないものはさほど興味が湧きません」

答えはシンプルだった。
早稲田の大学院で『源氏物語』の研究しているときにも、東大でくずし字認識の勉強を始めるときにも、
何度も何度も悩んだ。
今でも自分と同じ分野なのに、一部の文学研究者に批判されてくじけそうな気持ちになることもある。
でも、古典文学が「好き」という気持ちはずっと揺るがなかった。
今、彼女の想いは日本人の心を少しずつ動かし始めている。

「一言で言うと、たぶん『好きだから』ですね」

彼女はまた気さくに笑いながらそう言った。

24 : 2021/10/08(金) 18:34:11.41 ID:uxEtybU50
ジャップがまた負けたのかw
25 : 2021/10/08(金) 18:34:22.35 ID:QOBD8ESna
日本人の大半が読めないだろ
26 : 2021/10/08(金) 18:35:07.90 ID:0rv6+rjT0
俺もあんなもん読めねーよ
27 : 2021/10/08(金) 18:35:10.69 ID:L38gHE3J0
(ノ∀`) アチャー
28 : 2021/10/08(金) 18:35:16.82 ID:fUqGOAKVp
miwo酷すぎて使い物にならんのだがよくこれで審査通ったな
29 : 2021/10/08(金) 18:35:23.37 ID:7Z6B0eCyd
もう日本文化だけ残して文化をしてた日本人は消滅すればいいのでは
30 : 2021/10/08(金) 18:36:02.53 ID:E3YDqNoV0
文字認識はずっと研究開発してるもんな
31 : 2021/10/08(金) 18:36:07.32 ID:6LvbzCTU0
自文化すら扱えないジャップさん…
32 : 2021/10/08(金) 18:36:29.40 ID:CGWdcsMOM
むしろ読める日本人が1万人以上いるのが驚き
33 : 2021/10/08(金) 18:36:30.45 ID:oMfsTdk30
まぁ日本に認められなかった時点でどこまで行っても本物にはなれないんですけどねw
34 : 2021/10/08(金) 18:36:30.74 ID:L745j5YZ0
すげえじゃん
35 : 2021/10/08(金) 18:36:32.31 ID:79JRm7fN0
この優秀な頭脳がジャップですら読まない古文書のAI制作に使われるとか世界の損失だろこれ😨
36 : 2021/10/08(金) 18:36:38.76 ID:WwQRovWvd
マジな話人文学者の無能というか害悪レベルは異常
アイツラ学者という肩書に憧れたうんちだろ
38 : 2021/10/08(金) 18:37:00.47 ID:kKBC4zIz0
この子可愛いよね
39 : 2021/10/08(金) 18:37:04.00 ID:LY1GAWhYa
まじでええ話やんか~
40 : 2021/10/08(金) 18:37:12.32 ID:iaCcmL0MM
こういうのも文化の盗用じゃないの?
41 : 2021/10/08(金) 18:37:17.75 ID:ByaI+quh0
声だけでかい日本人は無視すればいいよ
42 : 2021/10/08(金) 18:37:31.30 ID:cZkrKuEu0
次は書道家だな
43 : 2021/10/08(金) 18:37:40.71 ID:gwFK5D9c0
国文学者が反対したのは、AIで読めてしまったら古文書読解スキルでマウントできなくなってしまうからだよなー
44 : 2021/10/08(金) 18:37:44.93 ID:E3YDqNoV0
(ヽ´ん`)「文学部で源氏物語とか研究してます」
45 : 2021/10/08(金) 18:37:45.75 ID:wsHmUp+U0
古文書なんか安倍が捨てるんだからいらないよ
46 : 2021/10/08(金) 18:37:46.21 ID:8cTjyUrTd
なんで反対してるんだよ
47 : 2021/10/08(金) 18:37:55.97 ID:Mn8enctN0
日本には最早日本精神が無いからな
その無いことこそがジャップ精神かも知れんが
48 : 2021/10/08(金) 18:37:56.60 ID:1Ueojcex0
足を引っ張るのがジャップ文化なんだが?こいつジャップのこと好きじゃねーだろ
49 : 2021/10/08(金) 18:38:10.03 ID:M6B73/Fu0
なんやこの人優秀すぎないか
50 : 2021/10/08(金) 18:38:49.23 ID:cSYZD70Q0
崩し字もいいけど普通の文字を判読するAIを作って欲しいわ
OCRですらポンコツじゃん
51 : 2021/10/08(金) 18:38:49.73 ID:CbND3e7Lr
反対っていうかジャップの文系の連中にAI開発なんてできるわけ無いじゃん
54 : 2021/10/08(金) 18:39:37.00 ID:UEGlNPxoa
高齢ちんさんは低脳
56 : 2021/10/08(金) 18:40:20.41 ID:luFP9l6aa
日本史学科いたけどなんの教育もなしに次回から魏志倭人伝やりまーす翻訳してきてねで放置だからな
読めるわけねーだろ
57 : 2021/10/08(金) 18:40:23.45 ID:rAjBzh8Z0
天才過ぎて何もコメントできない
58 : 2021/10/08(金) 18:40:24.02 ID:E3YDqNoV0
ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)は、情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や、人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など、オープンサイエンス時代の新しい人文学研究を展開します。

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)は、情報学という新しい学術分野での「未来価値創成」を使命とする国内唯一の学術総合研究所です。情報学における基礎論から人工知能やビッグデータ、Internet of Things(IoT)、情報セキュリティーといった最先端のテーマまでの幅広い研究分野において、長期的な視点に立つ基礎研究、ならびに、社会課題の解決を目指した実践的な研究を推進しています。
また、大学共同利用機関として、学術情報ネットワーク(SINET5)をはじめ、学術コミュニティー全体の研究や教育活動に不可欠な学術情報基盤の構築・運用に取り組むとともに、学術コンテンツやサービスプラットフォームの提供などの事業を展開・発展させています。さらに、事業を通じて得られた知見と学術研究から得られた知見を相互にフィードバックすることにより、実課題に対応した学術研究と、最先端技術を利用した事業を行っています。
そして、こうした活動を通じて人材育成と社会貢献・国際貢献に努めるとともに、国内外の大学や研究機関はもとより民間企業やさまざまな社会活動との連携・協力を重視した運営を行っています。さらに、独創的・国際的な学術研究の推進や先導的学問分野の開拓を目指す大学院教育にも取り組んでいます。

60 : 2021/10/08(金) 18:40:28.88 ID:UNqNOvqw0
また日本という足枷を乗り越えて成功した人がいるのか
これもう日本の誇りだろ
61 : 2021/10/08(金) 18:40:30.10 ID:kZwZAaHG0
AIで判読されたら国文学者様のお仕事がなくなっちゃう
64 : 2021/10/08(金) 18:40:43.28 ID:q0ojMIpVd
源氏物語なんてマイナーな書物に魅入られてしまったから活躍できてないだけで能力凄すぎるだろ
67 : 2021/10/08(金) 18:41:07.54 ID:GWUVHyUXa
ジャップ学者「俺の仕事がなくなる。こんな研究はやめろ」
68 : 2021/10/08(金) 18:41:12.07 ID:tuwZWdRXM
こういう天才型の発達とただの発達は何が違うんだ

コメント

タイトルとURLをコピーしました