多様な文字画像の自動生成
Automatic Character Image Generation Using Deep Learning

手書き文字認識モデルを深層学習で訓練するためには,大量の手書き文字が必要になります。手書き文字は書き手の個性が表出されますので,様々な書体が存在し書き手によって千差万別です。そのような誰が書いた文字でも認識できるようにするためには,相当量の手書き文字画像を用意し,人工知能に覚えさせなくてはなりません。

しかし,手書き文字画像を準備することは容易ではありません。例えば,日本語の場合はおおよそ7000種類もの文字が存在します。そのようなデータを収集するのは相当なコストが必要です。そこで,西崎研究室では,1文字あたり少しの書き手の手書き文字を「種」にして,様々な手書きパターンの文字を生成する研究に取り組んでいます。近年では,画像生成を行う人工知能が開発されてきており,この技術を応用しています。

下図はその例です。たとえば,ある人が書いた「あ」や「い」を入力としたとき,この文字の「クセ」を抽出し,その「クセ」を使って,「あ」や「い」以外の文字を生成しています。

In order to train a handwriting recognition model using deep learning, a large number of handwritten characters are required. Since handwritten characters express the personality of the writer, there are many different fonts and styles, and they vary from writer to writer. In order to be able to recognize such characters written by anyone, it is necessary to prepare a considerable amount of handwritten character images, and the artificial intelligence model should learn them.

However, it is not easy to prepare handwritten character images. For example, in the case of Japanese, there are approximately 7,000 different sorts of characters. The cost of collecting such data is quite high. Therefore, Nishizaki Lab. is tackling the research to generate various handwriting patterns by using a few handwritten characters per character as “seeds.” In recent years, artificial intelligence for image generation has been developed, and we are applying this technology.

The figure below shows an example. For example, if the input is “あ” or “い” written by a person, the “peculiarities” of these characters are extracted, and the “peculiarities” are used to generate characters other than “あ” or “い”.