Column:Interview
2019/04/01 データ圧縮プログラムを開発
2019/04/01 ザリガニの新品種づくりに挑戦
2019/03/01 かながわ選挙カレッジに参加
2019年4月1日号
データ圧縮プログラムを開発
ゲノム解析を加速させる
医学部医学科基礎医学系分子生命科学 キリル・クリュコフ奨励研究員

膨大な容量に及ぶゲノムデータ。その圧縮や解凍には数日かかることもあり、それを扱う研究者にとっては大きなストレスになっているという。
 
医学部医学科のキリル・クリュコフ奨励研究員は、この問題を解消するゲノムデータ圧縮プログラム「Nucleotide Archival For mat=NAF」を開発。2月25日に生命情報学分野の最有力誌である『Bioinformatics』のデジタル版に掲載された。
 
「より多くの研究者に利用してもらおうとオープンソースにしたところ、200件以上ダウンロードされました」と笑顔を見せる。
 
ロシア出身のクリュコフ研究員は、母国の大学で学んだ情報科学の知識を生かしてゲノム解析の研究を開始。2013年8月から今西規教授の研究室で、感染症の原因を素早く特定して治療につなげるための、病原菌のゲノムデータベース作成に取り組んでいる。
 
「研究室では約21万種に及ぶバクテリアの全ゲノム配列を蓄積した「GenomeSync」を作成しています。このデータを一般的なgzip形式で圧縮した場合の容量は744ギガバイトですが、NAFなら548ギガバイトで済み、しかも約3分の1の時間で解凍できます」
 
NAFは、同種の13のプログラムと比べ、圧縮率も解凍速度もトップ。全データを正確に圧縮・解凍できることに加え、国際的なデータ形式に対応しているため、世界中の研究者が利用できることも特徴だ。
 
「今後は、データを圧縮したままゲノム配列を検索できる方法も研究する計画です。ゲノムを用いた診断システムの構築をさらに加速・進展させたい」

 
(写真)「多くの研究者にNAFを活用してほしい」とクリュコフ研究員