Обучение искусственного интеллекта: Фотография кошки с обратной стороны — это все равно фотография кошки

Гены составляют лишь небольшую часть человеческого генома. Между ними находятся широкие последовательности ДНК, которые указывают клеткам, когда, где и в каком количестве должен использоваться каждый ген. Эти биологические инструкции известны как регуляторные мотивы. Если это звучит сложно, то так оно и есть.

Инструкции по регуляции генов записаны в сложном коде, и ученые обратились к искусственному интеллекту, чтобы взломать его. Для изучения правил регуляции ДНК они используют глубокие нейронные сети (ГНС), которые отлично справляются с поиском закономерностей в больших массивах данных. ДНС лежат в основе таких популярных инструментов искусственного интеллекта, как ChatGPT. Благодаря новому инструменту, разработанному доцентом лаборатории Колд Спринг Харбор Питером Ку, ДНС для анализа генома теперь можно обучать на гораздо большем количестве данных, чем можно получить только с помощью экспериментов.

«В случае с ДНК, мантра гласит: чем больше данных, тем лучше», — говорит Ку. «Нам действительно нужно, чтобы эти модели видели разнообразие геномов, чтобы они могли изучать надежные сигналы мотивов. Но в некоторых ситуациях ограничивающим фактором является сама биология, потому что мы не можем генерировать больше данных, чем существует внутри клетки».

Если ИИ учится на слишком малом количестве примеров, он может неправильно истолковать, как регуляторный мотив влияет на функцию гена. Проблема в том, что некоторые мотивы являются редкостью. В природе встречается очень мало примеров.

Чтобы преодолеть это ограничение, Ку и его коллеги разработали EvoAug — новый метод дополнения данных, используемых для обучения ДНК. Вдохновением для EvoAug послужил набор данных, скрытый от посторонних глаз — эволюция. Процесс начинается с создания искусственных последовательностей ДНК, которые почти соответствуют реальным последовательностям, найденным в клетках. Последовательности настраиваются так же, как генетические мутации естественным образом изменили геном в ходе эволюции.

Затем модели обучаются распознавать регуляторные мотивы, используя новые последовательности, с одним ключевым допущением. Предполагается, что подавляющее большинство изменений не нарушит функции последовательностей. Ку сравнивает расширение данных таким образом с обучением программы распознавания изображений с помощью зеркальных изображений одной и той же кошки. Компьютер учится тому, что фотография кошки с обратной стороны все равно остается фотографией кошки.

Реальность, говорит Ку, такова, что некоторые изменения ДНК нарушают функции. Поэтому EvoAug включает второй этап обучения с использованием только реальных биологических данных. Это направляет модель «обратно к биологической реальности набора данных», — объясняет Ку.

Команда Ку обнаружила, что модели, обученные с помощью EvoAug, работают лучше, чем модели, обученные только на биологических данных. В результате ученые вскоре смогут лучше понять регуляторные ДНК, в которых записаны правила самой жизни. В конечном итоге это может дать совершенно новое понимание здоровья человека.