一个DNA序列由A/C/G/T四个字母的排列组合-组成。G和C的比例(定义为GC-Ratio )是序列中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度)。在基因工程中,这个比例非常重要。因为高的GC-Ratio可能是基因的起始点。给定一个很长的DNA序列,以及限定的子串长度N,请帮助研究人员在给出的DNA序列中从左往右找出GC-Ratio最高且长度为N的第一个子串。
DNA序列为ACGT 的子串有: ACG , CG , CGT等等,但是没有AGT,CT等等
数据范围:字符串长度满足1≤n≤1000,输入的字符串只包含A/C/G/T字母
输入描述:
输入—个string型基因序列,和int型子串的长度
输出描述:
找出GC比例最高的子串,如果有多个则输出第一个的子串
示例1:
输入
ACGT
2
输出
CG
说明
ACGT长度为2的子串有AC,CG,GT3个,其中AC和GT2个的GC-Ratio都为0.5,CG为1,故输出CG
示例2:
输入
AACTGTGCACGACCTGA
5
输出
GCACG
说明
虽然CGACC的GC-Ratio也是最高,但它是从左往右找到的GC-Ratio最高的第2个子串,所以只能输出GCACG.
维护一个长度为N的滑动窗口,统计窗口内出现C或G的最大次数,返回此时的窗口即可
package hwod;
import java.util.Scanner;
public class DNASeq {
public static void main(String[] args) {
Scanner sc = new Scanner(System.in);
String seq = sc.nextLine();
int n = sc.nextInt();
System.out.println(dNASeq(seq, n));
}
private static String dNASeq(String seq, int n) {
int cnt = 0;
for (int k = 0; k < n; k++) {
if ("CG".contains(seq.substring(k, k + 1))) {
cnt++;
}
}
int i = 0, j = i + n - 1;
int left = i, right = j;
int maxNum = cnt;
do {
if ("CG".contains(seq.substring(++j, j + 1))) {
cnt++;
}
if ("CG".contains(seq.substring(i++, i))) {
cnt--;
}
if (cnt > maxNum) {
maxNum = cnt;
left = i;
right = j;
}
} while (j < seq.length()-1);
return seq.substring(left, right + 1);
}
}
如果你对本系列的其他题目感兴趣,可以参考华为OD机试真题及题解(JAVA),查看当前专栏更新的所有题目。