一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推多家公司面试
Airbnb 数据科学职位
in analytics and inference
游戏初创公司
招聘工程师、Designer和游戏策划
游戏初创公司DreamCraft招聘工程师、UIUX Designer和游戏策划
电商初创公司Good Days
招聘SDE/UI/TPM实习生
把贵司招聘信息放这里
查看: 1310|回复: 21
收起左侧

[找工就业] 请教一道国内面试算法题,很短,没做出来

[复制链接] |试试Instant~ |关注本帖
EddieStallworth 发表于 2017-10-28 21:21:40 | 显示全部楼层 |阅读模式

2018(7-9月)-[18]CS硕士+fresh grad 无实习/全职 - 内推|BayArea 码农类其他@Googlefresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
国内面试题 没做出来...

给一个DNA序列 只包含ACGT四个字符
返回一个整数,这个整数是最短的没出现过的组合

比如 给一个字符串"ACGTAG" 返回2
因为A出现过 C出现过 G出现过 T出现过 所以返回1.鐣欏璁哄潧-涓浜-涓夊垎鍦
但是CA没出现过 这个就是最短的 长度2 所以返回2


补充内容 (2017-10-29 07:13):
有个地方错了

因为A出现过 C出现过 G出现过 T出现过 所以"不"返回1
但是CA没出现过 这个就是最短的 长度2 所以最终返回2
yanshuo619 发表于 2017-10-29 06:40:28 | 显示全部楼层
要求只是返回长度 所以并不需要知道具体是哪个没出现。有了input长度直接可以算出来每个长度应该有多少组合,然后每个长度分别是一个set,遍历时 A就扔1级set,AC扔C进1级set,同时AC扔二级set,以此类推,要保存每一级长度set的前一个状态,最后从1级set往上看set的size,到哪级set比理论组合size少 就返回哪级就好了。理论上是n复杂度?
回复 支持 1 反对 0

使用道具 举报

wdxh1 发表于 2017-10-28 21:35:19 来自手机 | 显示全部楼层
brute force 从长度2开始 生成所有的排列 看看是不是substring 如果都是 长度增加 继续 另外 如果不写code 可以用suffix tree 找一个depth最小 并且child数量小于4的node 就行
回复 支持 反对

使用道具 举报

 楼主| EddieStallworth 发表于 2017-10-29 03:40:14 | 显示全部楼层
wdxh1 发表于 2017-10-28 21:35
brute force 从长度2开始 生成所有的排列 看看是不是substring 如果都是 长度增加 继续 另外 如果不写code  ...

. Waral 鍗氬鏈夋洿澶氭枃绔,对啊 我也是只会暴力解...
回复 支持 反对

使用道具 举报

k1938slll 发表于 2017-10-29 05:03:44 | 显示全部楼层
好难?! Google的题吗
回复 支持 反对

使用道具 举报

fangdanzai 发表于 2017-10-29 05:10:27 | 显示全部楼层
先把所有可能的组合存在hash里 然后用长度从1到length遍历?
回复 支持 反对

使用道具 举报

a92921 发表于 2017-10-29 05:35:31 | 显示全部楼层
我只能想到类似暴力解的,因为只有4个字母,所以每种length的排列组合数量你都可以直接算出来。
从最小length开始,对于某个length都新建一个hash set,用个sliding window把substring扔进set里,如果set的大小不等于你排列组合算出来的数量就直接返回当前length

补充内容 (2017-10-29 06:22):
打错,不是某个,是每个
回复 支持 反对

使用道具 举报

zzrdwj 发表于 2017-10-29 05:46:01 | 显示全部楼层
A for 0, T for 1, C for 2, G for 3,
k tuples----->四进制数字
k=1
while(k){
取k-tuples转化为4进制,得到n-k+1长的数组
for (i=k位四进制的所有数){数组减去i,搜索是否存在0,不存在返回k}. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
k++
}



补充内容 (2017-10-29 05:53):
n=length(gene)
回复 支持 反对

使用道具 举报

头像被屏蔽
wodexiaohao5 发表于 2017-10-29 06:17:39 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

yanshuo619 发表于 2017-10-29 06:44:46 | 显示全部楼层
yanshuo619 发表于 2017-10-29 06:40.1point3acres缃
要求只是返回长度 所以并不需要知道具体是哪个没出现。有了input长度直接可以算出来每个长度应该有多少组合 ...

前面有一点会产生误会,理论组合size组合数字是根据有多少元素算出来,不是input string那个长度
回复 支持 反对

使用道具 举报

empy 发表于 2017-10-29 06:49:44 | 显示全部楼层
yanshuo619 发表于 2017-10-29 06:40. visit 1point3acres.com for more.
要求只是返回长度 所以并不需要知道具体是哪个没出现。有了input长度直接可以算出来每个长度应该有多少组合 ...

set长度最高为log4(n),所以遍历每个元素时遍历log4(n)次,总的时间复杂度为nlog4(n)。
回复 支持 反对

使用道具 举报

yanshuo619 发表于 2017-10-29 06:58:46 | 显示全部楼层
empy 发表于 2017-10-29 06:49
set长度最高为log4(n),所以遍历每个元素时遍历log4(n)次,总的时间复杂度为nlog4(n)。
. Waral 鍗氬鏈夋洿澶氭枃绔,
每个元素只是跟前一个状态合起来仍set里,为啥会需要遍历呢
回复 支持 反对

使用道具 举报

empy 发表于 2017-10-29 07:10:04 | 显示全部楼层
yanshuo619 发表于 2017-10-29 06:58
每个元素只是跟前一个状态合起来仍set里,为啥会需要遍历呢
  1. int leastLen(string str) {
  2.         int strLen = str.length();
  3.         int maxLen = log(strLen) / log(4);
  4.         vector<unordered_set<string>> comb(maxLen);
  5.         for (int i = 0; i < strLen; i++) . 鍥磋鎴戜滑@1point 3 acres
  6.                 for (int j = 0; j <maxLen && i-j>=0; j++)
  7.                         comb[j].insert(str.substr(i - j, j+1));
  8.         int res = maxLen + 1;
  9.         for (int i = 0; i < maxLen; i++) . 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
  10.                 if (comb[i].size() < pow(4, i + 1))
  11.                         res = i + 1;
  12.         return res;
  13. }
复制代码
时间复杂度 nlog4(n)
. visit 1point3acres.com for more.
补充内容 (2017-10-29 07:13):
最后那个if应该是
                if (comb.size() < pow(4, i + 1)) {
                        res = i + 1;
                        break;
                }
回复 支持 反对

使用道具 举报

 楼主| EddieStallworth 发表于 2017-10-29 07:13:43 | 显示全部楼层
k1938slll 发表于 2017-10-29 05:03
好难?! Google的题吗

百度的 字数字数
回复 支持 反对

使用道具 举报

 楼主| EddieStallworth 发表于 2017-10-29 07:15:09 | 显示全部楼层
fangdanzai 发表于 2017-10-29 05:10
先把所有可能的组合存在hash里 然后用长度从1到length遍历?

不能暴力解啊 那还有啥意思了..
回复 支持 反对

使用道具 举报

 楼主| EddieStallworth 发表于 2017-10-29 07:16:21 | 显示全部楼层
yanshuo619 发表于 2017-10-29 06:40
要求只是返回长度 所以并不需要知道具体是哪个没出现。有了input长度直接可以算出来每个长度应该有多少组合 ...
. 鍥磋鎴戜滑@1point 3 acres
面试完了以后我又想了一下 应该这样做是可行的
回复 支持 反对

使用道具 举报

a92921 发表于 2017-10-29 07:40:08 | 显示全部楼层
empy 发表于 2017-10-29 07:10
时间复杂度 nlog4(n)

补充内容 (2017-10-29 07:13):

substr也是需要时间的
回复 支持 反对

使用道具 举报

mmymichael 发表于 2017-10-29 07:43:10 | 显示全部楼层
twitter OA questions. i have seen this question last year
回复 支持 反对

使用道具 举报

empy 发表于 2017-10-29 07:58:40 | 显示全部楼层
a92921 发表于 2017-10-29 07:40
substr也是需要时间的

即使substr的时间复杂度是O(n),总的复杂度也不过是多乘一个log4(n)
回复 支持 反对

使用道具 举报

magicsets 发表于 2017-10-29 16:40:40 | 显示全部楼层
用suffix tree可以时间O(n),空间O(n)。具体就是先O(n)建树,然后从树根逐层BFS做一些判断。不过建树算法非常复杂。

其实看到ACGT,第一反应是压缩索引技术,例如FM-index (burrow wheeler transform),不过对于这一题好像不适用。
. more info on 1point3acres.com

估计面试想要的做法是把每个字符压缩为2bit编码,然后用一个32位整数编码子串(可以处理最多4*10^9长度的输入,更长的话要用64位整数)。
在编码后,就不需要用hash set了,因为压缩后的整数分布是稠密的,只需要用一个bitmap。

参考代码如下:

  1. #include <cstddef>.1point3acres缃
  2. #include <cstdint>
  3. #include <cstdlib>
  4. #include <cstring>
  5. #include <iostream>
  6. #include <string>
  7. #include <vector>. from: 1point3acres.com/bbs

  8. // BitSet的简单实现.鏈枃鍘熷垱鑷1point3acres璁哄潧
  9. class BitSet {
  10. public:
  11.   explicit BitSet(const std::size_t num_bits)
  12.       : data_array_size_((num_bits >> kHigherOrderShift) +.1point3acres缃
  13.                          (num_bits & kLowerOrderMask ? 1 : 0)),
  14.         data_array_(static_cast<std::size_t*>(std::malloc(data_array_size_ * kDataSize))) {.鐣欏璁哄潧-涓浜-涓夊垎鍦
  15.     std::memset(data_array_, 0, data_array_size_ * kDataSize);
  16.   }

  17.   ~BitSet() {
  18.     std::free(data_array_);
    . 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
  19.   }

  20.   inline void setBit(const std::size_t bit_num) const {. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
  21.     data_array_[bit_num >> kHigherOrderShift] |= kTopBit >> (bit_num & kLowerOrderMask);
  22.   }

  23.   inline std::size_t onesCount() const {
  24.     std::size_t count = 0;
  25.     for (std::size_t array_idx = 0; array_idx < data_array_size_; ++array_idx) {
  26.       count += __builtin_popcountl(data_array_[array_idx]);
  27.     }
  28.     return count;
  29.   }

  30. private:
  31.   static constexpr std::size_t kDataSize = sizeof(std::size_t);
  32.   static constexpr std::size_t kLowerOrderMask = (kDataSize << 3) - 1;
  33.   static constexpr std::size_t kHigherOrderShift = kDataSize == 4 ? 5 : 6;
  34.   static constexpr std::size_t kOne = 1ull;.1point3acres缃
  35.   static constexpr std::size_t kTopBit = kOne << kLowerOrderMask;

  36.   const std::size_t data_array_size_;
  37.   std::size_t *data_array_;
  38. };

  39. int Solve(const std::string &dna) {.1point3acres缃
  40.   // 编码索引
  41.   std::uint32_t dna2code[128];
  42.   memset(dna2code, 0, sizeof(dna2code));
  43.   dna2code[(int)'a'] = dna2code[(int)'A'] = 0;. from: 1point3acres.com/bbs
  44.   dna2code[(int)'c'] = dna2code[(int)'C'] = 1;
  45.   dna2code[(int)'g'] = dna2code[(int)'G'] = 2;
  46.   dna2code[(int)'t'] = dna2code[(int)'T'] = 3;

  47.   // 编码
  48.   constexpr std::size_t kNumBitsInWord = 32;. 1point 3acres 璁哄潧
  49.   constexpr std::size_t kNumCodesInWord = kNumBitsInWord / 2;

  50.   std::vector<std::uint32_t> words;
  51.   std::size_t shift = 0;. 鍥磋鎴戜滑@1point 3 acres
  52.   std::uint32_t word = 0;
  53.   for (const unsigned char c : dna) {
  54.     word |= dna2code[c] << shift;
  55.     if (shift == kNumBitsInWord - 2) {. from: 1point3acres.com/bbs
  56.       words.emplace_back(word);
  57.       shift = 0;
  58.       word = 0;
  59.     } else {
  60.       shift += 2;. more info on 1point3acres.com
  61.     }
  62.   }
  63.   if (shift != 0) {
  64.     words.emplace_back(word);. 1point 3acres 璁哄潧
  65.   }
  66. . 1point3acres.com/bbs
  67. //  for (const std::uint32_t w : words) {
  68. //    std::cout << std::bitset<32>(w) << "\n";
  69. //  }

  70.   // 枚举长度
  71.   const std::size_t dnaL = dna.length();
  72.   std::size_t subL = 1;
  73.   while (true) {
  74.     const std::size_t max_combinations = 1ull << (subL * 2);
  75.     if (max_combinations > dnaL) {. visit 1point3acres.com for more.
  76.       break;
  77.     }

  78.     // 遍历子串
  79.     BitSet existence(max_combinations);
  80.     const std::uint64_t sub_mask = max_combinations - 1;

  81.     std::uint64_t buffer = words.front();
  82.     for (std::size_t i = 0; i < words.size() - 2; ++i) {
  83.       buffer |= static_cast<std::uint64_t>(words[i+1]) << kNumBitsInWord;
  84.       for (std::size_t k = 0; k < kNumCodesInWord; ++k) {
  85.         existence.setBit(buffer & sub_mask);
  86.         buffer >>= 2;
  87.       }
  88.     }
  89.     buffer |= static_cast<std::uint64_t>(words.back()) << kNumBitsInWord;
  90.     const std::size_t last = dnaL % kNumCodesInWord;
  91.     const std::size_t num_residual =
  92.         (kNumCodesInWord + (last == 0 ? kNumCodesInWord : last) - subL + 1);. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
  93.     for (std::size_t k = 0; k < num_residual; ++k) {
  94.       existence.setBit(buffer & sub_mask);
  95.       buffer >>= 2;
  96.     }

  97.     if (existence.onesCount() != max_combinations) {
  98.       break;
  99.     }
  100.     ++subL;. 1point 3acres 璁哄潧
  101.   }
  102.   return subL;. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
  103. }
复制代码
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-1-19 00:07

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表