Kaiv2 最近的时间轴更新
国内 V 站怎么访问不了了?
2019-04-21 09:22:11 +08:00
Kaiv2's repos on GitHub
Lua · 9 人关注
java-deps.nvim
Preview jar package dependencies
Java · 4 人关注
erm-generator
扩展 mybatis generator 支持读取 erm 文件生成
0 人关注
alpha-nvim
a lua powered greeter like vim-startify / dashboard-nvim
Go · 0 人关注
Bilibili-Go-Backup
不知道是啥
0 人关注
boost
Super-project for modularized Boost
0 人关注
chinese-poetry
The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
0 人关注
clash-verge-rev
Continuation of Clash Verge - A Clash Meta GUI based on Tauri (Windows, MacOS, Linux)
C++ · 0 人关注
cmp-dictionary-nanny
CoffeeScript · 0 人关注
codecombat
Game for learning how to code.
0 人关注
conkyrc
conky 配置
JavaScript · 0 人关注
console-translator
控制台翻译工具
Java · 0 人关注
designMode
JavaScript · 0 人关注
designMode2
Python · 0 人关注
dotfiles
Java · 0 人关注
dubbo
Apache Dubbo is a high-performance, java based, open source RPC framework.
C · 0 人关注
dwm
DWM
Java · 0 人关注
eclipse-translate-plugin
Go · 0 人关注
erm-tools
.erm 文件差异sql生成工具
Rust · 0 人关注
erm-tools-rs
.erm 文件比对工具
Java · 0 人关注
ermaster-git
eclipse ermaster 插件,从 ermaster-svn 同步过来
Rust · 0 人关注
fy
命令行翻译工具
Rust · 0 人关注
game_life
Lua · 0 人关注
gitsigns.nvim
Git integration for buffers
0 人关注
JavaHello
Config files for my GitHub profile.
Shell · 0 人关注
javahello.github.io
主页
0 人关注
light-task-scheduler
Distributed Scheduled Job Framework
C · 0 人关注
linux
Linux kernel source tree
Lua · 0 人关注
lualine.nvim
A blazing fast and easy to configure neovim statusline plugin written in pure lua.
Rust · 0 人关注
mlua
High level Lua 5.4/5.3/5.2/5.1 (including LuaJIT) and Roblox Luau bindings to Rust with async/await support
Java · 0 人关注
mybatis-tool
mybatis 开发常用工具
Kaiv2

Kaiv2

V2EX 第 351804 号会员,加入于 2018-09-24 19:27:06 +08:00
今日活跃度排名 1388
根据 Kaiv2 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
Kaiv2 最近回复了
@noahlias 很准了
5 小时 27 分钟前
回复了 enchilada2020 创建的主题 程序员 你们在实际业务中都见过哪些好玩的数据?
用户平均支付时间 30s
2 天前
回复了 ztfot 创建的主题 Apple 关于 iPhone mirroring 的使用场景?
等出来后用着试试就知道了
7 天前
回复了 duhb 创建的主题 问与答 请各位大佬们帮忙起个名字?
男:杜里里
女:杜嘉里
@Kaiv2 写着写着写成了单机的,这么做多此一举,太蠢了。。。应该是 分 hash-3.1 .. n.txt 多个机器同时处理,然后合并重复数据 hash-4.1..n.txt
1. 先计原始文件 a.txt 算每一行 hash 保存到 hash.txt 文件
2. 复制一份 hash.txt -> hash-2.txt 用于去重计算
3. 取 hash-2.txt 文件中 10000(这个数根据内存大小预估) 个 hash 前 8 位不重复 hash_array_8
4. 重复的的写入 hash-4.txt, 剩于的写入 hash-2.1.txt -> hash-2.txt , 循环处理直到 hash-2.txt 没有记录
```txt
let limit = 10000; // 控制内存使用
let hash_array_8 = [];
let cache_line = []
for(let h_line: read_line(hash_2.txt)) {
if(hash_array_8.size < limit) {
if(!hash_array_8.has(h_line.sub(8))) {
hash_array_8.add(h_line.sub(8))
}
}
if(hash_array_8.has(h_line.sub(8))) {
if(cache_line.has(h_line)) {
write(hash-4.txt);
} else {
cache_line.add(h_line);
}
} else {
write(hash-2.1.txt);
}
}
mv(hash-2.1.txt, hash-2.txt)
```
5. 得到 hash.txt 跟文件一一对应,hash-4.txt 是重复的记录
6. hash-4.txt (如果重复的不多)直接读取到内存,对应读取 a.txt, hash.txt 每一行,比较 hash 重复跳过,不重复写入 b.txt
没有考虑过计算量,内存不够可以考虑试试这个办法
@iOCZS ... 服了这脑回路,“剥夺了别人进步的路线”?
公司机房服务器打补丁,你可以要求留下来值班。
分配任务时,如果你觉得你可以做,你可以要求做。

这个是你可以主动的,不是逼迫你做事情
17 天前
回复了 YongXMan 创建的主题 推广 ChatGPT GPT-4o Claude 3 等大模型聚合 AI Chat 平台
提供 API 吗?
25 天前
回复了 kandaakihito 创建的主题 职场话题 上家卡离职要一个月后才放怎么办
协商不成,直接走
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2538 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 12:30 · PVG 20:30 · LAX 05:30 · JFK 08:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.