🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
探索
标签: source
此标签下有66条笔记。
2026年6月02日
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation
source
paper
repository-level-code-completion
retrieval-augmented-generation
code-agent
context-pruning
2026年6月02日
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
source
paper
prompt-compression
long-context
context-pruning
2026年6月02日
Repoformer: Selective Retrieval for Repository-Level Code Completion
source
paper
repository-level-code-completion
selective-retrieval
retrieval-augmented-generation
code-agent
context-pruning
2026年6月02日
CodeRAG: Finding Relevant and Necessary Knowledge for Retrieval-Augmented Repository-Level Code Completion
source
paper
repository-level-code-completion
retrieval-augmented-generation
code-agent
context-pruning
2026年6月02日
CodePromptZip: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs
source
paper
code-prompt-compression
retrieval-augmented-generation
code-agent
context-pruning
2026年6月02日
Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents
source
paper
tool-output-pruning
code-agent
context-pruning
2026年6月01日
Deep Residual Learning for Image Recognition
source
paper
residual
deep-learning
2026年6月01日
Layer Normalization
source
paper
normalization
layernorm
2026年6月01日
Attention Is All You Need
source
paper
transformer
attention
positional-encoding
2026年6月01日
Outrageously Large Neural Networks
source
paper
moe
sparse-model
2026年6月01日
Fast Transformer Decoding
source
paper
attention
mqa
kv-cache
2026年6月01日
Root Mean Square Layer Normalization
source
paper
normalization
rmsnorm
2026年6月01日
Big Bird
source
paper
sparse-attention
long-context
2026年6月01日
GLU Variants Improve Transformer
source
paper
ffn
swiglu
transformer
2026年6月01日
GShard
source
paper
moe
distributed-training
2026年6月01日
Language Models are Few-Shot Learners
source
paper
decoder-only
language-model
2026年6月01日
Longformer
source
paper
long-context
sparse-attention
2026年6月01日
ALiBi
source
paper
positional-encoding
alibi
long-context
2026年6月01日
RoFormer
source
paper
positional-encoding
rope
2026年6月01日
Switch Transformer
source
paper
moe
sparse-model
2026年6月01日
Grouped-Query Attention
source
paper
attention
gqa
kv-cache
2026年6月01日
DeepSeek-V2
source
paper
deepseek
mla
moe
2026年6月01日
DeepSeek-V3
source
paper
deepseek
moe
mla
2026年6月01日
DeepSeekMoE
source
paper
moe
deepseek
2026年5月31日
Neural Machine Translation of Rare Words with Subword Units
source
paper
tokenizer
bpe
subword
2026年5月31日
Training Deep Nets with Sublinear Memory Cost
source
paper
training-optimization
memory
activation-checkpointing
2026年5月31日
GPipe
source
paper
distributed-training
pipeline-parallel
2026年5月31日
SentencePiece
source
paper
tokenizer
sentencepiece
subword
2026年5月31日
Megatron-LM
source
paper
distributed-training
tensor-parallel
megatron
2026年5月31日
T5
source
paper
t5
c4
pretraining-data
2026年5月31日
ZeRO
source
paper
distributed-training
zero
memory
2026年5月31日
Scaling Laws for Neural Language Models
source
paper
scaling-law
compute
pretraining
2026年5月31日
Deduplicating Training Data Makes Language Models Better
source
paper
deduplication
pretraining-data
memorization
2026年5月31日
Documenting Large Webtext Corpora
source
paper
webtext
c4
data-documentation
2026年5月31日
LoRA
source
paper
lora
parameter-efficient-finetuning
2026年5月31日
The Pile
source
paper
pretraining-data
data-mix
dataset
2026年5月31日
ZeRO-Infinity
source
paper
distributed-training
zero
offload
2026年5月31日
Training Compute-Optimal Large Language Models
source
paper
chinchilla
compute-optimal
scaling-law
2026年5月31日
A Pretrainer's Guide to Training Data
source
paper
pretraining-data
data-quality
data-mix
2026年5月31日
LongLoRA
source
paper
long-context
lora
fine-tuning
2026年5月31日
Position Interpolation
source
paper
long-context
positional-encoding
rope
2026年5月31日
QLoRA
source
paper
qlora
quantization
parameter-efficient-finetuning
2026年5月31日
RefinedWeb
source
paper
pretraining-data
web-data
data-filtering
2026年5月31日
ROOTS
source
paper
roots
multilingual
pretraining-data
2026年5月31日
YaRN
source
paper
yarn
long-context
rope
2026年5月31日
DataComp-LM
source
paper
pretraining-data
datacomp
data-curation
2026年5月31日
Dolma
source
paper
dolma
pretraining-data
dataset
2026年5月31日
FineWeb
source
paper
fineweb
web-data
pretraining-data
2026年5月31日
LongRoPE
source
paper
longrope
long-context
rope
2026年5月29日
Sequence-Level Knowledge Distillation
source
paper
distillation
sequence-level
2026年5月29日
Deep Reinforcement Learning from Human Preferences
source
paper
rlhf
reward-model
preference-learning
2026年5月29日
Proximal Policy Optimization Algorithms
source
paper
reinforcement-learning
ppo
2026年5月29日
Learning to summarize from human feedback
source
paper
rlhf
summarization
reward-model
2026年5月29日
Finetuned Language Models Are Zero-Shot Learners
source
paper
instruction-tuning
sft
2026年5月29日
Multitask Prompted Training Enables Zero-Shot Task Generalization
source
paper
instruction-tuning
multitask-learning
2026年5月29日
Constitutional AI
source
paper
alignment
rlaif
safety
2026年5月29日
Training language models to follow instructions with human feedback
source
paper
instructgpt
rlhf
sft
reward-model
2026年5月29日
Self-Instruct
source
paper
instruction-tuning
synthetic-data
2026年5月29日
Distilling Step-by-Step
source
paper
distillation
reasoning
rationale
2026年5月29日
Direct Preference Optimization
source
paper
dpo
preference-optimization
alignment
2026年5月29日
DeepSeekMath
source
paper
reasoning
grpo
math
2026年5月29日
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents
source
paper
context-compression
code-agent
code-llm
2026年5月28日
Meta Llama 4 Multimodal Intelligence
source
blog
llama
multimodal
moe
2026年5月28日
LongCodeZip: Compress Long Context for Code Language Models
source
paper
context-compression
code-llm
rag
2026年5月28日
RLP: Reinforcement as a Pretraining Objective
source
paper
pretraining
reinforcement-learning
reasoning
chain-of-thought
2026年5月28日
DeepSeek V4 Technical Documentation
source
report
deepseek
moe
long-context
agent